Выявление аномалий при прогнозном анализе данных
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
77
Шумом называют искаженные значения атрибутов объектов. Объект
i
X
по-
лагают искаженным объектом, т. е. содержащим шум, если существует такой ат-
рибут
,
j
A
, , 1
j
k
значение
ij
a
которого является искаженным (содержащим
шум). Рассмотрим шум двух типов: 1) отсутствие значений; 2) аномальные значе-
ния. Шум типа «отсутствие значения» обозначим как
null.
ij
a
Если некоторые
объекты данных имеют пропуски в значениях каких-либо атрибутов, полагаем,
что эти пропуски не несут физического смысла и маркируются как шум. Искаже-
ния типа «аномальные значения» могут иметь или не иметь физического смысла.
В настоящей статье рассмотрены аномалии в данных. Этот тип искажений
представляет интерес в связи со сложностью их обнаружения по сравнению с
пропусками или искажениями, которые легко обнаружить перебором словаря.
Аномалии могут нести физический смысл и не являться фактической ошибкой
в данных. Однако при построении модели в прогнозном анализе опираются на
фундаментальное предположение о сохранении тренда: события или явления,
имевшие место в прошлом, сохранят вероятность их появления в будущем. По-
этому аномалии или выбросы в данных рассматривают как искажения, подле-
жащие выявлению и очистке.
Объекты генеральной совокупности представляют собой экземпляры неко-
торых сущностей, обладающие одинаковым набором атрибутов. Значения этих
атрибутов анализируют для выявления закономерностей всех объектов генераль-
ной совокупности. Выбросами, или аномалиями называют такие объекты данных,
которые не удовлетворяют параметрам, характерным для большинства других
объектов генеральной совокупности. Поскольку каждый объект данных обладает
рядом атрибутов, можно утверждать о степени схожести объектов, основываясь
на сравнении всех значений соответствующих атрибутов этих объектов.
Большинство методов поиска выбросов в данных основаны на вычислении
расстояний между объектами данных [3]. Метод поиска выбросов, основанный
на методе расчете показателя локальной аномальности
LOF
[7], описан в рабо-
тах [2, 8]. Одно из важных преимуществ метода — способность давать некото-
рую вероятностную оценку принадлежности каждого объекта данных к анома-
лиям. Это позволяет более гибко оценивать результат анализа, в отличие от ме-
тодов, однозначно определяющих принадлежность объектов к аномалиям. В то
же время, необходимы инструменты для управления указанным преимуще-
ством метода расчета
LOF
, а именно требуется создание набора правил оценки
результатов работы метода. Следует ввести некоторые дополнительные крите-
рии, идентифицирующие выбросы.
Метод расчета
LOF
основан на известном методе
k
ближайших соседей, в
связи с чем возникает задача выбора параметра
k
. Общие рекомендации по вы-
бору параметра
k
приведены в работе [7], в которой предложено выбирать па-
раметр
k
отдельно для каждой задачи с учетом специфики анализируемых дан-
ных, их количества, прогнозируемого числа возможных выбросов и т. д.