Previous Page  3 / 11 Next Page
Information
Show Menu
Previous Page 3 / 11 Next Page
Page Background

Выявление аномалий при прогнозном анализе данных

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5

77

Шумом называют искаженные значения атрибутов объектов. Объект

i

X

по-

лагают искаженным объектом, т. е. содержащим шум, если существует такой ат-

рибут

,

j

A

, , 1

j

k

значение

ij

a

которого является искаженным (содержащим

шум). Рассмотрим шум двух типов: 1) отсутствие значений; 2) аномальные значе-

ния. Шум типа «отсутствие значения» обозначим как

null.

ij

a

Если некоторые

объекты данных имеют пропуски в значениях каких-либо атрибутов, полагаем,

что эти пропуски не несут физического смысла и маркируются как шум. Искаже-

ния типа «аномальные значения» могут иметь или не иметь физического смысла.

В настоящей статье рассмотрены аномалии в данных. Этот тип искажений

представляет интерес в связи со сложностью их обнаружения по сравнению с

пропусками или искажениями, которые легко обнаружить перебором словаря.

Аномалии могут нести физический смысл и не являться фактической ошибкой

в данных. Однако при построении модели в прогнозном анализе опираются на

фундаментальное предположение о сохранении тренда: события или явления,

имевшие место в прошлом, сохранят вероятность их появления в будущем. По-

этому аномалии или выбросы в данных рассматривают как искажения, подле-

жащие выявлению и очистке.

Объекты генеральной совокупности представляют собой экземпляры неко-

торых сущностей, обладающие одинаковым набором атрибутов. Значения этих

атрибутов анализируют для выявления закономерностей всех объектов генераль-

ной совокупности. Выбросами, или аномалиями называют такие объекты данных,

которые не удовлетворяют параметрам, характерным для большинства других

объектов генеральной совокупности. Поскольку каждый объект данных обладает

рядом атрибутов, можно утверждать о степени схожести объектов, основываясь

на сравнении всех значений соответствующих атрибутов этих объектов.

Большинство методов поиска выбросов в данных основаны на вычислении

расстояний между объектами данных [3]. Метод поиска выбросов, основанный

на методе расчете показателя локальной аномальности

LOF

[7], описан в рабо-

тах [2, 8]. Одно из важных преимуществ метода — способность давать некото-

рую вероятностную оценку принадлежности каждого объекта данных к анома-

лиям. Это позволяет более гибко оценивать результат анализа, в отличие от ме-

тодов, однозначно определяющих принадлежность объектов к аномалиям. В то

же время, необходимы инструменты для управления указанным преимуще-

ством метода расчета

LOF

, а именно требуется создание набора правил оценки

результатов работы метода. Следует ввести некоторые дополнительные крите-

рии, идентифицирующие выбросы.

Метод расчета

LOF

основан на известном методе

k

ближайших соседей, в

связи с чем возникает задача выбора параметра

k

. Общие рекомендации по вы-

бору параметра

k

приведены в работе [7], в которой предложено выбирать па-

раметр

k

отдельно для каждой задачи с учетом специфики анализируемых дан-

ных, их количества, прогнозируемого числа возможных выбросов и т. д.