Выявление аномалий при прогнозном анализе данных
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
79
картежа является единицей данных, а весь кортеж — объектом, имеющим ин-
формационную значимость, или вес. Очевидно, что различные объекты анализа
будут иметь разный информационный вес, уменьшающийся при появлении
шума в атрибутах этих объектов.
Если представить объекты анализа сферическими телами, то можно при-
нять частоту
n i
f a
появления значения
i
a
атрибута
n
A
в объектах генераль-
ной совокупности как массу сферы. Чем чаще значение атрибута появляется
среди объектов генеральной совокупности, тем «весомее» данное значение. Дей-
ствительно, шум в данных, имеющий в большинстве своем хаотичный случай-
ный характер, представляется как информационно более «легкий» объект.
Введем параметр
,
характеризующий плотность объектов. Примем, что
плотность всех объектов одинакова. Такое предположение правомерно, по-
скольку отсутствует априорная информация о вероятности возникновения шу-
ма в каких-либо конкретных атрибутах кортежа данных. Тогда, изменяя плот-
ность
,
можно регулировать объем тел и, соответственно, занимаемую ими
площадь в общем информационном пространстве
,
W
созданном множеством
объектов генеральной совокупности.
Если пересечение объектов
,
i
j
a a
в некотором пространстве
W
не пусто:
,
i
j
a a
то примем, что объекты принадлежат множеству
:
C
i
a C
и
.
j
a C
Множество
C
всех объектов, имеющих пересечения, называют ядром в
пространстве
:
W
1 2
1 1
, ,
,
.
k
i
k k
i j
j
C a a a
a a
(1)
Методику выявления аномалий выполняют в три этапа. На первом этапе
рассчитывают расстояния между всеми объектами анализа по формуле, пред-
ложенной в работе [12]:
dist ( , )
,
n
n i
n j
A i
j
n i
n j
f a f a
a a
f a f a
(2)
где
n
A
— атрибут, принимающий значения
1
,
,
;
n
p
D A a a
n i
f a
— ве-
личина, определяемая прямым подсчетом числа значений
i
a
атрибута
n
A
из
объектов генеральной совокупности.
Вычисляют показатели локальной аномальности
LOF
для каждого объекта.
На втором этапе происходит автоматический анализ среднего показателя
LOF
объектов ядра:
1
.
C
i
i
LOF x
LOF
C
(3)