Previous Page  5 / 11 Next Page
Information
Show Menu
Previous Page 5 / 11 Next Page
Page Background

Выявление аномалий при прогнозном анализе данных

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5

79

картежа является единицей данных, а весь кортеж — объектом, имеющим ин-

формационную значимость, или вес. Очевидно, что различные объекты анализа

будут иметь разный информационный вес, уменьшающийся при появлении

шума в атрибутах этих объектов.

Если представить объекты анализа сферическими телами, то можно при-

нять частоту

 

n i

f a

появления значения

i

a

атрибута

n

A

в объектах генераль-

ной совокупности как массу сферы. Чем чаще значение атрибута появляется

среди объектов генеральной совокупности, тем «весомее» данное значение. Дей-

ствительно, шум в данных, имеющий в большинстве своем хаотичный случай-

ный характер, представляется как информационно более «легкий» объект.

Введем параметр

,

характеризующий плотность объектов. Примем, что

плотность всех объектов одинакова. Такое предположение правомерно, по-

скольку отсутствует априорная информация о вероятности возникновения шу-

ма в каких-либо конкретных атрибутах кортежа данных. Тогда, изменяя плот-

ность

,

можно регулировать объем тел и, соответственно, занимаемую ими

площадь в общем информационном пространстве

,

W

созданном множеством

объектов генеральной совокупности.

Если пересечение объектов

,

i

j

a a

в некотором пространстве

W

не пусто:

,

i

j

a a

 

то примем, что объекты принадлежат множеству

:

C

i

a C

и

.

j

a C

Множество

C

всех объектов, имеющих пересечения, называют ядром в

пространстве

:

W

 

 

 

 

1 2

1 1

, ,

,

.

k

i

k k

i j

j

C a a a

a a

(1)

Методику выявления аномалий выполняют в три этапа. На первом этапе

рассчитывают расстояния между всеми объектами анализа по формуле, пред-

ложенной в работе [12]:

 

 

 

 

dist ( , )

,

n

n i

n j

A i

j

n i

n j

f a f a

a a

f a f a

(2)

где

n

A

— атрибут, принимающий значения

 

1

,

,

;

n

p

D A a a

 

 

n i

f a

— ве-

личина, определяемая прямым подсчетом числа значений

i

a

атрибута

n

A

из

объектов генеральной совокупности.

Вычисляют показатели локальной аномальности

LOF

для каждого объекта.

На втором этапе происходит автоматический анализ среднего показателя

LOF

объектов ядра:

 

1

.

C

i

i

LOF x

LOF

C

(3)