В.И. Кузовлев, А.О. Орлов
80
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
Здесь
C
— мощность множества
C
, т. е. число объектов ядра. Если предста-
вить множество
C
на плоскости, то
S C
— площадь фигуры
.
C
Определяют
отношение площади фигуры ядра к общей площади фигур объектов
.
rel
n
S C
S
S D A
(4)
Параметр плотности объектов
уменьшается с заданным шагом, который
автоматически корректируют по мере продвижения процесса анализа. При
уменьшении плотности площадь объектов увеличивается, новые объекты попа-
дают в пересечения, становясь частью ядра. Затем находят средний показатель
LOF
по формуле (3) и отношение площадей по формуле (4). Плотность
уменьшается до тех пор, пока все объекты не попадут в ядро, т. е. станет спра-
ведливо равенство
1.
rel
S
На третьем этапе формируется зависимость среднего показателя локальной
аномальности объектов ядра
rel
LOF S
от отношения площадей фигуры ядра к
общей площади объектов. Вся процедура повторяется несколько раз для разных
значений параметра
,
k
характеризующего число ближайших объектов при рас-
чете показателя
LOF
.
Описанные выше этапы работы методики можно более формально записать
в виде следующей последовательности шагов.
Шаг 1.
Исходные данные представляют собой набор значений некоторого
отдельно взятого категориального атрибута, являющийся подмножеством гене-
ральной совокупности.
Шаг 2.
По формулам (1), (2), (4) проводят анализ значений категориального
атрибута. При этом начальная плотность должна быть задана из тех соображе-
ний, чтобы в момент начала анализа не существовало пересечений объектов
(ядро было пустым). Далее плотность автоматически регулируется в процессе
анализа.
Шаг 3.
По результатам анализа данных строят зависимость среднего показа-
теля
LOF
ядра от отношения площади ядра к суммарной площади всех объектов.
Шаг 4.
Шаги 2, 3 повторяют несколько раз для разных значений параметра
k
в диапазоне
1,
1
p
, где
p
— число уникальных значений рассматриваемого
категориального атрибута. Таким образом, получают набор зависимостей сред-
него показателя
LOF
ядра от его относительной площади.
Шаг 5.
В зависимости, соответствующей выбранному значению параметра
,
k
определяют точку
X
начала возрастания функции. Выбросами считают точ-
ки, не вошедшие в ядро в точке
.
X
Экспериментальные исследования.
Для экспериментов использованы
наборы данных, полученных в Калифорнийском университете [11]. Построена
зависимость среднего показателя локальной аномальности объектов ядра
LOF