В.И. Кузовлев, А.О. Орлов
82
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
Точки, входящие в ядро, имеют разброс показателя
LOF
в пределах одной
десятой. При расширении границ ядра в него начинают попадать точки, явля-
ющиеся выбросами. В этот момент отношение среднего показателя
LOF
ядра к
его относительной площади начинает увеличиваться, что расценивается по-
строенной моделью как сигнал о попадании в ядро потенциального выброса.
Полученные выводы позволяют интерпретировать значения показателя
LOF
, а
также гибко выбирать значения параметра
k
на основе субъективных ожиданий
эксперта средствами нечеткой логики [11].
После обнаружения и очистки аномалий построенная по алгоритму ID3O
модель проверяется. Для проверки точности классификации используют подго-
товленную заранее тестовую выборку, объекты которой уже классифицированы
экспертами. С помощью анализа сравнивают результаты классификации тестовой
выборки, сформированной прогнозной моделью, с результатами классификации
экспертов, которую полагают эталонной. Для оценки точности применяют кри-
терий
,
ErrRatio
называемый коэффициентом ошибки классификатора [9]. Этот
критерий определяют как отношение числа неверно классифицированных объек-
тов к общему числу объектов
.
f
X
ErrRatio
X
(5)
Здесь
X
— множество объектов в тестовой выборке;
f
X
— множество объек-
тов, ошибочно классифицированных построенной моделью дерева решений.
Заключение.
В результате применения методики выявления аномалий уда-
лось совместить эффективный метод поиска выбросов в данных
LOF
с алгорит-
мом построения модели дерева решений ID3O. Это обеспечило последнему вы-
сокую устойчивость к искажениям в данных одновременно со значительным
увеличением производительности системы при построении модели. Устойчи-
вость к искажениям определена как снижение точности классификации при
различных уровнях шума в данных, которое при использовании предложенной
методики оказалось существенно меньше снижения точности при применении
других алгоритмов [2]. Увеличение производительности составляет
/ 2
p
раз для
каждого атрибута объекта данных, где
p
— число значений атрибута, проверя-
емого на аномальность [8].
Применение рассмотренной методики при построении прогнозных моде-
лей позволяет эффективно обрабатывать искажения в данных и снижать влия-
ние шума на результат работы систем поддержки принятия решений.
ЛИТЕРАТУРА
1.
Толочко С.И., Черненький В.М.
Анализ информационных систем и определение по-
нятия информационная система поддержки оперативных решений // Вестник МГТУ
им. Н.Э. Баумана. Сер. Приборостроение. 2011. Спецвыпуск. С. 69–80.