В.И. Кузовлев, А.О. Орлов
76
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
Процесс построения СППР и, в частности, прогнозной модели анализа дан-
ных начинается с обучения модели на исходных данных, поэтому рассмотрим ме-
тоды, способные работать на этапе обучения модели, а именно методы, основан-
ные на широко известном подходе
k
ближайших соседей, когда объекты анализи-
руют совместно с другими объектами, ближайшими к ним. Ключевая проблема
при обнаружении аномалий — поиск расстояний между объектами данных, по-
скольку в системах принятия решений используют не только числовые данные,
шкалы измерений которых часто заранее известны, но и категориальные данные,
выраженные в вербальной форме, что затрудняет их сравнение. Обзор существу-
ющих критериев оценки расстояний между значениями категориальных атрибу-
тов данных проведен в работе [4], также в этой работе выбран оптимальный кри-
терий оценки расстояния. Проблемой указанного критерия является его зависи-
мость от общего числа объектов данных. Это затрудняет расчет расстояний в
динамических системах, объекты данных в которые могут попадать в процессе
работы систем, а не только на начальном этапе формирования модели анализа.
Цель работы — анализ и описание методики обработки шума в данных и
основанного на ней алгоритма построения дерева решений, позволяющего пре-
одолеть следующие проблемы, имеющиеся в существующих алгоритмах постро-
ения моделей деревьев решений:
1)
проблема наличия разнородных искажений в данных;
2)
проблема выбора эффективной стратегии повышения качества данных.
Разработанный алгоритм должен обрабатывать искажения двух типов:
аномальные значения атрибутов данных; отсутствующие значения. Для обра-
ботки аномальных значений необходимо использовать методы поиска анома-
лий в данных, для обработки отсутствующих значений — алгоритмы заполне-
ния пропусков в данных. В настоящей работе показано, насколько успешно
можно применять алгоритмы поиска выбросов в прогнозных моделях.
Научная новизна работы заключается в разработке подхода к решению за-
дачи выявления аномалий на этапе построения модели принятия решений с
помощью методики обработки шума в данных. В известных авторам настоящей
статьи работах не представлено аналогичных или подобных подходов оптими-
зации построения модели решающего дерева.
Задача обработки исходных данных в целях обнаружения и коррекции шу-
ма имеет существенную актуальность, так как любой из описанных типов шума
может влиять на процесс построения прогнозной модели, в особенности в обла-
стях, связанных с обеспечением безопасности человека [5, 6].
Задача выявления аномалий при построении прогнозной модели принятия
решений.
Определим использующиеся в настоящей работе понятия исходных
данных и шума. Имеется исходное множество информационных объектов (объек-
тов данных)
1 2
, , ,
n
X X X X
и множество атрибутов
1 2
, , ,
.
k
A A A A
Каждый объект является кортежем значений атрибутов
1 2
, , ,
.
i
i
i
ik
X a a
a