ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
75
УДК 004.052.42
DOI: 10.18698/0236-3933-2016-5-75-85
ВЫЯВЛЕНИЕ АНОМАЛИЙ ПРИ ПРОГНОЗНОМ АНАЛИЗЕ ДАННЫХ
В.И. Кузовлев
А.О. Орлов
forewar@gmail.comМГТУ им. Н.Э. Баумана, Москва, Российская Федерация
Аннотация
Ключевые слова
Рассмотрены проблемы, возникающие при построении
моделей в прогнозном анализе данных с учетом наличия
в них аномальных выбросов. Обоснован выбор метода
выявления аномалий и его применение в алгоритме
построения прогнозной модели дерева решений. Описа-
ны этапы работы этого алгоритма, методика поиска
аномалий в данных. Приведено смысловое описание
параметров настройки поиска и их принципиальное
влияние на результат работы методики. Представлены
результаты совмещения методики поиска аномалий с
алгоритмом построения модели дерева решений, выра-
женные в повышении точности прогнозной модели за
счет повышения устойчивости к выбросам в данных, а
также в значительном повышении производительности
анализа
Аномалии, выбросы в данных,
прогнозный анализ, модель
дерева решений
Поступила в редакцию 22.06.2015
©МГТУ им. Н.Э. Баумана, 2016
Введение.
В системах поддержки принятия решений (СППР) важное место зани-
мают механизмы прогнозного анализа данных [1]. Прогнозный анализ данных
является процессом формирования суждений о будущих фактах на основе обра-
ботки и анализа исходного набора статистических данных, называемого обучаю-
щим множеством, или генеральной совокупностью. Результат обучения — анали-
тическая модель, используемая в дальнейшем при формировании прогнозов.
Серьезным препятствием при построении прогнозной модели может быть нали-
чие шумов в исходных обучающих данных. Вызванные шумом искажения влияют
на процесс построения прогнозной модели, а также на качество ее работы, выра-
жающееся в точности распознавания объектов при прогнозировании. В конеч-
ном счете искажения в исходных данных снижают эффективность работы СППР,
влияя на решения и управляющие оперативные воздействия, формируемые си-
стемой [2].
Задачей, которую ставят перед собой авторы настоящей работы, является
исследование и разработка методик выявления аномалий в исходных данных,
на которых строятся прогнозные модели. Широкий обзор существующих под-
ходов к решению проблемы обнаружения аномалий приведен в работе [3], в
которой существующие методы разбиты на несколько категорий по общему ха-
рактеру. Методы каждой категории имеют достоинства и недостатки и, по мне-
нию авторов, должны выбираться в зависимости от специфики предметной об-
ласти отдельно взятой задачи.