Выявление аномалий при прогнозном анализе данных
Авторы: Кузовлев В.И., Орлов А.О. | Опубликовано: 12.10.2016 |
Опубликовано в выпуске: #5(110)/2016 | |
DOI: 10.18698/0236-3933-2016-5-75-85 | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации | |
Ключевые слова: аномалии, выбросы в данных, прогнозный анализ, модель дерева решений |
Рассмотрены проблемы, возникающие при построении моделей в прогнозном анализе данных с учетом наличия в них аномальных выбросов. Обоснован выбор метода выявления аномалий и его применение в алгоритме построения прогнозной модели дерева решений. Описаны этапы работы этого алгоритма, методика поиска аномалий в данных. Приведено смысловое описание параметров настройки поиска и их принципиальное влияние на результат работы методики. Представлены результаты совмещения методики поиска аномалий с алгоритмом построения модели дерева решений, выраженные в повышении точности прогнозной модели за счет повышения устойчивости к выбросам в данных, а также в значительном повышении производительности анализа.
Литература
[1] Толочко С.И., Черненький В.М. Анализ информационных систем и определение понятия информационная система поддержки оперативных решений // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2011. Спецвыпуск. С. 69-80.
[2] Кузовлев В.И., Орлов А.О. Прогнозный анализ данных методом ID3O // Наука и образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2012. № 10. DOI: 10.7463/1012.0483286 URL: http://technomag.neicon.ru/doc/483286.html
[3] Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM Computing Surveys. 2009. Vol. 41. No. 3. Article 15. 58 p.
[4] Boriah S., Chandola V., Kumar V. Similarity measures for categorical data: A comparative evaluation // In Proceedings of the 8th SIAM International Conference on Data Mining, 2008.
[5] Черненький В.М., Гапанюк Ю.Е. Методика идентификации пассажира по установочным данным // Инженерный журнал: наука и инновации. 2012. Вып. 3. DOI: 10.18698/2308-6033-2012-3-89 URL: http://engjournal.ru/catalog/it/biometric/89.html
[6] Толочко С.И., Черненький В.М., Спиридонов И.Н., Мартынов П.И. Создание и внедрение автоматизированных систем паспортного контроля // Инженерный журнал: наука и инновации. 2012. Вып. 3. DOI: 10.18698/2308-6033-2012-3-94 URL: http://engjournal.ru/catalog/it/biometric/94.html
[7] Shubert E., Zimek A., Kriegel H.-P. Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video and network outlier detection // Data Min. and Knowl. Disc. 2014. Vol. 28. Iss. 1. P. 190-237. DOI: 10.1007/s10618-012-0300-z
[8] Кузовлев В.И., Орлов А.О. Метод выявления аномалий в исходных данных при построении прогнозной модели решающего дерева в системах поддержки принятия решений // Наука и образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2012. № 9. DOI: 10.7463/0912.0483269 URL: http://technomag.neicon.ru/doc/483269.html
[9] Кузовлев В.И., Орлов А.О. Вероятностный подход к оценке показателя достоверности элементов результатов профилирования // Инженерный журнал: наука и инновации. 2012. Вып. 3. DOI: 10.18698/2308-6033-2012-3-115 URL: http://engjournal.ru/catalog/it/hidden/115.html
[10] Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н. Вагин, Е.Ю. Головина, А.А. Загорянская, М.В. Фомина. М.: Физматлит, 2008. 712 с.
[11] Кузовлев В.И., Орлов А.О. Методика выбора параметров и интерпретации результатов анализа выбросов в данных систем поддержки принятия решений // Инженерный журнал: наука и инновации. 2013. Вып. 11. DOI: 10.18698/2308-6033-2013-11-1045 URL: http://engjournal.ru/catalog/it/hidden/1045.html
[12] Орлов А.О. Проблема поиска расстояний между значениями категориальных атрибутов при обнаружении выбросов в данных // В мире научных открытий. 2012. № 8.1. С. 142-155.