Previous Page  2 / 11 Next Page
Information
Show Menu
Previous Page 2 / 11 Next Page
Page Background

В.И. Кузовлев, А.О. Орлов

76

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5

Процесс построения СППР и, в частности, прогнозной модели анализа дан-

ных начинается с обучения модели на исходных данных, поэтому рассмотрим ме-

тоды, способные работать на этапе обучения модели, а именно методы, основан-

ные на широко известном подходе

k

ближайших соседей, когда объекты анализи-

руют совместно с другими объектами, ближайшими к ним. Ключевая проблема

при обнаружении аномалий — поиск расстояний между объектами данных, по-

скольку в системах принятия решений используют не только числовые данные,

шкалы измерений которых часто заранее известны, но и категориальные данные,

выраженные в вербальной форме, что затрудняет их сравнение. Обзор существу-

ющих критериев оценки расстояний между значениями категориальных атрибу-

тов данных проведен в работе [4], также в этой работе выбран оптимальный кри-

терий оценки расстояния. Проблемой указанного критерия является его зависи-

мость от общего числа объектов данных. Это затрудняет расчет расстояний в

динамических системах, объекты данных в которые могут попадать в процессе

работы систем, а не только на начальном этапе формирования модели анализа.

Цель работы — анализ и описание методики обработки шума в данных и

основанного на ней алгоритма построения дерева решений, позволяющего пре-

одолеть следующие проблемы, имеющиеся в существующих алгоритмах постро-

ения моделей деревьев решений:

1)

проблема наличия разнородных искажений в данных;

2)

проблема выбора эффективной стратегии повышения качества данных.

Разработанный алгоритм должен обрабатывать искажения двух типов:

аномальные значения атрибутов данных; отсутствующие значения. Для обра-

ботки аномальных значений необходимо использовать методы поиска анома-

лий в данных, для обработки отсутствующих значений — алгоритмы заполне-

ния пропусков в данных. В настоящей работе показано, насколько успешно

можно применять алгоритмы поиска выбросов в прогнозных моделях.

Научная новизна работы заключается в разработке подхода к решению за-

дачи выявления аномалий на этапе построения модели принятия решений с

помощью методики обработки шума в данных. В известных авторам настоящей

статьи работах не представлено аналогичных или подобных подходов оптими-

зации построения модели решающего дерева.

Задача обработки исходных данных в целях обнаружения и коррекции шу-

ма имеет существенную актуальность, так как любой из описанных типов шума

может влиять на процесс построения прогнозной модели, в особенности в обла-

стях, связанных с обеспечением безопасности человека [5, 6].

Задача выявления аномалий при построении прогнозной модели принятия

решений.

Определим использующиеся в настоящей работе понятия исходных

данных и шума. Имеется исходное множество информационных объектов (объек-

тов данных)

1 2

, , ,

n

X X X X

и множество атрибутов

1 2

, , ,

.

k

A A A A

Каждый объект является кортежем значений атрибутов

1 2

, , ,

.

i

i

i

ik

X a a

a