Previous Page  4 / 11 Next Page
Information
Show Menu
Previous Page 4 / 11 Next Page
Page Background

В.И. Кузовлев, А.О. Орлов

78

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5

Одна из наиболее известных и эффективных моделей в прогнозном анализе —

дерево решений

. Эта модель относится к виду алгоритмов обучения с учителем, т. е.

для построения модели используют некоторую выборку информационных объек-

тов, называемую

обучающей выборкой

. Деревья решений организованы в виде

иерархической структуры, состоящей из узлов принятия решений по оценке зна-

чений определенных переменных для прогнозирования результирующего значе-

ния [2]. Любое дерево решений определяет прогнозируемое значение, полученное

в результате оценки некоторых входных атрибутов. Каждый уровень в дереве

можно рассматривать как одно из решений. Узел дерева обеспечивает проверку

условия, а каждое ребро обозначает один из возможных вариантов. Узлы приня-

тия решений содержат критерии выбора, а ребра выражают взаимоисключающие

результаты проверки соответствия этим критериям.

Метод ID3O построения модели решающего

дерева.

Алгоритм построения модели дерева ре-

шений ID3O (рис. 1) приведен в работе [2]. На

первом этапе происходит выбор стратегии повы-

шения качества данных в соответствии с показа-

телями, предложенными в работе [9]. На втором

этапе происходит повышение качества данных по

этому алгоритму заполнения отсутствующих ат-

рибутов данных, а также по рассмотренному в

работе [8] алгоритму выявления аномалий. Далее

строится дерево решений с помощью алгоритма

IDTUV [10].

Алгоритм выявления аномалий, работающий

на втором этапе метода ID3O в рамках процесса

повышения качества данных, в свою очередь,

проводит обработку выбросов в два этапа. На

первом этапе выбросы в данных необходимо

идентифицировать. Для идентификации анома-

лий применяют метод расчета

LOF

. На втором этапе обнаруженные объекты

подлежат обработке.

Методика выявления и обработки аномалий.

Применение этой методики

в работе алгоритма построения прогнозных моделей обусловлено использова-

нием алгоритма поиска аномалий LOF, который, как было отмечено выше, име-

ет преимущества по сравнению с аналогичными алгоритмами, но требует ин-

терпретации результатов работы.

Методика основана на понятии ядра объектов обучающего множества [11].

Объекты анализа — объекты обучающего множества, которые представляют

собой кортежи атрибутов данных. Атрибуты могут быть как дискретными, так и

непрерывными, и в совокупности представляют собой кортеж, который рас-

сматривают в рамках методики как единый объект анализа. Каждый атрибут

Рис. 1.

Алгоритм ID3O