В.И. Кузовлев, А.О. Орлов
78
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2016. № 5
Одна из наиболее известных и эффективных моделей в прогнозном анализе —
дерево решений
. Эта модель относится к виду алгоритмов обучения с учителем, т. е.
для построения модели используют некоторую выборку информационных объек-
тов, называемую
обучающей выборкой
. Деревья решений организованы в виде
иерархической структуры, состоящей из узлов принятия решений по оценке зна-
чений определенных переменных для прогнозирования результирующего значе-
ния [2]. Любое дерево решений определяет прогнозируемое значение, полученное
в результате оценки некоторых входных атрибутов. Каждый уровень в дереве
можно рассматривать как одно из решений. Узел дерева обеспечивает проверку
условия, а каждое ребро обозначает один из возможных вариантов. Узлы приня-
тия решений содержат критерии выбора, а ребра выражают взаимоисключающие
результаты проверки соответствия этим критериям.
Метод ID3O построения модели решающего
дерева.
Алгоритм построения модели дерева ре-
шений ID3O (рис. 1) приведен в работе [2]. На
первом этапе происходит выбор стратегии повы-
шения качества данных в соответствии с показа-
телями, предложенными в работе [9]. На втором
этапе происходит повышение качества данных по
этому алгоритму заполнения отсутствующих ат-
рибутов данных, а также по рассмотренному в
работе [8] алгоритму выявления аномалий. Далее
строится дерево решений с помощью алгоритма
IDTUV [10].
Алгоритм выявления аномалий, работающий
на втором этапе метода ID3O в рамках процесса
повышения качества данных, в свою очередь,
проводит обработку выбросов в два этапа. На
первом этапе выбросы в данных необходимо
идентифицировать. Для идентификации анома-
лий применяют метод расчета
LOF
. На втором этапе обнаруженные объекты
подлежат обработке.
Методика выявления и обработки аномалий.
Применение этой методики
в работе алгоритма построения прогнозных моделей обусловлено использова-
нием алгоритма поиска аномалий LOF, который, как было отмечено выше, име-
ет преимущества по сравнению с аналогичными алгоритмами, но требует ин-
терпретации результатов работы.
Методика основана на понятии ядра объектов обучающего множества [11].
Объекты анализа — объекты обучающего множества, которые представляют
собой кортежи атрибутов данных. Атрибуты могут быть как дискретными, так и
непрерывными, и в совокупности представляют собой кортеж, который рас-
сматривают в рамках методики как единый объект анализа. Каждый атрибут
Рис. 1.
Алгоритм ID3O