Модели и методы автоматической классификации текстовых документов - page 7

ресекаются
,
а
1 —
что они совпадают и
,
следовательно
,
документ од
-
нозначно соответствует рубрике
);
4)
для каждой из рубрик
,
для которой результат сопоставления с ней
документа выше некоторого порогового значения
,
рассматривается бо
-
лее низкий уровень иерархии и документ сопоставляется с дочерними
рубриками
.
Если это сопоставление не приводит к обнаружению допол
-
нительных рубрик
,
которым соответствует документ
(
или если рубрика
не имеет дочерних
),
то документ полагается соответствующим данной
рубрике
.
Если же дополнительные рубрики найдены
,
то документ по
-
лагается соответствующим только этим дополнительным рубрикам
.
Рассмотрим работу алгоритма на примере классификации докумен
-
та
,
описывающего особенности проектирования грузовых автомобилей
повышенной проходимости
(
в примере используется дерево рубрик
,
представленное на рис
. 1).
В ходе работы алгоритма выполняются следующие операции
:
1.
Документ сопоставляется с рубриками первого уровня
(“
Автомо
-
били
”, “
Железнодорожный транспорт
”, “
Авиация и космонавтика
”).
В
результате сопоставления принимается решение о том
,
что документ
соответствует автомобильной тематике
.
2.
Документ сопоставляется с тремя рубриками
,
дочерними по от
-
ношению к рубрике
Автомобили
” (“
Легковые
”, “
Грузовые
”, “
Специ
-
альные
”).
В результате сопоставления принимается решение о том
,
что
документ соответствует рубрике
Грузовые автомобили
”.
3.
На последнем этапе происходит окончательное сопоставление
документа с соответствующей рубрикой
(“
Грузовые автомобили повы
-
шенной проходимости
”).
Как было указано выше
,
в процедуре классификации учитывается
то
,
что документ может быть отнесен к нескольким рубрикам одновре
-
менно
,
причем результат сопоставления документа с рубрикой зависит
только от его содержимого и семантического образа этой рубрики
.
Это
означает
,
что изменение семантического образа одной рубрики
(
или до
-
бавление новой рубрики
)
не влияет на результат классификации по дру
-
гим рубрикам того же уровня иерархии
.
Границы применимости рассмотренного алгоритма классифика
-
ции
.
Алгоритм классификации основан на том
,
что большинство тема
-
тик имеют множества присущих им терминов
,
наличие которых в доку
-
менте позволяет предположить его соответствие одной или нескольким
из этих тематик
.
Например
,
для текстов юридической тематики харак
-
терны термины
иск
”, “
конфискация
”, “
правообладатель
”,
а вот терми
-
ны
время
”, “
сторона
”, “
название
почти не отражают тематику доку
-
мента
.
70 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1,2,3,4,5,6 8,9,10,11,12,13,14,15,16,17,...31
Powered by FlippingBook