Модели и методы автоматической классификации текстовых документов - page 7

ресекаются

1 —

что они совпадают и

следовательно

документ од

нозначно соответствует рубрике

);

для каждой из рубрик

для которой результат сопоставления с ней

документа выше некоторого порогового значения

рассматривается бо

лее низкий уровень иерархии и документ сопоставляется с дочерними

рубриками

Если это сопоставление не приводит к обнаружению допол

нительных рубрик

которым соответствует документ

(

или если рубрика

не имеет дочерних

то документ полагается соответствующим данной

рубрике

Если же дополнительные рубрики найдены

то документ по

лагается соответствующим только этим дополнительным рубрикам

Рассмотрим работу алгоритма на примере классификации докумен

та

описывающего особенности проектирования грузовых автомобилей

повышенной проходимости

(

в примере используется дерево рубрик

представленное на рис

. 1).

В ходе работы алгоритма выполняются следующие операции

Документ сопоставляется с рубриками первого уровня

(“

Автомо

били

”, “

Железнодорожный транспорт

”, “

Авиация и космонавтика

”).

результате сопоставления принимается решение о том

что документ

соответствует автомобильной тематике

Документ сопоставляется с тремя рубриками

дочерними по от

ношению к рубрике

“

Автомобили

” (“

Легковые

”, “

Грузовые

”, “

Специ

альные

”).

В результате сопоставления принимается решение о том

что

документ соответствует рубрике

“

Грузовые автомобили

”.

На последнем этапе происходит окончательное сопоставление

документа с соответствующей рубрикой

(“

Грузовые автомобили повы

шенной проходимости

”).

Как было указано выше

в процедуре классификации учитывается

то

что документ может быть отнесен к нескольким рубрикам одновре

менно

причем результат сопоставления документа с рубрикой зависит

только от его содержимого и семантического образа этой рубрики

Это

означает

что изменение семантического образа одной рубрики

(

или до

бавление новой рубрики

)

не влияет на результат классификации по дру

гим рубрикам того же уровня иерархии

Границы применимости рассмотренного алгоритма классифика

ции

Алгоритм классификации основан на том

что большинство тема

тик имеют множества присущих им терминов

наличие которых в доку

менте позволяет предположить его соответствие одной или нескольким

из этих тематик

Например

для текстов юридической тематики харак

терны термины

“

иск

”, “

конфискация

”, “

правообладатель

”,

а вот терми

ны

“

время

”, “

сторона

”, “

название

”

почти не отражают тематику доку

мента

70 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5,6 8,9,10,11,12,13,14,15,16,17,...31