Модели и методы автоматической классификации текстовых документов - page 2

Рис
. 1.
Пример рубрикатора
менты
.
В типовом случае иерархия рубрик является деревом
(
т
.
е
.
не
содержит циклов
),
однако возможны ситуации
,
когда некоторые ру
-
брики являются дочерними сразу для нескольких родительских рубрик
(
например
,
новости математики можно поместить в рубрики
Матема
-
тика
и
Новости науки
”).
У классификационного поиска имеется один существенный не
-
достаток
документы
,
как правило
,
приходится классифицировать
вручную
.
Другими словами
,
при добавлении в массив нового докумен
-
та сначала необходимо его проанализировать и определить
,
к каким
рубрикам классификатора он относится
(“
Микропроцессорные систе
-
мы
”, “
Сотрудничество компьютерных фирм
”, “
Изобразительное искус
-
ство средневековья
и т
.
д
.).
И только после этого документ становится
доступным для поиска по классификатору
.
Понятно
,
что при небольшом штате технических специалистов
или большом потоке входных документов применение классифика
-
ции вручную становится нереальным
.
Более того
,
обеспечить полноту
классификации вручную большого объема документов оказывается
очень сложно
,
даже при помощи большого количества специалистов
.
При классификации вручную часто возникают ошибки
,
состоящие в
том
,
что документ
,
соответствующий сразу нескольким рубрикам
,
при
-
писывается только части из них
.
Количество ошибок обычно пропор
-
ционально размерности рубрикатора
.
Перечень рубрик при классификации вручную очень трудно изме
-
нять
,
так как любое изменение требует просмотра и анализа всех доку
-
ментов
(
например
,
выделение в рубрике
История России
подрубрик
История СССР
и
История Древней Руси
требует анализа всех до
-
кументов рубрики
История России
”).
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 65
1 3,4,5,6,7,8,9,10,11,12,...31
Powered by FlippingBook