Модели и методы автоматической классификации текстовых документов - page 4

Кроме того
,
использование автоматических классификаторов по
-
зволяет повысить количество рубрик до сотен и даже тысяч и допустить
отнесение документа сразу к нескольким рубрикам
,
что практически
невозможно в случае обработки вручную
.
Использование развитых программных систем классификации по
-
зволяет не только качественно структурировать уже накопленную ин
-
формацию
,
но и получать новые знания
.
Например
,
с помощью ком
-
пьютерного анализа статей центральных газет можно сделать очень ин
-
тересные выводы о наличии скрытых связей в политических и обще
-
ственных кругах и т
.
п
.
Сценарий использования программы
.
На рис
. 2
показана последова
-
тельность операций
,
которые необходимо выполнить для того
,
чтобы
классифицировать массив документов
.
Сначала эксперты составляют тематическое дерево рубрик и зано
-
сят его в программу
.
Затем из массива документов выбирается некото
-
рая часть
,
которая классифицируется вручную
,
в результате чего к ру
-
брикам приписываются эталонные документы
.
Дерево рубрик вместе
с приписанными к ним эталонными документами называется
обучаю
-
щей выборкой
.
Затем запускается процедура обучения классификатора
,
которая формирует семантические образы каждой из рубрик
.
Рис
. 2.
Схема работы классификатора
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 67
1,2,3 5,6,7,8,9,10,11,12,13,14,...31
Powered by FlippingBook