Модели и методы автоматической классификации текстовых документов - page 3

Также следует отметить
,
что ошибки классификации вручную не
-
прерывно накапливаются и со временем усиливается потребность в
полном пересмотре распределения документов по рубрикам
.
Автоматическая классификация
.
Для решения указанных проблем
используют программы классификации
,
которые автоматически вы
-
полняют отнесение документов к рубрикам
.
Для каждой рубрики такие
программы хранят множества признаков
,
используя которые
,
можно
принять решение о том
,
соответствует ли очередной документ рубрике
или нет
.
Множества признаков рубрики в тематическом рубрикаторе часто
называют
семантическими образами
.
Семантический образ рубрики
(
тематики
)
обычно представляет собой список терминов
(
слов или сло
-
восочетаний
),
каждому из которых поставлен в соответствие вес
не
-
которое число
,
характеризующее значимость термина для данной ру
-
брики
[1, 2].
Например
,
семантический образ рубрики
Футбол
может
содержать словосочетание
угловой удар
с весом
0,7
и слово
пеналь
-
ти
с весом
0,9.
Это означает
,
что документ
,
содержащий слово
пе
-
нальти
относится к данной рубрике с б
´
ольшей вероятностью
,
чем до
-
кумент
,
содержащий только словосочетание
угловой удар
”.
Конечно
,
если в документе встретились оба указанных термина
,
то вероятность
оказывается еще б
´
ольшей
.
Подробное обсуждение того
,
что такое термин с точки зрения про
-
граммы автоматической обработки текстов
,
приведено далее
.
Чаще всего семантические образы рубрик составляет пользователь
-
эксперт
.
Однако наиболее совершенные программы могут решать за
-
дачу автоматического обучения
(
распознавания образов
),
при которой
эксперт приписывает к каждой рубрике множество эталонных доку
-
ментов
,
а программа самостоятельно выполняет их анализ и строит се
-
мантические образы
.
Для того чтобы обеспечивать необходимое качество работы
,
в таких
программах необходимо использовать сложные математические и лин
-
гвистические алгоритмы
.
Некоторые элементы таких алгоритмов рас
-
смотрены в настоящей работе
.
Использование программных средств автоматической классифика
-
ции позволяет получить совершенно новые качества систем обработ
-
ки документов
динамичность и масштабируемость
.
Действитель
-
но
,
если программа способна обработать десятки или сотни мегабайт
текстовой информации за несколько часов
,
появляется возможность
быстро вносить изменения в иерархию рубрик
,
а также строить си
-
стемы
,
обрабатывающие большие потоки текстов в режиме реального
времени
.
66 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1,2 4,5,6,7,8,9,10,11,12,13,...31
Powered by FlippingBook