УДК
681.3
А
.
М
.
А н д р е е в
,
Д
.
В
.
Б е р е з к и н
,
В
.
В
.
С ю з е в
,
В
.
И
.
Ш а б а н о в
МОДЕЛИ И МЕТОДЫ АВТОМАТИЧЕСКОЙ
КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ
Рассмотрена задача выделения терминов из текста и определе
-
ния их значимости для программ обработки текстовой информа
-
ции
(
поиска
,
классификации
,
квазиреферирования
,
кластеризации
).
Проанализированы возможные варианты решения задачи
,
для ка
-
ждого из вариантов разработаны алгоритмы и соответствующее
программное обеспечение
.
На примере программы автоматической
классификации проведено экспериментальное сравнение методов
.
Наилучшие результаты получены методом приближенного выделе
-
ния словосочетаний
,
основанным на статистической информации
.
В последние годы все б
´
ольшее внимание уделяется машинной об
-
работке текстов на естественном языке
.
Это связано
,
во
-
первых
,
с пе
-
реходом от решения чисто вычислительных и деловых задач к реше
-
нию проблем коммуникации
,
поиска и переработки текстовой инфор
-
мации
,
а во
-
вторых
,
с доступностью компьютерных технологий обыч
-
ным пользователям
,
чаще всего имеющим дело именно с текстами и
документами
.
Все более значительное число пользователей использует
компьютеры для создания
,
обработки
,
передачи или публикации тек
-
стов различных видов
.
С каждым годом увеличивается объем доступной пользователю тек
-
стовой информации
,
причем обрабатывать такой объем данных вруч
-
ную уже невозможно
.
Поэтому становится все более актуальной задача
автоматического поиска и обработки информации
.
Для всех видов программ
,
выполняющих смысловую обработку
текстов
,
возникает задача выделения терминов
,
причем от качества ее
решения напрямую зависит общая эффективность программы
.
Одним из распространенных видов программ
,
упрощающих анализ
и обработку текстовых документов
,
являются программы классифика
-
ции
(
классификаторы
).
Они позволяют выбрать в массиве текстовой
информации группу документов заданного типа
(
рекламное сообще
-
ние
,
научная статья и т
.
д
.)
или заданной тематики
(
математика
,
физика
и т
.
д
.).
Далее документы группы можно просмотреть
,
найти в них фраг
-
менты
,
содержащие заданные пользователем слова или выражения
.
Классификация вручную
.
Классификатор обычно представляет со
-
бой множество рубрик
,
объединенных в иерархию
(
рубрикатор
) (
рис
. 1).
Каждой рубрике приписываются соответствующие ее тематике доку
-
64 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
№
4