Модели и методы автоматической классификации текстовых документов - page 10

5.
Выбирается некоторое количество наиболее значимых терминов
.
6.
Выбранные термины распределяются по рубрикам таким обра
-
зом
,
чтобы каждой рубрике был приписан термин
,
часто встречающий
-
ся в документах этой рубрики
(
и ее подрубрик
)
и редко
в докумен
-
тах других рубрик
.
В результате каждой рубрике присваиваются спис
-
ки терминов с весами
,
которые являются семантическими образами ру
-
брик
.
В настоящей работе рассмотрены шаги
1
и
2
алгоритма
.
Подроб
-
ное обсуждение остальных шагов выходит за рамки настоящей работы
.
Описание алгоритмов обучения см
.
в работах
[1, 3].
Методы выделения терминов из текста
.
Будем называть терми
-
ном минимальную единицу документа
,
используемую программами
обработки текстов
.
Как было отмечено
,
в качестве терминов использу
-
ются слова или словосочетания
.
Разумеется
,
ни слова
,
ни словосочета
-
ния не являются терминами в прямом смысле этого слова
.
Однако за
ними удобно оставить это название
,
поскольку термины
,
как правило
,
проблемно ориентированы
.
Иначе говоря
,
термины образуют понятия
,
относящиеся к той или иной предметной области
,
тематической ру
-
брике
,
разделу знаний и т
.
д
.
Поэтому терминам может быть придана
вполне определенная тематическая семантика
[3].
Слова
.
Обычно программы начинают свою работу с разбиения до
-
кумента на составные части
:
разделы
,
фрагменты
,
предложения и
,
на
-
конец
,
слова
.
Дальше слова обычно процесс разбиения не идет
,
так как
слоги и буквы уже не могут отражать смысл документа
.
Таким образом
,
для программ смысловой обработки текста слово является атомарным
элементом
.
Значимость
.
Не все слова текста равноправны
.
Некоторые более
значимы
(
т
.
е
.
лучше отражают семантику документа
),
другие менее
.
Например
,
слово
классификация
значимо для настоящей работы
(
по
-
скольку она посвящена проблемам классификации
),
а слово
програм
-
ма
менее значимо
,
так как в настоящей работе рассматривается лишь
один частный вид программ
.
Как видно из примера
,
значимость трудно
определить формально
,
а еще труднее
сформулировать простой спо
-
соб сравнения значимости разных слов
(
какое слово
,
например
,
более
значимо для данной статьи
: “
формула
или
таблица
”?).
Тем не менее
,
в программах смысловой обработки текстов исполь
-
зуется понятие значимостей слов
,
предложений и более крупных эле
-
ментов
.
При этом программы дают значимости численную оценку
(
обычно в диапазоне от
0
до
1),
более значимому слову обычно ста
-
вится в соответствие б
´
ольшее число
.
Словосочетания
.
Более крупной единицей текста по сравнению со
словами являются словосочетания
.
Очевидно
,
что они точнее отража
-
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 73
1,2,3,4,5,6,7,8,9 11,12,13,14,15,16,17,18,19,20,...31
Powered by FlippingBook