Модели и методы автоматической классификации текстовых документов - page 17

стантой
nMaxWords.
При выделении словосочетания из информатив
-
ных слов предложения действуют следующие ограничения
:
между словами словосочетания не должно быть знаков препина
-
ния
;
между соседними словами словосочетания могут располагаться
другие слова
(
как неинформативные
,
так и информативные
)
в количе
-
стве не большем
,
чем заданное специальной константой
nMaxWordsDistance.
Если она равна нулю
,
то между словами слово
-
сочетания не должно быть других слов
.
Например
,
пусть
nMaxWords
= 3
,
а
nMaxWordsDistance
= 1
.
Рас
-
смотрим следующее предложение
.
Таким образом
,
для каждого термина вычисляем столько раз
-
личительных весов
,
сколько рубрик на уровне иерархии
.
Из данного предложения выделяем словосочетания
:
термина вычисляем
,
термин
a
вычисляем различительных
,
вычисляем различительных
,
вычисляем различительных весов
,
различительных весов
,
рубрик уровне
,
рубрик уровне иерархии
,
уровне иерархии
.
5.
Запоминаются словосочетания
.
Для слов словосочетания выде
-
ляются псевдоосновы
.
Для каждого словосочетания в области слово
-
сочетаний запоминается
:
совокупность псевдооснов слов словосочетания
;
собственно словосочетание
.
Например
,
для словосочетания
термина вычисляем различитель
-
ных
запоминаем совокупность псевдооснов
термин вычисл различ
”,
собственно словосочетание
термина вычисляем различительных
”.
Если словосочетание находится от начала файла на расстоянии
,
не
превышающем величины
nWordsInHeader,
то для этого словосочетания
указывается специальный признак вхождения в начало файла
.
6.
Формируется частотный список псевдооснов
,
вычисляются веса
.
6.1.
Формируется частотный список псевдооснов
.
После обработ
-
ки всех предложений текста в области информативных слов располага
-
ются псевдоосновы информативных слов текста вместе со словами
,
из
которых эти псевдоосновы выделены
.
Если слово несколько раз встре
-
тилось в тексте
,
то столько же раз псевдооснова этого слова записыва
-
ется в область информативных слов
.
Поэтому для определения частоты
встречаемости выполняется сортировка области информативных слов
по коду содержащихся в ней псевдооснов
.
При этом одинаковые псев
-
доосновы оказываются рядом
.
В результате вместо области информа
-
тивных слов получаем частотный список псевдооснов
,
в котором для
80 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,7,8,9,10,11,12,13,14,15,16 18,19,20,21,22,23,24,25,26,27,...31
Powered by FlippingBook