Модели и методы автоматической классификации текстовых документов - page 16

дуля выделения словосочетаний
,
основанного на синтаксическом ана
-
лизе текста
.
Алгоритм выявляет часто повторяющиеся в документе группы слов
,
причем сопоставление выполняется с помощью функции нормализа
-
ции
,
отсекающей окончание и суффиксы слов
.
Для каждой формируе
-
мой нормальной формы запоминается также соответствующий исход
-
ный текст словосочетания
,
причем если таких текстов несколько
(
до
-
кумент содержит несколько эквивалентных форм словосочетания
),
вы
-
бирается тот вариант
,
который встречается в документе чаще всего
.
Алгоритм приближенного выделения словосочетаний имеет следу
-
ющий вид
.
1.
Из текста выделяется очередное предложение
.
Условия выделе
-
ния конца предложения
(
для русских текстов
)
следующие
:
в конце слова стоит один из знаков конца предложения
: «.»,
«?», «!»;
слово
,
за которым знак конца предложения
,
состоит не менее
,
чем из двух букв
;
после знака конца предложения располагается один или несколь
-
ко пробелов
;
следующее слово начинается с большой буквы
.
2.
Определяются информативные слова предложения
.
На вход соот
-
ветствующего модуля подается предложение
,
на выходе имеем инфор
-
мацию о том
,
какие слова предложения информативны
.
3.
Запоминаются информативные слова предложения
.
Из инфор
-
мативного слова выделяется псевдооснова и запоминается в области
информативных слов
.
Вместе с псевдоосновой запоминается слово
.
Область информативных слов представляет собой последовательность
пар псевдооснова
слово
.
Если слово
,
из которого выделена псевдооснова
,
находится от нача
-
ла файла на расстоянии
,
не превышающем некоторое значение
nWordsInHeader,
то для этой псевдоосновы указывается специальный
признак вхождения в начало файла
.
В типовом случае чем ближе по
-
явление слова к началу документа
,
тем выше его значимость
.
Напри
-
мер
,
в предложении имеется информативное слово
компьютерными
”,
для которого выделена псевдооснова
компьютер
”.
Эта псевдооснова
,
а также слово
компьютерными
запоминаются в области информатив
-
ных слов
.
4.
Из предложения выделяются словосочетания
.
Под словосочета
-
нием понимаем группу из двух или более информативных слов
.
Мак
-
симально допустимое количество слов словосочетания задается кон
-
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 79
1...,6,7,8,9,10,11,12,13,14,15 17,18,19,20,21,22,23,24,25,26,...31
Powered by FlippingBook