Модели и методы автоматической классификации текстовых документов - page 18

каждой псевдоосновы указана ее частота встречаемости в тексте
.
Если для некоторой псевдоосновы указан признак вхождения в на
-
чало файла
,
то считаем
,
что это не одно появление
,
а несколько
ко
-
личество задается константой
nDocHeaderMultiply.
Для каждой псев
-
доосновы помимо частоты запоминается самая частотная ее словофор
-
ма
.
При подсчете частотности словоформы признак вхождения в нача
-
ло файла не учитывается
.
Например
,
после сортировки имеем следующий фрагмент области
информативных слов
:
частот
частоты
частот
частота
частот
частота
частот
частотой
частот
частоты
частот
частота
частот
частотный
частот
частотного
Здесь звездочкой обозначен признак вхождения псевдоосновы в на
-
чальную часть файла
.
Предположим
,
что
nHeaderWordMultiply
= 3
.
Тогда приведенный
выше фрагмент преобразуется в следующий
:
частот
10
частота
Для ускорения дальнейшего поиска следует сделать индекс к ча
-
стотному списку
например
,
для каждой пары первых букв псевдо
-
основ указать смещение относительно начала частотного списка зоны
с такими псевдоосновами
.
6.2.
Вычисляются веса псевдооснов по формуле
W
=
N
C
1
;
здесь
N
частота псевдоосновы
;
C
1
показатель степени
(
число с
дробной частью
).
7.
Формируется частотный список словосочетаний
.
Выполняем
действия
,
аналогичные описанным для шага
6.
Сортировка выполняет
-
ся по совокупности псевдооснов словосочетаний
.
В результате рядом
оказываются словосочетания с одинаковым набором псевдооснов
.
По
-
мимо определения частоты словосочетания отбирается самая частот
-
ная форма словосочетания
.
Если для некоторого словосочетания указан признак вхождения в
начало файла
,
то считаем
,
что это не одно появление
,
а несколько
количество задается константой
nHeaderPhraseMultiply.
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 81
1...,8,9,10,11,12,13,14,15,16,17 19,20,21,22,23,24,25,26,27,28,...31
Powered by FlippingBook