Модели и методы автоматической классификации текстовых документов - page 18

каждой псевдоосновы указана ее частота встречаемости в тексте

Если для некоторой псевдоосновы указан признак вхождения в на

чало файла

то считаем

что это не одно появление

а несколько

—

ко

личество задается константой

nDocHeaderMultiply.

Для каждой псев

доосновы помимо частоты запоминается самая частотная ее словофор

ма

При подсчете частотности словоформы признак вхождения в нача

ло файла не учитывается

Например

после сортировки имеем следующий фрагмент области

информативных слов

частот

частоты

∗

частот

частота

частот

частота

частот

частотой

частот

частоты

частот

частота

частот

частотный

частот

частотного

Здесь звездочкой обозначен признак вхождения псевдоосновы в на

чальную часть файла

Предположим

что

nHeaderWordMultiply

= 3

Тогда приведенный

выше фрагмент преобразуется в следующий

частот

частота

Для ускорения дальнейшего поиска следует сделать индекс к ча

стотному списку

–

например

для каждой пары первых букв псевдо

основ указать смещение относительно начала частотного списка зоны

с такими псевдоосновами

6.2.

Вычисляются веса псевдооснов по формуле

;

здесь

—

частота псевдоосновы

;

—

показатель степени

(

число с

дробной частью

Формируется частотный список словосочетаний

Выполняем

действия

аналогичные описанным для шага

Сортировка выполняет

ся по совокупности псевдооснов словосочетаний

В результате рядом

оказываются словосочетания с одинаковым набором псевдооснов

По

мимо определения частоты словосочетания отбирается самая частот

ная форма словосочетания

Если для некоторого словосочетания указан признак вхождения в

начало файла

то считаем

что это не одно появление

а несколько

—

количество задается константой

nHeaderPhraseMultiply.

ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

4 81

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,8,9,10,11,12,13,14,15,16,17 19,20,21,22,23,24,25,26,27,28,...31