Модели и методы автоматической классификации текстовых документов - page 19

При определении частоты словосочетания учитывается признак

вхождения словосочетания в начало файла

Однако при определении

самой частотной формы словосочетания этот признак не учитывается

В результате получаем частотный список словосочетаний

в кото

ром каждый элемент включает следующие составляющие

—

совокупность псевдооснов словосочетания

;

—

частота словосочетания

;

—

самая частотная форма словосочетания

Например

после сортировки имеем следующий фрагмент области

словосочетаний

частот словосоч

частоты словосочетания

∗

частот словосоч

частота словосочетания

частот словосоч

частота словосочетания

частот словосоч

частотой словосочетания

частот словосоч

частоты словосочетания

частот словосоч

частота словосочетания

Здесь звездочкой обозначен признак вхождения словосочетания в

начальную часть файла

Предположим

что

nHeaderPhraseMultiply

= 3

Тогда приведенный

выше фрагмент преобразуется в следующий

частот словосоч

частота словосочетания

Из полученного списка удаляем информацию о словосочетаниях

частота которых меньше некоторой минимально допустимой частоты

Определяем веса словосочетаний

8.1.

Определяются частоты псевдооснов словосочетания

Для ка

ждой псевдоосновы словосочетания из частотного списка псевдооснов

определяется ее частота появления в тексте

8.2.

Определяется первая составляющая веса словосочетания по

формуле

;

здесь

—

частота словосочетания

;

—

минимальная из частот псев

дооснов словосочетания

8.3.

Определяется вес словосочетания по формуле

;

здесь

—

число слов словосочетания

;

—

некоторые кон

станты

(

числа в диапазоне

. . .

Сортируются псевдоосновы и словосочетания по убыванию веса

Для каждого словосочетания приводятся следующие данные

—

псевдоосновы слов словосочетания

;

82 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,9,10,11,12,13,14,15,16,17,18 20,21,22,23,24,25,26,27,28,29,...31