Модели и методы автоматической классификации текстовых документов - page 17

стантой

nMaxWords.

При выделении словосочетания из информатив

ных слов предложения действуют следующие ограничения

—

между словами словосочетания не должно быть знаков препина

ния

;

—

между соседними словами словосочетания могут располагаться

другие слова

(

как неинформативные

так и информативные

)

в количе

стве не большем

чем заданное специальной константой

nMaxWordsDistance.

Если она равна нулю

то между словами слово

сочетания не должно быть других слов

Например

пусть

nMaxWords

= 3

nMaxWordsDistance

= 1

Рас

смотрим следующее предложение

Таким образом

для каждого термина вычисляем столько раз

личительных весов

сколько рубрик на уровне иерархии

Из данного предложения выделяем словосочетания

термина вычисляем

термин

вычисляем различительных

вычисляем различительных весов

различительных весов

рубрик уровне

рубрик уровне иерархии

уровне иерархии

Запоминаются словосочетания

Для слов словосочетания выде

ляются псевдоосновы

Для каждого словосочетания в области слово

сочетаний запоминается

—

совокупность псевдооснов слов словосочетания

;

—

собственно словосочетание

Например

для словосочетания

“

термина вычисляем различитель

ных

”

запоминаем совокупность псевдооснов

“

термин вычисл различ

”,

собственно словосочетание

“

термина вычисляем различительных

”.

Если словосочетание находится от начала файла на расстоянии

не

превышающем величины

nWordsInHeader,

то для этого словосочетания

указывается специальный признак вхождения в начало файла

Формируется частотный список псевдооснов

вычисляются веса

6.1.

Формируется частотный список псевдооснов

После обработ

ки всех предложений текста в области информативных слов располага

ются псевдоосновы информативных слов текста вместе со словами

из

которых эти псевдоосновы выделены

Если слово несколько раз встре

тилось в тексте

то столько же раз псевдооснова этого слова записыва

ется в область информативных слов

Поэтому для определения частоты

встречаемости выполняется сортировка области информативных слов

по коду содержащихся в ней псевдооснов

При этом одинаковые псев

доосновы оказываются рядом

В результате вместо области информа

тивных слов получаем частотный список псевдооснов

в котором для

80 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,7,8,9,10,11,12,13,14,15,16 18,19,20,21,22,23,24,25,26,27,...31