Модели и методы автоматической классификации текстовых документов - page 20

—

самая частотная форма словосочетания

;

—

частота словосочетания и входящих в него псевдооснов

;

вес сло

восочетания

Для каждой псевдоосновы приводятся следующие данные

—

псевдооснова

;

—

самая частотная словоформа псевдоосновы

;

—

частота псевдоосновы

;

—

вес псевдоосновы

10.

Выводится результирующий список

содержащий термины до

кумента

Методы определения значимости терминов

Качество решения

задачи определения значимости терминов влияет на общую эффектив

ность классифицирующей системы

Обзор методов определения весов

приведен в работе

[6].

Веса терминов можно определять на основе

различных характеристик

позиционных

учитывающих расположение

термина в документе

(

например

в заглавии

резюме

и т

.),

семан

тических

являющихся функцией отношений терминов к некоторым

другим словам

или прагматических

—

например

в такой системе

где

собственным именам придается очень большое значение

Кроме то

го

можно еще использовать веса

выводимые из частот терминов

или

веса

зависящие от лексических свойств терминов

Обычно при построении семантических образов рубрик использу

ются не все термины эталонных документов

а только те

смысловая

значимость

(

вес

)

которых выше некоторого порогового значения

что

позволяет сократить объем вычислений

В работе

[1]

характеристические множества терминов рубрик фор

мируются чисто статистическими методами

без всякого учета контек

ста и явлений словоизменения

синонимии и полисемии естественного

языка

Действительно

частотный анализ слов и анализ их совместной

встречаемости позволяют скомпенсировать отсутствие этого учета

од

нако из экспериментов следует

что показатели эффективности систем

основанных только на статистических методах

оказываются низкими

что приводит к необходимости значительного увеличения объемов ис

пользуемых обучающих выборок

Данный вывод подтверждается в ра

боте

[3].

В программе

“

Классификатор

” [10, 11],

разработанной одним из ав

торов настоящей работы

учитываются некоторые из перечисленных

выше характеристик

В ней ранги

терминов

можно представить

в виде комбинации следующих составляющих

lex

cont

stat

(1)

ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

4 83

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,10,11,12,13,14,15,16,17,18,19 21,22,23,24,25,26,27,28,29,30,...31