Модели и методы автоматической классификации текстовых документов - page 27

где

—

количество повторяющихся слов

;

—

коэффициент

завися

щий от части речи повторяемого слова

(

вероятность отсутствия смы

словой связи при лексическом повторе данного типа слов

Все предложения

с вероятностью

> C

min

(

min

= 0

по

лагаются синсемантичными

остальные

—

автосемантичными

Для каждого вхождения

всех терминов

вычисляется

по

формуле

−

)

+ 1

(9)

где

—

число предложений в связном фрагменте текста

содержащем

данное вхождение термина

(

под связным фрагментом понимается

несколько последовательных предложений текста

первое из которых

автосемантичное

а остальные синсемантичные

);

—

номер предло

жения

в котором содержится

;

—

настроечные коэффициенты

= 0

= 3

Для всех терминов

вычисляется

cont

по формуле

(5).

Определение статистической значимости терминов

Распределе

ние частот появлений терминов по документам и характеристики их

совместной встречаемости позволяют сделать выводы об их информа

тивности

Например

термины

которые присутствуют почти во всех до

кументах с большой частотой

скорее всего не могут служить призна

ками тематики

Эксперимент показывает

что такими характеристика

ми обладают термины общей лексики

: “

почти

”, “

больший

”, “

меньший

”

и т

В работе

[6]

описаны несколько базовых методов определения ста

тистической значимости

При использовании метода частотных мер анализируют частоты

появлений термина

в документе

суммарные частоты появлений

этого термина в наборе

и т

Часто предполагают

что термины

имеющие высокую частоту появления

не являются специфическими

но все же они могут дать большое число возможных совпадений при

сравнении терминов рубрики и документа

обеспечивая

таким обра

зом

классификацию многих релевантных документов

(

увеличивая

полноту

Термины

имеющие низкую частоту появления

дают очень

небольшое число совпадений

но если такие термины попали в список

признаков рубрики и были найдены в обрабатываемых документах

то

это почти наверняка говорит о релевантности соответствующего доку

мента рубрике

Существует интуитивное предположение

что наилучшими индек

сационными терминами

терминами

наиболее ценными для пред

ставления содержания документа

являются термины

не слишком ред

кие и не слишком частые

Поскольку

однако

удаление терминов

име

ющих высокую частоту появления

может повлиять на полноту

выдви

90 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,17,18,19,20,21,22,23,24,25,26 28,29,30,31