Модели и методы автоматической классификации текстовых документов - page 15

нормальная форма

“

человек

”.

Полнота выше

чем в предыдущем слу

чае

Точность также выше за счет учета словоформ при определении

меры подобия документов

Омонимия мало повлияла на результаты

классификации

Псевдоосновы

В процессе анализа слов выполняется приближен

ное определение окончания и суффиксов

после чего они удаляются

Отсечение суффиксов позволяет уменьшить количество ошибок пер

вого рода

так как модель учитывает словообразование

(

слова

“

море

”

“

морской

”

имеют одинаковую основу

“

мор

”),

однако количество оши

бок второго рода сильно увеличивается из

за высокой степени нечетко

сти при определения основы

(

слово

“

мор

”

также имеет основу

“

мор

”).

Словосочетания

(

синтаксический анализ

В процессе анализа тек

стов выполняется поверхностный синтаксический анализ различных

комбинаций слов

Распознанные именные и предложные группы при

водятся к нормальной форме

(

именительный падеж

единственное чи

сло

Использование словосочетаний существенно уменьшает количе

ство ошибок второго рода

так как словосочетания более точно иденти

фицируют предметную область

нежели отдельные слова

Словосочетания

(

приближенный метод

В процессе анализа тек

стов выполняется приближенный

(

статистический

)

анализ различных

комбинаций слов

Не все выбранные таким образом группы слов дей

ствительно являются словосочетаниями

некоторые из них образуют

синтаксически некорректные словосочетания

однако эксперимент по

казал наивысшую эффективность данного метода

Нормализация вы

полняется следующим образом

из словосочетания удаляются предло

ги

союзы

местоимения и другие малоинформативные слова

затем у

слов отсекаются окончания и суффиксы

а получившиеся в результате

псевдоосновы упорядочиваются по алфавиту

Итак

эксперименты подтверждают практическую пользу исполь

зования словосочетаний для классификации текстовой информации

качестве функции нормализации желательно использовать нечеткую

функцию

использующую псевдоосновы

Алгоритм приближенного выделения словосочетаний

Рассмотрим

алгоритм приближенного выделения словосочетаний из текста

осно

ванный на статистической обработке слов и цепочек соседних слов

встречающихся в тексте

От языка текстов зависят модули разбиения

текста на предложения

предложений

—

на слова

модули

определяю

щие информативность слов в предложении

а также модуль

вычисля

ющий основы слов

Время

необходимое на разработку таких модулей

для некоторого языка

(

имеются в виду

в первую очередь

европейские

языки

на порядок меньше времени

необходимого для разработки мо

78 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,5,6,7,8,9,10,11,12,13,14 16,17,18,19,20,21,22,23,24,25,...31