Модели и методы автоматической классификации текстовых документов - page 15

нормальная форма
человек
”.
Полнота выше
,
чем в предыдущем слу
-
чае
.
Точность также выше за счет учета словоформ при определении
меры подобия документов
.
Омонимия мало повлияла на результаты
классификации
.
Псевдоосновы
.
В процессе анализа слов выполняется приближен
-
ное определение окончания и суффиксов
,
после чего они удаляются
.
Отсечение суффиксов позволяет уменьшить количество ошибок пер
-
вого рода
,
так как модель учитывает словообразование
(
слова
море
и
морской
имеют одинаковую основу
мор
”),
однако количество оши
-
бок второго рода сильно увеличивается из
-
за высокой степени нечетко
-
сти при определения основы
(
слово
мор
также имеет основу
мор
”).
Словосочетания
(
синтаксический анализ
).
В процессе анализа тек
-
стов выполняется поверхностный синтаксический анализ различных
комбинаций слов
.
Распознанные именные и предложные группы при
-
водятся к нормальной форме
(
именительный падеж
,
единственное чи
-
сло
).
Использование словосочетаний существенно уменьшает количе
-
ство ошибок второго рода
,
так как словосочетания более точно иденти
-
фицируют предметную область
,
нежели отдельные слова
.
Словосочетания
(
приближенный метод
).
В процессе анализа тек
-
стов выполняется приближенный
(
статистический
)
анализ различных
комбинаций слов
.
Не все выбранные таким образом группы слов дей
-
ствительно являются словосочетаниями
,
некоторые из них образуют
синтаксически некорректные словосочетания
,
однако эксперимент по
-
казал наивысшую эффективность данного метода
.
Нормализация вы
-
полняется следующим образом
:
из словосочетания удаляются предло
-
ги
,
союзы
,
местоимения и другие малоинформативные слова
,
затем у
слов отсекаются окончания и суффиксы
,
а получившиеся в результате
псевдоосновы упорядочиваются по алфавиту
.
Итак
,
эксперименты подтверждают практическую пользу исполь
-
зования словосочетаний для классификации текстовой информации
.
В
качестве функции нормализации желательно использовать нечеткую
функцию
,
использующую псевдоосновы
.
Алгоритм приближенного выделения словосочетаний
.
Рассмотрим
алгоритм приближенного выделения словосочетаний из текста
,
осно
-
ванный на статистической обработке слов и цепочек соседних слов
,
встречающихся в тексте
.
От языка текстов зависят модули разбиения
текста на предложения
,
предложений
на слова
,
модули
,
определяю
-
щие информативность слов в предложении
,
а также модуль
,
вычисля
-
ющий основы слов
.
Время
,
необходимое на разработку таких модулей
для некоторого языка
(
имеются в виду
,
в первую очередь
,
европейские
языки
),
на порядок меньше времени
,
необходимого для разработки мо
-
78 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,5,6,7,8,9,10,11,12,13,14 16,17,18,19,20,21,22,23,24,25,...31
Powered by FlippingBook