Модели и методы автоматической классификации текстовых документов - page 12

Омонимия
.
При нормализации часто оказывается
,
что для слова
может быть построено несколько нормальных форм
.
Например
:
сло
-
во
устав
имеет две нормальные формы
: “
устав
” (
существительное
)
и
устать
” (
глагол
).
Определение
,
какую именно нормальную форму
использовать
(
разрешение омонимии
),
представляет собой исключи
-
тельно сложную задачу
,
требующую глубокого синтаксического или
даже семантического анализа текста
.
Все известные на сегодняшний
день алгоритмы разрешения омонимии или требуют использования
словарей
,
специально составляемых для каждой тематики
[7],
или не
требуют специальной настройки
,
но дают ощутимый процент оши
-
бок в реальных текстах
[9].
Если омонимию разрешить не удалось
,
сравнивать приходится каждую возможную пару нормальных форм
сопоставляемых слов
.
Иногда при морфологическом анализе вместо нормальной формы
слова используют некоторый числовой идентификатор
(
так называе
-
мый
идентификатор лексемы
).
В качестве идентификатора может ис
-
пользоваться порядковый номер элемента морфологической таблицы
,
который описывает данное слово и все варианты его изменения
[9],
а
может использоваться специальная хэш
-
функция
.
Функция нормализации
,
считающая эквивалентными слова из од
-
ного словообразовательного ряда
,
может использовать в своей работе
словообразовательные словари
[9]
или работать приближенным мето
-
дом
.
Во втором случае у слова отсекается окончание и один или не
-
сколько суффиксов
.
Оставшаяся часть слова называется псевдоосновой
и используется в качестве нормальной формы
.
Для учета синонимических рядов необходимо использовать разного
рода тезаурусы
общей лексики или тематические
.
Если в процессе
нормализации слова в таких словарях найти не удалось
,
то выполняется
нормализация с точностью до словообразовательного ряда или приве
-
дение слова к нормальной форме
.
Так же
,
как и в предыдущих случаях
,
в ходе нормализации слову может быть приписано несколько нормаль
-
ных форм из
-
за омонимии
,
на этот раз
семантической
.
Разрешать
такую омонимию еще сложнее
,
чем в предыдущем случае
.
При нормализации словосочетаний можно учитывать их синтакси
-
ческую структуру
,
а можно ограничиться грубым методом
,
согласно ко
-
торому каждое из слов словосочетания нормализуется отдельно
,
а за
-
тем нормальные формы слов упорядочиваются по алфавиту
.
При этом
из словосочетания желательно сначала удалить предлоги
,
местоимения
и другие малоинформативные слова
.
Например
,
словосочетания
про
-
сторы морей
”, “
в море просторно
и
морские просторы
имеют одну
и ту же нормальную форму
мор простор
”.
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 75
1...,2,3,4,5,6,7,8,9,10,11 13,14,15,16,17,18,19,20,21,22,...31
Powered by FlippingBook