Омонимия
.
При нормализации часто оказывается
,
что для слова
может быть построено несколько нормальных форм
.
Например
:
сло
-
во
“
устав
”
имеет две нормальные формы
: “
устав
” (
существительное
)
и
“
устать
” (
глагол
).
Определение
,
какую именно нормальную форму
использовать
(
разрешение омонимии
),
представляет собой исключи
-
тельно сложную задачу
,
требующую глубокого синтаксического или
даже семантического анализа текста
.
Все известные на сегодняшний
день алгоритмы разрешения омонимии или требуют использования
словарей
,
специально составляемых для каждой тематики
[7],
или не
требуют специальной настройки
,
но дают ощутимый процент оши
-
бок в реальных текстах
[9].
Если омонимию разрешить не удалось
,
сравнивать приходится каждую возможную пару нормальных форм
сопоставляемых слов
.
Иногда при морфологическом анализе вместо нормальной формы
слова используют некоторый числовой идентификатор
(
так называе
-
мый
идентификатор лексемы
).
В качестве идентификатора может ис
-
пользоваться порядковый номер элемента морфологической таблицы
,
который описывает данное слово и все варианты его изменения
[9],
а
может использоваться специальная хэш
-
функция
.
Функция нормализации
,
считающая эквивалентными слова из од
-
ного словообразовательного ряда
,
может использовать в своей работе
словообразовательные словари
[9]
или работать приближенным мето
-
дом
.
Во втором случае у слова отсекается окончание и один или не
-
сколько суффиксов
.
Оставшаяся часть слова называется псевдоосновой
и используется в качестве нормальной формы
.
Для учета синонимических рядов необходимо использовать разного
рода тезаурусы
—
общей лексики или тематические
.
Если в процессе
нормализации слова в таких словарях найти не удалось
,
то выполняется
нормализация с точностью до словообразовательного ряда или приве
-
дение слова к нормальной форме
.
Так же
,
как и в предыдущих случаях
,
в ходе нормализации слову может быть приписано несколько нормаль
-
ных форм из
-
за омонимии
,
на этот раз
—
семантической
.
Разрешать
такую омонимию еще сложнее
,
чем в предыдущем случае
.
При нормализации словосочетаний можно учитывать их синтакси
-
ческую структуру
,
а можно ограничиться грубым методом
,
согласно ко
-
торому каждое из слов словосочетания нормализуется отдельно
,
а за
-
тем нормальные формы слов упорядочиваются по алфавиту
.
При этом
из словосочетания желательно сначала удалить предлоги
,
местоимения
и другие малоинформативные слова
.
Например
,
словосочетания
“
про
-
сторы морей
”, “
в море просторно
”
и
“
морские просторы
”
имеют одну
и ту же нормальную форму
“
мор простор
”.
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
№
4 75