Модели и методы автоматической классификации текстовых документов - page 22

Таблица
2
Средние вероятности синонимии для разных
частей речи русского языка
Часть речи
Вероятности синонимии
Глаголы
0,45
Неотглагольные су
-
ществительные
0,05
Отглагольные
существительные
0,21
Прилагательные
0,06
При замене синонимом любого из слов вероятность наличия сино
-
нимии в термине
,
состоящем из нескольких слов
,
определим следую
-
щим образом
:
P
1
=
z
n
1
1
µ
1
n
Y
i
=1
(1
p
i
)
,
(3)
где
n
количество слов в термине
;
p
i
вероятность наличия синони
-
мии для
i
-
го слова термина
;
z
1
поправочный коэффициент
,
учитыва
-
ющий возможность сочетания синонимов слов термина
.
Вклад величины
z
1
в значение выражения
(3)
проиллюстриру
-
ем следующим примером
:
рассмотрим термин
грустный праздник
”.
Слово
грустный
имеет синонимы
мрачный
”, “
тоскливый
”.
Слово
праздник
имеет синонимы
выходной
”, “
красный день календаря
”.
Видно
,
что словосочетания
мрачный выходной
и
тоскливый вы
-
ходной
являются возможными альтернативами исходному термину
,
а словосочетания
грустный красный день календаря
и
тоскливый
красный день календаря
”,
скорее всего
,
в документах выделены не бу
-
дут
.
В данном случае
z
1
= 0
,
66
.
Экспериментально установлено
,
что
формула
(3)
позволяет получить удовлетворительные результаты при
z
1
= 0
,
7
.
Вероятность ошибок второго рода для терминов
,
состоящих из од
-
ного слова
,
можно грубо оценить при использовании морфологическо
-
го словаря
,
подсчитав количество омонимов термина
.
Например
,
слово
стол
имеет один омоним
,
а слово
устав
” —
два
.
Вероятность ошибок
второго рода для терминов
,
состоящих из нескольких слов
,
практиче
-
ски равна нулю
.
Формула для вычисления вероятности
P
2
для одно
-
словного термина имеет вид
P
2
= 1
c
h
1
,
(4)
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 85
1...,12,13,14,15,16,17,18,19,20,21 23,24,25,26,27,28,29,30,31
Powered by FlippingBook