Модели и методы автоматической классификации текстовых документов - page 23

где
h
количество омонимов термина
;
с
настроечный коэффици
-
ент
,
принятый равным
0,7.
Итак
,
на основании представленных рассуждений выбран следую
-
щий алгоритм определения показателей собственной значимости тер
-
минов
.
1.
Для каждого слова
s
i
термина
t
i
выполняются шаги
2—4.
2.
Выполняется морфологический анализ слова
s
i
.
Если оно извест
-
но библиотеке машинной морфологии
MLMA,
выполняется шаг
3,
ина
-
че
шаг
4.
3.
Для каждого из омонимов слова
s
i
определяется принадлежность
к классам слов из таблицы
2.
Определяется среднее значение вероятно
-
сти наличия синонимии для всех омонимов
.
Выполняется шаг
2.
4.
Выполняется приближенная оценка вероятностей принадлежно
-
сти к категориям из таблицы
2
методом
,
описанным в работах
[4, 7].
Выбирается класс
,
вероятность принадлежности слова
s
i
к которому
максимальна
,
и из таблицы извлекается соответствующее значение ве
-
роятности наличия синонимии
.
Выполняется шаг
2.
5.
Вычисляется величина
P
1
по формуле
(3).
6.
Если термин
t
i
состоит из одного слова и морфологизован на шаге
2,
то определяется значение величины
P
2
по формуле
(4),
иначе прини
-
мается
P
2
= 0
.
7.
Вычисляется значимость
W
lex
термина
t
i
по формуле
(2).
Определение контекстной значимости терминов
.
Контекстную
значимость
W
cont
i
определим как функцию от значимостей каждого
вхождения
τ
ik
термина
t
i
в текст документа
.
Часто используется следу
-
ющий метод суммирования оценок значимости
:
W
12
= max
¡
w
i
1
, w
i
2
,
1
(1
w
i
1
)
γ
(1
w
i
2
)
γ
¢
,
W
123
= max
¡
w
i
2
, w
i
3
,
1
(1
w
12
)
γ
(1
w
13
)
γ
¢
,
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
W
cont
i
= max
¡
w
i
1
...n
1
, w
in
,
1
(1
w
12
...n
1
)
γ
(1
w
in
)
γ
¢
,
(
5
)
где
w
ik
значимость
k
-
го появления термина
t
i
,
0
w
ik
1
;
n
количество вхождений термина в документ
;
γ
настроечный коэффи
-
циент в диапазоне
0
,
5
. . .
1
,
определяемый на этапе наладки программы
(
начальное значение
γ
= 0
,
7
).
Малые значения параметра
γ
приводят
к тому
,
что на величину
W
cont
i
влияют только наиболее значимые со
-
ставляющие
,
тогда как большие значения параметра
γ
к тому
,
что
рассматривается большое количество вхождений
.
Величины
w
ik
определяются на основе значимостей предложений
текстов документов методами квазиреферирования текстов
.
86 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,13,14,15,16,17,18,19,20,21,22 24,25,26,27,28,29,30,31
Powered by FlippingBook