Модели и методы автоматической классификации текстовых документов - page 21

где
W
lex
i
собственная
(
лексическая
)
значимость термина
t
i
,
которая
зависит только от самого термина
;
W
cont
i
контекстная значимость
термина
t
i
,
зависящая от информативности фрагментов текста
,
в кото
-
рых он употребляется
;
W
stat
i
статистическая значимость термина
t
i
,
зависящая от характеристик его распределения в документах
;
a, b, c
некоторые константы
,
характеризующие значимость каждого из факто
-
ров и определяемые экспериментально
;
С
нормирующий коэффи
-
циент
.
Далее рассмотрим методы подсчета перечисленных составляющих
значимостей
.
Определение собственной значимости терминов
.
Собственную
значимость термина
t
i
определим как произведение двух составля
-
ющих
,
первая из которых определяется вероятностью ошибок первого
рода
(
потери полноты
),
а вторая
вероятностью ошибок второго рода
(
потери точности
):
W
lex
= (1
P
1
)
d
(1
P
2
)
e
,
(2)
где
d, e
некоторые константы
,
определяемые экспериментально
.
Вероятность
P
1
зависит от количества терминов естественного язы
-
ка
,
синонимичных данному
,
а вероятность
P
2
от количества его соб
-
ственных смысловых значений
.
Для оценки обеих составляющих мож
-
но использовать поиск термина
t
i
практически в любых словарях соот
-
ветствующего естественного языка
(
толковом
,
словообразовательном
,
словаре перевода на другой язык и т
.
д
.).
Вторую составляющую опреде
-
ляют на основе количества словарных статей
,
где термин присутствует
в заглавии
,
а первую
на основе количества статей
,
где термин при
-
сутствует в остальном тексте статьи
(
толковании
,
переводе и т
.
п
.).
Однако использование данного метода связано с большими затра
-
тами ресурсов
.
Вместо этого метода в программном комплексе
Клас
-
сификатор
используется метод
,
в котором оценка обеих составляющих
W
lex
производится на основе морфологических характеристик слов тер
-
минов при помощи библиотеки морфологического анализа слов рус
-
ского и английского языков
MLMA.
Вероятность ошибки первого ро
-
да
(
вероятность синонимии
)
может определяться как функция от части
речи
(
признака отглагольности
) [4].
Действительно
,
существительное
стол
почти не имеет синонимов
,
в отличие от глагола
ездить
”.
В
работе
[4]
средние значения вероятности наличия синонимии для от
-
дельных слов экспериментально оценены для различных частей речи и
представлены в виде табл
. 2.
84 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,11,12,13,14,15,16,17,18,19,20 22,23,24,25,26,27,28,29,30,...31
Powered by FlippingBook