Модели и методы автоматической классификации текстовых документов - page 27

где
n
количество повторяющихся слов
;
p
i
коэффициент
,
завися
-
щий от части речи повторяемого слова
(
вероятность отсутствия смы
-
словой связи при лексическом повторе данного типа слов
).
6.
Все предложения
s
i
с вероятностью
L
i
> C
l
min
(
C
l
min
= 0
,
5)
по
-
лагаются синсемантичными
,
остальные
автосемантичными
.
7.
Для каждого вхождения
t
ij
всех терминов
t
i
вычисляется
w
ij
по
формуле
w
ij
=
P
s
k
(1
L
k
)
1
/
3
c
1
c
2
N
j
+ 1
c
2
N
j
,
(9)
где
N
j
число предложений в связном фрагменте текста
,
содержащем
данное вхождение термина
t
ij
(
под связным фрагментом понимается
несколько последовательных предложений текста
,
первое из которых
автосемантичное
,
а остальные синсемантичные
);
k
номер предло
-
жения
,
в котором содержится
t
ij
;
с
1
,
с
2
настроечные коэффициенты
,
с
1
= 0
,
43
,
с
2
= 3
.
8.
Для всех терминов
t
i
вычисляется
W
cont
i
по формуле
(5).
Определение статистической значимости терминов
.
Распределе
-
ние частот появлений терминов по документам и характеристики их
совместной встречаемости позволяют сделать выводы об их информа
-
тивности
.
Например
,
термины
,
которые присутствуют почти во всех до
-
кументах с большой частотой
,
скорее всего не могут служить призна
-
ками тематики
.
Эксперимент показывает
,
что такими характеристика
-
ми обладают термины общей лексики
: “
почти
”, “
больший
”, “
меньший
и т
.
д
.
В работе
[6]
описаны несколько базовых методов определения ста
-
тистической значимости
.
При использовании метода частотных мер анализируют частоты
f
nk
появлений термина
t
n
в документе
d
k
,
суммарные частоты появлений
этого термина в наборе
F
k
и т
.
д
.
Часто предполагают
,
что термины
,
имеющие высокую частоту появления
,
не являются специфическими
,
но все же они могут дать большое число возможных совпадений при
сравнении терминов рубрики и документа
,
обеспечивая
,
таким обра
-
зом
,
классификацию многих релевантных документов
(
т
.
е
.
увеличивая
полноту
).
Термины
,
имеющие низкую частоту появления
,
дают очень
небольшое число совпадений
,
но если такие термины попали в список
признаков рубрики и были найдены в обрабатываемых документах
,
то
это почти наверняка говорит о релевантности соответствующего доку
-
мента рубрике
.
Существует интуитивное предположение
,
что наилучшими индек
-
сационными терминами
,
т
.
е
.
терминами
,
наиболее ценными для пред
-
ставления содержания документа
,
являются термины
,
не слишком ред
-
кие и не слишком частые
.
Поскольку
,
однако
,
удаление терминов
,
име
-
ющих высокую частоту появления
,
может повлиять на полноту
,
выдви
-
90 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,17,18,19,20,21,22,23,24,25,26 28,29,30,31
Powered by FlippingBook