Модели и методы автоматической классификации текстовых документов - page 19

При определении частоты словосочетания учитывается признак
вхождения словосочетания в начало файла
.
Однако при определении
самой частотной формы словосочетания этот признак не учитывается
.
В результате получаем частотный список словосочетаний
,
в кото
-
ром каждый элемент включает следующие составляющие
:
совокупность псевдооснов словосочетания
;
частота словосочетания
;
самая частотная форма словосочетания
.
Например
,
после сортировки имеем следующий фрагмент области
словосочетаний
:
частот словосоч
частоты словосочетания
частот словосоч
частота словосочетания
частот словосоч
частота словосочетания
частот словосоч
частотой словосочетания
частот словосоч
частоты словосочетания
частот словосоч
частота словосочетания
Здесь звездочкой обозначен признак вхождения словосочетания в
начальную часть файла
.
Предположим
,
что
nHeaderPhraseMultiply
= 3
.
Тогда приведенный
выше фрагмент преобразуется в следующий
:
частот словосоч
8
частота словосочетания
Из полученного списка удаляем информацию о словосочетаниях
,
частота которых меньше некоторой минимально допустимой частоты
.
8.
Определяем веса словосочетаний
.
8.1.
Определяются частоты псевдооснов словосочетания
.
Для ка
-
ждой псевдоосновы словосочетания из частотного списка псевдооснов
определяется ее частота появления в тексте
.
8.2.
Определяется первая составляющая веса словосочетания по
формуле
W
1
=
N
N
m
;
здесь
N
частота словосочетания
;
N
m
минимальная из частот псев
-
дооснов словосочетания
.
8.3.
Определяется вес словосочетания по формуле
W
=
W
C
2
1
N
C
3
M
C
4
;
здесь
M
число слов словосочетания
;
C
2
,
C
3
,
C
4
некоторые кон
-
станты
(
числа в диапазоне
0
. . .
1
).
9.
Сортируются псевдоосновы и словосочетания по убыванию веса
.
Для каждого словосочетания приводятся следующие данные
:
псевдоосновы слов словосочетания
;
82 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,9,10,11,12,13,14,15,16,17,18 20,21,22,23,24,25,26,27,28,29,...31
Powered by FlippingBook