Модели и методы автоматической классификации текстовых документов - page 28

гались предложения считать значимость для нечастых терминов более
высокой
.
Вторая группа методов базируется на определении соотношения
сигнал
/
шум по аналогии с теорией передачи информации Шеннона
.
Для набора из
n
документов шум
N
k
термина
t
k
выражается следую
-
щим образом
:
N
k
=
n
X
i
=1
f
ki
F
k
log
2
F
k
f
ki
,
а сигнал
S
k
определяется формулой
S
k
= log
2
(
F
k
)
N
k
.
Шум находится в обратной зависимости от частоты употребления
термина в наборе документов
.
Для равномерных распределений
,
когда
термин встречается одинаковое число раз в каждом документе набо
-
ра
,
шум принимает максимальное значение
.
Например
,
если термин
t
k
встречается один раз в каждом документе
(
f
ki
= 1
для всех
i
),
то
N
k
= log
2
n
,
S
k
= 0
.
Использование в качестве веса термина отноше
-
ния
S
k
/N
k
позволяет достигать неплохих результатов при определении
значимости
.
Третий класс методов основан на определении величины
σ
2
k
распре
-
деления частоты термина
.
Если
f
k
средняя частота термина
t
k
в
n
документах
,
то несмещенная выборочная оценка среднеквадратичного
уклонения определяется следующим образом
:
σ
2
k
=
n
X
i
=1
(
f
ki
f
k
)
2
n
1
.
Тогда параметром
,
с помощью которого можно оценивать пригодность
некоторого термина
,
служит отношение
F
k
σ
2
k
/f
k
.
Если термин имеет
близкое к равномерному распределение
,
т
.
е
.
если все
f
ki
имеют оди
-
наковый порядок
,
то
σ
2
k
мало
,
и это показывает
,
что термин не очень
полезен
.
С другой стороны
,
если термин
t
k
редок и встречается толь
-
ко в нескольких документах
,
большая часть частот
f
nk
равна нулю и
σ
2
k
мало
.
Наибольшие значения уклонения имеют термины с асимме
-
тричным распределением и средним значением частоты появления в
документах
.
Как было обнаружено на практике
,
полезными характеристика
-
ми обладают также параметры
,
основанные на способности термина
различать документы набора
.
Рассмотрим некоторый набор докумен
-
тов и вычислим среднее значение некоторого коэффициента подобия
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 91
1...,18,19,20,21,22,23,24,25,26,27 29,30,31
Powered by FlippingBook