Модели и методы автоматической классификации текстовых документов - page 20

самая частотная форма словосочетания
;
частота словосочетания и входящих в него псевдооснов
;
вес сло
-
восочетания
.
Для каждой псевдоосновы приводятся следующие данные
:
псевдооснова
;
самая частотная словоформа псевдоосновы
;
частота псевдоосновы
;
вес псевдоосновы
.
10.
Выводится результирующий список
,
содержащий термины до
-
кумента
.
Методы определения значимости терминов
.
Качество решения
задачи определения значимости терминов влияет на общую эффектив
-
ность классифицирующей системы
.
Обзор методов определения весов
приведен в работе
[6].
Веса терминов можно определять на основе
различных характеристик
:
позиционных
,
учитывающих расположение
термина в документе
(
например
,
в заглавии
,
резюме
,
и т
.
д
.),
семан
-
тических
,
являющихся функцией отношений терминов к некоторым
другим словам
,
или прагматических
например
,
в такой системе
,
где
собственным именам придается очень большое значение
.
Кроме то
-
го
,
можно еще использовать веса
,
выводимые из частот терминов
,
или
веса
,
зависящие от лексических свойств терминов
.
Обычно при построении семантических образов рубрик использу
-
ются не все термины эталонных документов
,
а только те
,
смысловая
значимость
(
вес
)
которых выше некоторого порогового значения
,
что
позволяет сократить объем вычислений
.
В работе
[1]
характеристические множества терминов рубрик фор
-
мируются чисто статистическими методами
,
без всякого учета контек
-
ста и явлений словоизменения
,
синонимии и полисемии естественного
языка
.
Действительно
,
частотный анализ слов и анализ их совместной
встречаемости позволяют скомпенсировать отсутствие этого учета
,
од
-
нако из экспериментов следует
,
что показатели эффективности систем
,
основанных только на статистических методах
,
оказываются низкими
,
что приводит к необходимости значительного увеличения объемов ис
-
пользуемых обучающих выборок
.
Данный вывод подтверждается в ра
-
боте
[3].
В программе
Классификатор
” [10, 11],
разработанной одним из ав
-
торов настоящей работы
,
учитываются некоторые из перечисленных
выше характеристик
.
В ней ранги
W
i
терминов
t
i
,
можно представить
в виде комбинации следующих составляющих
:
W
i
=
CW
a
lex
i
W
b
cont
i
W
c
stat
i
,
(1)
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 83
1...,10,11,12,13,14,15,16,17,18,19 21,22,23,24,25,26,27,28,29,30,...31
Powered by FlippingBook