Модели и методы автоматической классификации текстовых документов - page 14

ка
скорее всего содержит слово
хромосома
во всех формах
,
а накоп
-
ление в семантических образах рубрик большого количества терминов
существенно уменьшает вероятность ложных срабатываний програм
-
мы из
-
за ошибок второго рода
.
В ходе тестирования разработанного авторами настоящей работы
программного комплекса была проведена оценка общей эффективно
-
сти классификации
,
основанной на использовании пяти способов вы
-
деления и нормализации терминов
.
Для этого было последовательно
проведено обучение классификатора тремя выборками
,
причем после
каждого сеанса обучения оценивались показатели полноты
w
(
D
)
и точ
-
ности
u
(
D
)
работы классификатора
.
Обучающие множества состояли
из
125, 295
и
450
документов соответственно
,
причем вторая выборка
включала первую
,
а третья
вторую
.
Во всех трех случаях для клас
-
сификации использовалась одна и та же база объемом
350
документов
.
Результаты приведены в табл
. 1.
Рассмотрим указанные в таблице типы терминов
.
Таблица
1
Результаты экспериментальной оценки эффективности использования
различных видов терминов
Тип терминов
Выборка
1 (125
документов
)
Выборка
2 (295
документов
)
Выборка
3 (450
документов
)
w
(
D
)
u
(
D
)
w
(
D
)
u
(
D
)
w
(
D
)
u
(
D
)
Словоформы
0,05 0,23 0,12 0,35 0,32 0,40
Лексемы
0,20 0,36 0,39 0,69 0,45 0,74
Псевдоосновы
0,22 0,59 0,60 0,62 0,79 0,65
Словосочетания
(
синтаксиче
-
ский
a
нализ
)
0,18 0,75 0,56 0,82 0,71 0,91
Словосочетания
(
приближенный
метод
)
0,23 0,70 0,63 0,75 0,78 0,83
Словоформы
.
В качестве терминов использовались отдельные сло
-
ва
,
извлеченные из текста
,
без дополнительной обработки
.
Данный ва
-
риант приводит к крайне низкой полноте классификации при невысо
-
ких показателях точности
.
Малая точность объясняется тем
,
что про
-
цедура распознавания образов считает непохожими документы
,
содер
-
жащие разные формы одного и того же слова
.
Лексемы
.
В качестве терминов использовались отдельные слова
,
причем каждое из них приводилось к нормальной форме
(
единствен
-
ное число
,
именительный падеж и т
.
д
.).
Например
,
для слова
людей
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 77
1...,4,5,6,7,8,9,10,11,12,13 15,16,17,18,19,20,21,22,23,24,...31
Powered by FlippingBook