Модели и методы автоматической классификации текстовых документов - page 8

Для того чтобы система классификации эффективно решала поста
-
вленную перед ней задачу
,
множество текстовых документов и множе
-
ство тематик должны удовлетворять следующим требованиям
:
тематика рубрик и основное содержание документов должно
быть представимо в виде набора ключевых слов
,
словосочетаний и
фраз
;
к документам и рубрикам должен быть применим метод оценки
смысловой близости между ними
,
основанный на сопоставлении со
-
держащихся в них слов и словосочетаний
.
Очевидно
,
что для большинства объектов в задачах классификации
текстов
(
новости
,
документы
,
полученные из сети
Internet,
электронные
письма
)
эти требования выполняются
[3, 4].
Напротив
,
для текстовых полей баз данных
,
содержащих формаль
-
ные текстовые признаки
,
а также для
сборных
документов
(
прейску
-
рантов
,
списков фамилий депутатов и т
.
п
.)
указанные требования не вы
-
полняются
.
Автоматическая классификация таких документов потре
-
бует дополнительной настройки программы или даже переделки всего
алгоритма
.
Автоматическое обучение классификатора
.
Как было указано
выше
,
составление семантических образов вручную для большого де
-
рева рубрик крайне затруднительно
.
Поэтому такая процедура должна
быть автоматизирована
.
Процедуры
,
которые на основе предъявленных им образцов объ
-
ектов составляют множества признаков каждого из классов объектов
,
называют процедурами распознавания образов
.
Различают процедуры
,
основанные на фиксированной выборке
,
и процедуры
,
основанные на
последовательной выборке
[5].
В случае фиксированной выборки несколько объектов для каждого
из известных классов предъявляются системе распознавания до нача
-
ла классификации
.
На основе этой выборки процедура распознавания
вырабатывает правило классификации
,
применяемое затем к объектам
,
которые предопределяются указанной выборкой
,
но в ней не содержат
-
ся
.
Правило классификации далее не изменяется
,
даже когда происхо
-
дят ошибки классификации
.
При распознавании образов
,
использующем последовательную вы
-
борку
,
информация
,
получаемая из первоначальной выборки
,
являет
-
ся лишь предварительной
,
и она учитывается при построении соответ
-
ствующего первоначального правила классификации
.
После выработ
-
ки правила рассматривается следующая выборка
,
к которой применяет
-
ся имеющееся правило классификации
(
часто результат новой класси
-
фикации состоит лишь из одного объекта
).
Оценивается результат клас
-
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 71
1,2,3,4,5,6,7 9,10,11,12,13,14,15,16,17,18,...31
Powered by FlippingBook