После этого программа классификации готова к работе
,
однако ино
-
гда могут потребоваться коррекция и тонкая настройка семантических
образов рубрик
.
Автоматическая классификация
.
В задаче классификации тек
-
стовых документов объектами являются текстовые документы
,
а клас
-
сами
—
рубрики
(
тематики
),
к которым эти документы относятся
.
Ру
-
брики организованы иерархически
,
т
.
е
.
рубрика
“
Автомобили
”
может
содержать рубрики с документами более узкой тематики
,
например
“
Легковые автомобили
”, “
Грузовые автомобили
”.
Глубина вложенно
-
сти иерархии не ограничивается
,
в последней из перечисленных ру
-
брик может иметься подрубрика
“
Грузовые автомобили повышенной
проходимости
” (
см
.
рис
. 1).
Особенности задачи классификации текстов
.
Задача классифика
-
ции текстовых документов имеет две особенности
,
которые отличают
ее от классических задач распознавания
,
в которых классы объектов
,
как правило
,
не пересекаются
.
Во
-
первых
,
документы
,
принадлежащие рубрике
,
косвенно принад
-
лежат также всей цепочке родительских рубрик иерархии
.
Например
,
документ
,
относящийся к рубрике
“
Легковые автомобили
”,
неявно от
-
носится к более общей рубрике
“
Автомобили
”.
Во
-
вторых
,
объекты
(
текстовые документы
)
могут быть одновре
-
менно отнесены к нескольким классам
,
расположенным в разных ме
-
стах иерархии
.
Например
,
документ
,
описывающий особенности тех
-
нологии сварки автомобильных кузовов
,
может быть одновременно от
-
несен к рубрикам
“
Легковые автомобили
”
и
“
Технологии машиностро
-
ения
—
сварка
”.
К программам
,
выполняющим классификацию
,
предъявляют следу
-
ющие требования
:
—
результат классификации не должен зависеть от порядка обра
-
ботки документов
;
—
классификация должна быть устойчивой
,
незначительные изме
-
нения данных должны вызывать лишь незначительные изменения ре
-
зультатов классификации
.
Параллельные и последовательные методы классификации
.
Суще
-
ствуют два общих метода классификации
:
параллельный и последова
-
тельный
[1, 2].
Предположим
,
что можно описать объект при помощи
некоторого вектора
.
При параллельной классификации производится
ряд тестов для всех компонент вектора
,
а затем делается предположе
-
ние о соответствии объекта классу на основе объединенного результата
этих тестов
.
68 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
№
4