Модели и методы автоматической классификации текстовых документов - page 9

сификации и

если окажется необходимым

находится новое правило

Эту процедуру можно повторять

пока не будет удовлетворен некото

рый критерий работы правила

Итерационные процедуры обучения можно строить на основе ней

ронных сетей

Итерационные модели удобнее для использования

тогда как ста

тические проще в реализации

В задачах анализа текстовой информа

ции

для которых разнообразие объектов

поступающих на вход систе

мы

очень велико

построение итерационного алгоритма распознава

ния образов

не обращающегося к обучающим выборкам предыдущих

итераций и пользующегося только текущим состоянием правила клас

сификации и текущей обучающей выборкой

крайне затруднительно

Следует также учитывать возможность наличия

(

и накопления

)

ошибок

в обучающей выборке

особенно если дерево рубрикатора большое

экспертов

формирующих выборку

много

Авторами настоящей работы предложен алгоритм распознавания

образов

использующий фиксированную выборку

В случае необходи

мости дополнительного обучения классификатора достаточно доба

вить в исходную обучающую выборку дополнительные документы и

повторить процедуру распознавания образов

Достоинством выбран

ного варианта является то

что специалисты

которые разрабатывают

рубрикатор и подбирают для него эталонные документы

всегда могут

проверить

имеются ли противоречия в составляемой ими обучающей

выборке

Алгоритм автоматического обучения классификатора

имеет сле

дующий вид

Из документов выделяются термины

Из всех терминов каждого из документов отбираются информа

тивные и определяется их значимость

(

важность

)

для данного докумен

та

Из документа выбираются

наиболее значимых терминов

(

—

значение некоторой функции от объема документа

Строится индекс по терминам

Индекс содержит текст термина

(

нормальную форму и форму

пригодную для чтения

а также инфор

мацию о том

в каких документах встречается данный термин и сколько

раз

Определяется значимость каждого термина относительно всей

базы

Эта величина вычисляется из значимости термина для каждого

из документов

в которых он встречается

статистики его распределе

ния по документам

морфологической информации

а также информа

ции о контексте

в котором встречается термин

Подробнее вычисление

значимости термина будет рассмотрено далее

72 ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5,6,7,8 10,11,12,13,14,15,16,17,18,19,...31