Модели и методы автоматической классификации текстовых документов - page 9

сификации и
,
если окажется необходимым
,
находится новое правило
.
Эту процедуру можно повторять
,
пока не будет удовлетворен некото
-
рый критерий работы правила
.
Итерационные процедуры обучения можно строить на основе ней
-
ронных сетей
.
Итерационные модели удобнее для использования
,
тогда как ста
-
тические проще в реализации
.
В задачах анализа текстовой информа
-
ции
,
для которых разнообразие объектов
,
поступающих на вход систе
-
мы
,
очень велико
,
построение итерационного алгоритма распознава
-
ния образов
,
не обращающегося к обучающим выборкам предыдущих
итераций и пользующегося только текущим состоянием правила клас
-
сификации и текущей обучающей выборкой
,
крайне затруднительно
.
Следует также учитывать возможность наличия
(
и накопления
)
ошибок
в обучающей выборке
,
особенно если дерево рубрикатора большое
,
а
экспертов
,
формирующих выборку
,
много
.
Авторами настоящей работы предложен алгоритм распознавания
образов
,
использующий фиксированную выборку
.
В случае необходи
-
мости дополнительного обучения классификатора достаточно доба
-
вить в исходную обучающую выборку дополнительные документы и
повторить процедуру распознавания образов
.
Достоинством выбран
-
ного варианта является то
,
что специалисты
,
которые разрабатывают
рубрикатор и подбирают для него эталонные документы
,
всегда могут
проверить
,
имеются ли противоречия в составляемой ими обучающей
выборке
.
Алгоритм автоматического обучения классификатора
имеет сле
-
дующий вид
.
1.
Из документов выделяются термины
.
2.
Из всех терминов каждого из документов отбираются информа
-
тивные и определяется их значимость
(
важность
)
для данного докумен
-
та
.
Из документа выбираются
N
наиболее значимых терминов
(
N
значение некоторой функции от объема документа
).
3.
Строится индекс по терминам
.
Индекс содержит текст термина
(
нормальную форму и форму
,
пригодную для чтения
),
а также инфор
-
мацию о том
,
в каких документах встречается данный термин и сколько
раз
.
4.
Определяется значимость каждого термина относительно всей
базы
.
Эта величина вычисляется из значимости термина для каждого
из документов
,
в которых он встречается
,
статистики его распределе
-
ния по документам
,
морфологической информации
,
а также информа
-
ции о контексте
,
в котором встречается термин
.
Подробнее вычисление
значимости термина будет рассмотрено далее
.
72 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1,2,3,4,5,6,7,8 10,11,12,13,14,15,16,17,18,19,...31
Powered by FlippingBook