Модели и методы автоматической классификации текстовых документов - page 13

Стоп
-
словари
.
Для повышения эффективности и уменьшения раз
-
мерности массивов терминов
,
обрабатываемых процедурой распозна
-
вания образов
,
выполняется фильтрация неинформативных терминов
по специальному списку
стоп
-
словарю
.
Примерами стоп
-
слов явля
-
ются слова
в
”, “
для
”, “
который
”.
Примером стоп
-
выражений является
словосочетание в
то же время
”.
На первом этапе анализа текстов до
-
кументов помечаются слова и выражения
,
присутствующие в указан
-
ном стоп
-
словаре
.
После подсчета значимостей предложений и их ста
-
тистического анализа помеченные слова из текста удаляются и на даль
-
нейших этапах процедуры выделения и анализа терминов не использу
-
ются
.
Выбор типа терминов и функции нормализации для классификато
-
ра текстов
.
Правильность выбора типа используемых в программе
терминов является одним из наиболее существенных факторов
,
влия
-
ющих на общую эффективность работы классификатора
.
Для каждого
из рассмотренных выше видов терминов и вариантов функции норма
-
лизации характерны ошибки
,
приводящие
,
в конечном итоге
,
к непра
-
вильным результатам классификации
.
Ошибки выделения и сопоставления терминов обычно условно раз
-
деляют на две категории
.
Термины
,
являющиеся семантически эквивалентными с точки зре
-
ния человека
,
имеют различающиеся машинные представления
(
нор
-
мальные формы
).
Данный вид ошибок влияет на полноту классифи
-
кации
.
Пусть
,
например
,
в семантическом образе рубрики
генетика
присутствует термин
хромосома
”,
а в семантическом образе анализи
-
руемого документа
термин
хромосомы
”.
Если указанные термины
имеют различающиеся нормальные формы
,
система решит
,
что в доку
-
менте термин
хромосома
отсутствует
,
а значит
,
сопоставление при
-
водит к ложному выводу о том
,
что документ не имеет ничего общего
с рубрикой
.
Термины
,
семантически различные с точки зрения человека
,
имеют
совпадающие нормальные формы
.
Данный вид ошибок влияет на точ
-
ность классификации
.
Примером такого рода ошибок может служить
вхождение в векторы
-
индексы слова
замок
”,
причем в семантическом
образе рубрики
архитектура
оно использовалось для обозначения со
-
оружения
,
а в документе
устройства для запирания дверей
.
Сопоста
-
вление векторов может привести к неправильному выводу о смысловой
близости документа и рубрики
.
Необходимо отметить
,
что оба типа ошибок успешно компенсиру
-
ются размерами обучающих выборок классификатора
.
Действительно
,
большой массив документов обучающей выборки для рубрики
генети
-
76 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,3,4,5,6,7,8,9,10,11,12 14,15,16,17,18,19,20,21,22,23,...31
Powered by FlippingBook