Модели и методы автоматической классификации текстовых документов - page 6

При последовательной классификации сначала проверяется некото

рое подмножество компонент вектора описания

а затем в зависимости

от результатов этих тестов либо производится классификация

либо вы

бирается новая совокупность тестов и новое подмножество компонент

вектора описания

после чего указанный процесс повторяется

Если задано некоторое множество тестов

то для выполнения после

довательных процедур решения

вообще говоря

потребуется меньше

тестов

чем для эквивалентной параллельной процедуры

а значит

бу

дет израсходовано меньше вычислительных ресурсов

Существенный

недостаток последовательной процедуры решения состоит в том

что

она подвержена ошибкам в случае ненадежности отдельных тестов

Обычно последовательными схемами пользуются при наличии неко

торых признаков

которые позволяют на ранних этапах работы проце

дуры существенно сократить множество возможных вариантов класси

фикации

Классификаторы текстовой информации обычно используют парал

лельные процедуры

так как семантические образы всех рубрик имеют

примерно одинаковый приоритет

Наличие или отсутствие в докумен

те терминов

содержащихся в семантическом образе одной рубрики

не

позволяет сделать предположение о наличии или отсутствии в этом до

кументе терминов

соответствующих другим рубрикам

Следователь

но

окончательный вывод о рубриках

которым соответствует документ

можно сделать только после его сопоставления с семантическим обра

зом каждой рубрики

Для того чтобы ускорить процедуру классификации

можно учесть

свойство иерархичности рубрикаторов

Действительно

если документ

не соответствует

например

рубрике

“

Автомобили

”,

то он

скорее всего

не будет соответствовать подрубрике

“

Легковые автомобили

”.

При уче

те иерархичности алгоритм является последовательно

параллельным

он последовательно спускается вниз по дереву рубрик

параллельно со

поставляя документ со всеми рубриками текущего уровня иерархии

Алгоритм классификации имеет следующий вид

формируется семантический образ анализируемого документа

выделяются все термины

из них отбираются информативные и опре

деляется их значимость для данного документа

;

выполняется для корневой рубрики шаг

3);

для каждой рубрики текущего уровня иерархии семантический

образ документа сопоставляется с семантическим образом данной ру

брики и вычисляется мера подобия

(

числовая величина в диапазоне от

до

причем

означает

что семантические образы абсолютно не пе

ISSN 0236-3933.

Вестник МГТУ им

Баумана

Сер

. “

Приборостроение

”. 2003.

№

4 69

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5 7,8,9,10,11,12,13,14,15,16,...31