Модели и методы автоматической классификации текстовых документов - page 6

При последовательной классификации сначала проверяется некото
-
рое подмножество компонент вектора описания
,
а затем в зависимости
от результатов этих тестов либо производится классификация
,
либо вы
-
бирается новая совокупность тестов и новое подмножество компонент
вектора описания
,
после чего указанный процесс повторяется
.
Если задано некоторое множество тестов
,
то для выполнения после
-
довательных процедур решения
,
вообще говоря
,
потребуется меньше
тестов
,
чем для эквивалентной параллельной процедуры
,
а значит
,
бу
-
дет израсходовано меньше вычислительных ресурсов
.
Существенный
недостаток последовательной процедуры решения состоит в том
,
что
она подвержена ошибкам в случае ненадежности отдельных тестов
.
Обычно последовательными схемами пользуются при наличии неко
-
торых признаков
,
которые позволяют на ранних этапах работы проце
-
дуры существенно сократить множество возможных вариантов класси
-
фикации
.
Классификаторы текстовой информации обычно используют парал
-
лельные процедуры
,
так как семантические образы всех рубрик имеют
примерно одинаковый приоритет
.
Наличие или отсутствие в докумен
-
те терминов
,
содержащихся в семантическом образе одной рубрики
,
не
позволяет сделать предположение о наличии или отсутствии в этом до
-
кументе терминов
,
соответствующих другим рубрикам
.
Следователь
-
но
,
окончательный вывод о рубриках
,
которым соответствует документ
,
можно сделать только после его сопоставления с семантическим обра
-
зом каждой рубрики
.
Для того чтобы ускорить процедуру классификации
,
можно учесть
свойство иерархичности рубрикаторов
.
Действительно
,
если документ
не соответствует
,
например
,
рубрике
Автомобили
”,
то он
,
скорее всего
,
не будет соответствовать подрубрике
Легковые автомобили
”.
При уче
-
те иерархичности алгоритм является последовательно
-
параллельным
:
он последовательно спускается вниз по дереву рубрик
,
параллельно со
-
поставляя документ со всеми рубриками текущего уровня иерархии
.
Алгоритм классификации имеет следующий вид
:
1)
формируется семантический образ анализируемого документа
:
выделяются все термины
,
из них отбираются информативные и опре
-
деляется их значимость для данного документа
;
2)
выполняется для корневой рубрики шаг
3);
3)
для каждой рубрики текущего уровня иерархии семантический
образ документа сопоставляется с семантическим образом данной ру
-
брики и вычисляется мера подобия
(
числовая величина в диапазоне от
0
до
1,
причем
0
означает
,
что семантические образы абсолютно не пе
-
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 69
1,2,3,4,5 7,8,9,10,11,12,13,14,15,16,...31
Powered by FlippingBook