Модели и методы автоматической классификации текстовых документов - page 25

имеющие повышенную информативность
.
Примерами таких выраже
-
ний являются
итак
”, “
в качестве вывода следует отметить
”, “
други
-
ми словами
”.
При наличии в предложении индикатора ему присваи
-
вается дополнительный вес
,
который для различных индикаторов мо
-
жет иметь разное значение
.
Экспериментальная оценка представлен
-
ного в работе
[9]
метода показала
,
что для
70 %
текстов автоматически
сформированные квазирефераты были вполне удовлетворительного ка
-
чества
.
В работе
[7]
рассмотрена возможность установления синтаксиче
-
ских связей между предложениями на основе лексического повтора
.
Экспериментальным путем установлено
,
что при повторении суще
-
ствительного связь действительно существует в
92 %
случаев
.
Для при
-
лагательных и глаголов данный параметр равен соответственно
65 %
и
34 %.
Метод установления связей на основе лексического повтора
может быть использован в дополнение к методу коннекторов
.
В программном комплексе
Классификатор
используются оба ука
-
занных метода квазиреферирования
.
Вес терминов определяется на
основе следующих характеристик
:
числа появлений термина в тексте
(
чем больше появлений
,
тем
выше вес
);
распределения по автосемантичным и различным типам синсе
-
мантичных предложений
(
например
,
при прочих равных условиях тер
-
мин
,
входящий в пять автосемантичных предложений
,
имеет более вы
-
сокий вес по сравнению с термином
,
входящим в пять синсемантичных
предложений
);
количества связей между предложениями
,
образованных за счет
лексического повтора термина
(
чем больше связей
,
тем выше вес
);
при
этом следует учесть приведенные в работе
[7]
вероятностные характе
-
ристики образования связи при лексическом повторе в случае принад
-
лежности термина различным частям речи
;
в частности
,
при повторе
словосочетания вероятность образования связи выше аналогичной ве
-
роятности при повторе слов этого словосочетания
;
размеров связных фрагментов текста
,
содержащих термин
(
чем
больше средний размер
,
тем выше вес
);
под связным фрагментом по
-
нимается несколько последовательных предложений текста
,
первое из
которых автосемантичное
,
а остальные синсемантичные
,
причем свя
-
зи между предложениями установлены вследствие наличия не только
коннекторов
,
но и лексического повтора
;
наличия в предложении индикативного выражения
,
указываю
-
щего на его важность
(
если
,
например
,
в предложении содержится вы
-
ражение
в качестве вывода следует отметить
”,
то все термины этого
88 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,15,16,17,18,19,20,21,22,23,24 26,27,28,29,30,31
Powered by FlippingBook