Модели и методы автоматической классификации текстовых документов - page 24

В работе
[9]
описан метод автоматического квазиреферирования
,
обладающий следующими основными особенностями
:
предложения текста делятся на автосемантичные
(
не связанные
с другими предложениями
)
и синсемантичные
(
связанные с другими
предложениями
);
автосемантичные предложения более информативны
,
чем синсе
-
мантичные
,
поэтому в первом приближении квазиреферат может быть
составлен из всех автосемантичных предложений текста
;
текст разбивается на группы предложений
,
первое из которых авто
-
семантичное
,
а остальные синсемантичные
,
причем первое синсеман
-
тичное предложение связано с автосемантичным предложением
,
вто
-
рое синсемантичное предложение связано с первым синсемантичным
предложением и т
.
д
.;
формальным признаком синсемантичности предложения являет
-
ся наличие в нем коннектора
.
Коннекторы делятся на безоценочные и оценочные
,
или логико
-
смысловые
[9].
Коннекторы бывают истинные и ложные
.
Рассмо
-
трим предложение
: “
В частности
,
недостаточно подробно освещен
вопрос
. . . ”.
В данном случае
в частности
является индикатором
наличия связи между предложениями и поэтому является истинным
коннектором
.
С другой стороны
,
словосочетание
в частности
для
предложения
Не следует вдаваться в частности
является ложным
коннектором
.
Для различения истинных и ложных коннекторов соста
-
вляются специальные правила
,
учитывающие контекстное окружение
предполагаемых коннекторов
.
Коннектор может быть словом
(however,
однако
),
словосочетанием
(on the other hand,
с другой стороны
).
Кон
-
некторы разбиваются на группы
,
выражающие различные отношения
между связанными предложениями
:
итог
,
противопоставление
,
след
-
ствие и т
.
д
.
Синсемантичные предложения
,
содержащие коннекторы
разных групп
,
при прочих равных условиях имеют разные веса
.
Другие подходы к автоматическому квазиреферированию предпо
-
лагают использование дополнительных маркерно
-
индикаторных меха
-
низмов
[6, 12].
Под маркерами понимаются слова и выражения
,
указы
-
вающие на различные структурные части реферируемого текста
.
На
-
пример
,
в случае научной статьи сочетание слов
является актуальным
указывает на принадлежность предложения к структурной части
по
-
становка проблемы
”.
В соответствии с принятым решением о принад
-
лежности предложения к некоторой структурной части ему присваи
-
вается некоторый дополнительный вес
,
который для различных струк
-
турных частей принимает разное значение
.
Под индикаторами понима
-
ются слова и выражения
,
которыми в тексте выделяются предложения
,
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 87
1...,14,15,16,17,18,19,20,21,22,23 25,26,27,28,29,30,31
Powered by FlippingBook