связано с повышенным интересом именно зарубежных исследовате-
лей к данной теме. Наиболее популярной является серия конференций
MUC (Message Understanding Conference), проводимая при поддержке
DARPA (Defense Advanced Research Projects Agency) в целях совер-
шенствования методов компьютерной разведки. В связи с этим боль-
шинство существующих моделей извлечения и методов их обучения
ориентированы на языки западной Европы (в первую очередь, на ан-
глийский), а также на некоторые восточные.
Именно поэтому, в настоящей работе была поставлена цель — раз-
работать метод обучения предложенной ранее модели извлечения [9–
11], обеспечивающей извлечение знаний из неструктурированных тек-
стов и учитывающей особенности русского языка. Для обеспечения
практической применимости при разработке метода обучения было
отдано предпочтение обобщающей стратегии “снизу вверх”, но для
повышения полноты обученной модели предложена ее модификация.
Представление знаний и текста.
В задачах извлечения знаний
текст рассматривается как последовательность сегментов. Минималь-
ными элементами сегмента являются слова, представляющие собой
последовательности символов алфавита естественного языка, а также
знаки препинания. Данная модель текста представима в виде алгебра-
ической системы вида
TM
=
< T, W, t
∅
,
•
>,
(1)
где
T
— множество текстовых сегментов;
W
— множество слов;
t
∅
—
пустой текстовый сегмент;
•
— операция сцепления на
T
. В модели
текста определены следующие свойства:
1.
∀
w
∈
W
⇒
w
∈
T
— каждое слово является текстовым сегмен-
том;
2.
∀
t
1
∈
T
∧ ∀
t
2
∈
T
∃
!
t
=
t
1
•
t
2
∧
t
∈
T
— операция сцепления
позволяет из произвольной пары текстовых сегментов сформировать
новый текстовый сегмент;
3.
t
∅
∈
T
∧ ∀
t
∈
T
⇒
t
=
t
∅
•
t
∧
t
=
t
•
t
∅
— пустой текстовый
сегмент является нейтральным элементом по отношению к операции
сцепления;
4.
t
1
, t
2
∈
T
∧
t
1
=
t
∅
∧
t
2
=
t
∅
⇒
t
1
•
t
2
=
t
2
•
t
1
— некоммутативность
операции сцепления.
На основе приведенных свойств модели можно сделать следующие
выводы:
1.
∀
t
∈
T
⇒
t
=
w
1
•
. . .
•
w
n
:
w
i
∈
W
∧
w
i
∈
t
— любой текстовый
сегмент может быть представлен в виде сцепления слов;
2. Поскольку слова являются неделимыми сегментами, то удобно
измерять длину сегментов в словах, далее длину сегмента
t
будем
обозначать
N
t
;
78 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3