Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 4

связано с повышенным интересом именно зарубежных исследовате-
лей к данной теме. Наиболее популярной является серия конференций
MUC (Message Understanding Conference), проводимая при поддержке
DARPA (Defense Advanced Research Projects Agency) в целях совер-
шенствования методов компьютерной разведки. В связи с этим боль-
шинство существующих моделей извлечения и методов их обучения
ориентированы на языки западной Европы (в первую очередь, на ан-
глийский), а также на некоторые восточные.
Именно поэтому, в настоящей работе была поставлена цель — раз-
работать метод обучения предложенной ранее модели извлечения [9–
11], обеспечивающей извлечение знаний из неструктурированных тек-
стов и учитывающей особенности русского языка. Для обеспечения
практической применимости при разработке метода обучения было
отдано предпочтение обобщающей стратегии “снизу вверх”, но для
повышения полноты обученной модели предложена ее модификация.
Представление знаний и текста.
В задачах извлечения знаний
текст рассматривается как последовательность сегментов. Минималь-
ными элементами сегмента являются слова, представляющие собой
последовательности символов алфавита естественного языка, а также
знаки препинания. Данная модель текста представима в виде алгебра-
ической системы вида
TM
=
< T, W, t
,
>,
(1)
где
T
— множество текстовых сегментов;
W
— множество слов;
t
пустой текстовый сегмент;
— операция сцепления на
T
. В модели
текста определены следующие свойства:
1.
w
W
w
T
— каждое слово является текстовым сегмен-
том;
2.
t
1
T
∧ ∀
t
2
T
!
t
=
t
1
t
2
t
T
— операция сцепления
позволяет из произвольной пары текстовых сегментов сформировать
новый текстовый сегмент;
3.
t
T
∧ ∀
t
T
t
=
t
t
t
=
t
t
— пустой текстовый
сегмент является нейтральным элементом по отношению к операции
сцепления;
4.
t
1
, t
2
T
t
1
=
t
t
2
=
t
t
1
t
2
=
t
2
t
1
— некоммутативность
операции сцепления.
На основе приведенных свойств модели можно сделать следующие
выводы:
1.
t
T
t
=
w
1
. . .
w
n
:
w
i
W
w
i
t
— любой текстовый
сегмент может быть представлен в виде сцепления слов;
2. Поскольку слова являются неделимыми сегментами, то удобно
измерять длину сегментов в словах, далее длину сегмента
t
будем
обозначать
N
t
;
78 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3
1,2,3 5,6,7,8,9,10,11,12,13,14,...19
Powered by FlippingBook