Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 4

связано с повышенным интересом именно зарубежных исследовате-

лей к данной теме. Наиболее популярной является серия конференций

MUC (Message Understanding Conference), проводимая при поддержке

DARPA (Defense Advanced Research Projects Agency) в целях совер-

шенствования методов компьютерной разведки. В связи с этим боль-

шинство существующих моделей извлечения и методов их обучения

ориентированы на языки западной Европы (в первую очередь, на ан-

глийский), а также на некоторые восточные.

Именно поэтому, в настоящей работе была поставлена цель — раз-

работать метод обучения предложенной ранее модели извлечения [9–

11], обеспечивающей извлечение знаний из неструктурированных тек-

стов и учитывающей особенности русского языка. Для обеспечения

практической применимости при разработке метода обучения было

отдано предпочтение обобщающей стратегии “снизу вверх”, но для

повышения полноты обученной модели предложена ее модификация.

Представление знаний и текста.

В задачах извлечения знаний

текст рассматривается как последовательность сегментов. Минималь-

ными элементами сегмента являются слова, представляющие собой

последовательности символов алфавита естественного языка, а также

знаки препинания. Данная модель текста представима в виде алгебра-

ической системы вида

< T, W, t

∅

•

(1)

где

— множество текстовых сегментов;

— множество слов;

∅

—

пустой текстовый сегмент;

•

— операция сцепления на

. В модели

текста определены следующие свойства:

∀

∈

⇒

∈

— каждое слово является текстовым сегмен-

том;

∀

∈

∧ ∀

∈

∃

•

∧

∈

— операция сцепления

позволяет из произвольной пары текстовых сегментов сформировать

новый текстовый сегмент;

∅

∈

∧ ∀

∈

⇒

∅

•

∧

•

∅

— пустой текстовый

сегмент является нейтральным элементом по отношению к операции

сцепления;

, t

∈

∧

∅

∧

∅

⇒

•

— некоммутативность

операции сцепления.

На основе приведенных свойств модели можно сделать следующие

выводы:

∀

∈

⇒

•

. . .

•

∈

∧

∈

— любой текстовый

сегмент может быть представлен в виде сцепления слов;

2. Поскольку слова являются неделимыми сегментами, то удобно

измерять длину сегментов в словах, далее длину сегмента

будем

обозначать

;

78 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3 5,6,7,8,9,10,11,12,13,14,...19