Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 7

. . .

end

)

”, где

end

—

-е концевое буквосочетание слов множества.

Концевое буквосочетание

end

определяет множество всех слов, кон-

цевые буквы которых совпадают с

end

3. Перечисление морфологических признаков слов, допустимых к

употреблению. К морфологическим признакам относится часть речи и

принятые в естественном языке значения грамматических категорий.

Для русского языка такими категориями являются падеж, число, род,

лицо и др. Запись такого множества имеет вид “{

. . .

}”, где

—

-й морфологический признак. Морфологические признаки связыва-

ются логической функцией “И”. Таким образом, итоговое множество

слов является пересечением множеств, соответствующих указанным в

записи морфологическим признакам.

Кроме указанных способов, существуют и другие способы задания

множеств лексических ограничений, например использование класси-

фикации слов, задаваемой тезаурусами [14, 15] или толковыми слова-

рями [16, 17], но в данной работе они не применялись.

Возьмем в качестве примера текстовые сегменты: “

Компания

nVidia

официально отложила день

выпуска видеокарты. . . ” и “

Фир-

ма

Apple

опровергла слухи

о том. . . ”. Оба примера представимы в

виде

•

, где подчеркиванием выделены сегменты

, состоящие из

одного слова и подлежащие извлечению. Значениями целевого слота

являются названия компаний. Для первого примера

компания

nV idia

оф ициально отложила день

. Для второго при-

мера

ф ирма

Apple

опровергла слухи

. XML-запись

правила, покрывающего данные примеры, имеет следующий вид.

ct len = “[1;1]” set = ”{И|ЕД}”/>

<ct len = “[0;1]” set =”{нрч}”/>

<ct len =“[1;1]”set =“{сов|пхд|глг|ЕД}/>

<ct len =“[1;1]”set =“{B}”/>

</rule>

Приведенное правило состоит из пяти элементов. Оно представи-

мо в виде

◦

, так что образец

состоит из одного элемента

<ct len="[1;1]" set="{И

ЕД}"/>

и покрывает все текстовые сегменты,

состоящие из одного слова, которое должно быть отнесено к катего-

рии единственного числа именительного падежа. Для данного примера

такими сегментами являются

компания

ф ирма

. Извлека-

ющий образец

состоит из одного элемента, выделенного подчерки-

ванием,

. Этот элемент покрывает все

текстовые сегменты, состоящие из одного слова и записанные симво-

лами английского алфавита. В данном случае

покрывает сегменты

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 81

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5,6 8,9,10,11,12,13,14,15,16,17,...19