Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 7

. . .
|
*
end
n
)
”, где
end
i
i
-е концевое буквосочетание слов множества.
Концевое буквосочетание
end
i
определяет множество всех слов, кон-
цевые буквы которых совпадают с
end
i
.
3. Перечисление морфологических признаков слов, допустимых к
употреблению. К морфологическим признакам относится часть речи и
принятые в естественном языке значения грамматических категорий.
Для русского языка такими категориями являются падеж, число, род,
лицо и др. Запись такого множества имеет вид “{
z
1
|
z
2
|
. . .
|
z
n
}”, где
z
i
i
-й морфологический признак. Морфологические признаки связыва-
ются логической функцией “И”. Таким образом, итоговое множество
слов является пересечением множеств, соответствующих указанным в
записи морфологическим признакам.
Кроме указанных способов, существуют и другие способы задания
множеств лексических ограничений, например использование класси-
фикации слов, задаваемой тезаурусами [14, 15] или толковыми слова-
рями [16, 17], но в данной работе они не применялись.
Возьмем в качестве примера текстовые сегменты: “
Компания
nVidia
официально отложила день
выпуска видеокарты. . . ” и “
Фир-
ма
Apple
опровергла слухи
о том. . . ”. Оба примера представимы в
виде
t
b
t
c
t
a
, где подчеркиванием выделены сегменты
t
c
, состоящие из
одного слова и подлежащие извлечению. Значениями целевого слота
являются названия компаний. Для первого примера
t
b
=
компания
,
t
c
=
nV idia
,
t
a
=
оф ициально отложила день
. Для второго при-
мера
t
b
=
ф ирма
,
t
c
=
Apple
,
t
a
=
опровергла слухи
. XML-запись
правила, покрывающего данные примеры, имеет следующий вид.
<rule name = “company_1”>
ct len = “[1;1]” set = ”{И|ЕД}”/>
<ex len = “[1;1]” set = “{eng}”/>
<ct len = “[0;1]” set =”{нрч}”/>
<ct len =“[1;1]”set =“{сов|пхд|глг|ЕД}/>
<ct len =“[1;1]”set =“{B}”/>
</rule>
Приведенное правило состоит из пяти элементов. Оно представи-
мо в виде
p
b
p
c
p
a
, так что образец
p
b
состоит из одного элемента
<ct len="[1;1]" set="{И
|
ЕД}"/>
и покрывает все текстовые сегменты,
состоящие из одного слова, которое должно быть отнесено к катего-
рии единственного числа именительного падежа. Для данного примера
такими сегментами являются
t
b
=
компания
и
t
b
=
ф ирма
. Извлека-
ющий образец
p
c
состоит из одного элемента, выделенного подчерки-
ванием,
<ex len="[1;1]" set="{eng}"/>
. Этот элемент покрывает все
текстовые сегменты, состоящие из одного слова и записанные симво-
лами английского алфавита. В данном случае
p
c
покрывает сегменты
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 81
1,2,3,4,5,6 8,9,10,11,12,13,14,15,16,17,...19
Powered by FlippingBook