Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 6

∀

∈

∃

⊂

∀

∈

∧ ∀

•

∈

∧

(

t, v

) =

истина

⇒

∈

s R

— с каждым слотом

связан набор

правил

такой, что любой текстовый сегмент, извлекаемый одним из

правил, принадлежит области значений данного слота.

∀

, s

∈

∃

, V

⊂

∩

∅

— множества правил

извлечения для каждого слота уникальны и не пересекаются между

собой.

Чтобы дать интерпретацию функции покрытия для элементов

образцов, рассмотрим структуру элемента

< c, e, l

, l

(3)

где

⊆

— лексическое ограничение;

⊂

— исключение лекси-

ческого ограничения;

— минимальная и максимальная длины

покрытия элемента. Лексическое ограничение

и его исключение

определяют множество слов

{

}

, которые могут встречаться

в текстовых сегментах

{

}

, покрываемых элементом

. Слова

{

}

берутся из множества

модели текста (1). Минимальная и мак-

симальная длины покрытия

определяют допустимый диапазон

длин текстовых сегментов

. Таким образом, чтобы элемент

по-

крывал текстовый сегмент

, необходимо, чтобы все слова, сцепление

которых образует

, принадлежали множеству слов, разрешенных лек-

сическим ограничением элемента, не попадали в исключения, а длина

текстового сегмента должна находиться в диапазоне

[

, l

]

Поясняющие примеры реализации модели.

В программной реали-

зации модели используется XML-нотация для описания правил извле-

чения. Правило описывается XML-элементом <

rule

. . . >, содержащим

пустые дочерние элементы с тэгами <

/> и <

/>. XML-элементы

/> описывают элементы префиксного и постфиксного образцов,

XML-элементы <

/> описывают элементы извлекающего образца.

Данные элементы имеют атрибуты

set

len

. Синтаксис записи значе-

ния атрибута len следующий:

len

=“[

;

]”, где

— числа, обознача-

ющие верхнюю и нижнюю границы задаваемого диапазона. Атрибут

set

имеет следующий синтаксис:

set

=”

”, где

— записи, зада-

ющие соответственно множества лексических ограничений

элемента

образца и

— исключений из

. В случае, когда

∅

, вторая часть

в зап иси

set

=”

” отсутствует. Записи

имеют одинаковый

синтаксис, допускающий комбинации из следующих вариантов.

1. Непосредственное перечисление допустимых к употреблению

слов. Запись такого множества имеет вид “(

word

. . .

word

)

”,

где

word

—

-е слово множества.

2. Перечисление концевых буквосочетаний слов, допустимых к

употреблению. Запись такого множества имеет вид “(*

end

. . .

80 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5 7,8,9,10,11,12,13,14,15,16,...19