Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 5

3. Длина пустого сегмента
t
равна нулю, т.е.
N
t
= 0
.
В качестве модели представления знаний используются фреймы
[12, 13]. Фрейм рассматривается как структура с поименованными
элементами — слотами. Для дальнейшего изложения ограничимся опи-
санием аксиоматической части фреймовой модели
FA
=
< F, S, T, R
FS
, R
ST
>,
(2)
где
F
— множество фреймов;
S
— множество фреймовых слотов;
T
— множество значений слотов;
R
FS
F
×
S
— отношение, задаю-
щее связи между слотами и фреймами;
R
ST
S
×
2
T
— отношение,
задающее для каждого слота допустимую область значений.
Предположим, что
FA
задается человеком-экспертом, который
определяет все возможные фреймы и составляющие их слоты. Также
полагается, что все возможные значения слотов
T
представимы в виде
текстовых сегментов модели
TM
.
Модель извлечения.
Детальное описание предлагаемой модели
извлечения приведено в работе [11]. Приведем описание некоторых
компонентов этой модели и проиллюстрируем их на примерах.
Компоненты модели.
Ключевыми компонентами модели являются
множество правил извлечения
V
, множество образцов
P
и множе-
ство элементов образцов
R
. Правила конструируются из образцов,
а образцы — из элементов при помощи операции сцепления. Лю-
бой образец можно представить в виде сцепления
n
элементов —
p
P
p
=
r
1
. . .
r
n
. Любое правило извлечения предста-
вляется в виде сцепления трех образцов: префиксного, извлекающего
и постфиксного —
v
V
v
=
p
b
p
c
p
a
. Префиксный и пост-
фиксный образцы могут быть пустыми (т.е. нейтральными по отно-
шению к операции сцепления). В модели извлечения введена функция
покрытия
a
:
T
×
V
→ {
истина, ложь
}
. Данная функция для любого
правила извлечения и любого текстового сегмента позволяет ответить
на вопрос, покрывает ли данное правило данный текстовый сегмент.
Функция покрытия также применима для образцов и их элементов.
Правило
v
=
p
b
p
c
p
a
покрывает текстовый сегмент, если этот сег-
мент представим в виде тройки
t
b
t
c
t
a
, и каждый из этих сегментов
покрывается соответствующим образцом из тройки
p
b
p
c
p
a
. Образец
p
=
r
1
r
2
...
r
n
покрывает текстовый сегмент, если этот сегмент
представим в виде
t
1
t
2
. . .
t
n
, и каждый
t
i
покрывается соответ-
ствующим
r
i
. Функция покрытия для элемента образца определяется
внутренней структурой элемента. Если правило покрывает текстовый
сегмент, то извлечению подлежит та часть текстового сегмента, ко-
торая покрывается извлекающим образцом правила. Отсюда следует
связь между моделью извлечения и моделью фреймов.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 79
1,2,3,4 6,7,8,9,10,11,12,13,14,15,...19
Powered by FlippingBook