Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 12

P
(
v
ij
, T
e
)
< θ
p
. Такой подход позволяет существенно ограничить чи-
сло проверок покрытий правилом
v
ij
. Так, если при проверке число
покрытий правилом превысило значение
b
(
v
ij
, T
e
)
>
a
(
v
ij
, T
e
)
θ
p
,
(9)
то правило можно дальше не проверять и принять его качество
f
(
v
ij
, T
e
) = 0
. Выигрыш от такого подхода возможен, так как для
расчета
a
(
v
ij
, T
e
)
достаточно использовать только часть всей обучаю-
щей выборки
T
e
, состоящую из позитивных примеров для текущего
слота, тогда как для расчета
b
(
v
ij
, T
e
)
в общем случае требуется опре-
делять покрытия по всей
T
e
.
Алгоритм обобщения пары правил Generalize
(
v
i
, v
j
)
использует-
ся при итеративном обобщении в выражениях (8). Пусть правила
v
i
и
v
j
представлены в виде троек образцов:
v
i
=
p
bi
p
ci
p
ai
и
v
j
=
p
bj
p
cj
p
aj
. Обобщение выполняется независимо для каждой
пары образцов
(
p
bi
, p
bj
)
,
(
p
ci
, p
cj
)
и
(
p
ai
, p
aj
)
. Результатом обобщения
каждой такой пары являются множества префиксных (
P
b
), извлека-
ющих (
P
c
) и постфиксных (
P
a
) обобщенных образцов. Для каждой
тройки
(
p
b
, p
c
, p
a
)
P
b
×
P
c
×
P
a
формируется правило
v
=
p
b
p
c
p
a
,
если
v
удовлетворяет критерию (9), то выполняется расчет его качества
(6). Из всех возможных троек
v
=
p
b
p
c
p
a
выбирается единственное
правило
v
ij
с максимальным качеством
f
(
v
ij
, T
e
)
.
При обобщении пары образцов
(
p
i
, p
j
)
независимо от их типа (пре-
фиксный, постфиксный или извлекающий) выполняется построение
матрицы соответствий
A
(рис. 2), в которой со строками связаны эле-
менты образца
p
i
=
q
1
q
2
. . .
q
m
, а со столбцами — элементы образца
p
j
=
r
1
r
2
. . .
r
n
. Таким образом, размер матрицы составляет
m
×
n
.
Матрица заполняется следующим образом. Для любой пары эле-
ментов
r
i
=
< c
i
,
, l
i
1
, l
i
2
>
и
q
j
=
< c
j
,
, l
j
1
, l
j
2
>
, при использовании
операции наименьшей верхней границы решетки лексических огра-
ничений, формируется наименьшее общее лексическое ограничение
c
=
c
i
c
j
. Для него определяется величина
s
ij
= 1
w
c
p
(
w
)
, зна-
чение которой записывается в соответствующую ячейку матрицы, где
Рис. 2. Матрица соответствий образцов
p
i
и
p
j
86 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3
1...,2,3,4,5,6,7,8,9,10,11 13,14,15,16,17,18,19
Powered by FlippingBook