Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 10

Разработанный метод можно разделить на следующие этапы: форми-
рование предельно конкретных правил, итеративное обобщение, де-
градация незадействованных примеров, генерация исключений. Рас-
смотрим первые два этапа метода обучения подробнее.
Формирование предельно конкретных правил.
Формирование пре-
дельно конкретных правил выполняется на основе позитивных при-
меров вида (5), каждый такой пример объявляется правилом вида
v
=
p
b
p
c
p
a
. Элементы каждого образца формируются на осно-
ве слов соответствующей части
t
e
b
,
t
e
c
и
t
e
a
примера. Каждый элемент
образца имеет вид
r
i
=
<
{
w
i
}
,
{ }
,
1
,
1
>
, где
{
w
i
}
— множество из
одного слова
w
i
, соответствующего
(
r
i
1)
-му элементу образца; { }
— пустое множество исключений. Каждое полученное таким образом
правило покрывает ровно один позитивный пример, на основе кото-
рого оно было получено.
Итеративное обобщение
подразумевает создание новых, более об-
щих правил на основе существующих. Процедура итеративна, по-
скольку на каждом шаге заменяет существующее множество правил
новым множеством сформированных обобщенных правил так, что на
следующем шаге предпринимаются попытки обобщения новых пра-
вил без участия старых. Данный подход к обобщению отличается от
принятых стратегий “сжатия” и “покрытия”, поскольку замене подле-
жит все текущее множество правил извлечения, а не отдельно взятые
правила. Алгоритм итеративного обобщения представлен следующи-
ми выражениями:
V
=
V
m
=
{
v
e
}
предельно конкретные правила
пока
V
m
=
V
c
=
— правила, полученные на данной итерации
G
= (
V
m
, V
g
, R
mg
)
граф обобщений
:
V
m
вершины
, V
g
ребра
v
i
, v
j
V
m
v
ij
=
Generalize
(
v
i
, v
j
)
v
ij
=
G
[
v
i
] [
v
j
] =
G
[
v
j
] [
v
i
] =
v
ij
v
i
R
mg
v
ij
v
j
R
mg
v
ij
v
i
V
m
:
G
[
v
i
] [
v
j
] =
⇒ ∃
C
i
=
v
i
. . . v
k
. . . v
i
контур
v
k
, v
l
C
i
:
l
=
k
+ 1
⇒ ∃
v
kl
V
g
f
(
v
kl
, T
e
) = max
v
ks
V
g
f
(
v
ks
, T
e
)
v
k
, v
k
+1
C
i
V
c
=
V
c
G
[
v
k
] [
v
k
+1
]
V
m
=
V
m
\ {
v
k
, v
k
+1
}
V
m
=
V
c
V
=
V
V
c
повторить для нового
V
m
.
(8)
Итеративное обобщение оперирует с множеством
V
правил, получен-
ных к текущему шагу, и множеством
V
m
правил, обобщаемых на теку-
щем шаге. Изначально множество
V
не содержит ни одного правила,
множество
V
m
содержит предельно конкретные правила, полученные
84 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3
1,2,3,4,5,6,7,8,9 11,12,13,14,15,16,17,18,19
Powered by FlippingBook