что имеется текстовый сегмент вида
t
e
=
t
e
b
•
t
e
c
•
t
e
a
.
(5)
Предположим, что наверняка известно следующее:
∃
(
f, s
)
∈
R
FS
∧ ∃
(
s, T
i
)
∈
R
ST
:
t
e
c
∈
T
i
,
т.е. у некоторого фрейма имеется слот, области значений которого при-
надлежит сегмент
t
e
c
, являющийся частью
t
e
. Тогда
t
e
можно объявить
позитивным примером проявления слота
s
в тексте. По аналогии с дан-
ными работ [2] и [37], в качестве негативных примеров принимается
любой текстовый сегмент, не входящий в
T
e
.
Описание метода.
Метод обучения использует обучающую выбор-
ку
T
e
=
{
t
e
}
примеров вида (5). Задача обучения — получить на основе
T
e
множество правил
V
модели извлечения
EM
. Основополагающим
критерием генерации правил извлечения является максимизация числа
покрываемых правилом позитивных примеров и минимизация числа
покрываемых правилом негативных примеров. Поэтому в процессе
обучения на каждом шаге выполняется оценка качества полученной
к данному шагу модели извлечения. Решения по модификации мно-
жества правил извлечения на каждом шаге принимаются только, если
это приводит к возрастанию функции
F
(
V, T
e
) =
1
N
v
v
∈
V
f
(
v, T
e
)
, где
N
v
— количество правил извлечения множества
V
;
f
(
v, T
e
)
— функция
качества отдельно взятого правила
v
. Для оценки качества отдельного
правила в настоящей работе используется
F
-мера [20]:
f
(
v, T
e
) =
(1 +
β
2
)
P
(
v, T
e
)
R
(
v, T
e
)
P
(
v, T
e
) +
β
2
R
(
v, T
e
)
,
(6)
где
P
(
v, T
e
)
— точность извлечения правила
v
;
R
(
v, T
e
)
— полнота
извлечения правила;
β
— вес, определяющий значимость полноты
по отношению к точности, в данной работе использовался
β
= 1
.
Полнота и точность правила
v
оцениваются как
R
(
v, T
e
) =
a
(
v, T
e
)
d
(
v, T
e
)
и
P
(
v, T
e
) =
a
(
v, T
e
)
b
(
v, T
e
)
соответственно, где
a
(
v, T
e
)
— число коррект-
но извлеченных сегментов;
b
(
v, T
e
)
— общее число извлеченных сег-
ментов;
d
(
v, T
e
)
— требуемое число извлеченных сегментов, которые
должно покрыть в идеале правило. Поскольку в идеале каждое пра-
вило должно стремиться покрыть всю обучающую выборку, примем
d
(
v, T
e
) =
N
e
, где
N
e
— число обучающих примеров. Тогда функция
качества модели извлечения
F
(
V, T
e
)
запишется как
F
(
V, T
e
) =
1
N
v
v
∈
V
2
a
(
v, T
e
)
b
(
v, T
e
) +
N
e
.
(7)
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 83