t
c
=
nV idia
и
t
c
=
Apple
. Постфиксный образец правила состоит
из трех элементов, выделенных жирным шрифтом. Первый элемент
образца
<ct len="[0;1]" set="{нрч}"/>
покрывает текстовые сегмен-
ты длиной от 0 до одного, слова которых должны относиться только к
категории наречий. Второй элемент
<ct len="[1;1]" set="{сов
|
пхд
|
глг
|
ЕД}"/>
покрывает текстовые сегменты, состоящие только из од-
ного слова, которое должно относиться к категории переходных гла-
голов совершенного вида единственного числа. Последний элемент
образца
<ct len="[1;1]" set="{В}"/>
покрывает текстовые сегменты
длиной в одно любое слово, у которого допустимо выделить винитель-
ный падеж. Поскольку минимальная длина покрытия первого элемента
равна 0, в тексте могут не встречаться сегменты, покрываемые этим
элементом. Так, если положить
t
a
=
t
1
•
t
2
•
t
3
, то для первого приме-
ра
t
1
=“официально”,
t
2
=“отложила”,
t
3
=“день”, тогда как для второго
примера
t
1
=
t
∅
,
t
2
=“опровергла”,
t
3
=“слухи”.
Решетка лексических ограничений.
Для того чтобы представлен-
ная модель извлечения была обучаемой единым требованием для всех
способов задания лексических ограничений и их исключений является
возможность представить все их множество
C
в виде алгебраической
решетки (4). Для этого множество
C
должно быть частично упоря-
доченным и на нем должны быть определены операции наименьшей
верхней и наибольшей нижней границы:
CL
=
< C,
≤
,
∨
,
¯
∧
>,
(4)
где
C
⊆
2
W
— множество лексических ограничений и их исключений;
≤
— отношение частичного нестрогого порядка на
C
;
∨
— операция
наименьшей верхней границы;
∧
— операция наибольшей нижней гра-
ницы. Наименьшая верхняя граница
c
1
∨
c
2
для двух элементов
c
1
и
c
2
определяется как
(
c
u
=
c
1
∨
c
2
)
∧ ∀
c
∈
C
:
c
≤
c
u
⇒
(
c
≤
c
1
∨
c
≤
c
2
)
.
Наибольшая нижняя граница
c
1
¯
∧
c
2
для двух элементов
c
1
и
c
2
опре-
деляется как
(
c
l
=
c
1
¯
∧
c
2
)
∧ ∀
c
∈
C
: (
c
≤
c
1
∧
c
≤
c
2
)
⇒
c
≤
c
l
. Тре-
бование к представлению множества
C
лексических ограничений и
исключений в виде решетки
CL
гарантирует существование метода
обучения. Этот факт сформулирован и доказан авторами в виде теоре-
мы “О поиске модели извлечения”.
Метод обучения модели извлечения.
Задача обучения заключает-
ся в генерации множества правил
V
модели извлечения
EM
. Разрабо-
танный метод обучения относится к методам, основанным на приме-
рах, идея которых заключается в формировании правил извлечения на
основе обучающих примеров, подготовленных человеком-экспертом.
Представление обучающих примеров.
В задачах обучения [2, 5,
18, 19] принято использовать позитивные и негативные примеры. Да-
дим формальное определение обучающего примера. Предположим,
82 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3