Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 8

t
c
=
nV idia
и
t
c
=
Apple
. Постфиксный образец правила состоит
из трех элементов, выделенных жирным шрифтом. Первый элемент
образца
<ct len="[0;1]" set="{нрч}"/>
покрывает текстовые сегмен-
ты длиной от 0 до одного, слова которых должны относиться только к
категории наречий. Второй элемент
<ct len="[1;1]" set="{сов
|
пхд
|
глг
|
ЕД}"/>
покрывает текстовые сегменты, состоящие только из од-
ного слова, которое должно относиться к категории переходных гла-
голов совершенного вида единственного числа. Последний элемент
образца
<ct len="[1;1]" set="{В}"/>
покрывает текстовые сегменты
длиной в одно любое слово, у которого допустимо выделить винитель-
ный падеж. Поскольку минимальная длина покрытия первого элемента
равна 0, в тексте могут не встречаться сегменты, покрываемые этим
элементом. Так, если положить
t
a
=
t
1
t
2
t
3
, то для первого приме-
ра
t
1
=“официально”,
t
2
=“отложила”,
t
3
=“день”, тогда как для второго
примера
t
1
=
t
,
t
2
=“опровергла”,
t
3
=“слухи”.
Решетка лексических ограничений.
Для того чтобы представлен-
ная модель извлечения была обучаемой единым требованием для всех
способов задания лексических ограничений и их исключений является
возможность представить все их множество
C
в виде алгебраической
решетки (4). Для этого множество
C
должно быть частично упоря-
доченным и на нем должны быть определены операции наименьшей
верхней и наибольшей нижней границы:
CL
=
< C,
,
,
¯
>,
(4)
где
C
2
W
— множество лексических ограничений и их исключений;
— отношение частичного нестрогого порядка на
C
;
— операция
наименьшей верхней границы;
— операция наибольшей нижней гра-
ницы. Наименьшая верхняя граница
c
1
c
2
для двух элементов
c
1
и
c
2
определяется как
(
c
u
=
c
1
c
2
)
∧ ∀
c
C
:
c
c
u
(
c
c
1
c
c
2
)
.
Наибольшая нижняя граница
c
1
¯
c
2
для двух элементов
c
1
и
c
2
опре-
деляется как
(
c
l
=
c
1
¯
c
2
)
∧ ∀
c
C
: (
c
c
1
c
c
2
)
c
c
l
. Тре-
бование к представлению множества
C
лексических ограничений и
исключений в виде решетки
CL
гарантирует существование метода
обучения. Этот факт сформулирован и доказан авторами в виде теоре-
мы “О поиске модели извлечения”.
Метод обучения модели извлечения.
Задача обучения заключает-
ся в генерации множества правил
V
модели извлечения
EM
. Разрабо-
танный метод обучения относится к методам, основанным на приме-
рах, идея которых заключается в формировании правил извлечения на
основе обучающих примеров, подготовленных человеком-экспертом.
Представление обучающих примеров.
В задачах обучения [2, 5,
18, 19] принято использовать позитивные и негативные примеры. Да-
дим формальное определение обучающего примера. Предположим,
82 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3
1,2,3,4,5,6,7 9,10,11,12,13,14,15,16,17,18,...19
Powered by FlippingBook