1.
∀
s
∈
FA
∃
V
s
⊂
V
:
∀
v
∈
V
s
∧ ∀
t
=
t
b
•
t
c
•
t
a
∈
T
∧
a
(
t, v
) =
=
истина
⇒
t
c
∈
T
i
:
s R
ST
T
i
— с каждым слотом
s
связан набор
правил
V
s
такой, что любой текстовый сегмент, извлекаемый одним из
правил, принадлежит области значений данного слота.
2.
∀
s
1
, s
2
∈
FA
∃
V
s
1
, V
s
2
⊂
V
:
V
s
1
∩
V
s
2
=
∅
— множества правил
извлечения для каждого слота уникальны и не пересекаются между
собой.
Чтобы дать интерпретацию функции покрытия для элементов
образцов, рассмотрим структуру элемента
r
i
=
< c, e, l
1
, l
2
>,
(3)
где
c
⊆
W
— лексическое ограничение;
e
⊂
W
— исключение лекси-
ческого ограничения;
l
1
и
l
2
— минимальная и максимальная длины
покрытия элемента. Лексическое ограничение
c
и его исключение
e
определяют множество слов
c
\
e
=
{
w
}
, которые могут встречаться
в текстовых сегментах
T
ri
=
{
t
}
, покрываемых элементом
r
i
. Слова
{
w
}
берутся из множества
W
модели текста (1). Минимальная и мак-
симальная длины покрытия
l
1
и
l
2
определяют допустимый диапазон
длин текстовых сегментов
T
ri
. Таким образом, чтобы элемент
r
по-
крывал текстовый сегмент
t
, необходимо, чтобы все слова, сцепление
которых образует
t
, принадлежали множеству слов, разрешенных лек-
сическим ограничением элемента, не попадали в исключения, а длина
текстового сегмента должна находиться в диапазоне
[
l
1
, l
2
]
.
Поясняющие примеры реализации модели.
В программной реали-
зации модели используется XML-нотация для описания правил извле-
чения. Правило описывается XML-элементом <
rule
. . . >, содержащим
пустые дочерние элементы с тэгами <
ct
/> и <
ex
/>. XML-элементы
<
ct
/> описывают элементы префиксного и постфиксного образцов,
XML-элементы <
ex
/> описывают элементы извлекающего образца.
Данные элементы имеют атрибуты
set
и
len
. Синтаксис записи значе-
ния атрибута len следующий:
len
=“[
l
1
;
l
2
]”, где
l
1
и
l
2
— числа, обознача-
ющие верхнюю и нижнюю границы задаваемого диапазона. Атрибут
set
имеет следующий синтаксис:
set
=”
A
\
B
”, где
A
и
B
— записи, зада-
ющие соответственно множества лексических ограничений
c
элемента
образца и
e
— исключений из
c
. В случае, когда
e
=
∅
, вторая часть
в зап иси
set
=”
A
\
B
” отсутствует. Записи
A
и
B
имеют одинаковый
синтаксис, допускающий комбинации из следующих вариантов.
1. Непосредственное перечисление допустимых к употреблению
слов. Запись такого множества имеет вид “(
word
1
|
word
2
|
. . .
|
word
n
)
”,
где
word
i
—
i
-е слово множества.
2. Перечисление концевых буквосочетаний слов, допустимых к
употреблению. Запись такого множества имеет вид “(*
end
1
|
*
end
2
|
. . .
80 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3