Построение словаря на основе попевок.
За основу берутся попев-
ки. Предварительно подготовленный сборник попевок образует сово-
купность правил, каждому из которых ставится в соответствие перевод
на основе двоезнаменника или азбук:
Sl
(
r
) =
ϕ
3
(
RZ, r
) =
p
3
=
{h
z
i
, z
i
+1
, z
i
+2
i
,
h
n
i
, n
i
+1
, n
i
+2
i
, p
}
.
В целях обеспечения независимости перевода от начального звука
и проверки гипотезы аналогичности перевода для попевок в разных
гласах необходимо сохранить интервальную последовательность для
каждой попевки. Такой код представляет собой обозначение не кон-
кретной ноты, а число полутонов (интервал), на которые отличается
текущий звук от предыдущего. Преобразование нотного словаря в ин-
тервальный можно представить следующим образом:
ISl
=
ϕ
4
(
SL
) =
{h
z
i
, z
i
+1
, z
i
+2
i
,
h
Intr
i
, Intr
i
+1
, Intr
i
+2
i
, p
}
.
Первоначально при автоматическом построении словаря предлага-
ется задавать приоритет правила. Это обусловлено тем, что сначала
следует применять самые длинные правила, а затем — более короткие.
В процессе исследования эксперт может отредактировать значения
приоритетов, изменив их на те, которые полагает более правильными.
Построение словаря на основе двоезнаменника.
За основу берет-
ся двоезнаменник, который представляет собой корпус параллельных
песнопений (записанных в двух нотациях). Это дает возможность по-
строения
N
-граммной модели перевода. В результате анализа двоезна-
менника формируется словарь, аналогичный словарю, созданному на
основе попевок. В этом случае словарь будет состоять из
N
-грамм
(
N
= 1
,
2
,
3
,
4
). Вероятность таких правил может быть рассчитана как
произведение вероятности входящих в него
N
-грамм.
В рамках базовой функциональности разработываемых инструмен-
тов выбрана размерность
N
-грамм, равная трем. Для каждой триграм-
мы ставятся в соответствие ноты, которыми переводятся знамена, вхо-
дящие в триграмму, а также вероятность встречаемости триграммы
(рис. 5).
Вероятность каждого правила вычисляется согласно правилам по-
строения модели перевода в статистическом машинном переводе: рас-
считывается вероятность
P
(
n
|
z
)
для каждой пары
< n, z >
(
z
— по-
следовательность знамен;
n
— перевод этой последовательности). Ве-
роятность определяется по формуле
P
(
n
|
z
) =
C
(
n, z
)
C
(
z
)
,
где
C
(
n, z
)
— число раз, когда последовательность знамен
z
перево-
дится нотами
n
.
62 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2014. № 4