трограммы в тестовом наборе и вектором дескрипторов конкретного
временн´ого интервала — среднее значение ее взвешенных дистанций
до векторов дескрипторов всех отрезков речи, принадлежащих данно-
му временн´ому интервалу.
После вычисления дистанций между каждым отрезком речи из
входного набора данных и всеми другими отрезками речи, дистан-
ция
M
A,Z
между временн ´ыми интервалами
A
и
Z
рассчитывается как
средняя дистанция между всеми отрезками речи периода
A
и всеми
отрезками речи периода
Z
попарно:
M
A,Z
=
X
s
∈
A
D
s,Z
|
A
|
,
где
|
A
|
— число фрагментов речи, принадлежащих временн´ому интер-
валу
A
.
Повторяя приведенные выше вычисления для всех периодов, в ре-
зультате получаем матрицу дистанций между всеми периодами по-
парно. Таким образом, в ячейке [
n
,
m
] матрицы содержится значе-
ние дистанции между временн ´ыми интервалами
n
и
m
. Из матрицы
дистанций получаем матрицу сходства, при этом элементы матрицы
нормализуются так, что вычисленная дистанция от конкретного пери-
ода до каждого другого периода делится на вычисленную дистанцию
от этого периода до самого себя (следовательно, значение сходства
периода с самим собой устанавливается в единице).
Во всех экспериментах, описаннных далее, несколько речевых от-
резков каждого временн´ого интервала было использовано для тестиро-
вания метода, а остальные — для обучения. Каждый эксперимент был
повторен 40 раз, при этом во время каждого прохода метода аудиоот-
резки были произвольно распределены между обучающим и тестовым
наборами.
Необходимо отметить недостаток метода — время работы. Извле-
чение вектора двухмерных числовых дескрипторов из одной спектро-
граммы занимает порядка 6 мин (в ходе эксперимента был использован
компьютер с процессором Intel Core i7).
Результаты экспериментов.
В ходе первого эксперимента были
проанализированы аудиофайлы — выступления Барака Обамы. Данные
для эксперимента (аудиофайлы) были взяты с сайта www.americanrhe-
toric.com.Для каждого периода было взято 14 аудиофрагментов, 11 из
которых были использованы для обучения, а оставшиеся три — для те-
стирования. Аудиоотрезок представлял собой отрывок длительностью
1 мин из выступления Обамы. Эксперимент был повторен 40 раз с
произвольным размещением входных аудиофайлов в обучающий или
тестовый наборы. Точность определения принадежности речевого от-
резка к требуемому временн´ому интервалу составила 59%. Матрица
132 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3