Хронологическое упорядочение аудиофрагментов с использованием двухмерных спектрограмм

трограммы в тестовом наборе и вектором дескрипторов конкретного

временн´ого интервала — среднее значение ее взвешенных дистанций

до векторов дескрипторов всех отрезков речи, принадлежащих данно-

му временн´ому интервалу.

После вычисления дистанций между каждым отрезком речи из

входного набора данных и всеми другими отрезками речи, дистан-

ция

A,Z

между временн ´ыми интервалами

рассчитывается как

средняя дистанция между всеми отрезками речи периода

и всеми

отрезками речи периода

попарно:

A,Z

∈

s,Z

где

— число фрагментов речи, принадлежащих временн´ому интер-

валу

Повторяя приведенные выше вычисления для всех периодов, в ре-

зультате получаем матрицу дистанций между всеми периодами по-

парно. Таким образом, в ячейке [

] матрицы содержится значе-

ние дистанции между временн ´ыми интервалами

. Из матрицы

дистанций получаем матрицу сходства, при этом элементы матрицы

нормализуются так, что вычисленная дистанция от конкретного пери-

ода до каждого другого периода делится на вычисленную дистанцию

от этого периода до самого себя (следовательно, значение сходства

периода с самим собой устанавливается в единице).

Во всех экспериментах, описаннных далее, несколько речевых от-

резков каждого временн´ого интервала было использовано для тестиро-

вания метода, а остальные — для обучения. Каждый эксперимент был

повторен 40 раз, при этом во время каждого прохода метода аудиоот-

резки были произвольно распределены между обучающим и тестовым

наборами.

Необходимо отметить недостаток метода — время работы. Извле-

чение вектора двухмерных числовых дескрипторов из одной спектро-

граммы занимает порядка 6 мин (в ходе эксперимента был использован

компьютер с процессором Intel Core i7).

Результаты экспериментов.

В ходе первого эксперимента были

проанализированы аудиофайлы — выступления Барака Обамы. Данные

для эксперимента (аудиофайлы) были взяты с сайта www.americanrhe-

toric.com.

Для каждого периода было взято 14 аудиофрагментов, 11 из

которых были использованы для обучения, а оставшиеся три — для те-

стирования. Аудиоотрезок представлял собой отрывок длительностью

1 мин из выступления Обамы. Эксперимент был повторен 40 раз с

произвольным размещением входных аудиофайлов в обучающий или

тестовый наборы. Точность определения принадежности речевого от-

резка к требуемому временн´ому интервалу составила 59%. Матрица

132 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3