Применение алгоритмов распознавания образов и машинного обу-
чения к автоматическому анализу речевых отрезков позволяет решать
множество задач. Одна из наиболее общих задач в области автомати-
ческого анализа аудиофрагментов — их классификация [1, 2]. В слу-
чае, например, с музыкальными произведениями классификация мо-
жет быть осуществлена по жанрам [3, 4], эмоциональной окраске ком-
позиций [5], преобладающим музыкальным инструментам [6]. Другие
направления исследований в области автоматического анализа музыки
включают в себя автоматическую рекомендацию музыкальных произ-
ведений [7], поиск кавер-версий [8], предсказание качества звука [9]
и др. Важной задачей также является предоставление возможности
находить в базе музыкальных произведений наиболее похожие с ис-
ходным музыкальным отрезком [10, 11].
В настоящей статье впервые предложено применить метод ана-
лиза аудиофрагментов для автоматического анализа речевых отрезков
(фрагментов выступлений). В области анализа речевых фрагментов
могут ставиться такие задачи, как классификация данных по полу и
возрасту говорящего (например, для проведения различных статисти-
ческих исследований), по эмоциональной окраске речи, по времени
записи и др. Наиболее сложной представляется задача расположения
аудиофрагментов в хронологическом порядке. Даже человек (эксперт)
далеко не всегда способен сделать это с высокой степенью точности.
Автоматический анализ аудиозаписей позволяет отслеживать измене-
ния в характеристиках речи человека на протяжении длительного пе-
риода времени. К этим характеристикам можно отнести паузальность,
темп речи, силу, высоту и тон голоса.
Предложенный метод основан на детальном анализе аудиофраг-
ментов, представленных своими двухмерными спектрограммами, а чи-
словые дескрипторы (свойства) использованы для определения сход-
ства между фрагментами, принадлежащими различным временн ´ым
интервалам. Основное применение предложенного алгоритма — ана-
лиз речи в численных аспектах и для хронологического упорядоче-
ния данных (например, при автоматическом создании аудиоархивов),
а также анализ и визуализация сходства в характеристиках речи при
различных исследованиях (идентификация человека по голосу, обна-
ружение похожих голосов и т.д.).
Подготовка исходных данных.
Для проведения точного анализа
и проверки правильности работы метода необходимо иметь достаточ-
ное количество аудиоданных, принадлежащих одному человеку и за-
писанных на протяжении нескольких лет. Исходя из этих требований,
в качестве исходного набора данных были взяты фрагменты выступле-
ний политиков, чья профессиональная деятельность началась не менее
шести лет назад и материалы о которых (видео- и звукозаписи) есть в
128 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3