Background Image
Previous Page  2 / 13 Next Page
Information
Show Menu
Previous Page 2 / 13 Next Page
Page Background

Применение алгоритмов распознавания образов и машинного обу-

чения к автоматическому анализу речевых отрезков позволяет решать

множество задач. Одна из наиболее общих задач в области автомати-

ческого анализа аудиофрагментов — их классификация [1, 2]. В слу-

чае, например, с музыкальными произведениями классификация мо-

жет быть осуществлена по жанрам [3, 4], эмоциональной окраске ком-

позиций [5], преобладающим музыкальным инструментам [6]. Другие

направления исследований в области автоматического анализа музыки

включают в себя автоматическую рекомендацию музыкальных произ-

ведений [7], поиск кавер-версий [8], предсказание качества звука [9]

и др. Важной задачей также является предоставление возможности

находить в базе музыкальных произведений наиболее похожие с ис-

ходным музыкальным отрезком [10, 11].

В настоящей статье впервые предложено применить метод ана-

лиза аудиофрагментов для автоматического анализа речевых отрезков

(фрагментов выступлений). В области анализа речевых фрагментов

могут ставиться такие задачи, как классификация данных по полу и

возрасту говорящего (например, для проведения различных статисти-

ческих исследований), по эмоциональной окраске речи, по времени

записи и др. Наиболее сложной представляется задача расположения

аудиофрагментов в хронологическом порядке. Даже человек (эксперт)

далеко не всегда способен сделать это с высокой степенью точности.

Автоматический анализ аудиозаписей позволяет отслеживать измене-

ния в характеристиках речи человека на протяжении длительного пе-

риода времени. К этим характеристикам можно отнести паузальность,

темп речи, силу, высоту и тон голоса.

Предложенный метод основан на детальном анализе аудиофраг-

ментов, представленных своими двухмерными спектрограммами, а чи-

словые дескрипторы (свойства) использованы для определения сход-

ства между фрагментами, принадлежащими различным временн ´ым

интервалам. Основное применение предложенного алгоритма — ана-

лиз речи в численных аспектах и для хронологического упорядоче-

ния данных (например, при автоматическом создании аудиоархивов),

а также анализ и визуализация сходства в характеристиках речи при

различных исследованиях (идентификация человека по голосу, обна-

ружение похожих голосов и т.д.).

Подготовка исходных данных.

Для проведения точного анализа

и проверки правильности работы метода необходимо иметь достаточ-

ное количество аудиоданных, принадлежащих одному человеку и за-

писанных на протяжении нескольких лет. Исходя из этих требований,

в качестве исходного набора данных были взяты фрагменты выступле-

ний политиков, чья профессиональная деятельность началась не менее

шести лет назад и материалы о которых (видео- и звукозаписи) есть в

128 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3