Background Image
 1 / 13 Next Page
Information
Show Menu
1 / 13 Next Page
Page Background

УДК 004.93

ХРОНОЛОГИЧЕСКОЕ УПОРЯДОЧЕНИЕ АУДИОФРАГМЕНТОВ

С ИСПОЛЬЗОВАНИЕМ ДВУХМЕРНЫХ СПЕКТРОГРАММ

А.Н. Алфимцев

1

,

С.И. Назарова

2

1

МГТУ им. Н.Э. Баумана, Москва, Российская Федерация

e-mail:

alfim@bmstu.ru

2

ОАО “Газпром автоматизация”, Москва, Российская Федерация

e-mail:

nazarova_svetlana92@mail.ru

Предложен метод анализа речевых аудиофрагментов и осуществления их хро-

нологического упорядочения. Суть метода заключается в первоначальном пред-

ставлении аудиофрагментов в виде двухмерных спектрограмм и затем анали-

за 1025 числовых дескрипторов, полученных как непосредственно из спектро-

грамм, так и из их преобразований. Значение сходства между двумя аудио-

фрагментами вычислено с использованием алгоритма K взвешенных ближай-

ших соседей, по результатам работы которого построено дерево сходства для

визуализации упорядочения речевых данных. В качестве материалов для экспе-

римента были взяты аудиофайлы — фрагменты выступлений известных поли-

тиков. Экспериментальное исследование подтвердило эффективность приме-

нения предлагаемого метода для хронологического упорядочивания аудиофраг-

ментов, что с практической точки зрения открывает новые пути по разра-

ботке программных систем для автоматической обработки аудиоархивов и

анализа характеристик речи.

Ключевые слова

:

распознавание образов, двухмерная спектрограмма, вектор

свойств, матрица сходства, хронологическое упорядочение.

CHRONOLOGICAL ORDERING OF THE AUDIO DATA

USING 2D SPECTROGRAMS

A.N. Alfimtsev

1

,

S.I. Nazarova

2

1

Bauman Moscow State Technical University, Moscow, Russian Federation

e-mail:

alfim@bmstu.ru

2

OAO “Gazprom automation”, Moscow, Russian Federation

e-mail:

nazarova_svetlana92@mail.ru

The paper introduces an automatic quantitative method for both the speech fragments

analysis and chronological ordering. The method consists of the following: audio

fragments are initially presented in the form of two-dimensional spectrograms, then

a large set of 1025 numerical descriptors extracting from both the raw spectrograms

and their transforms is analyzed. The similarity value between two audio fragments is

computed using a variation of the Weighted K-Nearest Neighbor scheme. A similarity

tree is designed to visualize differences between the audio fragments. Some speech

fragments of well-known politicians were used for the study. The proposed method

proves to be efficient for chronological ordering of the audio fragments. It seems

to introduce new ways of developing software systems for automated processing of

audio archives and analysis of the speech characteristics.

Keywords

:

pattern recognition, two-dimensional spectrogram, feature set, similarity

matrix, chronological ordering.

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3 127