УДК 004.93
ХРОНОЛОГИЧЕСКОЕ УПОРЯДОЧЕНИЕ АУДИОФРАГМЕНТОВ
С ИСПОЛЬЗОВАНИЕМ ДВУХМЕРНЫХ СПЕКТРОГРАММ
А.Н. Алфимцев
1
,
С.И. Назарова
2
1
МГТУ им. Н.Э. Баумана, Москва, Российская Федерация
e-mail:
alfim@bmstu.ru2
ОАО “Газпром автоматизация”, Москва, Российская Федерация
e-mail:
nazarova_svetlana92@mail.ruПредложен метод анализа речевых аудиофрагментов и осуществления их хро-
нологического упорядочения. Суть метода заключается в первоначальном пред-
ставлении аудиофрагментов в виде двухмерных спектрограмм и затем анали-
за 1025 числовых дескрипторов, полученных как непосредственно из спектро-
грамм, так и из их преобразований. Значение сходства между двумя аудио-
фрагментами вычислено с использованием алгоритма K взвешенных ближай-
ших соседей, по результатам работы которого построено дерево сходства для
визуализации упорядочения речевых данных. В качестве материалов для экспе-
римента были взяты аудиофайлы — фрагменты выступлений известных поли-
тиков. Экспериментальное исследование подтвердило эффективность приме-
нения предлагаемого метода для хронологического упорядочивания аудиофраг-
ментов, что с практической точки зрения открывает новые пути по разра-
ботке программных систем для автоматической обработки аудиоархивов и
анализа характеристик речи.
Ключевые слова
:
распознавание образов, двухмерная спектрограмма, вектор
свойств, матрица сходства, хронологическое упорядочение.
CHRONOLOGICAL ORDERING OF THE AUDIO DATA
USING 2D SPECTROGRAMS
A.N. Alfimtsev
1
,
S.I. Nazarova
2
1
Bauman Moscow State Technical University, Moscow, Russian Federation
e-mail:
alfim@bmstu.ru2
OAO “Gazprom automation”, Moscow, Russian Federation
e-mail:
nazarova_svetlana92@mail.ruThe paper introduces an automatic quantitative method for both the speech fragments
analysis and chronological ordering. The method consists of the following: audio
fragments are initially presented in the form of two-dimensional spectrograms, then
a large set of 1025 numerical descriptors extracting from both the raw spectrograms
and their transforms is analyzed. The similarity value between two audio fragments is
computed using a variation of the Weighted K-Nearest Neighbor scheme. A similarity
tree is designed to visualize differences between the audio fragments. Some speech
fragments of well-known politicians were used for the study. The proposed method
proves to be efficient for chronological ordering of the audio fragments. It seems
to introduce new ways of developing software systems for automated processing of
audio archives and analysis of the speech characteristics.
Keywords
:
pattern recognition, two-dimensional spectrogram, feature set, similarity
matrix, chronological ordering.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3 127