|

Хронологическое упорядочение аудиофрагментов с использованием двухмерных спектрограмм

Авторы: Алфимцев А.Н., Назарова С.И. Опубликовано: 17.06.2015
Опубликовано в выпуске: #3(102)/2015  
DOI: 10.18698/0236-3933-2015-3-127-139

 
Раздел: Приборостроение, метрология и информационно-измерительные приборы и системы | Рубрика: Приборы и методы преобразования изображений и звука  
Ключевые слова: распознавание образов, двухмерная спектрограмма, вектор свойств, матрица сходства, хронологическое упорядочение

Предложен метод анализа речевых аудиофрагментов и осуществления их хронологического упорядочения. Суть метода заключается в первоначальном представлении аудиофрагментов в виде двухмерных спектрограмм и затем анализа 1025 числовых дескрипторов, полученных как непосредственно из спектрограмм, так и из их преобразований. Значение сходства между двумя аудиофрагментами вычислено с использованием алгоритма K взвешенных ближайших соседей, по результатам работы которого построено дерево сходства для визуализации упорядочения речевых данных. В качестве материалов для эксперимента были взяты аудиофайлы - фрагменты выступлений известных политиков. Экспериментальное исследование подтвердило эффективность применения предлагаемого метода для хронологического упорядочивания аудиофрагментов, что с практической точки зрения открывает новые пути по разработке программных систем для автоматической обработки аудиоархивов и анализа характеристик речи.

Литература

[1] Tzanetakis G., Cook P. Musical genre classification of audio signals // IEEE Transactions on Speech and Audio Processing. 2002. Vol. 10. P. 293-302.

[2] Guo G., Li S.Z. Content-based audio classification and retrieval by support vector machines // IEEE Transactions on Neural Networks. 2003. Vol. 14. P. 209-215.

[3] Li T., Ogihara M., Li Q. A comparative study on content-based music genre classification // SIGIR03. 2003. P. 282-289.

[4] Bagci U., Erzin E. Automatic Classification of Musical Genres Using Inter-Genre Similarity // IEEE Signal Processing Letters. 2007. Vol. 14. P. 521-524.

[5] Toward multi-modal music emotion classification / Y.H. Yang et al. // Proceedings of the 9th Pacific Rim Conference on Multimedia: Advances in Multimedia Information Processing. 2008. P. 70-79.

[6] Zlatintsi A., Maragos P. Multiscale fractal analysis of musical instrument signals with application to recognition // IEEE Transactions on Audio, Speech and Language Processing. 2013. Vol. 21. P. 737-748.

[7] McFee B., Barrington L., Lanckriet G.R.G. Learning content similarity for music recommendation// IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 2207-2218.

[8] Predictability of music descriptor time series and its application to cover song detection / Y. Serra et al. // IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 514-525.

[9] Manders A.J., Simpson D.M., Bell S.L. Objective prediction of the sound quality of music processed by an adaptive feedback canceller // IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 1734-1745.

[10] Downie D. The music information retrieval evaluation exchange (2005-2007): A window into music information retrieval research // Acoustical Science and Technology. 2008. Vol. 29. P. 247-255.

[11] Casey M. et al. Content-based music information retrieval: Current directions and future challenges // Proceedings of the IEEE. 2008. Vol. 96. P. 668-695.

[12] George J., Shamir L. Computer analysis of similarities between albums in popular music // Pattern Recognition Letters. 2014. Vol. 45. P. 78-84.

[13] Wndchrm - an open source utility for biological image analysis / L. Shamir et al. // Source Code For Biology And Medicine. 2008. URL: http://www.scfbm.org/content/3/1/13 (дата обращения: 01.10.2014).

[14] Shamir L. Evaluation of face datasets as tools for assessing the performance of face recognition methods // International Journal of Computer Vision. 2008. Vol. 79. P. 225-230.

[15] WND-CHARM: Multipurpose image classification using compound image transforms / N. Orlov et al. // Pattern Recognition Letters. 2008. Vol. 29. P. 1684-1693.

[16] Deshpande H., Singh R., Nam U.Classification of music signals in the visual domain // Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01). 2001. Vol. 1. P. 1-10.

[17] Holzapfel A., Stylianou Y. Musical genre classification using nonnegative matrix factorization-based features // IEEE Transactions on Audio, Speech and Language Processing. 2008. Vol. 16. P. 424-434.

[18] Music genre recognition using spectrograms / Y.M.G. Costa et al. // 18th International Conference on Systems, Signals and Image Processing. 2011. P. 1-4.

[19] IICBU2008 - A proposed benchmark suite for biological image analysis / L. Shamir et al. // Source Code for Biology and Medicine. 2008. Vol. 46. P. 943-947.

[20] Shamir L. Automatic morphological classification of galaxy images // Monthly Notices of the Royal Astronomical Society. 2009. Vol. 399. P. 1367-1372.

[21] Shamir L. Computer analysis reveals similarities between the artistic styles of Van Gogh and Pollock // Leonardo. 2012. Vol. 45. P. 149-154.

[22] Lim J.S. Two-Dimensional signal and image processing // Prentice Hall. 1990. P. 4245.

[23] Gabor D. Theory of communication // Journal of IEEE. 1946. Vol. 93. P. 429-457.

[24] Gregorescu C., Petkov N., Kruizinga P. Comparison of texture features based on Gabor filters // IEEE Transactions on Image Processing. 2002. Vol. 11. P. 1160-1167.

[25] Hadjidementriou E., Grossberg M., Nayar S. Spatial information in multiresolution histograms// IEEE Conference on Computer Vision and Pattern Recognition. 2001. Vol. 1. P. 702.

[26] Prewitt J.M. Object enhancement and extraction. Picture processing and psychopictoris // Academic Press. 1970. P. 75-149.