Хронологическое упорядочение аудиофрагментов с использованием двухмерных спектрограмм
Авторы: Алфимцев А.Н., Назарова С.И. | Опубликовано: 17.06.2015 |
Опубликовано в выпуске: #3(102)/2015 | |
DOI: 10.18698/0236-3933-2015-3-127-139 | |
Раздел: Приборостроение, метрология и информационно-измерительные приборы и системы | Рубрика: Приборы и методы преобразования изображений и звука | |
Ключевые слова: распознавание образов, двухмерная спектрограмма, вектор свойств, матрица сходства, хронологическое упорядочение |
Предложен метод анализа речевых аудиофрагментов и осуществления их хронологического упорядочения. Суть метода заключается в первоначальном представлении аудиофрагментов в виде двухмерных спектрограмм и затем анализа 1025 числовых дескрипторов, полученных как непосредственно из спектрограмм, так и из их преобразований. Значение сходства между двумя аудиофрагментами вычислено с использованием алгоритма K взвешенных ближайших соседей, по результатам работы которого построено дерево сходства для визуализации упорядочения речевых данных. В качестве материалов для эксперимента были взяты аудиофайлы - фрагменты выступлений известных политиков. Экспериментальное исследование подтвердило эффективность применения предлагаемого метода для хронологического упорядочивания аудиофрагментов, что с практической точки зрения открывает новые пути по разработке программных систем для автоматической обработки аудиоархивов и анализа характеристик речи.
Литература
[1] Tzanetakis G., Cook P. Musical genre classification of audio signals // IEEE Transactions on Speech and Audio Processing. 2002. Vol. 10. P. 293-302.
[2] Guo G., Li S.Z. Content-based audio classification and retrieval by support vector machines // IEEE Transactions on Neural Networks. 2003. Vol. 14. P. 209-215.
[3] Li T., Ogihara M., Li Q. A comparative study on content-based music genre classification // SIGIR03. 2003. P. 282-289.
[4] Bagci U., Erzin E. Automatic Classification of Musical Genres Using Inter-Genre Similarity // IEEE Signal Processing Letters. 2007. Vol. 14. P. 521-524.
[5] Toward multi-modal music emotion classification / Y.H. Yang et al. // Proceedings of the 9th Pacific Rim Conference on Multimedia: Advances in Multimedia Information Processing. 2008. P. 70-79.
[6] Zlatintsi A., Maragos P. Multiscale fractal analysis of musical instrument signals with application to recognition // IEEE Transactions on Audio, Speech and Language Processing. 2013. Vol. 21. P. 737-748.
[7] McFee B., Barrington L., Lanckriet G.R.G. Learning content similarity for music recommendation// IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 2207-2218.
[8] Predictability of music descriptor time series and its application to cover song detection / Y. Serra et al. // IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 514-525.
[9] Manders A.J., Simpson D.M., Bell S.L. Objective prediction of the sound quality of music processed by an adaptive feedback canceller // IEEE Transactions on Audio, Speech and Language Processing. 2012. Vol. 20. P. 1734-1745.
[10] Downie D. The music information retrieval evaluation exchange (2005-2007): A window into music information retrieval research // Acoustical Science and Technology. 2008. Vol. 29. P. 247-255.
[11] Casey M. et al. Content-based music information retrieval: Current directions and future challenges // Proceedings of the IEEE. 2008. Vol. 96. P. 668-695.
[12] George J., Shamir L. Computer analysis of similarities between albums in popular music // Pattern Recognition Letters. 2014. Vol. 45. P. 78-84.
[13] Wndchrm - an open source utility for biological image analysis / L. Shamir et al. // Source Code For Biology And Medicine. 2008. URL: http://www.scfbm.org/content/3/1/13 (дата обращения: 01.10.2014).
[14] Shamir L. Evaluation of face datasets as tools for assessing the performance of face recognition methods // International Journal of Computer Vision. 2008. Vol. 79. P. 225-230.
[15] WND-CHARM: Multipurpose image classification using compound image transforms / N. Orlov et al. // Pattern Recognition Letters. 2008. Vol. 29. P. 1684-1693.
[16] Deshpande H., Singh R., Nam U.Classification of music signals in the visual domain // Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01). 2001. Vol. 1. P. 1-10.
[17] Holzapfel A., Stylianou Y. Musical genre classification using nonnegative matrix factorization-based features // IEEE Transactions on Audio, Speech and Language Processing. 2008. Vol. 16. P. 424-434.
[18] Music genre recognition using spectrograms / Y.M.G. Costa et al. // 18th International Conference on Systems, Signals and Image Processing. 2011. P. 1-4.
[19] IICBU2008 - A proposed benchmark suite for biological image analysis / L. Shamir et al. // Source Code for Biology and Medicine. 2008. Vol. 46. P. 943-947.
[20] Shamir L. Automatic morphological classification of galaxy images // Monthly Notices of the Royal Astronomical Society. 2009. Vol. 399. P. 1367-1372.
[21] Shamir L. Computer analysis reveals similarities between the artistic styles of Van Gogh and Pollock // Leonardo. 2012. Vol. 45. P. 149-154.
[22] Lim J.S. Two-Dimensional signal and image processing // Prentice Hall. 1990. P. 4245.
[23] Gabor D. Theory of communication // Journal of IEEE. 1946. Vol. 93. P. 429-457.
[24] Gregorescu C., Petkov N., Kruizinga P. Comparison of texture features based on Gabor filters // IEEE Transactions on Image Processing. 2002. Vol. 11. P. 1160-1167.
[25] Hadjidementriou E., Grossberg M., Nayar S. Spatial information in multiresolution histograms// IEEE Conference on Computer Vision and Pattern Recognition. 2001. Vol. 1. P. 702.
[26] Prewitt J.M. Object enhancement and extraction. Picture processing and psychopictoris // Academic Press. 1970. P. 75-149.