Рис. 1. Cпектрограмма аудиозаписей Барака Обамы, сделанных в 2007 (
а
) и
2014 г. (
б
)
зонтальное измерение — времени в секундах (0. . . 60 с). Следует от-
метить, что при анализе спектрограмм невооруженным глазом невоз-
можно уловить различия между ними, хотя между записью первого
аудиофрагмента и второго прошло 7 лет. Далее будет показано, что
предложенный в настоящей статье метод способен проводить анализ
спектрограмм и на его основе осуществлять хронологическое упоря-
дочение аудиофрагментов.
Метод анализа данных.
Анализ спектрограмм был проведен с ис-
пользованием набора дескрипторов алгоритма Wndchrm, являющихся
числовыми дескрипторами визуального контента (двухмерных спек-
трограмм) [12–15]. Предпосылкой для анализа является наблюдение,
что визуальные свойства спектрограмм, например, границы и интен-
сивность пикселей, отобржают аудиоданные в информативной манере
[16, 17], а низкоуровневые свойства изображений спектрограмм могут
быть эффективно использованы для классификациии отрезков речи
и их упорядочения [18]. Алгоритм Wndchrm изначально разработан
для проведения исследований в области биоинформатики [13] и при-
знан эффективным при анализе двухмерных изображений в областях
микроскопии и радиологии [19], астрономии [20], численном анализе
предметов изобразительного искусства [21].
Алгоритм Wndchrm использует набор из 1025 двухмерных число-
вых дескрипторов визуальных данных. Они включают в себя, напри-
мер, результаты преобразования Радона [22], фильтры Габора [23]
с гауссовой гармонической функцией [24], многомасштабные гисто-
граммы [25], оператор Прюитта [26] и др. Числовые дескрипторы
извлекаются не только из непосредственно изображения спектрограм-
мы, но также из его двухмерных преобразований и даже комбинаций
преобразований более высоких порядков. Применяемые преобразо-
130 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3