данные будут подвергнуты предварительной обработке (включает в
себя предкоррекцию или выравнивание спектра сигнала, фильтрацию
шума, логарифмическое сжатие спектра, нормализацию звука).
Дерево сходства для периодов, рассматриваемых в эксперименте 2,
показано на рис. 2,
б
. Метод расположил временн ´ые интервалы в пра-
вильном хронологическом порядке. Согласно данным, приведенным в
табл. 2, наиболее схожим с классом “1 период” является класс “2 пери-
од” (значение сходства равно 0,94), затем в порядке убывания значения
сходства следуют класс “3 период” (значение сходства равно 0,84) и
класс “4 период” (значение сходства равно 0,585).
Числовые дескрипторы с самым высоким значением дискриминан-
та Фишера для этого эксперимента следующие:
— MultipleScaleHistograms_TBins3_Bin01: 11.098907;
— ChebyshevCoefficientHistogram_Bin20: 9.000000;
— ZernikeMoments_Z_03_03: 8.974037;
— ZernikeMoments_Z_03_01: 8.200648;
— MultipleScaleHistograms_TBins5_Bin02: 7.810644.
Заключение и выводы.
Как было отмечено выше, звук является
сложным типом данных, если рассматривать его с позиции автома-
тического анализа с помощью вычислительных машин. В настоящей
статье был описан метод, который использует автоматический ана-
лиз спектрограмм аудиофрагментов для построения матрицы сходства
между разными временн ´ыми интервалами.
Результаты экспериментов показали, что предложенный метод спо-
собен расположить временн ´ые интервалы в хронологическом поряд-
ке, т.е. он способен отслеживать изменения в характеристиках речи
человека, произошедшие за определенный период времени (в экспе-
рименте рассмотрены периоды длительностью 8–14 лет). Также бы-
ла исследована чувствительность метода для данных, разделенных на
большее число коротких периодов. Результаты показали, что, несмотря
на снижение точности определения принадлежности речевого отрезка
к требуемому временн´ому интервалу, метод смог расположить вре-
менн ´ые периоды в хронологическом порядке. Полученные результаты
показывают, что автоматический анализ спектрограмм может быть эф-
фективно использован для анализа звука.
Точность определения принадлежности речевого отрезка к требу-
емому временн´ому интервалу может быть повышена, если входные
данные будут подвергнуты предварительной обработке. Точность ра-
боты метода можно повысить варьированием размера вектора свойств,
используемого для анализа, и продолжительности выбранных аудио-
фрагментов. При этом следует учитывать, что с увеличением размера
вектора линейно возрастает и время работы метода.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3 135