Анализ способов извлечения характеристических признаков речи с использованием вейвлетов при решении задачи распознавания голоса диктора в условиях сложной шумовой обстановки - page 7

этого сигнала на нескольких уровнях детализации с извлечением до-
полнительной информации из сигнала и повышением качества рабо-
тысистемыраспознавания голоса диктора. Рассмотрим модель систе-
мы, где несколько уровней детализации исходного речевого сигнала
используются для извлечения характеристических признаков говоря-
щего.
Преимуществом данной модели по сравнению с предыдущей явля-
ется повышение качества распознавания системы вследствие извлече-
ния дополнительной информации из исходного речевого сигнала.
Недостатком является увеличение времени распознавания из-за до-
полнительных вычислений на нескольких уровнях детализации.
В работе [5] приведен пример реализации подобной системы, где
в качестве характеристических признаков используются кепстальные
коэффициенты, полученные из аппроксимаций исходного сигнала на
разных уровнях детализации, и энтропия детализирующих коэффици-
ентов вейвлет-преобразования. Авторыработы[5] выявили, что про-
цент правильного распознавания по предлагаемому методу составляет
96,8% в сравнении с 95,8% для системы, построенной по класси-
ческому методу для сигнала без шума. При отношении сигнал–шум
20 дБ процент правильного распознавания составляет 91,6%, в срав-
нении с системой, построенной по классическому методу (62,7%) и
по сравнению с системой с разделенными задачами фильтрации и рас-
познавания (84,7%).
Модель системы распознавания голоса диктора, использую-
щая адаптивные деревья вейвлет-пакетов для извлечения харак-
теристических признаков.
Исследуя свойства речевых сигналов, вы-
явили, что они имеют сложную структуру с быстро меняющимися ха-
рактеристиками. Основным недостатком преобразования Фурье явля-
ется отсутствие локализации по времени. БПФ с окном предполагает,
что на анализируемом интервале сигнал стационарен, что не позволяет
учитывать все особенности речевого сигнала.
Вейвлет-преобразование позволяет локализовать особенности ре-
чевого сигнала как по частоте, так и по времени и потенциально явля-
ется более перспективным методом для решения задачи распознава-
ния голоса диктора. Вместе с тем вейвлет-базисызначительно лучше
приспособленыдля фильтрации шума, что служит дополнительным
аргументом для использования характеристических признаков, извле-
каемых непосредственно из коэффициентов вейвлет-разложения.
Для решения задачи распознавания голоса диктора в зашумленной
окружающей обстановке перспективной представляется система, в
которой используют адаптивные деревья вейвлет-пакетов (рис. 3), ко-
торые имеют различное разрешение в разных частотных диапазонах.
Например, согласно данным работы[6], диапазоны100. . . 1000 Гц,
1000. . . 1500 Гц, 2000. . . 2500 Гц и 3000. . . 3500 Гц содержат боль-
ше характеристических признаков, чем диапазоны1500. . . 2000 Гц,
2500. . . 3000 Гц и 3500. . . 4000 Гц и поэтому требуют более детально-
го анализа.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2008. № 3 109
1,2,3,4,5,6 8,9,10
Powered by FlippingBook