Анализ способов извлечения характеристических признаков речи с использованием вейвлетов при решении задачи распознавания голоса диктора в условиях сложной шумовой обстановки - page 4

По спектрограмме измеряют энергию
f
в частотно-временн´ой
окрестности, определяемой прямоугольником Гейзенберга для
g
u,ξ
.
Вейвлет-преобразование.
Применение вейвлетов в задачах обра-
ботки и распознавания голоса продиктовано особенностями речево-
го акустического сигнала. Вейвлетыкак средство многомасштабного
анализа позволяют выделять одновременно основные характеристики
сигнала и короткоживущие высокочастотные явления в речевом сиг-
нале. Это свойство является существенным преимуществом вейвлетов
в задачах обработки речевого сигнала по сравнению с оконным пре-
образованием Фурье с окном, где, изменяя ширину окна, приходится
выбирать масштаб явлений, которые необходимо выделить в сигнале.
Вейвлет
ψ
— это функция с нулевым средним значением
+
−∞
ψ
(
t
)
dt
= 0
(11)
и параметрами сдвига
u
и растяжения
s
, имеющая вид
ψ
u,s
(
t
) =
1
s
ψ
t
u
s
.
(12)
Вейвлет-преобразование
f
с масштабом
s
и сдвигом
u
вычисляется
корреляцией
f
с вейвлет-атомом:
Wf
(
u, s
) =
+
−∞
f
(
t
)
1
s
ψ
t
u
s
dt,
(13)
где
ψ
— комплексно-сопряженное
ψ
C
.
Как и преобразование Фурье с окном, применяя вейвлет-преобра-
зование, можно определять частотно-временн ´ые изменения спектраль-
ных компонент, но вейвлет-преобразование имеет другое частотно-
временн´ое разрешение.
Фильтрация сигнала от шума
. Зашумленный сигнал
X
[
n
]
может
быть представлен в виде суммы
X
[
n
] =
f
[
n
] +
W
[
n
]
, где
f
[
n
]
— полез-
ный сигнал, а
W
[
n
]
— шум. Применительно к задаче распознавания
речи диктора, отметим, что
f
[
n
]
— это голос диктора, а
W
[
n
]
— окру-
жающая обстановка, оказывающая негативное влияние на качество
работысистемыраспознавания голоса диктора.
Задача фильтрации состоит в сохранении компоненты
f
[
n
]
и пода-
влении шумовой составляющей
W
[
n
]
. Вейвлет-преобразование позво-
ляет проводить высококачественное разделение речевого сигнала на
компонентыи его фильтрацию от шума.
Классическая модель системы распознавания голоса диктора.
В общем случае система распознавания голоса диктора состоит из
нескольких модулей. Базовым блоком является модуль извлечения ин-
дивидуальных особенностей голоса диктора. В большинстве совре-
менных систем распознавания для извлечения особенностей голоса
используется БПФ с окном (8) в качестве основы.
106 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2008. № 3
1,2,3 5,6,7,8,9,10
Powered by FlippingBook