Исследовательский комплекс частотно-временного анализа речевого сигнала с использованием вейвлет-технологии - page 2

том, что в большинстве языков основная речевая информация переда-
ется согласными звуками. Так, в русском языке из 43 основных звуков
— 6 гласных и 37 согласных.
В таблице представлены данные о соотношении гласных и соглас-
ных звуков для иностранных языков.
Таблица
Соотношение гласных и согласных звуков в разных языках
Язык
Звуки
Английский Арабский Немецкий Французский Японский
Гласные
20
3
18
16
5
Согласные
24
28
24
17
26
Традиционно разрабатываемые алгоритмы распознавания речи и
идентификации личности по голосу основываются на оценке значе-
ний основного тона или формант гласных звуков. Количественные па-
раметры формант используются для поиска отличий между звуками.
Обычно наиболее информативными считаются первые две форманты,
а для поиска личностных признаков анализируют третья–пятая фор-
манты [4].
Аппаратно-программные комплексы исследования фонограмм.
Аппаратно-программные комплексы исследования фонограмм исполь-
зуются экспертами-криминалистами при решении задач анализа ре-
чевых сигналов и идентификации дикторов. Широкое применение
находят комплексы, разработанные российскими компаниями: “Диа-
лект”, “ИкарЛаб”, Justiphone, ОТЕxpert. Идентификация личности по
голосу основана на оценке значений основного тона или формант
гласных звуков, вычисленных по алгоритму быстрого преобразования
Фурье (БПФ).
На этапе предварительного анализа фонограмм используются зву-
ковые редакторы: Adobe Audition, AWave, Cool Edit, Sound Forge,
Speech Analyzer, Steinberg WaveLab, Wave Flow, WaveLab. Цифровая
обработка сигналов с использованием перечисленных звуковых редак-
торов также основана на алгоритмах БПФ.
На рис. 1 приведена сонограмма или частотно-временное предста-
вление триады звуков “н эс”; значения периода основного тона и фор-
мант получены с использованием комплекса “Диалект”.
Вычисление акустических признаков при микроанализе звуков
диктора по существующей методике [5] проводится на наиболее ин-
формативных, с точки зрения проявления индивидуальности, гласных
звуках [а], [о], [е], [и]. Основными параметрами, характеризующими
индивидуальность голоса диктора для сопоставимых по контексту
звуков, считаются:
— значения частоты основного тона (F0) на гласных звуках;
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2011. № 3 79
1 3,4,5,6,7,8,9,10
Powered by FlippingBook