открытом доступе. В проведенном исследовании были использованы
записи, принадлежащие Бараку Обаме и Ангеле Меркель.
Исходные данные были разбиты на периоды длительностью в два
года с момента начала деятельности политика на посту главы государ-
ства до настоящего времени. Компьютерный анализ, выполненный в
настоящем исследовании, опирается на предположение, что два года —
достаточный для анализа интервал, на котором у человека вырабаты-
вается определенный стиль речи, выступления. Цель исследования —
проверка возможности автоматического отслеживания этих изменений
(распознавания динамики этих изменений) и хронологического упоря-
дочения интервалов из входного набора данных.
Каждый период включает в себя определенное количество аудио-
фрагментов, записанных в рассматриваемый интервал времени (для
разных политиков это число варьируется от 13 до 18). По возможно-
сти было взято максимальное число отрезков из тех выступлений, где
политик отвечает на вопросы журналистов, а не выступает с заранее
подготовленной речью. Причина такого выбора исходных данных со-
стоит в том, чтобы они максимально точно отражали характеристики
речи человека в определенный период.
Аудиофрагменты первоначально были записаны в формате FLAC
(Free Lossless Audio Codec), затем преобразованы в формат WAV
(Waveform Audio File Format) моно. Для нормализации аудиоотрезков
по длине из каждого аудиофайла был вырезан 60-секундный сегмент с
помощью бесплатного он-лайн конвертера
(www.online-convert.com).
Эти фрагменты не содержат все выступление, но являются достаточ-
но продолжительными для анализа характеристик речи. Аудиофайлы
были выбраны так, чтобы в них не было посторонних шумов (раз-
говоров, аплодисментов, помех аппаратуры и т.д.). Это было сделано
для более объективного анализа данных.
Для проведения эксперимента была использована следующая раз-
бивка входных данных: для анализа речи Барака Обамы взято 4 пе-
риода по 2 года каждый (2007–2009 гг., 2009–2011 гг., 2011–2013 гг.,
2013 — по настоящее время). Для анализа речи Ангелы Меркель так-
же взято 4 периода по 2 года каждый (2005–2007 гг., 2007–2009 гг.,
2009–2011 гг., 2011–2013 гг.).
Каждый 60-секундный отрезок был представлен в виде двухмер-
ной цифровой спектрограммы размером 1344
×
588 пиксель. Для по-
лучения спектрограмм использована находящаяся в открытом досту-
пе программа для анализа и визуализации звуковых данных Sonic
Visualiser 2.4.1.
Спектрограммы аудиозаписей Барака Обамы, сделанных в 2007
и 2014 гг., представлены на рис. 1. Вертикальное измерение спектро-
граммы соответствует частоте звукового отсчета в килогерцах, гори-
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 3 129