Reduce(
k
0
,
[
v
0
])
→
[
v
00
]
.
Действие
: все операции reduce( ) выполняются параллельно и не за-
висят от результатов работы друг друга. Таким образом, результаты
работы каждой функции reduce( ) пишутся в отдельный выходной по-
ток.
Формирование выходного потока — Output write.
Реализуемая функция
: результаты, полученные на этапе reduce, запи-
сываются в выходной поток.
Действие:
каждый reduce-узел пишет в собственный выходной поток.
Преимущество модели MapReduce заключается в том, что она по-
зволяет распределено проводить операции предварительной обработ-
ки и консолидации. Операции предварительной обработки работают
независимо друг от друга и могут выполняться параллельно. Анало-
гично, множество рабочих узлов могут осуществлять консолидацию.
Так, MapReduce может быть использован для сортировки петабайта
данных, что займет всего лишь несколько часов, в то время как при
традиционном подходе к сортировке это займет несколько дней или не-
дель. Параллелизм также дает некоторые возможности восстановления
серверов после частичных сбоев: если в рабочем узле, выполняющем
операцию предварительной обработки или консолидации, возникает
сбой, то его работа может быть передана другому рабочему узлу [17].
3. Большие данные применительно к обработке метеоинфор-
мации.
В случае с метеоданными, которые поступают лавинообраз-
но, задача получения и анализа метеоинформации идеально подходит
для решения средствами “больших данных”. Как уже было отмечено,
необходимо обрабатывать около 72 ГБ сырых данных в день. Если
для задач анализа необходимо накапливать данные, то за год успеет
набежать 25 ТБ.
Метеоинформация приходит из разных источников. Даже если это
будут файлы формата GRIB версии 2 их внутренний формат может
быть различным (например, разный тип сетки). Кроме того, инфор-
мацию о погоде могут поставлять частные компании, в таком случае
формат данных может быть абсолютно непредсказуем. Технологии
“больших данных” позволяют проверять и согласовывать поступаю-
щие данные с уже имеющимися данными. Причем они могут хранить-
ся как в реляционной базе данных, так и файлах файловой системы.
Одно из важнейших преимуществ такого подхода заключается в
стоимости. Модульная организация вычислительного узла в случае
нехватки места для хранения данных либо процессорных мощностей
позволяет добавить в кластер новое оборудование без простоя системы
и необходимости выкидывать старое оборудование.
4. Особенности применения фреймворк с открытым исходным
кодом Apache Hadoop
[18], в котором реализована вычислительная
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 6 55