Previous Page  10 / 17 Next Page
Information
Show Menu
Previous Page 10 / 17 Next Page
Page Background

Reduce(

k

0

,

[

v

0

])

[

v

00

]

.

Действие

: все операции reduce( ) выполняются параллельно и не за-

висят от результатов работы друг друга. Таким образом, результаты

работы каждой функции reduce( ) пишутся в отдельный выходной по-

ток.

Формирование выходного потока — Output write.

Реализуемая функция

: результаты, полученные на этапе reduce, запи-

сываются в выходной поток.

Действие:

каждый reduce-узел пишет в собственный выходной поток.

Преимущество модели MapReduce заключается в том, что она по-

зволяет распределено проводить операции предварительной обработ-

ки и консолидации. Операции предварительной обработки работают

независимо друг от друга и могут выполняться параллельно. Анало-

гично, множество рабочих узлов могут осуществлять консолидацию.

Так, MapReduce может быть использован для сортировки петабайта

данных, что займет всего лишь несколько часов, в то время как при

традиционном подходе к сортировке это займет несколько дней или не-

дель. Параллелизм также дает некоторые возможности восстановления

серверов после частичных сбоев: если в рабочем узле, выполняющем

операцию предварительной обработки или консолидации, возникает

сбой, то его работа может быть передана другому рабочему узлу [17].

3. Большие данные применительно к обработке метеоинфор-

мации.

В случае с метеоданными, которые поступают лавинообраз-

но, задача получения и анализа метеоинформации идеально подходит

для решения средствами “больших данных”. Как уже было отмечено,

необходимо обрабатывать около 72 ГБ сырых данных в день. Если

для задач анализа необходимо накапливать данные, то за год успеет

набежать 25 ТБ.

Метеоинформация приходит из разных источников. Даже если это

будут файлы формата GRIB версии 2 их внутренний формат может

быть различным (например, разный тип сетки). Кроме того, инфор-

мацию о погоде могут поставлять частные компании, в таком случае

формат данных может быть абсолютно непредсказуем. Технологии

“больших данных” позволяют проверять и согласовывать поступаю-

щие данные с уже имеющимися данными. Причем они могут хранить-

ся как в реляционной базе данных, так и файлах файловой системы.

Одно из важнейших преимуществ такого подхода заключается в

стоимости. Модульная организация вычислительного узла в случае

нехватки места для хранения данных либо процессорных мощностей

позволяет добавить в кластер новое оборудование без простоя системы

и необходимости выкидывать старое оборудование.

4. Особенности применения фреймворк с открытым исходным

кодом Apache Hadoop

[18], в котором реализована вычислительная

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 6 55