Рис. 5. Основные этапы реализации модели MapReduce
ние задачи, которая изначально формулировалась [16, 17]. Основные
этапы реализации модели MapReduce представлены на рис. 5.
Маршрут реализации процедур MapReduce можно представить в
следующем виде.
Маршрут обработки данных по модели MapReduce
Обработка входных данных.
Реализуемая функция
: входные данные делятся на блоки предопре-
делeнного размера (от 16 до 128МБ) —
сплиты
(от англ. split).
Действие
: MapReduceFramework закрепляет за каждой функцией Map
определeнный сплит.
Выполнение Map-функций.
Реализуемая функция
: каждая функция Map получает на вход список
пар “ключ–значение”
< k, v >
, обрабатывает их и на выходе получает
ноль или более пар
< k
0
, v
0
>
, являющихся промежуточным резуль-
татом: map
(
k, v
)
→
[(
k
0
, v
0
)]
, где
k
0
— в общем случае произвольный
ключ, несовпадающий с
k
.
Действие
: все операции map( ) выполняются параллельно и не зависят
от результатов работы друг друга. Каждая функция map( ) получает на
вход свой уникальный набор данных, не повторяющийся ни для какой
другой функции map( ).
Комбинирование промежуточных значений (Partition/Combine).
Реализуемая функция
: распределение промежуточных результатов, по-
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2015. № 6 53