Entendendo o Map Reduce

Neste post irei explicar como funciona o MapReduce.



Primeiramente o que é o MapReduce ?

O MapReduce é uma forma de processamento de dados que se tornou conhecido depois de um artigo disponibilizado pelo google que explica a forma que o google processava seus dados.
A partir desse artigo Doug Cutting desenvolveu o MapReduce para implementar no que conhecemos hoje como hadoop.


Como funciona o MapReduce ?

O MapReduce funciona em 3 "camadas".

Mapper:



Primeiramente temos o Input(dados os de entrada) como podemos ver na imagem acima, logo após o Input temos o Mapper, que separa os dados da entrada em chave:valor.Os Mappers são distribuídos entre as máquinas do cluster, para o processamento ser realizado mais rápido.

Sort and Shuffle:



Logo após temos o Sort and Shuffle, primeiro vem o Sort que organiza os dados em ordem numérica ou alfabética, após o Sort organizar os dados o Shuffle entra em ação realizando um "Group By" dos dados como por exemplo:
chave:valor1,valor2,valor3

Redducer:



Após o Sort and Shuffle entramos na fase final do processamento, que é o Redducer, que consiste em reduzir os dados que o Shuffle produziu para apenas um único valor(esse valor consiste na quantidade de vezes que o valor está se repetindo no Shuffle), como por exemplo:
Shuffle:
chave:valor1,valor1,valor
Redducer:
chave:3
Share:

0 comentários:

Postar um comentário