Primeiramente o que é o MapReduce ?
O MapReduce é uma forma de processamento de dados que se tornou conhecido depois de um artigo disponibilizado pelo google que explica a forma que o google processava seus dados.
A partir desse artigo Doug Cutting desenvolveu o MapReduce para implementar no que conhecemos hoje como hadoop.
Como funciona o MapReduce ?
O MapReduce funciona em 3 "camadas".
Mapper:
Primeiramente temos o Input(dados os de entrada) como podemos ver na imagem acima, logo após o Input temos o Mapper, que separa os dados da entrada em chave:valor.Os Mappers são distribuídos entre as máquinas do cluster, para o processamento ser realizado mais rápido.
Sort and Shuffle:
Logo após temos o Sort and Shuffle, primeiro vem o Sort que organiza os dados em ordem numérica ou alfabética, após o Sort organizar os dados o Shuffle entra em ação realizando um "Group By" dos dados como por exemplo:
chave:valor1,valor2,valor3
Redducer:
Após o Sort and Shuffle entramos na fase final do processamento, que é o Redducer, que consiste em reduzir os dados que o Shuffle produziu para apenas um único valor(esse valor consiste na quantidade de vezes que o valor está se repetindo no Shuffle), como por exemplo:
Shuffle:
chave:valor1,valor1,valor
Redducer:
chave:3
0 comentários:
Postar um comentário