日期:2014-05-16  浏览次数:20429 次

Hadoop自学笔记(三)MapReduce简介

1. MapReduce Architecture

MapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。

 

Job Client, 就是用户

Job TrackerTask Tracker也是一种Master - Slave构建

 

工作流程(MapReduce Pipeline

 

Job Client提交了MapReduce的程序(比如jar包中的二进制文件),所需要的数据,结果输出位置,提交给Job Tracker. Job Tracker会首先询问Name Node, 所需要的数据都在哪些block里面,然后就近选择一个Task Tracker(离这些所需数据最近的一个task tracker,可能是在同一个Node上或者同一个Rack上或者不同rack),把这个任务发送给该Task Tracker, Task Tracker来真正执行该任务。Task Tracker内部有Task Slots来真正执行这些任务。如果执行失败了,Task Tracker就好汇报给Job Tracker, Job Tracker就再分配给别的Task Tracker来执行。Task Tracker在执行过程中要不断的向Job Tracker汇报。最后Task Tracker执行完成后,汇报给Job TrackerJob Tracker就更新任务状态为成功。

 

注意,当用户提交一个MapReduce任务的时候,不仅仅同时把任务提交给Job&