Hadoop自学札记（三）MapReduce简介-数据库教程-爱易网页

Hadoop自学札记（三）MapReduce简介

日期：2014-05-16　浏览次数：20681 次

Hadoop自学笔记（三）MapReduce简介

1. MapReduce Architecture

MapReduce是一套可编程的框架，大部分MapReduce的工作都可以用Pig或者Hive完成，但是还是要了解MapReduce本身是如何工作的，因为这才是Hadoop的核心，并且可以为以后优化和自己写做准备。

Job Client, 就是用户

Job Tracker和Task Tracker也是一种Master - Slave构建

工作流程（MapReduce Pipeline）

Job Client提交了MapReduce的程序（比如jar包中的二进制文件），所需要的数据，结果输出位置，提交给Job Tracker. Job Tracker会首先询问Name Node, 所需要的数据都在哪些block里面，然后就近选择一个Task Tracker(离这些所需数据最近的一个task tracker,可能是在同一个Node上或者同一个Rack上或者不同rack上)，把这个任务发送给该Task Tracker， Task Tracker来真正执行该任务。Task Tracker内部有Task Slots来真正执行这些任务。如果执行失败了，Task Tracker就好汇报给Job Tracker， Job Tracker就再分配给别的Task Tracker来执行。Task Tracker在执行过程中要不断的向Job Tracker汇报。最后Task Tracker执行完成后，汇报给Job Tracker，Job Tracker就更新任务状态为成功。