MapReduce-大數據必備知識點系列介紹

mapreduce分散式計算框架可以讓應用在集羣中可靠的容錯的，並行處理，TB級別的數據。因此我會從架構、流程、數據結構三個維度去羅列介紹。

架構（主從結構）

1、一個ResourceManager主節點

2、每個DataNode上有一個NodeManager從節點

3、每個運行於MapReduce的程序有一個MRAppMaster

流程

1、MapReduce將輸入的數據塊邏輯切片(block)

2、map任務以並行方式處理切片數據

3、框架對map輸出排序，然後將數據發送給reduce

4、MapReduce的輸入輸出數據存在於同一個文件系統（HDFS）

5、框架負責任務調度、任務監控和失敗任務的重新執行

（MRAppMaster）

數據結構

Map : (K1,V1) -> list(K2,V2)

Reduce : (K2,list(V2)) -> list(K3,V3)

1、MapReduce處理鍵值對形式的很多鍵值對輸入，生成鍵值對形式的很多鍵值對輸出

2、框架會對鍵和值序列化，因此鍵類型和值類型需要實現Writable介面。框架會對鍵進行排序，因此必須實現WritableComparable介面。

3、map輸出鍵值對類型和reduce鍵值對輸入類型一致

4、map的輸入鍵值對類型和輸出鍵值對類型一般不一致

5、reduce的輸入鍵值對類型和輸出鍵值對類型一般不一致

MapReduce原語：若干條指令組成的，用於完成一定功能的一個過程

相同key的鍵值對為一組調用一次reduce方法，方法內迭代這一組數據進行計算

Mapper根據業務需求處理數據並映射為KV模型,並行分散式計算。

Reducer對數據進行全量/分量加工,可以包含不同的key,相同分區的key匯聚到一個Reducer中,調用一次reduce方法,排序和比較實現key的匯聚

既然Python的庫能對大數據進行分析，那為何還要用Hadoop和Spark?