基於MapReduce的應用案例

MapReduce應用案例

這是一個在我的Github上開源的基於MapReduce，以數據清洗為背景的案常式序分析項目。

目的是為了能熟練運用MapReduce程序來進行數據清洗工作。歡迎大家star或fork

環境說明

Hadoop搭建環境：

虛擬機操作系統： CentOS6.3 64位，單核，1G內存
JDK：1.7.0_60 64位

Hadoop：2.4.1

MR程序編譯環境：

Eclipse IED
mapred.LocalJobRunner本地運行模式

準備測試數據

測試數據包括兩個文件dept（部門）和emp（員工），其中各欄位用逗號分隔：

dept文件內容：

10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS 30,SALES,CHICAGO 40,OPERATIONS,BOSTON

emp文件內容：

7369,SMITH,CLERK,7902,17-12月-80,800,,20
7499,ALLEN,SALESMAN,7698,20-2月 -81,1600,300,30 7521,WARD,SALESMAN,7698,22-2月 -81,1250,500,30 7566,JONES,MANAGER,7839,02-4月 -81,2975,,20 7654,MARTIN,SALESMAN,7698,28-9月 -81,1250,1400,30 7698,BLAKE,MANAGER,7839,01-5月 -81,2850,,30 7782,CLARK,MANAGER,7839,09-6月 -81,2450,,10 7839,KING,PRESIDENT,,17-11月-81,5000,,10 7844,TURNER,SALESMAN,7698,08-9月 -81,1500,0,30 7900,JAMES,CLERK,7698,03-12月-81,950,,30

7902,FORD,ANALYST,7566,03-12月-81,3000,,20
7934,MILLER,CLERK,7782,23-1月 -82,1300,,10

應用案例

例子1：求各個部門的總工資

問題分析

MapReduce中的join分為好幾種，比如有最常見的 reduce side join、map side join和semi join 等。reduce join 在shuffle階段要進行大量的數據傳輸，會造成大量的網路IO效率低下，而map side join 在處理多個小表關聯大表時非常有用。

Map side join是針對以下場景進行的優化：兩個待連接表中，有一個表非常大，而另一個表非常小，以至於小表可以直接存放到內存中。這樣我們可以將小表複製多份，讓每個map task內存中存在一份（比如存放到hash table中），然後只掃描大表：對於大表中的每一條記錄key/value，在hash table中查找是否有相同的key的記錄，如果有，則連接後輸出即可。為了支持文件的複製，Hadoop提供了一個類DistributedCache，使用該類的方法如下：

（1）用戶使用靜態方法`DistributedCache.addCacheFile()`指定要複製的文件，它的參數是文件的URI（如果是HDFS上的文件，可以這樣：`hdfs://jobtracker:50030/home/XXX/file`）。JobTracker在作業啟動之前會獲取這個URI列表，並將相應的文件拷貝到各個TaskTracker的本地磁碟上。

（2）用戶使用：在分散式環境`DistributedCache.getLocalCacheFiles()`/在偽分散式環境`DistributedCache.getCacheFiles()`方法獲取文件目錄，並使用標準的文件讀寫API讀取相應的文件。

在下面代碼中，將會把數據量小的表(部門dept）緩存在內存中，在Mapper階段對員工部門編號映射成部門名稱，該名稱作為key輸出到Reduce中，在Reduce中計算按照部門計算各個部門的總工資。

處理流程圖