Hadoop及其構成

玩計算機需要先裝一個windows系統（或linux系統）。同樣道理，玩大數據也要有個大數據系統，用於將數據匯聚起來，加以分析和處理，將其中有價值的信息分析出來，讓人們認清事物的全局、預測未來的變化趨勢。Hadoop是當前最為流行的兩個大數據系統之一。

Hadoop是一個開源分散式計算平臺。用戶可以利用Hadoop輕鬆地組織計算機資源，從而搭建自己的分散式計算平臺，並且可以充分利用集羣的計算和存儲能力，完成海量數據的處理。Hadoop已廣泛地被企業用於搭建大資料庫系統，據不完全統計，全球已經有數以萬計的Hadoop系統被安裝和使用，國內知名的中國移動、百度、阿里都在大規模地使用Hadoop系統。隨著互聯網的不斷發展，新的業務模式還將不斷湧現，Hadoop的應用也會從互聯網領域向電信、電子商務、銀行、生物製藥等領域拓展。

Hadoop是Apache組織正在推進的項目。這個項目主要由兩大部分的子項目構成，一個是基礎部分，另一個是配套部分。

1）基礎部分

（1）Hadoop Common。Hadoop Common是支撐Hadoop的公共部分，包括文件系統、遠程過程調用RPC和序列化函數庫等。

（2）HDFS。HDFS是可以提供高吞吐量的可靠分散式文件系統，是Google GFS的開源實現。

（3）MapReduce。MapReduce是大型分散式數據處理模型，是Google MapReduce的開源實現。

2）配套部分

（1）HBase。HBase是支持結構化數據存儲的分散式資料庫，是Google BigTable的開源實現。

（2）Hive。Hive是提供數據摘要和查詢功能的數據倉庫。

（3）Pig。Pig是在MapReduce上構建的一種腳本式開發方式，大大簡化了MapReduce的開發工作。

（4）Cassandre。Cassandre是由Facebook支持的開源、高可擴展分散式資料庫，是Amazon庫層架構Dynamo的全分佈和Google BigTable的列式數據存儲模型的有機結合。

（5）Chukwa。Chukwa是用來管理大型分散式系統的數據採集系統。

（6）Zookeeper。Zookeeper用於解決分散式系統中一致性問題，是Google Chubby的開源實現。