Hadoop及其構成



玩計算機需要先裝一個windows系統(或linux系統)。同樣道理,玩大數據也要有個大數據系統,用於將數據匯聚起來,加以分析和處理,將其中有價值的信息分析出來,讓人們認清事物的全局、預測未來的變化趨勢。Hadoop是當前最為流行的兩個大數據系統之一。


Hadoop是一個開源分散式計算平臺。用戶可以利用Hadoop輕鬆地組織計算機資源,從而搭建自己的分散式計算平臺,並且可以充分利用集羣的計算和存儲能力,完成海量數據的處理。Hadoop已廣泛地被企業用於搭建大資料庫系統,據不完全統計,全球已經有數以萬計的Hadoop系統被安裝和使用,國內知名的中國移動、百度、阿里都在大規模地使用Hadoop系統。隨著互聯網的不斷發展,新的業務模式還將不斷湧現,Hadoop的應用也會從互聯網領域向電信、電子商務、銀行、生物製藥等領域拓展。


Hadoop是Apache組織正在推進的項目。這個項目主要由兩大部分的子項目構成,一個是基礎部分,另一個是配套部分。



1)基礎部分



(1)Hadoop Common。Hadoop Common是支撐Hadoop的公共部分,包括文件系統、遠程過程調用RPC和序列化函數庫等。



(2)HDFS。HDFS是可以提供高吞吐量的可靠分散式文件系統,是Google GFS的開源實現。


(3)MapReduce。MapReduce是大型分散式數據處理模型,是Google MapReduce的開源實現。



2)配套部分



(1)HBase。HBase是支持結構化數據存儲的分散式資料庫,是Google BigTable的開源實現。



(2)Hive。Hive是提供數據摘要和查詢功能的數據倉庫。



(3)Pig。Pig是在MapReduce上構建的一種腳本式開發方式,大大簡化了MapReduce的開發工作。


(4)Cassandre。Cassandre是由Facebook支持的開源、高可擴展分散式資料庫,是Amazon庫層架構Dynamo的全分佈和Google BigTable的列式數據存儲模型的有機結合。



(5)Chukwa。Chukwa是用來管理大型分散式系統的數據採集系統。



(6)Zookeeper。Zookeeper用於解決分散式系統中一致性問題,是Google Chubby的開源實現。

推薦閱讀:

相關文章