如何系統學習hadoop等大數據行業知識？

多實踐作重要，在工作中解決實際問題的過程中就會有慢慢的體會。首先，hadoop是離線分析的工具適合海量數據。

其次，hive便於業務人員查詢。pig方便開發人員做m/r的開發。

對於數據挖掘方面可以通過mahout與hadoop整合來實現數據的分類，聚類以及預測等方面。其次，理論知識也很重要，尤其涉及到概率論與統計學。重點關注機器學習方面。我將自己的一些經驗整理到我的blog，http://www.r66r.net

引用我原創文章中的一段來回復你的問題！

原作者姓名：本人青牛
原出處：海牛部落/青牛知乎文章海牛部落原文鏈接：[新手必讀] 從小白到大數據技術專家的學習歷程知乎原文鏈接：零基礎小白成為大數據技術專家必知的學習歷程

Hadoop：這是現在流行的大數據處理平臺幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麪包括幾個組件HDFS、MapReduce和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapReduce是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。YARN是體現Hadoop平臺概念的重要組件有了它大數據生態體系的其它軟體就能在hadoop上運行了，這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源比如我們就不用再單獨建一個spark的集羣了，讓它直接跑在現有的hadoop yarn上面就可以了。其實把Hadoop的這些組件學明白你就能做大數據的處理了，只不過你現在還可能對"大數據"到底有多大還沒有個太清楚的概念，聽我的別糾結這個。等以後你工作了就會有很多場景遇到幾十T/幾百T大規模的數據，到時候你就不會覺得數據大真好，越大越有你頭疼的。

當然學習大數據不能只學hadoop，還有很多技術和知識點需要學習，我給你分享一份完整的大數據課程大綱供你參考