多實踐作重要,在工作中解決實際問題的過程中就會有慢慢的體會。首先,hadoop是離線分析的工具適合海量數據。

其次,hive便於業務人員查詢。pig方便開發人員做m/r的開發。

對於數據挖掘方面可以通過mahout與hadoop整合來實現數據的分類,聚類以及預測等方面。其次,理論知識也很重要,尤其涉及到概率論與統計學。重點關注機器學習方面。我將自己的一些經驗整理到我的blog,http://www.r66r.net


引用我原創文章中的一段來回復你的問題!

原作者姓名:本人青牛

原出處:海牛部落/青牛知乎文章海牛部落原文鏈接:[新手必讀] 從小白到大數據技術專家的學習歷程知乎原文鏈接:零基礎小白成為大數據技術專家必知的學習歷程

Hadoop:這是現在流行的大數據處理平臺幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麪包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapReduce是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。YARN是體現Hadoop平臺概念的重要組件有了它大數據生態體系的其它軟體就能在hadoop上運行了,這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源比如我們就不用再單獨建一個spark的集羣了,讓它直接跑在現有的hadoop yarn上面就可以了。其實把Hadoop的這些組件學明白你就能做大數據的處理了,只不過你現在還可能對"大數據"到底有多大還沒有個太清楚的概念,聽我的別糾結這個。等以後你工作了就會有很多場景遇到幾十T/幾百T大規模的數據,到時候你就不會覺得數據大真好,越大越有你頭疼的。

當然學習大數據不能只學hadoop,還有很多技術和知識點需要學習,我給你分享一份完整的大數據課程大綱供你參考


紙上得來終歸淺,絕知此事要躬行。去真實應用環境中實習、工作

大數據三大件:存儲、分佈演算法、調度管理,這是基礎,先理解清楚這些,後面的東西就比較好理解了。


http://hadoop.aura.cn
hadoop是雲技術的一種實現,有很多模塊組成。建議你係統性的看一下Map-Reduce原理 Hive Hbase HDFS文件系統。可以參考煉數成金的網站列表介紹

Hadoop等這些是一個生態中的技術框架,技術是用來解決問題的,所以開始學習一個技術框架時,需要明確:

1.為什麼會出現,演變過程是什麼?

2.解決了什麼問題,使用場景是什麼?

3.該技術框架的使用人員是什麼?

4.該框架處於數據處理流程中的哪個環節,該環節還有沒有類似的框架?

搞清楚上面幾個問題之後,再尋找大數據行業的技術體系框架,選擇切入點著手學習。


建議從實踐開始,比如處理word count類似的程序,然後漸漸入門。

可以先寫一些hadoop的java程序,用intellij的軟體,是可以做到本地跑hadoop程序的(只有一臺機器就是了)

然後逐行debug看內部的原理。

如果以上過程太過晦澀,也可以讀一下hadoop的書,比如hadoop definite guide,瞭解一下基本原理再下手


求問,到底是要走例如Python、R還是Hadoop方向的路線,這個有什麼參考標準的嗎?
推薦閱讀:
相關文章