大數據的學生，但是學的好痛苦啊，編程基本不會啊，怎麼辦，該怎麼學?

現在期末了，每天要寫實驗，數據結構的實驗，但是基本不會啊！理解那些原理但是寫不出代碼啊！！！怎麼辦

作為一名大數據方向的研究生導師，我來回答一下這個問題。

首先，對於本科生來說，當前選擇大數據專業是不錯的選擇，一方面大數據的產生生態比較龐大，而且當前大數據尚處在發展的初期，未來隨著大數據的落地應用會釋放出很多行業紅利，另一方面大數據領域的人才需求潛力也比較大，而且大數據領域對於人才類型的需求也比較多元化，所以未來大數據專業畢業生的就業前景還是非常值得期待的。

雖然當前選擇大數據專業會有比較好的發展前景，但是由於大數據專業是一個比較典型的交叉學科，涉及到數學、統計學和計算機，所以大數據專業的知識量還是比較大的，學習壓力也會相對比較大。另外，學習大數據專業往往還需要結合一定的實踐場景，基於場景來學習大數據技術會更容易深入。

對於大數據專業的本科生來說，如果在學習的過程中遇到了較大的困難，可以從以下幾個方面來找解決方案：

第一：注重交流。在學習的過程中，如果遇到學習上的困難，一定要及時與老師進行溝通，溝通的過程不僅能夠讓自己認識到問題的根源，同時老師也會給出具體的解決方案。按照歷史經驗來看，如果學生能夠把自己的問題描述清楚，實際上問題已經解決了一半。

第二：重視實驗。學習大數據相關技術，一定要重視實驗對於學習的促進作用，而且在做實驗的過程中也能夠積累大量的實踐經驗。做實驗最好要充分利用學校的教育資源（數據中心等），同時要多與同學進行合作。

第三：重視總結。學習大數據相關技術，一定要及時做好總結，尤其是在完成各種實驗之後，及時總結能夠讓自己逐漸形成自己的方法論，這對於推動後續的學習會有非常積極的影響。

大數據架構詳解：從數據獲取到深度學習京東￥ 54.40去購買?

我從事互聯網行業多年，目前也在帶計算機專業的研究生，主要的研究方向集中在大數據和人工智慧領域，我會陸續寫一些關於互聯網技術方面的文章，感興趣的朋友可以關注我，相信一定會有所收穫。

如果有互聯網、大數據、人工智慧等方面的問題，或者是考研方面的問題，都可以在評論區留言，或者私信我！

大數據學習路線

下面和大家講一下大數據學習的路線，幫助大家快速進入大數據行業。我會結合自己的實際經歷還說明學習路線。該路線針對的對象是零基礎小白，目標是到初中級大數據工程師，要求掌握數據建模，數據存儲，數據存儲，數據傳輸，數據分析等能力達到大數據崗位的應聘標準。

（一）Java基礎和web開發

很多人問過我，學大數據要不要學Java，我的答案是肯定的。首先Java是一門面向對象的編程語言，也是一門應用非常之廣的語言，對於零基礎的小白必須先有一些基本的編碼能力和面向對象編程的思想。其次很多框架的底層就是用Java進行開發的，比如Hadoop，如果想要更近一步，源碼是要看的。所以學習Java基礎是十分必要的。Java基礎重點包括：

Java常用類【特別是字元串處理相關的類】
異常處理
集合泛型
IO流
多線程
反射
網路編程
常見設計模式
JVM【難點+重點，但比較花時間】

那麼JavaWeb開發要不要會呢？我的建議是了解就行，了解常見的SSM框架，了解Web項目大致的開發流程，對整個軟體的開發有一個感性的認識，這樣就足夠了。當然學有餘力請繼續深入。

（二）工具類

軟體開發都繞不開使用別人的輪子，好的工具讓我們開發效率大大提升，下面工具必須掌握：

編輯器：Eclipse + IDEA

項目構建工具：Maven + Gradle（有餘力）

資料庫：Mysql【初期先了解增刪改查，後面有時間能多深入就多深入】

操作系統：Linux【常見命令會就行】

腳本語言：Shell【看得懂就行】

虛擬機：VMware 創建-克隆虛擬機，拍攝-還原快照【操作過就行】

（三）Hadoop生態系統

HDFS：學會搭建完全分散式集群，知道如何根據業務編寫MapReduce程序，並放到集群上運行
YARN：知道它是個資源管理器和k8s一樣，熟悉Job提交的過程
Mapreduce：編寫業務程序【熟悉一些數據傾斜的解決方案和底層Shuffle過程】
Zookeeper：分散式協調框架【知道Zookeeper選舉機制和常用命令】
Hive：數據倉庫，底層是MapReduce【重點掌握：HQL語句書寫，窗口函數，多做一些案例總結自己的套路，優化也要了解一下】
HBase：超大型分散式資料庫，經常用來做實時查詢【了解HBase架構，RowKey設計原則，後面開發用到再來深入】
Flume：數據傳輸框架【知道Flume組成，攔截器和選擇器使用】
Kafka：消息緩存框架【Kafka架構-壓測-監控-ISR同步隊列-事務-高效讀取】
Sqoop：關係型資料庫和HDFS，HBase之間數據的傳輸框架
Ambari：用於配置、管理和監視Hadoop集群，基於Web，界面友好
Impala：對存儲在Apache Hadoop的HDFS，HBase的數據提供直接查詢互動的SQL

（四）Spark生態

到這裡又要學習一門新的編程語言Scala，初入Scala可能會對它的語法結構產生不習慣，熟悉之後你會發現Java代碼是很繁瑣的。編程語言是什麼不重要，關鍵是背後的思想和邏輯才重要。

Scala：了解基礎語法、函數式編程和隱式轉換就行

Spark：可以看作是對Hadoop框架的優化，它是基於內存進行計算的，性能提高很多。【熟悉Spark部署方式-提交流程-參數設置-RDD血統-寬窄依賴-轉換和行動運算元-廣播變數和累加器-性能調優】

Spark-Sql：spark中負責和資料庫交互的模塊【熟悉DataFrame-DataSet，SQL語句書寫，UDF和UDTF函數使用】

Spark-Streaming：spark中負責流式計算的模塊【了解流式計算的原理，背壓機制，窗口函數】

（五）Flink框架

Flink是目前最火的處理流式數據的框架應掌握一下內容

本文配套GitHub：https://github.com/zhutiansama/FocusBigData

我的大數據學習之路前言說在最前面，可能有些地方理解的不是很好，有不好的地方，望見諒，畢竟每個人想法不一樣，不喜勿噴，謝謝~ ================================================= 最新版本的「大數據學習之路」已經更新，具體內容查看這篇文章即可，因為更新了一些東西…