目前從事大數據工作一年,2019年很多大學開設了大數據相關的課程,具體課程內容包含什麼,我不太清楚,但是可以以過來人的身份說一下【大數據開發】方向需要的技能以及學習大數據開發的學習路線。

2020大數據學習路線圖

如果圖片不清晰,可以私信我獲取高清大圖。

上面也只是羅列了一些我工作中使用到的技術,只是冰山一角。如果你可以想學習大數據或者樂於分享技術,可以一起來交流。

大數據 · 語雀?

www.yuque.com圖標

免費的知識星球,純粹的技術交流。

https://t.zsxq.com/7iQRNrR?

t.zsxq.com

數據科學

偏工程類的崗位,首先需要熟練使用 SQL 和 Python。在此基礎上學習下面幾個部分:

第一部分:數據科學入門熟悉數據科學問題解決流程,包括探索性數據分析、異常值的處理,如何與不同的利益相關方有效溝通。

第二部分:深度學習神經網路是深度學習的基石。在這部分課程中,你將學習神經網路的基本原理,並在實戰項目中用 Python 和 Numpy 從頭開始構建一個神經網路。你還將簡要了解 TensorFlow,以及如何用它來搭建深度神經網路。在此節中,你還會拓展學習社交媒體的情緒分析方法。

第三部分:軟體工程發展數據科學家核心的軟體工程技能。你將學習到如何書寫整潔和模塊化的代碼,如何對代碼進行測試與審查,並學習面向對象編程。你還會開發與部署自己的數據應用。

第四部分:數據工程學習處理完整的數據科學工作流中的所有數據,包括運行數據管道、轉化數據、構建模型、將解決方案部署到雲端。你還會學到 NLP 數據管道與機器學習管道的原理與應用。

第五部分:試驗設計與推薦系統學習使用科學的試驗方法來審查數據結果,並開展和分析 A/B 測試。學習基於知識和內容的推薦系統機制,並採用矩陣分解來驗證與優化推薦系統效果。

第六部分:如何使用 Spark 來處理大數據,並規模化構建機器學習模型,包括如何使用 PySpark 來清洗大數據集及建模。PySpark 是 Spark 為 Python 開發者提供的 API。本課程介紹了大數據及 Spark 在大數據生態系統的角色,並通過互動式練習,處理和清洗數據集,從而熟悉 SparkSQL 和 dataframe APIs,並使用 Spark 機器學習庫來訓練機器學習模型。

以上六部分的學習大綱來自某外國學習網站,近期我也打算學習深造一下,數據科學家應該是每個做數據開發嚮往的頂部了吧,加油吧少年!

持續更新中...


我們這個專業是與阿里巴巴合作的,目前我大一,要學的課程有web開發,c語言程序設計,python,計算機網路基礎,java程序設計,資料庫,機器學習,hadoop框架


這個囊括的東西比較多 看你要走什麼方向

大數據開發

1.hadoop全家桶 數據接入 數據存儲 數據開發 數據倉庫 數據查詢 等

2.流式數據 實時數據倉庫技術

3.各種nosql資料庫

數據分析

1.增長黑客相關業務知識

2.分析工具 tableau之類的

3.sql 資料庫知識 最好的hive spark

數據挖掘和演算法

1.各種基礎演算法

2.機器學習演算法

3.深度學習演算法

4.其他更垂直的演算法 比如nlp cv等

5.各種工具的使用


首先大一要把數學基礎打好,高等數學,代數和基本的C語言必須掌握;

大二主要學習編程,離散數學,概率論與數理統計,Python要掌握,MATLAB,MySQL要了解,數據結構與演算法也要學習,數學建模,數據採集與清洗,統計學,最優化方法,數值計算,並行計算等等要學;

大三的話主要是要學軟體工程,了解AI(畢竟本科,人工只能這方面不會很深奧),時間序列,深度學習,雲計算技術,數據可視化,還有金融與保險數據分析,生物與醫療數據分析,等等;

大四就沒什麼了,畢業實習,畢設。

總結大一閑,大二大三累成狗,學的主要是關於數學和計算機的課程!


C語言基礎

Linux操作系統

高等代數

數學分析

Java

英語


這是兩個比較寬泛的合集,而且還在不停的擴充中。在一些語境中,數據科學是包括大數據技術的;另一些語境中這倆只是有部分交集,數據科學偏向分析和決策,大數據技術偏向工程和產品。

再加上這種title,在不同學校的培養方向可能不同,在不同公司的負責內容也會不同。所以,還是分三條線說,到時候具體看專業描述或者職位描述。

第一,走數據分析路線的。那麼數據準備、處理、計算過程用到的SQL、Python、R之類的要會。數據可視化的工具要會,至少精通一個。常見的統計方法和分析方法要會。常見的演算法模型要懂得原理和優化方法。另外邏輯思維比較清晰,能從數據中提煉信息形成結論並支撐決策,簡單說,書面和口頭表達能力都要好一些,要能讓別人懂你的意思。

第二,走平台建設路線的。那麼軟體工程和項目管理要懂。常見的系統架構要懂,怎麼做負載均衡,怎麼減少冗餘,怎麼提高性能等等。常見的項目,比如Hadoop、Hive、Flink、Spark那些,實現原理和能力特點要懂。另外最好懂一些常見的技術語言,比如Java、HTML、JS等等,能簡單寫兩句的程度。

第三,走數據治理路線的。那麼各種數據治理框架要懂,比如常見的數倉模型,常見的數據安全管理辦法,常見的數據質量稽查方法,以及行業內的各種關於數據和數據系統的標準。


李陽 / 高級數據產品經理 / 知識星球 公眾號:數據有毒


推薦閱讀:
相关文章