目前從事大數據工作一年,2019年很多大學開設了大數據相關的課程,具體課程內容包含什麼,我不太清楚,但是可以以過來人的身份說一下【大數據開發】方向需要的技能以及學習大數據開發的學習路線。 2020大數據學習路線圖如果圖片不清晰,可以私信我獲取高清大圖。 上面也只是羅列了一些我工作中使用到的技術,只是冰山一角。如果你可以想學習大數據或者樂於分享技術,可以一起來交流。大數據 · 語雀?www.yuque.com免費的知識星球,純粹的技術交流。https://t.zsxq.com/7iQRNrR?t.zsxq.com 數據科學 偏工程類的崗位,首先需要熟練使用 SQL 和 Python。在此基礎上學習下面幾個部分:第一部分:數據科學入門熟悉數據科學問題解決流程,包括探索性數據分析、異常值的處理,如何與不同的利益相關方有效溝通。第二部分:深度學習神經網路是深度學習的基石。在這部分課程中,你將學習神經網路的基本原理,並在實戰項目中用 Python 和 Numpy 從頭開始構建一個神經網路。你還將簡要了解 TensorFlow,以及如何用它來搭建深度神經網路。在此節中,你還會拓展學習社交媒體的情緒分析方法。第三部分:軟體工程發展數據科學家核心的軟體工程技能。你將學習到如何書寫整潔和模塊化的代碼,如何對代碼進行測試與審查,並學習面向對象編程。你還會開發與部署自己的數據應用。第四部分:數據工程學習處理完整的數據科學工作流中的所有數據,包括運行數據管道、轉化數據、構建模型、將解決方案部署到雲端。你還會學到 NLP 數據管道與機器學習管道的原理與應用。第五部分:試驗設計與推薦系統學習使用科學的試驗方法來審查數據結果,並開展和分析 A/B 測試。學習基於知識和內容的推薦系統機制,並採用矩陣分解來驗證與優化推薦系統效果。 第六部分:如何使用 Spark 來處理大數據,並規模化構建機器學習模型,包括如何使用 PySpark 來清洗大數據集及建模。PySpark 是 Spark 為 Python 開發者提供的 API。本課程介紹了大數據及 Spark 在大數據生態系統的角色,並通過互動式練習,處理和清洗數據集,從而熟悉 SparkSQL 和 dataframe APIs,並使用 Spark 機器學習庫來訓練機器學習模型。以上六部分的學習大綱來自某外國學習網站,近期我也打算學習深造一下,數據科學家應該是每個做數據開發嚮往的頂部了吧,加油吧少年!持續更新中... 我們這個專業是與阿里巴巴合作的,目前我大一,要學的課程有web開發,c語言程序設計,python,計算機網路基礎,java程序設計,資料庫,機器學習,hadoop框架 這個囊括的東西比較多 看你要走什麼方向大數據開發1.hadoop全家桶 數據接入 數據存儲 數據開發 數據倉庫 數據查詢 等2.流式數據 實時數據倉庫技術3.各種nosql資料庫 數據分析 1.增長黑客相關業務知識2.分析工具 tableau之類的3.sql 資料庫知識 最好的hive spark數據挖掘和演算法1.各種基礎演算法2.機器學習演算法 3.深度學習演算法4.其他更垂直的演算法 比如nlp cv等5.各種工具的使用 首先大一要把數學基礎打好,高等數學,代數和基本的C語言必須掌握; 大二主要學習編程,離散數學,概率論與數理統計,Python要掌握,MATLAB,MySQL要了解,數據結構與演算法也要學習,數學建模,數據採集與清洗,統計學,最優化方法,數值計算,並行計算等等要學;大三的話主要是要學軟體工程,了解AI(畢竟本科,人工只能這方面不會很深奧),時間序列,深度學習,雲計算技術,數據可視化,還有金融與保險數據分析,生物與醫療數據分析,等等;大四就沒什麼了,畢業實習,畢設。總結大一閑,大二大三累成狗,學的主要是關於數學和計算機的課程! C語言基礎Linux操作系統高等代數數學分析Java英語 這是兩個比較寬泛的合集,而且還在不停的擴充中。在一些語境中,數據科學是包括大數據技術的;另一些語境中這倆只是有部分交集,數據科學偏向分析和決策,大數據技術偏向工程和產品。再加上這種title,在不同學校的培養方向可能不同,在不同公司的負責內容也會不同。所以,還是分三條線說,到時候具體看專業描述或者職位描述。第一,走數據分析路線的。那麼數據準備、處理、計算過程用到的SQL、Python、R之類的要會。數據可視化的工具要會,至少精通一個。常見的統計方法和分析方法要會。常見的演算法模型要懂得原理和優化方法。另外邏輯思維比較清晰,能從數據中提煉信息形成結論並支撐決策,簡單說,書面和口頭表達能力都要好一些,要能讓別人懂你的意思。第二,走平台建設路線的。那麼軟體工程和項目管理要懂。常見的系統架構要懂,怎麼做負載均衡,怎麼減少冗餘,怎麼提高性能等等。常見的項目,比如Hadoop、Hive、Flink、Spark那些,實現原理和能力特點要懂。另外最好懂一些常見的技術語言,比如Java、HTML、JS等等,能簡單寫兩句的程度。第三,走數據治理路線的。那麼各種數據治理框架要懂,比如常見的數倉模型,常見的數據安全管理辦法,常見的數據質量稽查方法,以及行業內的各種關於數據和數據系統的標準。 李陽 / 高級數據產品經理 / 知識星球 公眾號:數據有毒 推薦閱讀:
目前從事大數據工作一年,2019年很多大學開設了大數據相關的課程,具體課程內容包含什麼,我不太清楚,但是可以以過來人的身份說一下【大數據開發】方向需要的技能以及學習大數據開發的學習路線。
如果圖片不清晰,可以私信我獲取高清大圖。
上面也只是羅列了一些我工作中使用到的技術,只是冰山一角。如果你可以想學習大數據或者樂於分享技術,可以一起來交流。
免費的知識星球,純粹的技術交流。
偏工程類的崗位,首先需要熟練使用 SQL 和 Python。在此基礎上學習下面幾個部分:
第一部分:數據科學入門熟悉數據科學問題解決流程,包括探索性數據分析、異常值的處理,如何與不同的利益相關方有效溝通。
第二部分:深度學習神經網路是深度學習的基石。在這部分課程中,你將學習神經網路的基本原理,並在實戰項目中用 Python 和 Numpy 從頭開始構建一個神經網路。你還將簡要了解 TensorFlow,以及如何用它來搭建深度神經網路。在此節中,你還會拓展學習社交媒體的情緒分析方法。
第三部分:軟體工程發展數據科學家核心的軟體工程技能。你將學習到如何書寫整潔和模塊化的代碼,如何對代碼進行測試與審查,並學習面向對象編程。你還會開發與部署自己的數據應用。
第四部分:數據工程學習處理完整的數據科學工作流中的所有數據,包括運行數據管道、轉化數據、構建模型、將解決方案部署到雲端。你還會學到 NLP 數據管道與機器學習管道的原理與應用。
第五部分:試驗設計與推薦系統學習使用科學的試驗方法來審查數據結果,並開展和分析 A/B 測試。學習基於知識和內容的推薦系統機制,並採用矩陣分解來驗證與優化推薦系統效果。
第六部分:如何使用 Spark 來處理大數據,並規模化構建機器學習模型,包括如何使用 PySpark 來清洗大數據集及建模。PySpark 是 Spark 為 Python 開發者提供的 API。本課程介紹了大數據及 Spark 在大數據生態系統的角色,並通過互動式練習,處理和清洗數據集,從而熟悉 SparkSQL 和 dataframe APIs,並使用 Spark 機器學習庫來訓練機器學習模型。
以上六部分的學習大綱來自某外國學習網站,近期我也打算學習深造一下,數據科學家應該是每個做數據開發嚮往的頂部了吧,加油吧少年!
持續更新中...
我們這個專業是與阿里巴巴合作的,目前我大一,要學的課程有web開發,c語言程序設計,python,計算機網路基礎,java程序設計,資料庫,機器學習,hadoop框架
這個囊括的東西比較多 看你要走什麼方向
大數據開發
1.hadoop全家桶 數據接入 數據存儲 數據開發 數據倉庫 數據查詢 等
2.流式數據 實時數據倉庫技術
3.各種nosql資料庫
數據分析
1.增長黑客相關業務知識
2.分析工具 tableau之類的
3.sql 資料庫知識 最好的hive spark
數據挖掘和演算法
1.各種基礎演算法
2.機器學習演算法
3.深度學習演算法
4.其他更垂直的演算法 比如nlp cv等
5.各種工具的使用
首先大一要把數學基礎打好,高等數學,代數和基本的C語言必須掌握;
大二主要學習編程,離散數學,概率論與數理統計,Python要掌握,MATLAB,MySQL要了解,數據結構與演算法也要學習,數學建模,數據採集與清洗,統計學,最優化方法,數值計算,並行計算等等要學;
大三的話主要是要學軟體工程,了解AI(畢竟本科,人工只能這方面不會很深奧),時間序列,深度學習,雲計算技術,數據可視化,還有金融與保險數據分析,生物與醫療數據分析,等等;
大四就沒什麼了,畢業實習,畢設。
總結大一閑,大二大三累成狗,學的主要是關於數學和計算機的課程!
C語言基礎
Linux操作系統
高等代數
數學分析
Java
英語
這是兩個比較寬泛的合集,而且還在不停的擴充中。在一些語境中,數據科學是包括大數據技術的;另一些語境中這倆只是有部分交集,數據科學偏向分析和決策,大數據技術偏向工程和產品。
再加上這種title,在不同學校的培養方向可能不同,在不同公司的負責內容也會不同。所以,還是分三條線說,到時候具體看專業描述或者職位描述。
第一,走數據分析路線的。那麼數據準備、處理、計算過程用到的SQL、Python、R之類的要會。數據可視化的工具要會,至少精通一個。常見的統計方法和分析方法要會。常見的演算法模型要懂得原理和優化方法。另外邏輯思維比較清晰,能從數據中提煉信息形成結論並支撐決策,簡單說,書面和口頭表達能力都要好一些,要能讓別人懂你的意思。
第二,走平台建設路線的。那麼軟體工程和項目管理要懂。常見的系統架構要懂,怎麼做負載均衡,怎麼減少冗餘,怎麼提高性能等等。常見的項目,比如Hadoop、Hive、Flink、Spark那些,實現原理和能力特點要懂。另外最好懂一些常見的技術語言,比如Java、HTML、JS等等,能簡單寫兩句的程度。
第三,走數據治理路線的。那麼各種數據治理框架要懂,比如常見的數倉模型,常見的數據安全管理辦法,常見的數據質量稽查方法,以及行業內的各種關於數據和數據系統的標準。
李陽 / 高級數據產品經理 / 知識星球 公眾號:數據有毒