這是國外數據科學學習平臺DataCamp成員寫的一篇圖文《8步成為數據科學家》。我們具體來看下有哪些學習內容和學習資源。

這裡說的8步,不是你用8周就可以完成,而是一種學習的方法。這些步驟雖然沒有那麼簡單,但是都是可操作,可實踐的。只要你投入時間去學習,相信時間的積累力量,就可以掌握這些知識。

首先,什麼是大數據科學家

數據科學家是一個跨學科人才,是比軟體工程師更擅長統計學,比統計學家更擅長軟體工程的人。需要掌握的知識有數學統計,編程能力,機器學習,研究能力等。

目前,數據科學家大部分是本科或者碩士學歷(本科37%,碩士31%)。但是不要擔心,從調查數據來看,有5%高中畢業的人也成為了數據科學家。這足以證明,只要你努力去提供自己,英雄是不問出處的。

第1步:學好統計、數學和機器學習

下面給出了學習這些知識的資源。如果感覺這些資源學起來太難,可以從《赤裸裸的統計學》、《深入淺出統計學》這兩本書入門。

第2步:學會編程

掌握計算機科學的基礎知識,學會系統開發的整個過程(end-to-end development),因為你做的東西會成為其他系統的一部分。

選擇一種數據分析的編程語言,例如開源軟體的R , Python語言等,或者商業軟體的SAS, SPSS等。

在學習過程中可以用DataCamp, tryR, CodecademyGoogle Class進行互動式學習。

第3步:理解資料庫

在大部分的實際數據分析項目中,數據大部分是存儲在資料庫中的,所以你得學會資料庫的操作,如關係資料庫MySQL,非關係型資料庫MongoDB等。

第4步:學會數據預處理、可視化和報表製作

1. 數據預處理:在數據分析師的工作中,有多達60%的時間都花在了實際分析前數據的準備上。數據預處理的目標是為了把數據改變成我們喜歡的樣子,以便於後期的分析處理。這就好比,現在很多女孩照相喜歡用美圖秀秀,眼睛不大,那我就用美圖秀秀把眼睛變大。變成自己喜歡的樣子。

數據預處理可自學Coursera中《Getting and Cleaning Data》的 課程(作者:John Hopkins)。也可以用工具DataWrangler、R語言的data.table和dply包。

2. 數據可視化數據可視化是將數據分析的結果顯示出來,便於展示。實用工具有ggvis, D3, vega

3. 數據報表:作為數據分析的最後一步,是將數據分析和結果製作成易於理解的報告。實用工具有Tableau, Spotfire和R Markdown。

第5步:提升到大數據級別

當你開始處理海量規模的數據時,絕大多數的數據科學家要解決的問題,都無法在單機上完成,需要用分散式處理大數據集,使用的工具有Hadoop,Apache Spark。

第6步:多實踐,與數據科學家大牛多交流

幸好是互聯網時代,我們可以通過網路認識大牛,並從他們分享的知識內容中學到更多經驗知識。當然,你也可以通過參加比賽,做小項目獲得更多的實踐經驗。

第7步:實習、實戰、或找份工作

判別自己是不是一個真正的數據科學家的最佳途徑,就是用你新學的知識迎難而上,進入數據分析的工作領域。

第8步:通過專業社區學到更多

數據分析的網站有:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers。

可以看這些數據科學大牛的博客:Hilary Mason, David Smith, Nate Silver, dj patil。

可以從quandl上獲取數據。

以上就是成為數據科學家的8步,你在哪一步呢?

關於思邁特軟體

廣州思邁特軟體有限公司致力於為企業客戶提供一站式商業智能解決方案。

通過Smartbi產品為客戶提供報表、數據可視化、數據挖掘等成熟功能;通過Smartbi應用商店為客戶提供場景化、行業化數據分析應用。經過十餘年的發展,已在金融、電信、政府、製造等行業獲得2000多家領先客戶認可,口碑良好。在全球財富500強的10家國內銀行,有8家選用了Smartbi。

2018年4月完成A輪融資4000萬,公司在北京、上海、武漢、成都、西安、廈門等地設有分支機構!


推薦閱讀:
相關文章