【導讀】人工智慧的火爆帶動了對數據科學家的大量需求。看到急缺的崗位和高薪,誰能不動心呢?可是你確定想好要成為一名數據科學家了嗎?你知道成為一名DS,需要具備什麼技能嗎?那就請準備好,下面我們要開車了!

你可能已經從媒體鋪天蓋地的報道中,瞭解到數據科學家這個抬頭非常火。

根據UiPath數據顯示,2018年12113個崗位爭奪AI人才,數據科學家需求量排名第二。

於是很多人萌生了入行、或者轉行做數據科學家的念頭。那麼接著就帶來一個問題:如何成為一名數據科學家呢?

接下來,由《Getting Started with SQL》(O』Reilly)和《Learning RxJava》(Packt) 二書的作者、美國西南航空的企業顧問Thomas Nield,獻上這份《2019年數據科學家成長指南》。

廢話不多說,馬上進入戰鬥。

Round 1:不考證完全沒問題。當然考了也可以

不要把工作後寶貴的時間,浪費在考證上。「數據科學」不過是「商業分析」的一個分支,而且通常學校的知識總是和當前的科技前沿脫節。如果真的想學建議去Coursera或者可汗學院自學。

當然,證書多了終歸是好事嘛。如果你非要去學校考證,建議考物理或者運籌學的研究生。我瞭解到很多一流的數據科學家,基本都是這倆專業畢業的。

花個幾年時間研究生畢業後,明天就會更好?反正有個數據科學初創公司的創始人說:

博士學歷不重要;碩士學歷無可無不可;學士畢業必須有,因為用人單位最低要求就是大學畢業。

towardsdatascience.com/

Round 2:成為一個數據科學家真的需要了解這麼多領域嗎?

這是一張6年前的圖,裡面甚至連TensorFlow都沒有。

而且我覺得,數據科學發展到現在,已經非常碎片化和細分化了。根本沒必要搞的這麼複雜。

Round 3:我應該學哪門語言呢?需要從Linux入手嗎?

數據科學家是一個跨平臺物種,操作系統不重要。

語言的話,Scala早就過氣了,R解決數學問題非常爽,Python纔是萬能的。一條Python在手,數據科學跟我走。

不過需要了解一些庫,類似Pandas用來處理數據幀,matplotlib用來創建圖表。

Round 4:學會Python很關鍵!學不會也沒關係

Python學起來超簡單。不過,你可能也不用非得學會Python。

作為人類,要善用工具。數據科學不止眼前的腳本和機器學習,還有遠方的數據可視化。這個時候顯然Tableau更好用,也更美觀。

Tableau

不過涉及到數據清洗、管理、轉換、載入等,就需要用到Alteryx了,滑鼠拖拽就能搞定。

新智元點評:所以買個Tableau就可以稱為數據科學家了?

從淘寶買個激活碼豈不是要變成二手科學家?

Round 5:明明靠Excel和PPT就能搞定,為什麼非要學Python呢?

首先,能為你的簡歷增加光環。

其次,之前也說過,Python簡直萬能。通過Jupyter notebook逐步完成每個數據分析階段,讓每一步都可視化,就像你正在創建一個可以與他人分享的故事。

劃重點:畢竟,溝通和講故事纔是數據科學的重要組成部分。

數據科學和軟體工程很大程度可以劃等號。不同之處在於,數據科學必須有數據,軟體工程就不一定了。

Wiki網頁是一個非常好的數據來源,抓取網頁並使用Beautiful Soup解析他們,就得到了大量非結構化文本數據。

Round 6:懂NoSQL行,不懂也沒事

非機構化數據才能激發我們的想像力,結構化數據只能固化我們的邏輯能力。

如今像谷歌Facebook這樣的大廠,擁有大量的非機構化數據,他們就像裁判一樣,「數據科學」的定義權掌握在他們手裡。剩下我們這些運動員,只好用無聊的SQL咯。

利用非結構化數據,大廠可以通過挖掘用戶內容、郵件、故事,用於廣告或者其他途徑。

而我們也可以利用非結構化數據,對社交媒體上的帖子進行,做一些NLP應用比如聊天機器人。

NoSQL更擅長存儲這類數據。但是對於數據科學家來說,NoSQL也不是必須要掌握的,除非做數據工程師。而且現在Apache Kafka比NoSQL更火,所以你也知道該學什麼了。

有的人可能不知道,數據科學家分為兩種角色。數據工程師使用生產系統並幫助使數據和模型可用;而數據科學家則負責機器學習以及數學建模。

這個時候,利用樸素貝葉斯演算法,就可以去預測文本的分類。我打算建議從具有均值和標準差的正態分佈開始。也許用z分數和線性回歸計算一些概率或兩個。

Round 7:學會線性代數很重要。不會的話……也行吧

傳統智慧認為線性代數是許多數據科學的基石,因此掌握線性代數很重要。將矩陣相乘和相加(稱為點積),將一直伴隨著你。

聽起來很無聊對吧,但這就是機器學習在做的事情。當你進行線性回歸或構建自己的神經網路時,你將使用隨機權重值進行大量矩陣乘法和縮放。

不過實際上,你可能也不需要學習線性代數,因為有像TensorFlow和 scikit-learn這樣的框架和庫,幫你解決掉最枯燥乏味的線代部分。

呃,實際上,也別用TensorFlow,用Keras。

Round 8:棒。總之都能用Excel實現,所以會用Excel就可以被稱為數據科學家了?

機器學習通常在做兩個任務:回歸,或者分類。但技術上來說,分類就是回歸。

決策樹、神經網路、支持向量機、邏輯回歸、線性回歸都執行某種形式的曲線擬合。

所以,我們也可以不負責任的說:機器學習只是回歸。神經網路實際上只是具有一些非線性函數的多層回歸。圖像識別也是回歸。

Round 9:為什麼大家現在不怎麼談論演算法了?

因為這些優化問題已經在很長一段時間內得到了令人滿意的解決,而且這些方法在很早以前也沒太多人討論。

運籌學已經提供了許多機器學習使用的優化演算法。同時也為常見「AI」問題提供了許多解決方案。

AI炒作重新點燃了機器學習及其解決的問題類型:圖像識別,自然語言處理,圖像生成等。

機器學習,深度學習…今天被炒作的任何東西,通常都不能解決離散優化問題,人們嘗試過,但效果非常不理想。

所以有人說深度學習是否已經達到了極限,AI寒冬又雙來了。

Round 10:AI玩遊戲已經超神,接下來會取代人類工作嗎?

首先我們要明確一點。人們已經找到了一些巧妙的回歸應用,例如計算圍棋和象棋最優移動(離散優化也可以做),或自動駕駛的汽車計算轉向的方向。

但是,回歸只能將這麼多的應用組合起來,完成單一任務。

現在我們好好思考一下,你會擔心職業星際爭霸選手威脅到你的工作嗎?你覺得打星際,和你打Excel之間,有多少重疊的交集呢?

如果你連人類星際選手都不怕,你為什麼還怕一個回歸呢?AI玩星際再強,它也只會玩星際。

Round 11:一句話解釋什麼是數據科學家,讓你爺爺也能聽懂

數據科學的界限正在模糊。它可以是任何東西,也可以什麼都不是。成為數據科學家你需要掌握很多東西,但就算沒掌握也不會致命。

天哪??

不過幸好,這個世界上還是有人能說明白到底什麼是數據科學和數據科學家的。一句話解釋數據科學家:

數據科學家是比軟體工程師更懂統計、比統計學家更懂軟體工程的一個人。

Round 12:已瘋

所以,2019年,你還想做數據科學家嗎?

本文來源公眾號 新智元

本文版權歸原作者所有,內容為作者個人觀點,轉載目的在於傳遞更多信息,如涉及作品內容、版權等問題,可聯繫本站刪除,謝謝。

更多交流諮詢:18080942131 (同微信 加好友備註:知乎)。

推薦閱讀:

相關文章