「顧名思義,Data Science 譯為數據科學,是一門利用數據學習知識的學科,其目標是通過從數據中提取出有價值的部分來生產數據產品。它結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。數據科學通過運用各種相關的數據來幫助非專業人士理解問題。」

Data Science

文章較長,建議先收藏

目錄:

  • 什麼是數據科學?
  • 本科課程設置
  • 就業方向

如上圖所示,數據科學集合了計算機科學/信息技術、數學、機器學習、數學/統計學、軟體開發、商科以及傳統研究方法等等領域。是一門非常綜合且實用的學科。

數據科學技術可以幫助我們正確地處理數據並協助我們在生物學、社會科學、人類學等領域進行研究調研。

此外,數據科學也對商業競爭有極大的幫助。各個行業的頭部公司,如今都會組辦自己的行業研究部門和通過大數據分析消費者行為與偏好的部門,例如 Netflix,迪士尼,國內的 BAT,京東小米等大廠。

什麼是 Data Science

那麼,到底在大學中,Data Science 作為一個專業是什麼樣的存在呢?以伯克利去年剛剛成功確立開設的Data Science 本科項目為例,學校官方對該項目的解釋為:

數據科學學位項目結合了計算推理與推導,以某些現實生活中的數據為基礎得到結論。數據科學家來源於社會中的所有領域,所有的研究範疇和各種不同的背景。他們通過數學和科學的思維以及計算編程的力量去理解並解決商業和社會方向的問題。

數據科學專業使得學生從字面上的數據,通過統計推導的知識,計算編程的過程,數據管理策略,相關領域知識和理論,去獲得在工作學習中得到結論的能力。數據科學和計算機科學的最大差別在於:前者不是比誰的代碼寫得好,而是比誰的方案最適合解決問題。

Data Science 專業作為一個非常新興的專業,社會上還是會對這個專業有所質疑,就算業內人士也會提出:

You may not really need a degree in data science.

你並不需要獲得一個數據科學的學位。

根據我剛才所言,Data Science 更像是對於某些領域進行數據向的深入學習與研究所做的輔助,確實一開始並不需要一個特定的專業叫 Data Science.

但是,結果說明一切。DS 專業作為一個如此火爆的新興專業,各個大學都爭相開設,也證明瞭這個專業的價值。在如今的大數據時代,越來越多的領域以來數據分析和數據科學去突破瓶頸,尤其是對於互聯網公司,數據更是他們的立足之本。

數據科學以及一些其他的衍生專業(如Business Analytics,Information Science等)無疑是在數學,計算機科學,亦或統計學的基礎上,為學生們提供了一個性價比更高,更省時省力,更 Hands-on 的一個選擇。

但與此同時,他確實也放棄了一些對特定學科深入研究的機會與可能,這也是數據科學和其他學科(比如計算機科學)之間最大的差別。各有利弊,廣大學生和家長還要根據個人發展進行選擇。

本科課程設置

本科課程設置還是以剛提到的UC Berkeley剛剛開設的B.A. in Data Science為例:

參考網址:

guide.berkeley.edu/unde

本科課程包含 lower division 6 節,upper division 8 節,一共14 節課。

#Lower Division (6節)

- 數據科學基礎

- 微積分 (Math 1A+ Math 1B)

- 線性代數與微積分方程

- 計算機程序的結構與解釋 (CS 61A)

- 數據結構 (CS 61B)

大家也發現了,這部分 6 門課中,只有一節是名為 Data Sicience 的課程,其他都不是數學就是計算機。從這些基礎課程設置也體現了上文中所說的:數據科學是多門其他的課程的結合。

# Upper Division (8節)

- 數據科學導論與技術

- 深度計算推理課程 2節

- 概率論 1節

- 建模,學習,決策 1節

- 人文與道德 1節

- 領域專精 2節

- 註:DS14節,經濟13節,CS17節+,數學13節,統計16節。

依然是隻有一節是直接以數據科學命名的課程,其他的都是其他學科的組合,我一條條給大家說明:

深度計算推理課程:從 20 多門課中選擇 2門,並組合一個 7 學分的課程。課程包括計算機安全、軟體工程、編程語言和應用、資料庫搭建以及其他統計學課程。

概率論:數據科學的概率論應用概率論分析二選一,概率論與風險分析概率論與隨即信息處理二選一。

建模、學習、決策:更偏向於機器學習,從三門課程中選一門,涉及到統計學、工業工程和計算機科學。

人文與道德:涉及到計算機在社會倫理道德層面上的知識點。

領域專精:可以從字面上理解。數據科學最後是飛入尋常百姓家,各行各業都會需要,所以學生要注意拓展自己的知識面。

以上是以 UCB 為例,數據科學專業的本科課程講解。有個現象值得注意:本科課程一共 14 節,而 UCB 的計算機科學本科需要選擇 17 以上的課程,統計學是 16 節。

從中我們也可以看得出 Data science 專業的特性,沒有專精研究的領域,什麼都得懂一點,重點是培養一個全面的數據分析人才,而非某個專業領域的研究人員,是一個功能性較強的專業。

就業方向

Data science 出來的學生未來可以成為data analyst(數據分析師), data engineer(數據工程師), data scientist(數據科學家)等。

就拿 data analyst 來說,他們的工作主要是從資料庫中提取有用數據,再將這些數據轉變為可理解的文字,並幫助公司做出決策。根據 glassdoor,data analyst 的平均年薪在83,878美金/年,是非常高薪的工作。

此外,data science 的有關職位現在是供不應求。除了 Google,Facebook 這樣的信息技術公司,生物、醫療、投行等各行各業也急缺這樣的人才。每天客戶都會提供源源不斷的數據,如何處理這些數據並預測公司未來的發展就變成了目前重要的議題。總的來說,如果你本科讀的是 data science專業,那麼你未來就業就會輕鬆許多。

在 ucsd 校園招聘網上隨便一搜,就能發現很多需要數據分析的工作,領域涉及生物、計算機等等。

數據科學這個詞現在被濫用,它包括的範圍可以很廣。把 data scientist 放在求職背景裏看,它可以分為四個梯隊。這四個梯隊你可以想像成一個金字塔,塔尖的話需求量比較少,塔底的話需求量比較大,人們往往認為塔尖比較難申請,比較有意思一些,其實都是看人來決定的,不同的工作有不同的求職導向和工作感覺,大家應該根據自己喜歡什麼來選擇發展目標。

01第一梯隊

真正的 data scientist 應該屬於第一類research scientist,這個梯隊更偏向於科學家,研究者,就必須要有很強的研究元素在裡面。

比方說在 Google NLP Research Group 裏,這個職位是做自然語言處理,比方說各類語音助手。

作為第一梯隊的數據科學家,定位就是總舵主,研究方案的制定者,所以必要俱備強大的演算法設計能力,建模能力。這個職位一般都會錄用博士級別的,有經驗的人,所以說難度大。

02第二梯隊

可以理解為第二個梯隊的 Data scientist 是第一梯隊的執行者,功能性更強,把第一梯隊的數據科學家設計出來的方案變成現實,從最初的數據收集到最後平臺成型後的每次更新。

第二梯隊有兩個分支。一個是更偏向於工程的 Data engineer,這個分支更偏向於上文所描述的,把總舵主的設計方案從技術層面上得以實現,更像一個技術總監。首次按進行數據收集,接著就是建模,不同的數據類型對應著不同的模型。最後,他們就用這些模型來預測產品開發團隊的產品是否合格。這各分支更適用於 Google 等科技公司。

另一個分支更偏向於統計和建模,這個分支的數據專家一般都活躍在金融領域。比如,有的人會在一些金融公司做雲分析,對公司不同種類的對沖基金產品進行數據分析等。

03第三梯隊

第三梯隊是 Analytics Advisory/Non-IT Data Scientist,也就是分析諮詢師,比起編程能力更需要的是交際能力。

比如說,你在四大做Analytics Consulting,或者你去保險公司做 Data Scientist,你需要的是如何根據具體問題找到最合適數據集和模型。但是不需要寫演算法,只需要知道哪種模型最適合解決問題,然後把這個模型推薦給客戶、老闆或者投資人。所以說,你對模型的理解能力和交際能力是很重要的。

04第四梯隊

第四個梯隊是就業面最寬泛,職稱一般為 Data Analyst(數據分析師)/Business Analyst(商業分析員)/Business Intelligence Developer(商業智能工程師),可能 70% 的時間放在在了數據集整合,數據傳輸管等方面,當然還包含其它的一些工作,所以它其實偏向engineer一些。

不要覺得在第四梯隊,就覺得這些工作很容易,除了專業的 Data science 知識以外,還需要不斷提升自己的多領域知識,打個比方,在做數據清洗工作時會遇到很多層次不齊的數據集,要處理這些問題,就需要不斷學習新的知識。

DS和BA的區別

最後再說一段科普,面對 Data Science(數據科學)和 Business Analytics(商業分析),很多朋友都傻傻分不清楚。

數據科學已經不用再說了吧,上面已經說了一堆。說到商業分析,我們還是從高校的課程設置中入手。

以 USC 的 Business Analytics 課程為例:

DSO 510 商業分析 1.5

GSBA 545 數據驅動決策 1.5

GSBA 542 管理溝通 1.5

DSO 530 應用現代統計學方法論 3

DSO 545 統計計算和數據可視化 3

DSO 570 數據、模型和有效的決策 3

DSO 573 or DSO 599

數據分析驅動的動態策略和執行

等等

大家可以和數據科學的課程設置對比一下,就發現學商業分析不要求你的有太多的數學、計算機編程等知識,而更偏向於分析、決策和溝通。當然會要求一定的建模和統計學知識。

兩者還有一個最大的差別,數據科學會開設在工程學院或者計算機相關的院系之下,而商業分析就是商學院的項目。商業分析主要就業領域是諮詢、市場分析等,商業分析學完出來做 VC (風險投資)和 FA(財團顧問)的不在少數,當然瞭如果同時擁有比較強的數學和編程能力,那也可以向 Data Science 方向靠攏。

每天一篇留學教育領域乾貨、選校指南、專業分析、語言考試、以及其他乾貨。

歡迎關注V:genbowenerliaoganhuo(跟博文聊兒乾貨)

你想要的這裡都有!!!有關留學方面的問題還可以免費諮詢哦!

推薦閱讀:

相關文章