本文約5800字,建議閱讀15分鐘

本文從多個角度盤點數據行業近年來的變化,並對當前數據行業現狀進行了分析和評價。

近年來,數據行業不斷湧現的職能和頭銜讓人驚訝。不可否認,這是一個模糊不清的領域,甚至連從業者對這個領域的構成也有不同看法,但有一些趨勢是公認的。隨著數據相關的職位、投資和技術越來越多,機構對數據的重視也達到了前所未有的程度。

為了方便閱讀,我想按幾種技術革命來介紹數據角色,尤其是那些在未來將不斷發展的革命。此外,我最近寫了一篇關於數據分析角色演變的文章,可以為本文提供很好的背景知識。

附鏈接:

deepesh-nair.blog/2018/

這將是一篇長文,如果你覺得有點疲憊,唯一的忠告就是:先去喝杯咖啡吧!

商業智能(BI)角色

不可否認,在2018年的科技界,「BI」算不上時髦的辭彙。這讓我們這一代「數據人」感到很不自在。難道沒人再用ETL工具和策略了嗎?BI被時下流行的大數據和數據科學取代了嗎?-當然不是!!

圖:如何根據組織的商業模式構造傳統的BI角色。

圖片來源:Microsoft Wiki

在過去一兩年,商業智能經歷了相當大的衰退。但是我不認為BI已經失去意義,因為它對主營業務非常重要。像BI分析師、數據架構師、ETL開發員、DW工程師、BIDW管理員這樣的角色只會變得更加重要。相比於數據領域內的「萬事通」,這些角色會更加關注市場驅動的工具和技術。

圖片:2018年流行的商業智能角色

圖片來源:DepositPhotos

根據最近Wisdom of Crowds?的一項商業智能市場研究,BI將繼續提供有競爭力的工資並主導市場的某些領域。以下是2018年的一些關鍵數字:

  • 應用BI的3大領域:執行管理、運營和銷售。
  • BI中的 5個戰略性技能:儀錶板、報告、終端用戶自助服務、高級可視化和數據倉庫。
  • 員工人數不超過100的小公司的BI滲透率最高。
  • 50%的供應商提供永久的本地許可和雲訂閱。
  • 僅有不到15%的受訪機構有首席數據官。

如果你對此有不同的意見,建議閱讀全文:2018年商業智能報告

附鏈接:

forbes.com/sites/louisc

大數據&數據科學角色

在深入了解這個角色之前,讓我們先退回一步,了解它是如何開始以及從哪裡開始的。我想通過講故事的方式來展示這個角色,而不是列出傳統的純文本定義——文本定義在網上可以很容易查到。而且,行業內的每一股新浪潮都會催生出令人困惑的詞語、錯誤的套用和過於理想的規定。

變化

「大數據」之所以被創造出來,是為了區別於小數據,因為它不僅僅是由公司的交易系統產生的數據。「大數據」讓我們認識到:與基於事實的理解相比,預測分析可以提供更好的數據趨勢,因此我們在決策時不能僅僅依靠直覺。如果大量數據和數據分析還給不了你滿意的結果,那麼推薦你考慮一下社區開源工具,而不是購買昂貴的許可證。

我通常不會在文章中引用工具的名字,但要描述這場革命,就不得不提到Apache Hadoop。技術堆棧和可擴展項目,函數式編程範例(可伸縮、並發和分散式系統),noSQL的崛起,集群作業調度和資源管理、不斷變化的拖拽式ETL和更好的數據建模技術——Hadoop彙集了以上內容,但它最終強調的是最後一個,代碼是軟體的最佳抽象。此外,它還引入了一個廣義上的概念,即為將來的數據科學和機器學習的集成提供定製架構。

從開發者的角度來看,這意味著你不必為技術巨頭們工作來開發顛覆性項目。你有一個社區作為支持,並可以在一些新興的協作平台上展示成果,如Github。

圖:大數據和分析驅動公司的角色分層

從組織的角度來看,軟體工程師(java開發人員)、DW工程師(BI/ETL開發人員、數據架構師)和項目執行經理(dba、Linux SAs)得到了更炫的頭銜,如大數據工程師、Hadoop開發人員、Hadoop架構師、大數據支持工程師,這些新職業開始在就業市場上蓬勃發展。BI的地位下降了,這意味著使用相似工具的業務人員和數據人員的時代結束了。

圖:BI角色逐漸移出了大數據團隊的範圍

圖片來源:DataFlair

這件事情在行業層面上的影響深遠,不僅僅科技公司和互聯網公司,每一家公司都可以通過大數據分析來創造產品和服務。

融合

隨著大數據與數據科學策略相融合的需求不斷增長,科技行業突然出現了分化。由此,領域角色被分為三個部分:軟體工程(具備強大編程能力的前&後端工程師,Web開發人員,項目執行經理,中間件專家,iOS/Android開發人員);數據工程(強大的數據背景,如ETL開發人員,DWH架構師,BI分析師,Hadoop工程師,dba);還有被視為下一代定量分析師的第三類人員(具有計算和分析能力的人員),這類人專註於持續發展的研究領域:數據科學。

圖:上圖顯示了軟體工程、數據工程和數據科學三個領域的技術和工具

圖片來源:Ryan Swanstrom, Data Science 101

據我所知,這種劃分使一些公司發生了重大轉變。其中小型公司(< 50名員工)最好地利用了這些優勢,如新興初創企業;研究機構以及大型企業(> 1000名員工)如電子商務、社交媒體等也受到很大影響。初創企業可以自由地結合多個角色,並鼓勵交叉學科協同發展,而主流巨頭們可以毫不費力地在不同部門之間扮演不同的角色,進而開拓更多的業務。

不過,受影響最大的其實是那些中型企業(或稱SMBs),他們正努力地和市場巨頭競爭,爭取更多商業利益。各種融資或風投促使這些企業擴大規模(50-300個員工),進而獲得最初的成功。隨後他們陷入了無限招聘、人員冗餘、錯誤決策等問題中。最終在市場壓力下不得不大批裁員、股票損失,甚至早早進入清算。一些精通技術的投資者(我想稱之為守護天使)會提供併購援助,但這個行業也意識到吸收投資會有不利影響。

重疊

與此同時,不僅僅是公司在努力地發展數據角色。在這個時代,越來越多的數據科學愛好者(學術和經驗豐富的人)走出他們的舒適圈,擴展他們的技能。各個程度的人(數學家、工程師、博士、分析師、畢業生)都有權利申請21世紀最高薪的工作之一。隨之而來的是一些德高望重的大學教授和專家,他們就什麼是理想的數據科學家發表了許多意見。但這隻會引起偏見,卻無法阻止人們蜂擁湧入數據領域。

給職位加上數據前綴有助於和那些相似任務的角色相區別,框定技能需要覆蓋範圍並開發相應的潛力。數據分析師從業務中解脫出來,將目光轉向統計和工程,而數據架構師則以其標誌性的中立態度,專註於發布模型(不要與ML混淆)、資料庫設計和管理。

圖:雷達圖-用於解釋數據驅動角色的技能重疊

圖片來源:edX

通過培養機器學習相關的規範性分析能力,企業開始圍繞各自的前提收穫更多商業信息。他們不僅在傳統意義上的分析領域展開競爭,比如改進內部業務決策,還著眼於創造更有價值的產品和服務。企業的絕對需求(或貪婪)是要實現具體的目標:得到比上個季度更好的結果——按比例減少職位的開銷。因此,像數據科學家這樣一個有前途但充滿挑戰性的職位,需要一個跨團隊的核心人物來完成與數據相關的任何事情。這個角色將會承擔常人難以想像的壓力和疲憊。如果一個如此有才華的人只是被用去做分析,他一定會設法為自己尋找更好的機會。KDnuggets上的這篇諷刺的文章支持了我的說法。

附原文:

kdnuggets.com/2018/04/w

權衡

現在有人在問,數據科學會是下一個泡沫嗎?我的回答是:不,但「數據科學家」這個頭銜可以被看作泡沫。這是一個教科書式的供求問題——每個人都希望能分到一碗羹,但事實證明只有少數人具備這個能力。這有點讓人困惑——你會如何處理一個正在申請這個職位的應屆畢業生,或者當你的數據科學家準備離職,同時還有一群「自薦者」在敲你的門的時候,你會做什麼。

另一些人覺得,企業需要從網站、api、社交媒體或互聯網等渠道獲取數據,因此數據科學家要掌握編程語言並高效實現需求。他們會很困惑,「為什麼不是所有的數據科學家都擁有強大的編程基礎」或者「為什麼在數據科學的喧囂中,軟體工程被忽視了?」企業很快意識到,只有角色重新分配才能解決問題。於是把目光投向了更廣泛的工程師,來給予數據科學家更多支持,並探索不同角色之間的平衡。

軟體工程師似乎在數據科學和機器學習方面頗有造詣,他們儘可能解決難題並豐富了數據工程師的隊伍。而那些從事核心web編程和棧驅動的人們則面臨著更大的挑戰:全棧工程師。

一種雙贏的局面是,數據科學家找到了可靠的夥伴,他們會有一種如釋重負的感覺(外界對他們的誇大炒作也會降低),而且在未來還會有一個同等能力的角色來挑戰他們。這種交叉讓那些數據科學「發燒友」們興奮不已,並使得數據工程成為當今最複雜的學科之一。當前的數據工程師補充了其他的所有角色,在每個公司都是一個必備的勤雜工,而且是初創公司的第一批僱員。

圖:數據科學家和數據工程師對比

圖片來源;Karlijn Willems

通過平衡相互獨立的角色,這種博弈獲得了完美的回報。但科技行業意識到,他們無法再一次承受挫折,並隨時準備接受越來越多的人工智慧。

變革

不可避免的是,公司總是會發現其組織結構的缺陷:職位、優先順序和能力——以及初始的數據驅動團隊。企業要更多關注角色區分、分工、避免任務衝突、適當合作等方面。在這樣一個團隊中,可以以角色為基礎設立領導者,一個很好的案例是首席數據科學家和工程主管。

圖:早期對健全數據科學團隊的描述

圖片來源: DataCamp Blog Community

如今,完美的數據科學團隊是一個神話,或者是一個讓人嚮往的話題。公司期望他們的團隊像一群超級英雄的集合(像復仇者那樣)——他們在很多情況下大獲全勝的原因就是指定了一個人來為這些團隊提供背景,這就是首席數據官存在的意義。隨著數據成為一項完整的商業戰略,首席數據官正在成為一個組織中更為關鍵的角色。在《福布斯》的一項調查中,超過50%的首席數據官可能會在2018年直接向首席執行官報告。他們一定會在塑造企業主動性方面扮演更積極的角色。

當我看到崗位描述中包含「熟練使用英語」或「本地應聘者」時,我感到很失望。語言不應該被視為障礙,而應該被視為增強團隊關係的紐帶。2018年最好的例子就是一個語言本身:Python。創始人(CEO和CDO)必須在他們的團隊中傳播這些信息,最重要的是人才招募團隊。

圖:Python如何將不同類型角色聚集

圖片來源: ActiveWizards

如今,人力資源協調員、招聘人員、外包獵頭都可以使用充足的數據資源(如Medium、Datacamp)和數據友好平台(如LinkedIn、Glassdoor)來完善搜索,以提高招聘質量;因此,甚至這些角色都是數據驅動的。

機器學習&AI驅動角色

也許機器學習最引人注目的方面是它看似無限的適用性。已經有很多領域受到了人工智慧的影響,包括教育、金融等等。機器學習技術已經被應用到醫療領域的關鍵部分,從減少藥物作用差異到醫療掃描分析,機器學習影響著方方面面。

對於許多公司來說,他們的數據(或數據分析平台)就是他們的產品。在這種情況下,數據分析或機器學習的熱潮會非常猛烈。對於有正式數學、統計學或物理背景的人來說,這可能是一種理想的情況,他們希望繼續走學術道路。

「機器學習工程師通常更關注生產偉大的數據驅動產品,而不是回答公司的運營問題。」

圖:數據科學團隊中新加入的機器學習

圖片來源:Udacity

公司開始積極地尋找機器學習工程師:包括各個年齡層(實習生到科研人員) 有想法的候選人。從LinkedIn、Medium、Github上可以發現,人們對社交媒體這一代的讚賞也比從前更多。

圖:AI公司中多種機器學習角色的比較

圖片來源:Udacity

目前成功實現了智能機器(比如聊天機器人) 的AI驅動公司已經比其他公司領先一步。軟體、應用&核心這些附加角色是一個明確的跡象——他們對他們開發的產品和服務是認真的。由於沒有任何關於名稱或資歷的概括,他們完全可以在未來即興創作AI頭銜。

周邊角色

有許多角色在日常基礎上補充了數據驅動團隊。無論屬於哪個團隊,他們都是組織中不可或缺的一員。你可能會想為什麼我沒早點提到他們。老實說,我對此持不確定的態度,原因如下:

  • 我對這些領域介紹及其範圍的專業知識有限。
  • 它們不屬於數據驅動角色的主要範疇。
  • 這些領域的多功能性使得它們在不同的團隊中運作。

讓我在「鍵盤俠」到來之前解釋一下。

  • 平面設計師:所有事物都需要的創意頭腦。一套完整的藝術、科學、程序設計、思想和想像力,這些需要無限的能力。他們用他們的聲音和無畏的態度來創造價值,是我個人的最愛。
  • 決策者:一個經常被誤解和忽視的角色。尤其是在特定領域的初創企業中,在聘用博士出身的數據科學家之前,要確保你的決策者懂得決策的藝術。
  • 軟體開發人員和運維人員:大致分為兩類:「業務能力團隊」和「靈敏的運維團隊」。數據架構師和工程師可以協調、學習和實現基於雲(IaaS、PaaS、SaaS)的configs、容器、微服務部署和虛擬化等任務。然而,DataOps(數據操作運營)是一個允許企業內部連續數據流的新平台。
  • 雲架構師:通常擔任諮詢角色的技術專家(像他們的雲服務一樣按小時收費)。同樣,如果企業的數據工程師熟悉雲概念或認證助理/專業人員,您可以選擇不僱傭他們。
  • 項目和交付經理:一些數據科學和分析公司仍然不得不使用Agile&Scrum方法的舊規範。在他們開始諮詢客戶來協調他們的產品銷售和服務之前,他們需要有經驗的經理來確保PoC(概念驗證)時間表和資源的合理分配。
  • 網路和網路安全工程師:這類人通常被視為內部團隊,但如所有上述提到的,他們將很快成為數據驅動團隊的一個組成部分。2018年,一些威脅促使企業開始關注數據安全的問題。因為大多數公司每天都在通過網路運營,這些角色變得至關重要。

細化想法

當然,在工具方面,這項技術比以往任何時候都易於使用和直觀。例如,在大多數清理、建模、報告和可視化工具中都有一系列適配器,這意味著載入數據不再是非常重要的需求。然而,這在某種程度上也鼓勵了無所不在的視圖,因為它可以輕易地實現。但這也是一個不好的預兆,人們在確保基礎數據的準確性上花的時間越來越少了。

科技與產業將在2008-2019年度密切關注:

  • 漸進式網路應用程序(PWAs)——手機和網路應用程序的混合體。
  • 區塊鏈及金融科技——建立元模型,可靠的交易和信用評分。
  • 醫療——醫療影像診斷(計算機視覺及機器學習)。
  • AR/VR ——體育分析,名片(圖像跟蹤),體感遊戲(Hado)。
  • AI語音助手——智能聊天機器人。
  • 智能供應鏈——數字孿生(物聯網感測器)。
  • 5G ——大數據,移動雲計算,可擴展物聯網和網路功能虛擬化(NFV)。
  • 3D列印——預製效率,缺陷檢測,預測ML維護。
  • 暗數據——還未被轉化為可用的格式的信息
  • 量子計算——將數據處理時間分割成多個部分。

最後,在工作方面,有些職位顯然無法跟上技術的變化,未來跳槽將是困難的。正如許多求職顧問所言,保持職位穩定的方法有兩種:一是成為某一領域的專家,在一家穩定的公司站穩腳跟;二是找到符合技術趨勢的新領域並選擇具有挑戰性的職位。作為一名數據工程師,我採用了一種混合的方法:在職業生涯和個人抱負之間堅持學習原則——實際上我可以在任何技術驅動的行業工作。如果有什麼自我安慰的話,我知道我要為我未來的成功和失敗負責。

「不要讓別人告訴你你成不了才。如果你有夢想,就要捍衛它。當人們做不到一些事情的時候,他們就會對你說你也同樣不能。所以你想要什麼,就去爭取吧。」

原文標題:

The Dynamics of Data Roles & Teams原文鏈接:towardsdatascience.com/

作者:Deepesh Nair

翻譯:王雨桐


推薦閱讀:
相关文章