2019年大數據發展現狀

大數據時代，大數據分析與應用大肆盛行。越來越多的大公司大企業大集團，都越來越重視大數據的影響和作用。可以說，誰想搶得大數據的一手可靠資料，誰就在未來的業務發展和拓寬中佔據優勢，誰就會在相關領域首先拔得頭籌。但是，大數據發展前景現在到底如何，大數據的可靠性由誰說了算，大數據的真實性有誰可以保證？甚至還可以再倒退一點點來問問，如今的大數據究竟發展到了什麼階段？

我想，應該很少人能夠清楚地知道這一點吧!畢竟在大數據分析與應用火爆的年代，一般人都只是瞭解大數據的皮毛和表面，而對於大數據發展前景、大數據背後的來源及處理分析等等精密的工作程序，肯定不瞭解，也不會感興趣。而且對於一般人，也不可能會去真正弄明白大數據分析與應用背後蘊藏的種種可靠性、客觀性、真實性的來源支撐與科學手段處理。下面，小編就用大白話的方式來跟大家講講，如今的大數據究竟發展到了什麼階段，由此來窺探一下大數據發展前景到底是怎麼個情況。

在日新月異且喜新厭舊的技術初創企業界，已有3年歷史的「大數據」聽起來似乎已經有點過氣。雖然 Hadoop 在 2006年已經出來，但「大數據」這個概念大概是在 2012 到 2015年左右才真正火起來的。也就是在這段時間裡，至少是在媒體或者專家眼裡，「大數據」才開始慢慢成為了新的「金子」或者「石油」。然而，至少在我跟業界人士交談中，大家越來越感覺到這項技術已經在某種程度上陷入了停滯或迷惑期。2017年可能是數據領域的那些酷小子轉移興趣，開始沉迷於 AI 以及機器智能、深度學習等許多相關概念的年份。對大數據以及人工智慧概念都是模糊不清的，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解，想學習的同學歡迎加入大數據學習興趣圈，有大量乾貨（零基礎以及進階的經典實戰）分享給大家，並且有清華大學畢業的資深大數據講師給大家免費授課，給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。從java和linux入手，其後逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享！

拋開不可避免的炒作週期曲線態勢不管，我們的「大數據版圖」已經進入第 4 個年頭了，趁這個時候退一步來反思一下去年發生了什麼，思考一下這個行業的未來會怎樣是很有意義的，看看如今的大數據到底發展到了什麼階段。那麼 2019年大數據到底還有多大的發展和進步空間呢？我們不妨探討一下。

企業技術=艱苦工作

大數據有趣的一點在於，它不再像當初經歷過那樣有可能成為炒作的題材了。

經過炒作週期後仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知，或者與大眾相關聯的：比如移動應用、社交網路、可穿戴、虛擬現實等。

但大數據基本上就是管道設施的一種。當然，大數據為許多消費者或商業用戶體驗提供了動力，但它的核心是企業技術：資料庫、分析等，這些東西都是在後端運行的，沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣，用一個晚上的時間就想適應企業端的新技術是不可能的。

大數據現象在早期主要是受到了與一批骨幹互聯網公司(尤其是 Google、Facebook、Twitter 等)的共生關係的推動，這些公司既是核心大數據技術的重度用戶，同時也是這些技術的創造者。這些公司突然間面對著規模前所未有的龐大數據時，由於本身缺乏傳統的(昂貴的)基礎設施，也沒有辦法招募到一些最好的工程師，所以只好自己動手來開發所需的技術。後來隨著開源運動的迅速發展，一大批此類新技術開始共享到更廣的範圍。然後，一些互聯網大公司的工程師離職去創辦自己的大數據初創企業。其他的一些「數字原生」公司，包括嶄露頭角的獨角獸公司，也開始面臨著互聯網大公司的類似需求，由於它們自身也沒有傳統的基礎設施，所以自然就成為了那些大數據技術的早期採用者。而早期的成功又導致了更多的創業活動發生，並獲得了更多的 VC 資助，從而帶動了大數據的起勢。

快速發展了幾年之後，現在我們面臨的是更加廣闊、但也更加棘手的機遇：讓中等規模到跨國公司級別的更大一批企業採用大數據技術。這些公司跟「數字原生」公司不一樣的是，他們沒有從零開始的有利條件。而且他們失去的會更多：這些公司絕大部分的現有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的，組織內部許多人也意識到對自己的遺留基礎設施進行現代化應該是早點好過晚點，但他們不會一夜間就把自己的關鍵業務取代掉。任何革命都需要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業對由年輕的初創企業來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有，令創業者感到絕望的是，許多(還是大多數?)企業仍頑固地拒絕把數據遷移到雲端(至少不願遷移到公有雲)。

還需要理解的另一個關鍵是：大數據的成功不在於實現技術的某一方面(像 Hadoop 什麼的)，而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數據、存儲數據、清洗數據、查詢數據、分析數據並對數據進行可視化。這些工作一部分可以由產品來完成，而有的則需要人來做。一切都需要無縫集成起來。最後，要想讓所有這一切發揮作用，整個公司從上到下都需要樹立以數據驅動的文化，這樣大數據纔不僅僅是個「東西」，而且就是那個(關鍵的)「東西」。

換句話說：有一堆艱苦的工作要做。

部署階段

所以，這就是在經過幾年引人矚目的初創企業如雨後春筍冒頭，VC 投資頻等頭條後，我們開始步入大數據的部署期和早期成熟期的原因。

更有前瞻性的大公司(姑且稱之為傳統技術採用週期的「早期採用者」)在 2011 到 2013年間開始實驗大數據技術，推出了若干的 Hadoop 試點計劃(往往是因為趕時髦)或者嘗試一些點方案。他們招募了各種各樣此前並不存在的崗位(如「數據科學家」或「首席數據官」)。他們進行了各種努力，包括吧全部數據都堆到一個數據容器(「data lake」)，然後希望緊跟著就會發生奇蹟(往往不會)。他們逐步建設自己的內部能力，試驗了各種供應商，從試點計劃到生產中的局部部署，然後到現在爭論要不要全企業鋪開(全範圍鋪開實施的情況還很罕見)。許多情況下，他們正處在這樣一個重要的拐點上，即經過大數據基礎設施的數年建設後，能夠展示的成果還不多，至少在公司內部的商業用戶看來是這樣的。但是大量喫力不討好的工作已經做完了，現在開始進入到有影響力的應用部署階段了。只是從目前來看，這種建構在覈心架構之上的應用數量還不成比例。

接下來的一波大公司(稱之為傳統技術採用週期的「早期多數使用者」)大多數時候對大數據技術是持觀望態度的，對於整個大數據方面的東西，他們還在心存一定程度困惑中觀望。直到最近，他們還在指望某個大型供應商(比如 IBM)會提供一個一站式的解決方案，不過現在看來這種情況近期內並不會出現。他們看待這個大數據版圖的態度是心懷恐懼，在想自己是不是真的需要跟這一堆看起來並沒有什麼不同的初創企業合作，然後修補出各種解決方案。

生態體系正在成熟

與此同時，在初創企業 / 供應商這一塊，整個第一波的大數據公司(2009 至 2013年間成立的那批)現在已經融了數輪的資金，企業規模已經得到了擴大，並且從早期部署的成功或失敗中學到了東西，現在他們已經能夠提供更成熟的、經受過考驗的產品了。少數一些已經成為了上市公司(包括 2015年上市的 HortonWorks 和 New Relic)，而有的(比如 Cloudera、MongoDB 等)融資已經達上億美元了。

這個領域的 VC 融資活動仍然很有生氣，2016年的前幾周我們見證好幾輪相當可觀的後期階段大數據融資事件：DataDog(9400 萬美元)，BloomReach(5600 萬美元)，Qubole(3000 萬美元)，PlaceIQ(2500 萬美元)等。2015年大數據初創企業拿到的融資額達到了 66.4 億美元，佔整個技術 VC 總融資額額 11%。

併購活動則開展得中規中矩(自從上一版大數據版圖發布以來完成了 34 項併購，具體可參見附註)

隨著該領域的創業活動持續進行以及資金的不斷流入，加上適度的少量退出，以及越來越活躍的技術巨頭(尤其是 Amazon、Google、IBM)，使得這個領域的公司日益增多，最後匯成了這幅 2018版的大數據版圖。

顯然這張圖已經很擠了，而且還有很多都沒辦法列進去。

在基本趨勢方面，行動開始慢慢從左轉到右(即創新、推出新產品和新公司)，從基礎設施層(開發者 / 工程師的世界)轉移到分析層(數據科學家和分析師的世界)乃至應用層(商業用戶和消費者的世界)，「大數據原生應用」已經在迅速冒頭—這多少符合了我們原先的一些預期。

大數據基礎設施：仍有大量創新

Google 關於 MapReduce 和 BigTable 的論文(Cutting 和 MikeCafarella 因為這個而做出了 Hadoop)的誕生問世已有 10年了，在這段時間裡，大數據的基礎設施層已經逐漸成熟，一些關鍵問題也得到了解決。

但是，基礎設施領域的創新仍然富有活力，這很大程度上是得益於可觀的開源活動規模。

2016年無疑是 Apache Spark 之年。自我們發布上一版大數據版圖以來，這個利用了內存處理的開源框架就開始引發眾多討論。自那以後，Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護，讓它獲得了可觀的信任度。Spark 的出現是很有意義的，因為它解決了一些導致 Hadoop 採用放緩的關鍵問題：Spark 速度變快了很多(基準測試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍)，更容易編程，並且跟機器學習能夠很好地搭配。

除了 Spark 以外，還出現了其他的一些令人興奮的框架，比如 Flink、Ignite、Samza、Kudu 等，這些框架的發展勢頭也很好。一些思想領袖認為，Mesos(數據中心資源管理系統，把數據中心當作一臺大計算資源池進行編程)的出現也刺激了對 Hadoop 的需求。

即便在資料庫的世界裡，新興的玩家似乎也越來越多。多到市場已經難以承受的地步，這裡發生了很多令人興奮的事情，從圖形資料庫(如 Neo4j )的成熟，到專門資料庫的推出(如統計時序資料庫 InfluxDB)，乃至於 CockroachDB 的出現(受 Google Spanner 靈感啟發誕生的融合了 SQL 與 NoSQL 長處的新型資料庫)。數據倉庫也在演變(如雲數據倉庫 Snowflake)。