科技媒體的報道總是把「雲計算、大數據和人工智慧」這三個時髦的技術名詞放到一塊去。中國在雲計算和人工智慧兩個領域的江湖地位探討已經很多,雲計算有阿里,人工智慧也是美國的挑戰者。那麼大數據技術呢?感覺現在對大數據的關注少了許多。

相關鏈接:

聯合國報告:全球人工智慧競爭中,中美處於領先地位?

www.guancha.cn圖標中美大數據與人工智慧發展博弈:揭祕美國對華數字扼制與中國應對 - 雲+社區 - 騰訊雲?

cloud.tencent.com


最近看了央視網的記錄片《大數據時代》,被中國的大數據水平震驚了,我們國家大數據發展真的超級棒。

《大數據時代》講述了大數據時代下的中國發展現狀,《數據時代》講述了大數據怎麼改變我們平民百姓的民生日常,《轉型之路》介紹了大數據為工業轉型帶來的變革,《決策之智》講述了大數據技術提高效率、維護網路安全,《商業之變》講述大數據如何改變傳統的行業讓其煥發生機,《未來已來》講述大數據帶領我們走向未來中國。

如果你對大數據感興趣,這個大片可以引導你走進大數據精彩的世界。

《大數據時代》片段

當下「大數據」已經不再是一個陌生的名詞,不論老人小孩都對此有所耳聞。隨著科技的不斷發展,各種數據呈裂變式增長。目前,全球每天產生的數據量將近2.5百萬兆位元組。而截止2017年12月31日,中國總共有7,72億網民,每天產生836ZB數據量。

如何從海量數據中提取有用的信息,獲得先人一步的機會?這也是全球大數據行業共同思考的問題。

縱觀全球,大多數發達國家政府都非常重視大數據背後的戰略價值,各個國家也在大數據方面積極探索相關的應用。誰能夠靈活自如地運用大數據,誰就可能走在別人前面。

以美國來說,早已在2012年發布《大數據研究與發展計劃》,把大數據上升為國家戰略。

各國技術能力儲備政策比較

2019年5月12日,在「2019首屆天府大數據與數字經濟發展論壇」上發布了《2018全球大數據發展分析報告》。

目前來看,美國一直處於領先狀態,而中國大數據的發展稍微晚些,還處於不斷探索不斷突破的階段,任重而道遠。

從以上國內外大數據產業融合企業情況中可看出,從事數據分析服務的大數據企業偏多,同時大數據 也逐漸向各個行業滲透。但不同國家間的大數據企業分佈情況不一樣,各有所側重,也跟每個國家的發展相關。

以美國來說,金融投資領域的大數據企業較多,說明該行業比較依賴大數據技術,對大數據的需求較大。以中國來說,金融與商業營銷比重差不多,但總體比重沒有美國大。

其實每個國家的大數據運用側重不同與該國的支柱行業相關,越是政府重視的產業越有大數據意識。

如今中國大數據水平雖然比國外某些地方稍微弱些,但也是一副迎頭而上的勢頭。

目前正在努力建設「數字中國」,各種政策也在扶持著大數據時代的發展,大數據交易平臺建設進入井噴期,最重要的是我們能夠切身實際感受到大數據帶給我們的特別體驗。

數字中國發展指標體系框架

2017年各省數字中國指數分佈

近年來,國內湧現出一大批優秀的大數據相關企業,而且它們就在我們身邊,為我們的生活提供著各種便利。

阿里巴巴

阿里系的電子商務服務、螞蟻金融服務、菜鳥物流服務、大數據雲計算服務、廣告服務、跨境貿易服務、前六個電子商務服務以外的互聯網服務。其中與大家息息相關的有淘寶、天貓、支付寶等app。

華為

華為的產品主要涉及通信網路中的交換網路、傳輸網路、無線及有線固定接入網路和數據通信網路及無線終端產品,為世界各地通信運營商及專業網路擁有者提供硬體設備、軟體、服務和解決方案。華為手機目前也是國內手機的領頭大哥。

百度

作為全球最大的中文搜索引擎公司,百度憑藉強大的網民搜索資料庫,能清晰洞察網民消費意願和消費形態,成為中國「最懂消費者」的ROI媒體平臺。除此之外,還有百度雲、百度雲盤等非常不錯的功能。

騰訊

騰訊的業務面很廣,它用戶量最多的是QQ和微信,這兩種通訊工具改變了中國的社交方式。近年,騰訊宣佈正式啟動新一輪整體戰略升級,將進一步探索更適合未來趨勢的社交、內容與技術的融合,並推動實現由消費互聯網向產業互聯網的升級。


謝 @阿里雲 邀。

先上結論:中國的大數據能力在全球屬於領先水平,在計算集羣調度領域,已經是世界第一。

就拿自家的阿里雲舉例吧。

目前,阿里雲飛天大數據平臺,已經可以擴展到10萬臺計算集羣,是全球規模最大的計算平臺,單日數據處理量超過600PB。

飛天大數據平臺的單集羣調度能力,是10萬臺,而谷歌、微軟等公司的調度能力,大都在1萬臺左右。

說完水平說發展。

從無到有,10年時間,阿里雲的飛速發展其實有跡可循。

一來,離不開阿里的獨特業務場景,最貼近我們的就是——淘寶買買買,支付寶刷刷刷。

阿里各平臺商品超20億,每天大概有3億人訪問,每年的雙11和天貓618,數據更是會瞬間爆發,在這種業務場景下,阿里雲的飛速發展有了「土壤」。

二來,離不開阿里雲團隊的「瘋子們」。

10年前,馬老師提出做雲計算,表示「我們如果不做,將來會死掉」,於是阿里雲在內外的質疑聲中誕生了。

團隊初創時期非常艱難,甚至流失了80%的工程師,而留下來的人視為「瘋子」,他們成為阿里雲飛速發展的「種子」。

在「瘋子」們的努力下:

2013年,阿里雲飛天單集羣突破5000臺伺服器規模,世界上第一個對外提供5K計算能力。

2015年,單日數據處理量達100PB,創造377秒完成100TB數據排序世界紀錄,大幅提升4倍。

2016年,單集羣規模超過1萬臺,打破AWS自2014年保持的「專用及通用目的排序」兩項世界記錄。

2018年,單日數據處理量超600PB,三年時間提升5倍,集羣規模超10萬臺。

知乎上有很多雲計算領域的高手,如果你也想和阿里雲的同學們一起瘋、一起創造更多奇蹟,記得投個簡歷呀!


謝邀

還記得十年前,阿里巴巴投入雲計算核心技術研發,技術人們把這個核心技術命名為「飛天」。

他們可能沒料到,十年後的今天,自研的飛天大數據平臺可以擴展到10萬臺計算集羣的能力,成為全球最大規模的計算集羣。

通俗的說,相當於把10萬臺計算機組成一個巨大的計算力池子,當成一臺超級計算機來使用。

今天,這臺超級計算機每天數據處理量超過600PB,容量相當於6億部高清的電影。

自研平臺突圍

2009年,阿里雲正式成立。在王堅博士的帶領之下,一羣工程師夜以繼日,最終一行行代碼寫出了飛天雲計算操作系統。

今天,飛天作為雲計算操作系統為很多人所熟知,但是在研發飛天的同時,阿里雲還自主打造了一個大數據的平臺——飛天大數據平臺。

決定自主研發的過程可謂百折千回。

最初,阿里雲選擇了3條分支路徑去探索大數據處理能力。第一條路徑是用商業的Greenplum來替代分析型數據運算;第二條路是因為擔心Greenplum不靠譜,也使用Hadoop做類似的事情;第三件事情,就是啟動了飛天大數據平臺的研發,目標是打造一個屬於自己的大數據平臺。

到2010年的時候,Greenplum這條路因為規模和可用性的問題以及計算準確性問題被放棄;2013年的時候,Hadoop平臺也因為數據中心規模擴展不上去和安全管理以及許可權管理和資源管理等一系列問題,最後不得不放棄這套體系。

2013年8月15日,最初被認為「最不可能的任務」——終於突破了核心技術,正式上線5000臺伺服器集羣——這使得阿里成為世界上第一個對外提供5K雲計算服務能力的科技公司。

有了5K的能力,平臺計算100TB排序只需30分鐘,遠超Yahoo! 在7月剛剛創造的71分鐘世界紀錄。

到2016年2月,飛天的單集羣規模超過10000臺;三年之後,再擴大10倍至10萬臺。

沒有馬雲的強力支持,沒有王堅團隊的鍥而不捨,也就不會有後來阿里雲與Amazon、Azure並稱3A的故事。

2015-2016年,飛天大數據平臺打破計算界奧運會SortBenchmark的6個世界紀錄,用不到7分鐘便完成了100TB的數據排序,刷新了ApacheSpark 23.4分鐘的紀錄。

2017-2018年,完成全球首次基於公共雲的100TB BigBench大數據基準測試,成為首個突破7000分的引擎,性能達到 18176QPM。

2018年1月,飛天獲得中國電子學會15年來首個頒發的科學進步特等獎

飛天為什麼「進化」這麼快?

如今,飛天大數據平臺的單集羣調度能力如今已經達到10萬臺,而谷歌、微軟等巨頭的調度能力大都在1萬臺左右,存在數倍差異。

其實這跟阿里的獨特業務場景有關。

阿里巴巴是全球最大的電商平臺,平臺之上有20億電商產品,每天大概3億人訪問。更不要說,還有雙11、雙12等全球絕無僅有的業務場景。

要向服務好全球最大規模的網路消費羣體,阿里雲就必須要做好大數據處理平臺。

而在提供計算能力的同時,阿里雲還將成本降到了非常低的程度。

通過飛天大數據平臺的在線服務,小型公司花幾百元即可分析海量數據,而無須耗費巨資自建數據中心。

你不知道阿里雲,但生活有了科技味

攻克算術瓶頸王堅團隊用了4年,將其繼續延展不斷商業化阿里雲用了10年,到現在飛天大數據平臺已和水電煤一樣成為不少公司必不可少的基礎設備,廣泛服務於電商、工業、醫療、農業、氣象、教育等諸多行業。

在交通領域,城市大腦在杭州實時指揮1300個紅綠燈路口、200多名交警。從2016年到2018年,杭州從全國最擁堵城市排行榜上下跌52名。讓管理者第一次看清楚有多少活動的車輛,用數據挖了一條看不見的路,從而打開了治堵的新思路。

在政務領域,最多跑一次通過大數據處理平臺打通政務數據,將與老百姓辦事最密切相關的100個事項70多億條數據,按照統一標準匯入統一的數據倉,實現共通共享共用。老百姓辦事不僅能最多跑一次,甚至有可能一次都不跑。

在工業領域,阿里雲的大數據處理技術幫助製造企業尋找上千個參數的最優搭配,提升製造的良品率。協鑫光伏、天合光能等行業龍頭企業,都在嘗試這一全新的生產模式。

還有大家最常用的雙11買買買、12306網路購票、刷微博、看直播,都有阿里雲飛天的身影。

哪有什麼一鳴驚人,不過是十年如一日的堅持

十年光陰,不負期待。

成功從來不是一蹴而就的,曾經的阿里雲初創團隊,在最艱難的時刻甚至流失了80%的工程師,飽受公司內部質疑。

十年後,阿里雲做到了全球前三,亞洲第一。堅持就是最好的解釋,2012年的飛天獎頒給了阿里雲全體員工,頒獎詞是「堅持就是偉大」。

只有腳踏實地,才能實踐出飛天。

不能忘記的是曾經的苦難,是阿里雲那羣被稱作瘋子傻子的技術人,看過凌晨一二三四點的杭州,最難的時候抹過眼淚,只有相信、篤定、堅持的人,爬上了技術的珠穆朗瑪峯。


利益相關。阿里雲的用戶,大數據領域。

BigData 概念在上世紀90年代被提出,隨Google的3篇經典論文(GFS,BigTable,MapReduce)奠基,已經發展了超過10年。這10年中,誕生了包括Google大數據體系,微軟Cosmos體系,開源Hadoop體系等優秀的系統,這其中也包括阿里雲的飛天大數據平臺。這些系統一步一步推動業界進入「數字化「和之後的「AI化」的時代。

先來回答答主:雲計算、大數據和人工智慧的關係,為什麼大數據的討論少了。

雲計算和大數據是硬幣的兩面,大數據的發展離不開雲計算的支持。簡單理解,你要做大數據得算的起、算的準、算的快。

前些年,本來大數據是一個挺時髦的概念。誰知道人工智慧突然火了,於是大家紛紛都去講人工智慧的故事了。

技術體系的發展,可以通過如下Hype-Cycle概述,大數據系統的發展進入技術復興期/Slope of Enlightenment,並開始大規模應用Plateau of Productivity。而人工智慧正處於關注的巔峯期。

三者什麼關係呢?雲計算是大數據的基礎,雲計算+大數據又是人工智慧的基礎。但大數據又不止是人工智慧,它是整個「數字地球」的核心技術。它的對於實際生產和生活的意義遠大於人工智慧,有時候也可以把人工智慧理解成處理大數據的一種手段。

比如吧,現在政府推行的最多跑一次,本質上是系統的打通和數據的互通。靠的是大數據的技術,但與現在異常性感的人工智慧關係不大。

所以總結下來:雲計算為大數據技術提供了可能,目前大數據的已經產生的社會價值原大於萬眾矚目的人工智慧。

然後是,中國的大數據技術的水平?

有一些世界知名的大數據比賽,可以作為技術水平的一個反應。

國內雲計算最屌的阿里,也是大數據技術做的最好的。我的理解,阿里堅定的做雲計算,很大原因是為了做大數據。你看,馬雲喊出的是DT時代,而不是雲計算時代。

Sortbenchmark的官網http://sortbenchmark.org/

這裡能看到歷屆的冠軍。國內開始大規模關注是從2015年阿里的奪冠開始(印象中,鼎盛期的百度也奪過冠),當時是在計算速度和計算成本上破了4個記錄。

第二年,騰訊和IBM合作,靠超豪華的硬體配置也拿到了一些領域的冠軍。阿里也有拿到,但領域不同。

其他參賽選手有AWS、微軟、Google以及一些知名高校。

另一個比賽是BigBench。

國內有突破是2017年,阿里和英特爾合作,第一次把數據規模擴展到100T,比同類產品平均性能提升了3倍。具體見:http://news.mydrivers.com/1/551/551630.htm

這個比賽更具產業價值,看的是端到端的計算能力和成本等。參與的基本也是全球性的廠商。

帖一個去年雲棲大會的圖片:

總結:

中國大數據應用全球一定是領頭羊。因為場景最複雜。我們的龐大的人口、擁堵的城市、眾多的互聯網巨頭還有強大的國家意志。

在覈心技術上也在不斷的突破,大數據計算平臺完全可以實現自主可控,阿里的飛天也算是一代技術人員的驕傲。


說起大數據,張學友可有話要說。

他一直以來都被說成是逃犯的剋星,演唱會上的抓逃業績也是讓人驚訝:

2018年4月7日江西南昌演唱會開演沒多久,就有1人被抓,涉經濟案件被網上追逃;

5月5日江西贛州演唱會1人;

5月20日浙江嘉興演唱會1人,逃犯於某檢票時,警方接到了預警信息;

12月28日一30日,張學友演唱會在蘇州連演三天,三天時間,蘇州公安在全市範圍內共抓獲22名在逃人員。

2018年,張學友的演唱會上,先後就有80餘名犯罪分子落網。

只要張學友開演唱會,大家討論的畫風就是這樣的:

張學友本人回應成為逃犯剋星,也說:「我們國家真的太先進了,大數據也好,技術也好,都是很先進的。」

沒錯,他提到了大數據。

公安部藉助大數據、人工智慧等高科技,讓有「案底」的逃犯難以遁形。

在演唱會啟動前3個月,警方已部署了「城市盾牌」系統,根據城市重點區域公共場所的智能設備和技術,將抓取的圖像信息與在逃人員數據進行比對,發現可疑人員就會報警。而民警接到系統報警後,就會第一時間趕往現場覈查處理。

而大數據的正經解釋是什麼呢?

說起大數據,美國Gartner公司曾經給出解釋:「大數據是具有海量、高增長率和多樣化的信息資產,它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。」

在《長安十二時辰》裏,徐賓發明的大案牘術就可以解釋大數據處理的環節。

(圖源網路)

(1)數據收集——各州各縣的錄入吏每逢所居之處有什麼人員流動的事,就會上門查證;

(2)數據存儲——記錄在案之後,修訂錄單然後保存起來。

(3)數據統計分析——徐賓根據記錄在案的數據,用大案牘術來演算各種事宜

(4)數據應用——選中了張小敬來幫助李必破案

當然,現代生活中的大數據要比徐賓的大數據要複雜的多,光是應用領域就很豐富。

(數據來源天府大數據)

馬雲曾說過:「未來數據的處理和分析,就是今天的石油和天然氣。」

有一些和我們生活息息相關的領域,大數據在無時無刻的為我們服務著。

電商行業有了大數據,可以分析用戶行為,根據他們的喜好推薦更合適的商品。

沃爾瑪通過對消費者購物行為進行大數據分析時發現,男性顧客在購買嬰兒尿片時,常常會順便買幾瓶啤酒,於是他們就進行了啤酒和尿布的捆綁銷售,也成了大數據技術應用的經典案例。

你在淘寶等購物網站上看到的「猜你喜歡」,也是電商行業+大數據的成果。

醫療機構有了大數據,可以分析各種疑難雜症並尋找解決的辦法,幫助醫療資源不發達的地區。

在中國,最好的醫療資源集中在北上廣地區等一線城市,隨之而來的就是醫患資源不匹配的問題,生活在別的地方的人享受不到。大數據技術+機器學習可以學習一線城市有經驗的醫生掌握的知識,分析疑難雜症,輔助基層地區的醫生,,實現醫療資源下沉,讓更多的人享受到更好的醫療服務。

公安系統有了大數據,就有了「火眼金睛」,快速確定嫌疑人,更好的維護社會治安。

大數據在公安系統的應用越來越多,繼張學友的演唱會是逃犯剋星之後,又有山東追逃計劃,幫助公安機關抓獲了一大批負案在逃的犯罪嫌疑人。

中國國內企業的大數據能力又是怎樣呢?

在2018年評選的中國大數據企業50強的名單中,阿里巴巴排在全國首位,華為、騰訊、聯想排在之後。

(圖源網路)

要說國內大數據最強,還是得數阿里。

阿里雲的飛天大數據平臺算是一個驕傲,集羣規模世界第一,是全球集羣規模最大的計算平臺,最大可擴展至10萬臺計算集羣,創下了四項世界紀錄。飛天是中國唯一一個自主研發的計算引擎,全球掌握這項技術的公司,僅僅只有4家:微軟、亞馬遜、谷歌、阿里巴巴。

阿里在民生服務領域,用大數據技術給人們帶來了非常多的便利。

在浙江,在飛天大數據平臺支撐下,人們可以在動身最少、最便利的情況下享受到最多的便利,阿里讓「老百姓最多跑一次」成為現實。

比如原來需要跑5個窗口、耗時2天,才能拿到的新生兒出生證,現在只需在手機上填9項信息,就可以辦好一個出生證;原來需要跑到繳水電的地方排隊繳費,現在只需要在躺在牀上點點手機就能繳費;原來看一次病排隊需要付幾次費,現在可以先在醫院看完病,再回家再付錢,不用被各種繁瑣的程序耽誤了時間,提高了效率。

在杭州,城市大腦實時指揮1300個紅綠燈路口,從2016年到2018年,用了兩年的時間,把杭州從全國最擁堵城市排行榜上擠到了第52名。王革新在杭州做了3年的協警,在城市大腦的協助下,指揮早高峯變得異常輕鬆。

在飛天大數據平臺的支撐下,這樣便民的場景正在越來越多的城市實施開來。

技術的目的,是便於生活。

回到原話題,中國的大數據企業在全球是怎樣的呢?

(1)人才

(圖源天府大數據)

其實中國在大數據產業的人才是最多的,人數佔據了59.5%,高於美國英國等其他國家的人才數量。

人才的數量其實一定程度上體現了這個行業的發展潛力,我國是人口大國,當仁不讓的成為數據大國。

(2)創新專利比例

(圖源天府大數據)

中國的大數據技術創新能力2015-2018年期間有了顯著的提升,全球大數據領域相關技術專利數量比例,中國從2.0%增長到38.5%,超過美國,並呈持續上升趨勢。

(3)比賽成果

看實力,還是得回到比賽成果來看。

引用環球時報的報道:

2015年,飛天刷新了「世界計算奧運會"SortBenchmark的世界紀錄,用377秒完成100TB的數據排序,打破了經典的計算引擎Apache Spark的1406秒紀錄;

2016年,它再次刷新SortBenchmark的世界紀錄,打破了亞馬遜AWS自2014年起保持的世界紀錄。中國自主研發的計算平臺令世界刮目相看。在2017年BigBench的比賽上,阿里雲計算創造了BigBench全球性能記錄。這是一個新的突破: BigBench數據規模首次擴展到100T;流計算2.0每秒峯值達千萬QPS,整體鏈路延時亞秒級;E-MapReduce對比同類產品平均性能提升3倍。

(圖源網路)

而2019年,飛天大數據平臺是世界大數據計算性能的冠軍,集羣規模是世界第一,創下了4項世界紀錄。

我們比之世界範圍內的大數據能力水平也是不怯的。

中國是人口大國,我們有龐大的人口、天然的數據優勢,相信在優秀企業的帶領下會成為全球大數據應用的先鋒。而這樣的驕傲,存在於每一個中國人心中。


推薦閱讀:
相關文章