我們從上個世紀開始研究大數據,為什麼到現在大數據才爆發?


2020年,處於「大數據」爆發期階段的中端,你可能不知道,自20世紀80年代大數據概念的提出至今,已有40年。

1 起源(1980-2008年)「大數據」出現階段

在1980年,美國著名未來學家阿爾文·托夫勒寫了一本名為《第三次浪潮》的書,書中將「大數據」稱為「第三次浪潮的華彩樂章」。

所謂「第三次浪潮」,說的是繼農業時代、工業時代之後的第三大時代——信息時代的到來。而大數據,就是信息時代的產物。

2002年美國發生9/11事件,之後的2004年9/11委員會呼籲反恐機構應統一組建「一個基於網路的信息共享系統」,以便能快處理應接不暇的數據。

谷歌(Google)在2006年首先提出雲計算的概念,「大數據」在雲計算出現之後才凸顯其真正價值。

2007–2008年隨著社交網路的激增,技術博客和專業人士為「大數據」 概念注入新的生機。

2 生根(2009-2011年)「大數據」熱門階段

從2009-2010年「大數據」成為互聯網技術行業中的熱門辭彙。

各國政府開始重視數據在時代發展中的重要作用,相繼出臺相應政策成立科技信息研究機構等部門專註於數據研究與分析。

2011年6月,麥肯錫發布了關於「大數據」的報告稱:「大數據時代已經到來」,正式定義了大數據的概念,後逐漸受到了各行各業關注;

2011年12 月,工信部發布的物聯網十二五規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這些是大數據的重要組成部分。

3 發芽(2012-2016年)「大數據」時代特徵階段

2012年,大數據一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

數據正在迅速膨脹,它決定著的未來發展,隨著時間的推移,各國政府越來越多的意識到數據的重要性。

美國、日本、韓國相繼將大數據技術列為「國家科技戰略」,使得大數據的價值不僅僅侷限在商業上,這無疑給大數據的發展添了一把火,極大縮短了「萌芽」階段的時間。

2012年7月,為挖掘大數據的價值,阿里巴巴在管理層設立「首席數據官」一職,負責全面推進「數據分享平臺」戰略,並推出大型的數據分享平臺——「聚石塔」,為天貓、淘寶平臺上的電商及電商服務商等提供數據雲服務。

隨後的2013年,被稱為中國的「大數據元年」。這也是「中關村貴陽科技園」的誕生之年,此後,中關村和貴陽市開展了更為密切的合作,而貴州省則把大數據當作可以實現工業結構快速更新的「一號工程」。

4 生長(2017-2022年)「大數據」爆發階段

2017年,大數據已經滲透到人們生活的方方面面,我國大數據產業的發展也進入爆發期。

在技術、政策、法規、市場等多因素的推動下,我國各省市政府相繼出臺大數據研究與科研計劃,整合數據資源,實現區域數據中心資源彙集與集中處理。

不知不覺中,大數據已經滲透到人們生活的方方面面,我國大數據產業的發展也進入爆發期,到2020年,我國大數據產業市場規模已達萬億,並且依然保持30%的年增長速率。

大數據發展浪潮席捲全球。全球各經濟社會系統採集、處理、積累的數據增長迅猛,大數據全產業市場規模逐步提升。

大數據產業鏈可以從數據源/技術、大數據產品、大數據服務應用這三大塊來講。

目前,我國的數據來源包括政府部門、企業數據採集及供應商、互聯網數據採集及供應商、數據流通平臺等。

而大數據產品包括大數據平臺、雲儲存、數據安全等基礎軟體產品;加工分析、解決方案等軟體產品;大數據採集、接入、存儲、傳輸等硬體設備產品。

大數據服務方面,主要為應用服務、分析服務、基礎設施服務等供應商。

也就是說在大數據產業生態鏈的最底層是大數據的基礎支撐技術,包括Hadoop, MapReduce, Hbase, Cassandra, Mahout等。

往上一層包括四類大數據平臺,有數據分析平臺、數據操作平臺、IaaS和結構化資料庫等。

再上一層是應用層,包括六類應用,包括分析和可視化應用、商業智能、DaaS、廣告/媒體應用、日誌數據應用和垂直應用等。

5 未來(2020年- )「大數據」未來發展

未來,人口紅利將轉變為網民紅利,成為支撐應用驅動創新的最大因素。

隨著老齡化社會的到來,以往在經濟發展中扮演重要角色的「人口紅利」逐漸消失,與此同時,我國網民規模不斷擴大,網民紅利更加凸顯,中國已是世界上產生和積累數據體量最大、類型最豐富的國家之一。

依託龐大的數字資源與用戶市場,使得中國企業在應用驅動創新方面更具優勢,大量新應用和服務將層出不窮並迅速普及。

隨著移動互聯網、物聯網、雲計算產業的深入發展,大數據國家戰略的加速落地,未來幾年年大數據體量將會呈現爆髮式增長態勢。大數據產業的生態圈將不斷擴充,隨之而來的是各種新鮮的崗位、職能、技術。

身處在這樣的時代中既是不幸也是幸運,不幸的是我們普通人始終無法成為浪潮中最高的那一朵,幸運的是借著這股力,往上游幾層還是輕而易舉的,問題就是你願不願意堅定地選擇它了。


準確來說,大數據是從2016年左右開始爆發的,最根本的原因還是雲計算、人工智慧等技術浪潮的推動,讓大數據技術在政府、企業中的應用得到普及。

以企業來說,過去二十年,大家都在做一件共同的事情,就是信息化建設。信息化建設的本意是讓管理流程線上化、標準化,提高效率,但同時,也實現了業務數據化。而當業務數據沉澱完之後,下一步就要思考,如何讓這些數據用起來,於是就又產生了大數據採集、大數據預處理、大數據存儲、大數據分析等各種應用。

而在我們身邊,大數據的爆發就更加不言而喻,移動互聯網的發展為大數據爆發創造了先天環境,我們消費、走路、健康每一個路徑都會留下數據,而這些數據同時也通過其他的應用在服務我們。


1. 從 「數據」到 「知識」

最早提出「大數據時代已經到來」的機構是全球知名諮詢公司麥肯錫。

2011年,麥肯錫在題為《海量數據,創新、競爭和提高生成率的下一個新領域》的研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素; 而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。

維基百科對於「數據」一詞的定義是:「數據(Data)是載荷或記錄信息的按一定規則排列組合的物理符號,可以是數字、文字、圖像,也可以是計算機代碼。對信息的接收始於對數據的接收,對信息的獲取只能通過對數據背景的解讀。數據背景是接收者針對特定數據的信息準備,即當接收者瞭解物理符號序列的規律,並知道每個符號和符號組合的指向性目標或含義時,便可以獲得一組數據所載荷的信息。亦即數據轉化為信息,可以用公式『數據+背景=信息』表示。」

數據與信息的區別在於: 數據是對信息數字化的記錄; 信息是指把數據放置在一定的背景下,對數字進行解釋、賦予意義。

在進入信息時代之後,人們趨向把所有存儲在計算機上的信息,無論是數字還是音樂、視頻、圖片,都統稱為數據。正因為數據承載著信息,所以在應用過程當中,這些數據就不再僅僅是對客觀現象的記錄或紛繁無序的數值,而是帶著特殊意義和價值。人們通過對這些數據的交換、整合、分析,來解釋各種現象背後的原因,同時預測事物的發展趨勢,這樣一來,數據就成為了「知識」,可以說,數據正是知識的來源。當下的政府、醫療衛生、公共安全、環境氣象、交通道路等等各個行業都在利用數據指導決策、預測趨勢。

2.從「資料庫」到「大數據」

塗子沛所著的《大數據》用專門的章節講述「商務智能的前世今生」,並梳理了近年來人類社會活動當中數據蒐集、處理和分析這一行為的發展過程。1970年,IBM研究院的埃德加·科德發明瞭關係型資料庫,成為軟體發展歷史上一個跨越性的里程碑,也是大數據處理技術最為原始的起步。1992年,被稱為數據倉庫之父的比爾·恩門出版了《數據倉庫之構建》,將數據倉庫定義為:一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理中的決策制定。再之後,「聯機分析」出現,人類開始把分離的資料庫相聯,進行多維度的分析。於是,以關係型資料庫為基礎的運營式信息系統出現。聯機分析是對數據倉庫中數據信息的一種挖掘與運用操作,是將數據轉化為信息和知識最主要的手段。如果說聯機分析是對數據的一種透視性的探測,數據挖掘的主要目的則是發現潛藏在數據表面之下的歷史規律和對未來進行預測。

進入21世紀之後,數據可視化成為數據挖掘的另一項結果性要求,通過把複雜的數據轉化為直觀的圖形,並呈現給最普通的用戶,使之成為淺顯易懂、人皆可用的工具和手段。在不斷發展與演變的基礎之上,雲計算和大數據出現。

大數據是指那些大小已經超出了傳統意義上的尺度,一般的軟體工具難以捕捉、存儲、管理和分析的數據。人類對於數據的計量單位已經從位、位元組、千位元組、兆位元組、太位元組走向了澤位元組甚至堯位元組。麥肯錫全球研究所認為,我們並不需要給「什麼是大數據」一個具體的尺寸,因為隨著技術的進步,這個尺寸本身就在不斷增大,而且對於各個不同的領域,「大」的定義也不盡相同,無需統一。自從人類有印刷術以來,過往上千年所有的印刷材料只相當於200PB;而在2011年全球數據使用量已達到了1.8ZB(1ZB約為1PB的100萬倍)。據市場研究公司IDC的統計,全球數字信息在未來幾年將呈現驚人增長,預計到2020年總量將是現在的44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。大數據技術正是從海量的、多樣化的數據中,快速獲得有價值信息的能力。

3.「數據」與營銷的「科學性」

人類所有的知識,可以劃分為三個大類: 自然科學、社會科學和人文藝術。其中,自然科學最為「精確」; 社會科學研究的是社會現象,探討的是人和社會的關係,在追求精確的同時又因為關係到個性化極強的「人」和變化無窮的「心理」影響而常常出現「測不準」的現象,因此也被稱為「準科學」;人文藝術則主要包括文學、藝術和哲學,並不強調精確。而營銷屬於社會科學的大範疇之類,廣告又與人文藝術相關聯,因此才被稱為是科學與藝術的結合,是一種交叉性的學科。

2007年,雅虎的首席科學家沃茨博士在《自然》上發表了一篇題為《21世紀的科學》的文章,認為得益於計算機技術和海量資料庫的發展,個人在真實世界的活動得到了前所未有的記錄,這種記錄為社會科學的定量分析提供了極為豐富的數據。由於能夠測得更準、計算得更加精確,他認為社會科學將脫下「準科學」的外衣,真正走進科學的殿堂。對於營銷來說,也是同樣。一直以來,營銷的科學性正是因為運用了自然科學中的數據收集手段,嚴謹地記錄、蒐集和分析消費者的各項數據和行為軌跡,同時又採納了社會心理學的方法,透過現象去解釋人的內心世界。這種主客觀的結合讓營銷能夠無限接近真實的推測市場需求的方向,讓生產者與消費者能夠達到和諧交換。因此,數據與營銷之間存在著密不可分的關係。當聯機分析、數據挖掘出現之後,人類獲取知識的手段也有了跨越式的發展。營銷與廣告學科也在此時能夠綜合運用各種數據與信息進行互動式的分析,日臻成熟。然而隨著大數據時代的到來給社會科學、營銷學帶來巨大全新可能的同時,也使得原本的營銷體系和理論模型有效性出現了崩塌。


大數據直到現在都沒有爆發,只是他處於一個上升趨勢,


因為上個世紀哪裡來的數據?沒有數據怎麼處理,現在就不一樣了,各種各樣的數據,有了大量的數據大數據才爆發!


因為近五年雲計算才真正走向大規模應用,人類數據收集能力和處理能力實現了質變,全民普及化的可以處理大規模數據,大數據以此爆發。


一個理論能不能流行起來,要的是現實場景的支持。

畢竟五年之前,除了統計局和一些情報部門,哪裡來的海量數據給你處理,大數據當然就沒有了應用場景,只能是理論狀態。


推薦閱讀:
相關文章