小數據是啥?雖然百科有這個名詞的解釋,但是還是不太明白,另外也看過一些書和相關文章,但是對於小數據和大數據兩者之間的區別和聯繫依然沒有隻管的感受。


小數據和大數據的區別是什麼?這個是沒有一個絕對的概念

曾經參加過交流會議,有些公司幾千萬條的數據也稱為大數據,也用什麼大數據架構,我猜想如果他的架構放到高並發場合可能馬上就蹦了。

可不用糾結什麼大數據或者小數據

我個人認為,從數據分析角度出發,我可以簡單的做出如下判斷,

大數據:數據項和數據量多到你無法用你的肉眼和目前傳統的結構化資料庫來篩選和分析,數據無限在快速增大。

小數據:數據項一眼就看出端倪,簡單的查詢就能快速找到數據,都能估量未來的數據量大小。


《軟體和集成電路》雜誌曾在封面刊登了百分點首席數據科學家杜曉夢博士撰寫的《大數據、小數據,我們該何去何從?》一文,分享企業在應用大小數據方面的方法論。

在大數據炙手可熱的時代,眾多企業紛紛引入和擁抱大數據,然而小數據對企業的價值同樣不可忽視。那麼,大小數據各有哪些優勢?企業是否需要大數據?在面臨大數據和小數據時,企業究竟該何去何從呢?

一、大數據和小數據的優勢

「大數據」這一概念自從被提出之後,得到了業界廣泛的關注和討論。那麼大數據的概念是什麼呢?

維基百科對大數據的定義是「所涉及的數據量規模巨大到無法通過傳統方式,在合理時間內進行截取、管理、處理,並整理成為人類所能解讀的信息」。這個概念主要在描述大數據體量大這一特徵。而美國白宮在2014年發布的《大數據白皮書》中這樣定義:「大數據集是龐大的、多樣化的、複雜的、縱深的和分散式的,它由各類儀器設備、感測器、網上交易、電子郵件、視頻、點擊流以及現在與未來所有可以利用的其他數字化信號源產生。」

目前,大數據的概念沒有一個權威而統一的定義,但普遍認為大數據具有四大特徵:

1.體量大(Volume):事無巨細的數據記錄,過程數據遠多於結果數據;

2.速度快(Velocity):數據稍縱即逝,需要實時採集;商機時不再來,必須實施應用;

3.多樣化(Variety):多種數據來源,內容五花八門;多種數據結構,標準無法統一;

4.價值高(Value):可以幫助企業提高收入、降低成本;通過提升預測力帶來價值。

而「小數據」是指什麼呢?

大體上來說,小數據或者傳統數據,和大數據相比,體量比較小;實時性偏低,離線採集數據比較多,如問卷數據;沒有大數據多源異構的特徵。一方面,小數據基本採集於單一數據源,例如CRM系統或財務系統等,而大數據傾向於採集多種數據源,打破企業信息系統之間存在的數據孤島。另一方面,小數據基本以結構化數據為主,而大數據涵蓋了企業裏種種非結構化數據,如圖片數據、客服系統的語音留言、網站日誌數據等。

  • 小數據與大數據相比有什麼優勢呢?

首先,小數據一般來說都比較準確,信息含金量高,分析成本較低;而大數據價值密度較低,需要沙裡淘金,分析成本也比較高,一般需要伺服器集羣進行支撐。

其次,大數據涉及的維度比較多,多數情況只能研究和解決相關性問題,而不是因果性問題。例如在大數據應用的較廣的個性化推薦、互聯網廣告領域,業界經常會利用機器學習演算法構建各種「黑盒」模型,目標是為消費者推薦他可能購買的商品,或者展示給消費者他可能感興趣的廣告,但很少有模型能揭示出其內在的機制和原理。

而小數據研究就能精確衡量某些因素對消費者行為的影響,無論是學界還是業界,都可以通過實驗室、問卷、A/B組等研究方法解釋消費者的偏好和選擇,小數據的研究和應用更具備可解釋性。

最後,小數據專註於研究消費者的心理、態度、品牌認知等這種看不見、不完全由行為體現的問題。

二、企業是否需要大數據?

企業是否應該引入和擁抱大數據呢?

這個問題需要因行業而定,因企業而定,具體問題具體分析。我們看到有些行業在大數據應用上走得很快,例如金融行業利用大數據解決徵信問題、輔助反欺詐業務;廣告行業利用大數據做精準廣告投放、消費者觸達;零售快消行業利用大數據做用戶畫像、標籤體系等。而另一些行業則發展得慢一些,如建材、環保等行業。

另一方面,一般來說規模大、數據多的企業在大數據使用方面比較得心應手,而規模小、數據少的企業在這方面的投入要少一些。很多企業在看到大數據給其他企業、行業帶來很高的價值時,都會急於想要引入這一流行的技術方案,而沒有做充分的研究和論證。

那麼,基於企業現狀,我們應該如何去應用大數據呢?在這裡建議企業在做大數據選型之前先回答以下幾個問題:

1.企業有哪些數據?

只有盤點好自己的數據資產才能意識到自己的數據現狀和存在的問題。從生產、銷售、營銷、財務等領域做綜合的盤點,將歷史數據盤算清楚,這是第一步。在做數據資產盤點的過程中,要注意核實數據的質量、價值、準確性和有效性,對內外部數據的所有權進行定義,整理出企業目前的數據資產列表。

2.企業的哪些業務需要大數據支撐?

這是一個非常關鍵的問題。很多不太成功的大數據項目大多忽略了一個問題,就是我們的業務是否需要大數據的支撐。如果只是為了做大數據而做大數據是沒有意義的。相反,如果企業在引入大數據技術之前,能夠先召集業務部門進行探討,傾聽業務部門的困難和訴求,對日後引入大數據技術是非常有幫助的。企業需要堅信一點,最好的大數據應用一定是為業務服務的。

3.企業需要構建的大數據應用是否有足夠的數據支撐?

在回答完第二個問題之後,企業可能會意識到,我們需要解決的業務問題,目前並沒有足夠的數據進行支撐。這時候,就需要通過某些方式增加、積累企業需要的數據了。補充數據有很多種方式,例如利用爬取技術獲取互聯網公開網頁的數據,又如採購一些對口的外部數據等。

4.企業需要的大數據應用優先順序是怎樣的?

大多數企業需要的不僅是一個大數據應用,而是通過構建一系列的大數據應用,全面提升企業的技術能力,同時支撐不同業務部門不同的訴求。大部分企業,尤其是大型企業在推進大數據規劃的時候都採取「平臺先行、應用跟上」的思路,先在整個企業內部構建一個匯聚全渠道數據的大數據平臺,或稱數據湖,將企業多源異構、零散的數據孤島進行打通,建立基於消費者、產品等不同領域的統一視圖。在此基礎上,有針對性地構建面向生產、銷售、營銷、服務等不同業務部門的大數據應用。

三、大數據+小數據=智能數據

企業在積極擁抱大數據的同時,亦不能忽略了小數據對於企業業務的價值。舉例來說,寶潔、聯合利華等大型快消品廠商,每年在問卷收集這種小數據項目上的投入是巨大的,通過對小數據的分析,有利於他們的市場部門準確定位品牌、細分消費者、開發新產品、把握消費者心理等。

傳統的市場研究領域曾是小數據的天下,而這種格局隨著互聯網的興起和大數據技術的普及正在逐漸被改變。如今的市場研究領域正流行將大數據和小數據結合在一起進行分析。

例如老牌市場研究公司尼爾森與中國電信合作開發的產品,依託於中國電信的線上行為數據,結合尼爾森的市場研究方法,提供不同品牌的消費者特徵、線上表現等信息。再如擁有中國最大在線樣本庫之一的極速洞察公司,與京東雲聯合開發的Zeus洞察系統,結合了百萬級消費者的問卷信息與京東億級規模的消費者行為大數據,為品牌商更好地瞭解他們商品的受眾羣體、競爭態勢和線上購物路徑提供了完整的解決方案。對於快消品牌的市場部來說,這無疑是升級了的新型武器—大小數據結合的智能數據工具

同樣的例子在金融行業也逐漸盛行起來。傳統的銀行業也開始嘗試將大數據與小數據結合起來進行深入分析,以指導業務。銀行業傳統線下業務產生的小數據包括客戶基本信息、資產信息、財務信息等,金融屬性強、價值密度高,但卻單一,只體現了消費者在金融維度的特徵。

而隨著電子銀行和手機銀行的興起,銀行客戶的行為逐漸向線上轉型,這使得銀行的營銷部門、零售部門不得不思考,如何結合線上大數據更好地對客戶進行分析和提供差異化的服務。

如今越來越多的銀行開始打造線上線下大小數據結合的用戶畫像標籤體系,結合客戶在銀行網點註冊時留下的小數據,以及在線上渠道留下的瀏覽、點擊、收藏等行為大數據,建立維度完整的用戶畫像,為客戶提供更加個性化的服務。

在一個案例中,某大型連鎖經營銀行將第三方大數據引入,與行內小數據結合進行建模分析,發現「近三個月有過金融相關互聯網媒體網站瀏覽行為」的客戶對這款貸款產品更感興趣,而這一洞察如果沒有結合三方大數據是不能被認知到的。最終經過大小數據融合的營銷建模分析,使得營銷效果響應率由20%提升至45%,單個客戶的營銷成本節省50元,極大地提高了銀行的營銷效能。大數據時代,不少企業面臨選擇大數據還是小數據的矛盾。

事實上,選擇什麼樣的數據戰略,需要基於企業的現狀和目標進行判斷,建設最能支撐企業業務發展的數據戰略。在推進大數據規劃之前,企業一定要深入思考和規劃,而不是盲目投入。

大數據和小數據各有所長,有機地整合在一起能發揮更大的價值,相信在可預見的未來,我們能看到更多行業產生「大數據+小數據」的智能數據應用。


小數據和大數據不只是大小區別的概念。

大數據偏向於大量客觀事實不涉及個人感受狀態的數據,側重對象的廣度。

小數據偏向於行為數據,社交數據,心理數據,個性化數據,定製性數據,側重對象的深度。

有一本書叫《痛點》比較好得詮釋了什麼叫小數據,可以瀏覽看下。


從技術上看,大數據相比於小數據,就是數據量增大了而已。但是當數據量大到一定的程度後,傳統上用來處理小數據的方法就失效了。數據的處理主要包括數據的存儲和計算。首先是數據的存儲,單機存不下,需要分散式的存儲,這樣的需求催生了HDFS這樣的東西。然後是計算的時間多了,也需要並行地分散式計算,比如MapReduce等。

相比於小數據,大數據的數據量足夠大了。原先的小數據可能並不存在統計規律,那麼數據量大了之後,原先隱藏在數據中的規律、知識、模式就會慢慢地浮現出來,通過機器學習、深度學習等領域裡的一些方法,就可以將其挖掘出來。

簡單點說,大數據是為了區別於傳統信息處理方式,傳統的信息處理都是針對企業或者某些特定領域的特定信息。企業中有多少員工,多少產品,多少訂單,客戶是誰。企業使用這些信息進行企業日常經營。如果企業需要發展,還需要了解目前所處的社會環境,經營環境等等。如果要發展,就需要從各種渠道獲取這些信息進行加工,然後再參考企業本身的情況。當這些信息超出了傳統信息處理方式的極限,需要通過多臺機器進行並行處理加工,獲取對企業本身需要的信息,便於企業領導做出決策。為了區別於傳統信息處理方式,所以稱為大數據,大數據不是依據數據量的大少來定義的。大數據是一套技術理論,為企業加工處理大批量數據的技術框架。

為了區別於大數據,有的人提出了小數據,我們有了處理大批量數據的技術框架,但是如何發現對企業發展有價值的信息,這部分有價值的信息就是小數據,而小數據往往是最重要的數據,小數據就是企業的痛點,大數據幫助企業進行大批量信息的加工處理,但是哪些信息是企業領導最需要的呢。如何去發現這些信息呢,所以出現了數據挖掘,機器學習,AI人工智慧來從大數據處理後的數據中發現這一部分小數據。

企業發展需要大數據,更需要小數據,沒有大數據的鋪路,很難發現這部分小數據,僅有小數據的處理結束,有很難在海量、高增長率和多樣化的數據中發現當前有效的小數據。

希望這個解釋能回答你的問題,歡迎繼續探討,我是大數據技術領域從業者。


相對概念


大數據=「總體」

小數據=「個體」


推薦閱讀:
相關文章