什麼是大數據?

「大數據」這個概念是近幾年開始火起來的,現在可謂是無處不在了。在瞭解什麼是大數據之前,我們先了解一下什麼是傳統數據?

傳統數據就是IT業務系統裡面的數據,如客戶資料、財務數據等。這些數據是結構化的,量也不是特別大,一般只是TB級。對比傳統數據,還有一種叫「新數據」,是來源於社區網路、互聯網等渠道,包括文本、圖片、音頻、視頻等非結構化的數據。目前全世界75%以上都是非結構化數據,而且還一直呈現爆炸性的增長。我們看看下面的圖就更好理解了:

大數據就是:結構化的傳統數據+非結構化的新數據。

因而,大數據還具有以下特點,簡稱「4V」:

l Volume(大量):數據體量巨大,從TB級別,躍升到PB級別;

l Variety(多樣):數據類型繁多,有網路日誌、視頻、圖片、地理位置信息等;

l Velocity(高速):處理速度快,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同;

l Value(價值):只要合理利用數據並對其進行正確、準確的分析,將會帶來很高的價值回報。

大數據組成

大數據系統由基礎設施、平臺和應用組成。對比我們平時使用的電腦,基礎設施就是電腦這臺硬體,平臺就是裝在裡面的操作系統,應用就是操作系統上面的各種應用程序。

大數據的應用五花八門,但總體上可分為「業務應用」和「數據分析」兩大類。

前者包括ERP、CRM等業務系統,後者指的是各種分析應用,包括經營分析、價值分析、人流分析等等。分析系統從業務系統獲取源數據,經過分析後可以反哺業務系統,對其進行賦能(注智),讓其具有智慧。說到這裡,大家是不是覺得有點熟悉了?跟我們的BI是不是有某些聯繫呢?沒錯了,「大數據平臺」和「數據分析系統」加在一起就是BI的升級版啊!既然是升級版,它與傳統BI有什麼區別呢?請看下面就知道啦。

l 成本更低廉

去IOE,硬體採用廉價的X86,軟體更多使用開源,節省成本

l 容災性好

平臺部署在X86集羣上,機器出問題可隨時切換

l 擴展性好

X86集羣可根據需要隨時進行擴展,提高靈活性

l 處理效率高

當數據達到TB級別,處理效率顯著提高

l 處理類型多

可以處理結構化、半結構化、非結構化數據

l 進一步挖掘價值

處理的數據量大,類型多,因而可進一步挖掘數據的價值。

是不是有很多升級的地方呢?為了支持這些升級,大數據系統需要具備哪些功能呢?這就涉及到架構問題了,跟著Smartbi繼續往下看吧。

大數據架構

我們已經知道大數據系統由基礎設施、平臺和應用組成,我們現在進一步細分,請看下圖:

基礎設施由通過區域網或互聯網連接的X86集羣組成,為大數據平臺提供最基本的硬體支持。

大數據平臺由基礎架構、數據處理和數據服務三部分組成

基礎架構負責對基礎設施進行系統管理,為數據處理提供分散式底層服務;數據處理負責數據的採集、存儲、計算;數據服務負責將處理後的數據提供給上層應用使用。大數據應用是面向用戶的各種應用系統,包括業務應用和數據分析。大數據系統的總體架構就是這樣子,是不是跟我們平時見到的BI架構很像呢? 通過這個表格對比我們就更清楚了:

Smartbi一款更聰明的大數據分析軟體,快速挖掘企業數據價值!想了解更多關於數據分析資訊的小夥伴們,可以搜索思邁特軟體Smartbi官網,瞭解更多。

- 思邁特軟體統一登錄平臺?

member.smartbi.com.cn

發佈於 03-12繼續瀏覽內容知乎發現更大的世界打開Chrome繼續加米穀大數據老師加米穀大數據老師

在IT技術領域,資料庫技術是重要的支撐性技術,尤其是進入大數據時代以來,海量的數據累積起來,成為龐大的數據集合,更是需要強大的資料庫去完成存儲支持。

整體來說,資料庫可以分為兩類,關係型(Relational)資料庫與非關係型(NoSQL)資料庫,這兩類數據,基本上能夠滿足基於互聯網的各類數據存儲需求。但是基於具體的應用場景,往往需要進行資料庫選型。

關係資料庫

關係資料庫是指採用關係模型的資料庫,由於具有規範的行和列結構,存儲在關係資料庫中的數據通常是「結構化數據」。目前主流的關係資料庫有Oracle、DB2、MySQL等。

非關係型資料庫(NoSQL)

非關係型資料庫採用的數據模型並非傳統關係資料庫的關係模型,而是類似鍵/值、列族、文檔等非關係模型。NoSQL資料庫沒有固定的表結構,通常也不存在連接操作,也沒有嚴格遵守ACID約束。NoSQL,主要有四大類型:

(1)鍵值資料庫

典型代表是內存資料庫Redis。

(2)列族資料庫

典型的代表是HBase。

(3)文檔資料庫

典型代表產品MangoDB。

(4)圖資料庫

典型代表產品Neo4j。


在IT技術領域,資料庫技術是重要的支撐性技術,尤其是進入大數據時代以來,海量的數據累積起來,成為龐大的數據集合,更是需要強大的資料庫去完成存儲支持。

整體來說,資料庫可以分為兩類,關係型(Relational)資料庫與非關係型(NoSQL)資料庫,這兩類數據,基本上能夠滿足基於互聯網的各類數據存儲需求。但是基於具體的應用場景,往往需要進行資料庫選型。

關係資料庫

關係資料庫是指採用關係模型的資料庫,由於具有規範的行和列結構,存儲在關係資料庫中的數據通常是「結構化數據」。目前主流的關係資料庫有Oracle、DB2、MySQL等。

非關係型資料庫(NoSQL)

非關係型資料庫採用的數據模型並非傳統關係資料庫的關係模型,而是類似鍵/值、列族、文檔等非關係模型。NoSQL資料庫沒有固定的表結構,通常也不存在連接操作,也沒有嚴格遵守ACID約束。NoSQL,主要有四大類型:

(1)鍵值資料庫

典型代表是內存資料庫Redis。

(2)列族資料庫

典型的代表是HBase。

(3)文檔資料庫

典型代表產品MangoDB。

(4)圖資料庫

典型代表產品Neo4j。


「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯網的時候,大數據又來了。」這句話是馬雲在卸任演講時說出的一句話。這句話引起了許多人的反思。

我們知道,人類社會發展經歷了以煤炭為基礎,蒸汽機和印刷術為標誌的第一次工業革命,以石油為基礎,內燃機和電信技術為標誌的第二次工業革命,以核能為基礎,互聯網技術為標誌的第三次科技革命。下一步將是什麼樣的技術革命呢?毋庸置疑,更多人願意相信是以可再生能源為基礎,信息技術為標誌的第四次科技革命。新一輪技術革命來臨,也將帶來新的挑戰。世界在發展,這是歷史的規律,要順應發展規律,提前做好準備才能不被世界淘汰。

大數據時代到來,我們應該怎麼做呢?

01

要對大數據深刻認識,充分理解。被譽為「大數據商業應用第一人」的維克託?邁爾?舍恩伯格在他的《大數據時代》中說過:大數據不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關係,而是相關關係。這也反映出大數據的幾個特徵:數據體量龐大數據類型繁多價值密度低處理速度快

02

要把握好信息技術。哪些屬於信息技術呢?數據提取存儲搜索共享分析處理等與信息相關的都屬於信息技術。大數據時代的到來,信息技術暴露出許多問題。以存儲技術為例:現在市場廣泛應用的是存儲介質比較單一的磁碟和固態硬碟。這類存儲介質有能耗高、壽命短、易受電磁幹擾、價格昂貴、容量低、易損壞、數據難恢復、壽命短等等一系列缺陷。雖然新一代的磁光電混合系統已經研究出來了,但是在市場上佔比很小,亟待推廣應用,以便適應大數據時代。

03

要利用好經過信息技術處理過的數據。挖掘大數據價值的方法分為四種:客戶羣體細分,然後為每個羣體定製特別的服務;模擬現實環境,在發掘新的需求同時提高投資的回報率;加強部門聯繫,提高整條管理鏈和產業鏈的效率;降低服務成本,發現隱藏線索進行產品和服務創新。

不斷反覆的實踐、大數據的日積月累能讓人類發現規律,預測未來不再是科幻電影裏故事情節。最終,我們都將是大數據時代獲利者。


大數據,字面理解就是數據量太大了,傳統技術很難處理。具體可看4v特性、5v特性。

  • 先有資料庫,後有大數據。
  • 資料庫必須有,大數據不是100%需要。
  • 數據量小時,大數據能幹的事,資料庫絕大部分也能幹。
  • 目前資料庫能幹的事,大數據還還有好多都幹不了

傳統資料庫:

  • 是面向事務的(oltp)
  • 是在線數據,直接為業務系統服務
  • 隨機讀寫性能強,支持數據更新,
  • 要支持事務的四個也特性acid,而且要求非常高。
  • 一般處理結構化數據
  • 資料庫一旦出現故障業務,系統一般不能再運行。
  • 數據量一般為GB級別

大數據:

  • 主要面向分析(olap)
  • 一般是離線數據(脫離了業務系統)
  • 決策支持系統、bi系統、數據挖掘、ai系統服務。為分析人員服務或者間接為業務系統提供服務。
  • 一般支持批量寫性能好,不支持更改。
  • 對acid,沒有直接支持,一般需要單獨的數據質量系統來維護數據的質量。
  • 數據類型雜,結構化(表),半結構化,純文本,媒體文件都有。
  • 數據量一般為若干Tb,pb,eb,zb。
  • 一般不會對業務造成直接影響。


資料庫一般說的是傳統的關係型資料庫,應用在oltp,企業應用系統中作為數據存儲的主要介質。發展到後期,由於某些特定的數據存儲需求,產生了nosql,圖資料庫,文檔資料庫等,以及列存儲hbase等資料庫。

大數據一般是指超越傳統資料庫極限處理能力的大批量數據以及非結構化的數據,比如用戶的行為信息,城市的交通信息,電商網站用戶瀏覽跟蹤信息。大數據平臺需要將這部分數據進行特殊處理,獲取大批量數據中的有效信息,由領導層業務人員工具這些有效信息對企業經營做出調整。

傳統資料庫不在大數據的生態內,大數據生態內有hive, hbase等資料庫;但是大數據瓶裏後的數據可以存儲到關係型資料庫mysql等資料庫中,也可以將關係型資料庫中的數據灌入到大數據平臺中,利於大數據的處理。

資料庫中存儲的數據多是結構化的數據,大數據可以處理大量的結構化數據,半結構化數據以及非結構化數據,大數據將這部分數據加工後存入關係型資料庫。在某些方面,資料庫與大數據是相輔相成的。


推薦閱讀:
相關文章