Q爲什麼開設“IoT前沿”專欄呢?事情是這樣的:

一個月前,小編在戴爾科技集團知乎號(知乎搜索戴爾科技集團)回答了一個問題——

“開源分佈式流存儲Pravega前景怎麼樣?”

沒想到回答發出之後,得到了大家的點贊和積極互動!

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

知乎問答

選取其中一些評論,看看大家在討論什麼▼

知乎前排網友:

@Sky快跑:不懂…什麼叫原生流存儲?

@常平:其實是專門針對流數據這樣的數據類型而設計的存儲系統,支持流數據的原生屬性。

@Sky快跑:比較好奇流數據的原生屬性是什麼?_?

@常平:“流數據是一組順序、大量、快速、連續到達的數據序列,一般情況下,數據流可被視爲一個隨時間延續而無限增長的動態數據集合。應用於網絡監控、傳感器網絡、航空航天、氣象測控和金融服務等領域” - 來源xx百科。用人話來說就是 自帶 “標籤 指標 時間戳”,以事件爲單位特點是無限多,傳輸場景複雜

@Sky快跑:感謝回覆,看起來就像持久存儲上面加了一層kafka?無限是指可以無限延續並且無限回溯?

@常平:有點類似kafka,但是kafka定位是消息系統,而這個是存儲系統。無限是指數據可以無限的往裏頭存,無限延續。

▲可見,對於新技術,大家都有着非常強烈熱情。而隨着5G時代的來臨,無論是投資者、企業家還是創業者都在加緊備戰,以期在下一個十年中抓住最重要的機會。因此,爲了方便大家瞭解前沿技術動態,小編也把這個回答也發佈在這裏,並特別開設“IoT前沿”專欄,向大家介紹戴爾科技集團的最新技術情報。快人一步,方能致勝未來!


作者簡介

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

滕昱

滕昱:就職於Dell EMC中國研發集團,非結構化數據存儲部門團隊並擔任軟件開發總監。2007年加入Dell EMC以後一直專注於分佈式存儲領域。參加並領導了中國研發團隊參與兩代Dell EMC對象存儲產品的研發工作並取得商業上成功。從2017年開始,兼任Streaming存儲和實時計算系統的設計開發與領導工作。

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

周煜敏

周煜敏:復旦大學計算機專業研究生,從本科起就參與Dell EMC分佈式對象存儲的實習工作。現參與Flink相關領域研發工作。

工業物聯網,車聯網和實時欺詐風控的需求正在飛速發展,越來越多的企業新應用需要的是快速響應客戶需求,並同時學習和適應不斷變化的行爲模式。同時,隨着5G網絡、容器雲、高性能存儲硬件水平的不斷提高,數據增長進入了空前的發展階段。

和以往不同的是,無處不在的物聯網、自動駕駛汽車等邊緣計算所產生的數據源源不斷,就像開着的水管,數據源一直在流出。

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

這就給當前大數據處理系統(無論何種架構)提出了一個問題,即:

計算是原生的流計算,而存儲卻不是原生的流存儲

當前大數據存儲主要存在三大問題

下圖是目前大數據處理平臺最常見的Lambda架構,它的優勢在於滿足了實時處理與批處理需求,但是,從存儲的角度看其缺點也很明顯,可以總結爲如下三點▼:

實時處理、批處理不統一,不同的處理路徑採用了不同的存儲組件,增加了系統的複雜度,導致了開發人員的額外學習成本和工作量。

數據存儲多組件化、多份化,如下圖,同樣的數據會被存儲在Elastic Search 、S3對象存儲系統、Kafka等多種異構的系統中,而且考慮到數據的可靠性,數據還都是多份冗餘的,這就極大的增加了用戶的存儲成本。而往往對於企業用戶來說,0.1%的存儲冗餘都意味着損失。

系統裏存儲的組件太多太複雜,也增加了使用的運維成本。並且大部分現有的開源項目還處於“強運維”的產品階段,對於企業用戶來說又是很大的開銷。

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

Lambda架構

每種類型的數據都有其原生的屬性和常用訪問模式,對應有最佳的適用場景以及最合適的存儲系統。爲了解決如上提出的三個問題:降低開發成本、減少存儲成本與減少運維成本,自然也就需要新的存儲類型。在這裏,我們將從最新的數據類型出發,探討5G時代下數據存儲新思路。

第四種存儲類型:流存儲

從存儲的視角來說,存儲架構的設計需要首先明確所存儲的數據的特點。在物聯網、自動駕駛汽車、金融等實時應用場景中,所需要存儲的數據一般被稱之爲“流數據”,流數據一般被定義爲:

流數據是一組順序、大量、快速、連續到達的數據序列,一般情況下,數據流可被視爲一個隨時間延續而無限增長的動態數據集合。

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

四大存儲類型

上圖所示▲,我們將流數據定義爲第四種數據類型,從左到右分佈着四種最常見的的存儲類型。傳統數據庫這類基於事務的程序適合採用塊存儲系統。文件共享場景下需要在用戶間共享文件進行讀寫操作,因此適合採用分佈式文件 (NAS) 存儲系統。而需要無限擴展並支持REST接口讀寫的非結構化的的圖像/音視頻文件則非常適合採用對象存儲系統。

針對流數據的應用場景,就需要流數據存儲滿足以下需求

  • 低延時:在高併發條件下 <10ms 的讀寫延時。
  • 僅處理一次:即使客戶端、服務器或網絡出現故障,也確保每個事件都被處理且只被處理一次。
  • 順序保證:可以提供嚴格有序的數據訪問模式
  • 檢查點:確保每個讀客戶端 / 上層應用能保存和恢復原來的使用狀態

在物聯網的世界,數據是實時的,分析也是實時的。獲得業務洞察以贏得價值還是錯失關鍵機會,對企業來說也許只有幾毫秒的差距,而真正的流式數據處理可以減少傳統的小批量分析方法的寶貴時間。

爲此,戴爾科技集團IoT部門的團隊重新思考了流式數據處理和存儲規則,爲這一場景重新設計了新的存儲類型,即原生的流存儲,就這樣“Pravega”誕生了。

IoT前沿|5G時代下,大數據存儲面臨的三大挑戰

本期內容我們主要介紹了,當前大數據存儲在5G時代下面臨的挑戰,以及需要用怎樣的存儲類型來滿足新的數據類型的要求,由此引出了Pravega的誕生。今天是個開頭,在下一期的“IoT前沿”中,我們將重點介紹Pravega的優勢和特點,以及Pravega誕生之前數據處理架構的發展。

▐ 關於Pravega

Pravega屬於戴爾科技集團IoT戰略下的一個子項目。該項目是從0開始構建,用於存儲和分析來自各種物聯網終端的大量數據,旨在實現實時決策。其結合了創新的開源流軟件(Pravega)、戴爾易安信PowerEdge服務器,並無縫集成到非結構化數據產品組合Isilon和Elastic Cloud Storage(ECS)中,並擁抱Flink生態,以此爲用戶提供IoT所需的關鍵平臺。

相關文章