IoT前沿｜5G時代下，大數據存儲面臨的三大挑戰

Q爲什麼開設“IoT前沿”專欄呢？事情是這樣的：

一個月前，小編在戴爾科技集團知乎號（知乎搜索戴爾科技集團）回答了一個問題——

“開源分佈式流存儲Pravega前景怎麼樣？”

沒想到回答發出之後，得到了大家的點贊和積極互動！

知乎問答

選取其中一些評論，看看大家在討論什麼▼

知乎前排網友：

@Sky快跑：不懂…什麼叫原生流存儲？

@常平：其實是專門針對流數據這樣的數據類型而設計的存儲系統，支持流數據的原生屬性。

@Sky快跑：比較好奇流數據的原生屬性是什麼?_?

@常平：“流數據是一組順序、大量、快速、連續到達的數據序列，一般情況下，數據流可被視爲一個隨時間延續而無限增長的動態數據集合。應用於網絡監控、傳感器網絡、航空航天、氣象測控和金融服務等領域” - 來源xx百科。用人話來說就是自帶 “標籤指標時間戳”，以事件爲單位特點是無限多，傳輸場景複雜。

@Sky快跑：感謝回覆，看起來就像持久存儲上面加了一層kafka？無限是指可以無限延續並且無限回溯？

@常平：有點類似kafka，但是kafka定位是消息系統，而這個是存儲系統。無限是指數據可以無限的往裏頭存，無限延續。

▲可見，對於新技術，大家都有着非常強烈熱情。而隨着5G時代的來臨，無論是投資者、企業家還是創業者都在加緊備戰，以期在下一個十年中抓住最重要的機會。因此，爲了方便大家瞭解前沿技術動態，小編也把這個回答也發佈在這裏，並特別開設“IoT前沿”專欄，向大家介紹戴爾科技集團的最新技術情報。快人一步，方能致勝未來！

作者簡介

滕昱

滕昱：就職於Dell EMC中國研發集團，非結構化數據存儲部門團隊並擔任軟件開發總監。2007年加入Dell EMC以後一直專注於分佈式存儲領域。參加並領導了中國研發團隊參與兩代Dell EMC對象存儲產品的研發工作並取得商業上成功。從2017年開始，兼任Streaming存儲和實時計算系統的設計開發與領導工作。

周煜敏

周煜敏：復旦大學計算機專業研究生，從本科起就參與Dell EMC分佈式對象存儲的實習工作。現參與Flink相關領域研發工作。

工業物聯網，車聯網和實時欺詐風控的需求正在飛速發展，越來越多的企業新應用需要的是快速響應客戶需求，並同時學習和適應不斷變化的行爲模式。同時，隨着5G網絡、容器雲、高性能存儲硬件水平的不斷提高，數據增長進入了空前的發展階段。

和以往不同的是，無處不在的物聯網、自動駕駛汽車等邊緣計算所產生的數據源源不斷，就像開着的水管，數據源一直在流出。

這就給當前大數據處理系統（無論何種架構）提出了一個問題，即：

計算是原生的流計算，而存儲卻不是原生的流存儲

當前大數據存儲主要存在三大問題

下圖是目前大數據處理平臺最常見的Lambda架構，它的優勢在於滿足了實時處理與批處理需求，但是，從存儲的角度看其缺點也很明顯，可以總結爲如下三點▼：

① 實時處理、批處理不統一，不同的處理路徑採用了不同的存儲組件，增加了系統的複雜度，導致了開發人員的額外學習成本和工作量。

② 數據存儲多組件化、多份化，如下圖，同樣的數據會被存儲在Elastic Search 、S3對象存儲系統、Kafka等多種異構的系統中，而且考慮到數據的可靠性，數據還都是多份冗餘的，這就極大的增加了用戶的存儲成本。而往往對於企業用戶來說，0.1%的存儲冗餘都意味着損失。

③ 系統裏存儲的組件太多太複雜，也增加了使用的運維成本。並且大部分現有的開源項目還處於“強運維”的產品階段，對於企業用戶來說又是很大的開銷。

Lambda架構

每種類型的數據都有其原生的屬性和常用訪問模式，對應有最佳的適用場景以及最合適的存儲系統。爲了解決如上提出的三個問題：降低開發成本、減少存儲成本與減少運維成本，自然也就需要新的存儲類型。在這裏，我們將從最新的數據類型出發，探討5G時代下數據存儲新思路。

第四種存儲類型：流存儲

從存儲的視角來說，存儲架構的設計需要首先明確所存儲的數據的特點。在物聯網、自動駕駛汽車、金融等實時應用場景中，所需要存儲的數據一般被稱之爲“流數據”，流數據一般被定義爲：

流數據是一組順序、大量、快速、連續到達的數據序列，一般情況下，數據流可被視爲一個隨時間延續而無限增長的動態數據集合。

四大存儲類型

上圖所示▲，我們將流數據定義爲第四種數據類型，從左到右分佈着四種最常見的的存儲類型。傳統數據庫這類基於事務的程序適合採用塊存儲系統。文件共享場景下需要在用戶間共享文件進行讀寫操作，因此適合採用分佈式文件 (NAS) 存儲系統。而需要無限擴展並支持REST接口讀寫的非結構化的的圖像/音視頻文件則非常適合採用對象存儲系統。

而針對流數據的應用場景，就需要流數據存儲滿足以下需求：

低延時：在高併發條件下 <10ms 的讀寫延時。
僅處理一次：即使客戶端、服務器或網絡出現故障，也確保每個事件都被處理且只被處理一次。
順序保證：可以提供嚴格有序的數據訪問模式
檢查點：確保每個讀客戶端 / 上層應用能保存和恢復原來的使用狀態

在物聯網的世界，數據是實時的，分析也是實時的。獲得業務洞察以贏得價值還是錯失關鍵機會，對企業來說也許只有幾毫秒的差距，而真正的流式數據處理可以減少傳統的小批量分析方法的寶貴時間。

爲此，戴爾科技集團IoT部門的團隊重新思考了流式數據處理和存儲規則，爲這一場景重新設計了新的存儲類型，即原生的流存儲，就這樣“Pravega”誕生了。

本期內容我們主要介紹了，當前大數據存儲在5G時代下面臨的挑戰，以及需要用怎樣的存儲類型來滿足新的數據類型的要求，由此引出了Pravega的誕生。今天是個開頭，在下一期的“IoT前沿”中，我們將重點介紹Pravega的優勢和特點，以及Pravega誕生之前數據處理架構的發展。

▐ 關於Pravega

Pravega屬於戴爾科技集團IoT戰略下的一個子項目。該項目是從0開始構建，用於存儲和分析來自各種物聯網終端的大量數據，旨在實現實時決策。其結合了創新的開源流軟件（Pravega）、戴爾易安信PowerEdge服務器，並無縫集成到非結構化數據產品組合Isilon和Elastic Cloud Storage（ECS）中，並擁抱Flink生態，以此爲用戶提供IoT所需的關鍵平臺。