一、簡介
隨著企業收集和分析的數據量不斷增長,人們越來越關注會影響到性能的數據存儲成本的管理。Hadoop提供了一種可擴展且快速的方式來存儲和分析數據,但在Hadoop中存儲數據通常比對象存儲等替代方案的成本更高。
對於尋求可擴展、經濟高效存儲的企業而言,內部部署和雲部署(例如AWS S3)採用對象存儲的方案更普遍。然而,對象存儲相較於Hadoop性能更低,因此程序開發者可能不願意在兩者間進行權衡選擇。企業注重成本優勢,雲服務提供商的定價透明,但沒有很好地解決成本與性能的權衡。
Alluxio是一個虛擬分散式文件系統,它創建了一個統一化各種不同存儲系統的數據層,並且可以達到內存級別的訪問速度。數據無論存儲在Hadoop HDFS中,還是對象存儲中,都可以通過全局命名空間中的單個源進行訪問。這使得企業可以設計兩全其美的數據存儲方案,即在利用低成本存儲的同時不降低性能。
常用鏈接
- Alluxio項目官網
- Alluxio Inc網站
- Alluxio在各大廠用例
- 關注Alluxio微信公眾號
二、Alluxio概述Alluxio是世界上第一個內存級別速度的虛擬分散式文件系統。它統一化數據訪問並橋接了計算框架和存儲。應用程序只需要與Alluxio連接即可訪問存儲在底層任何持久化存儲系統中的對象或文件數據。此外,Alluxio架構支持以內存級別速度訪問數據,以提供最快的I/O操作。
在大數據生態環境中,Alluxio是一個位於計算和存儲之間的數據層。它可以帶來明顯的性能提升,尤其在跨越多個數據中心的雲可用區。Alluxio抽象了底層持久化存儲系統中的對象或文件,為應用提供共享數據訪問。Alluxio兼容Hadoop和對象存儲,支持對持久化存儲的讀寫操作。現有的數據分析應用(如Hive,HBase和Spark SQL)可以直接在Alluxio上運行而無需更改任何代碼。
三、當前的大數據存儲架構最常見的大數據存儲架構包含了並置(co-located)的計算和存儲,具體地使用HDFS存儲系統作為MapReduce,Spark,Hive,Presto等計算框架的存儲,如圖1所示。數據和計算位於同一節點,計算和存儲緊耦合能夠帶來高性能但可擴展性和成本卻不容樂觀。擴展存儲的同時會迫使無需擴展的計算也進行了擴展(反之亦然)。隨著時間的推移,Hadoop集羣可能會變得龐大,並積累了大量較舊的,不太活躍的冷數據。