BigData NoSQL —— ApsaraDB HBase數據存儲與分析平台概覽
一、引言
時間到了2019年,資料庫也發展到了一個新的拐點,有三個明顯的趨勢:
- 越來越多的資料庫會做雲原生(CloudNative),會不斷利用新的硬體及雲本身的優勢打造CloudNative資料庫,國內以阿里雲的Cloud HBase、POLARDB為代表,此塊文章會有一定的引述,但不是本文的重點。
- NoSQL正在解決BigData領域的問題。根據Forrester NoSQL的報告,BigData NoSQL是提供 存儲、計算處理、支持水平擴展、Schemaless以及靈活的數據模型,特別提到需要支持複雜計算,一般通過集成Spark或者實現單獨的計算引擎實現。Cassandra商業化公司Datastax提供的產品是直接在Cassandra之上集成了Spark,另外ScyllaDB公司首頁的宣傳語就是The Real-Time Big Data Database。大數據的5V特性,包括 Volume:數據量大,包括採集、存儲和計算的量都非常大;Variety:種類和來源多樣化,包括結構化、半結構化和非結構化數據;Value:數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴;Velocity:數據增長速度快,處理速度也快,時效性要求高;Veracity:數據的準確性和可信賴度,即數據的質量需要高。5V特性可以使用BigData NoSQL資料庫很好的滿足,且又能滿足實時的寫入,分析及展現。
- 越來越多的公司或者產品都是融合多個能力,Strapdata公司把Cassandra及ElasticSearch的能力融合在一起;Datastax直接在Cassandra之上集成了Spark;SQLServer也是融合了Spark,打造Native Spark滿足DB計算能力外延的商業訴求。
阿里雲HBase經過公共雲兩年(單獨的HBase在阿里內部已經發展快9年)的發展,融合開源Apache HBase、Apache Phoenix、Apache Spark、Apache Solr等開源項目,再加上一系列自研特性,滿足 【一體化數據處理平台,提供一站式能力】 , 基本架構如下: