現有數據量5T,明年估計增加2T,增長的速度會一年比一年快,都是結構化數據,需要增刪改查。

當前資料庫已經出現IO瓶頸了,最近計劃先把硬碟升級成SSD,支撐未來1年。

那未來2-10年用什麼技術來實現比較好?

希望是:

1.學習成本低,也就是容易學,因為現有的數據團隊人員不足,學習能力一般,未來兩三年也不會投入太多成本,就是不會招成本太高的人員進來

2.硬體投入越少越好。

3.技術最好能跟上時代發展,也就是數據人員以後如果想跳槽了不至於太被動,換句話說就是能夠提高學習的積極性。


一般都是hive居多,分層ods dwd dws ads層

使用sparksql等等


Hive和Spark比較適合,都支持Sql,詳細分析可以看下

從0到1搭建大數據平臺之計算存儲系統?

mp.weixin.qq.com圖標


看你的業務規模和數據量,數據量不大,傳統的資料庫MySQL Oracle DB2都可以,數據量大一些上td gp,再大一點上大數據hadoop hive,根據場景不同可以上kudu clickhouse,當然還要上對應的大數據計算引擎。還有一些分散式資料庫 如 TiDB,也可以用於數據倉庫,它搭配了分析引擎。

根據你的描述,可以考慮tidb或者hive


數據倉庫不適合做較多的事務操作,你這我推薦你用tidb或者中間件做分庫分表,你這屬於在線業務吧,升級SSD可支撐你較多的事務


推薦hive。架設在hadoop集羣上的。滿足隨時擴容需求。學習成本也不很高。


Hive吧 目前大多數數據倉庫底層都是hive


現在使用資料庫的話,可以考慮使用分散式資料庫,推薦Greenplum,應用廣泛而且開源。

完全滿足你的需求

1,SQL介面,可以平滑過渡

2,普通PC伺服器都可以部署,不需要專有硬體

3,目前阿里雲、騰訊雲都推出了分散式資料庫的服務,從這些信息可以看出技術趨勢


數倉需要改嗎?對查詢的響應時間是多少?我們現在的方案時hive加hbase和es

如果需要改查的話可能pg合適一些


如果主要面向oltp服務,推薦用pg,

如果面向olap服務,又有部分(增加都支持)刪改操作可以考慮kudu,kudu基本綜合了hive與hbase部分功能。


這個主要得看讀寫的特點,對實時性,查詢速度的要求等,不能一概而論。數據量只是要考慮的很小一方面。

比如能做批量寫入,希望查詢可以快一些,那就可以用clickhouse。對查詢速度要求不高,就可以用hive


目前主流方案數倉還是使用hive。


推薦閱讀:
相關文章