備註:本文是2018-06在鏈家的時候做的對外分享,現在純搬運到知乎
引言:
海量數據背景下,業界普遍引入hadoop/hive等來解決大數據計算分析的需求,但隨著大家對計算速度和靈活性的要求提高,業內湧現出各類引擎impala,sparksql,kylin等,貝殼根據自身業務需求,主要針對靈活查詢,快速查詢,實時查詢分別選型spark sql,kylin,druid, 本次主要分享貝殼對這些引擎的實踐,優化,及二次開發經驗
關於我:
?13年 浙大軟體工程畢業
?13-14年 百度商業平台部-風控平台研發
?15年至今 貝殼(原鏈家網)大數據集群及基礎引擎建設
?專註於hadoop,hbase,kylin等生態組件,熱愛開源,為社區貢獻多個patch
?豐富的性能調優經驗
目錄:
?早期架構1.0
?OLAP簡介
?快速可視化查詢-指標平台(kylin)
?Adhoc靈活查詢-Queryengine(spark sql+alluxio)
?Q&A
早期架構: