數據中心開源數據集及相關論文整理
近些年,隨著雲計算的快速興起,各大公司都紛紛建立自己的數據中心,微軟在數據中心方面的投入超過了 150 億,阿里巴巴僅在張北的數據中心就投入了 180 億。在數據中心的高額投入下,機器的資源使用效率卻面臨了很大的問題。以 Google 的數據中心為例,其生產環境下機器的平均 CPU 利用率只有 20%,Amazon 的 AWS EC2 平均 CPU 利用率只有 7%~17%。
為了更好的解決數據中心所面臨的挑戰,各大公司紛紛開始公開自己集群的數據集,希望通過數據集的方式,讓研究者更好的了解在大規模的場景下所遇到的問題。
以下為整理的部分公司開源的數據集和傳送門,會在慢慢的更新。
1. 傳送門:google/cluster-data
2. 公開時間:2011年
3. 數據集時間跨度:30天
Microsoft Azure
1. 傳送門:Azure/AzurePublicDataset
2. 公開時間:2017年
3. 數據集時間跨度:30天
Alibaba Co-located cluster
1. 傳送門:alibaba/clusterdata
2. 2017年:1000+ 台機器,24小時的數據
3. 2018年:4000+ 台機器,9天的數據
4. 均為阿里內部私有雲集群的數據
Two sigma、LANL Mustang、LANL OpenTrinity
1. 傳送門:Parallel Data Lab Project: ATLAS
2. 數據集時間跨度:分別為9個月、五年、3個月
數據分析相關論文
- Heterogeneity and Dynamicity of Clouds at Scale: Google Trace Analysis(SoCC 2012)
Microsoft
- Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms(SOSP 2017)
Alibaba
- Who Limits the Resource Efficiency of My Datacenter: An Analysis of Alibaba Datacenter Traces(IWQoS 2019)
- The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: a View from Alibaba Trace(SoCC 2018)
- Characterizing Co-located Datacenter Workloads: An Alibaba Case Study(APsys 2018)
- Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace(BIGDATA 2017)
Two sigma
- On the diversity of cluster workloads and its impact on research results(ATC 2018)
推薦閱讀: