近些年,隨著雲計算的快速興起,各大公司都紛紛建立自己的數據中心,微軟在數據中心方面的投入超過了 150 億,阿里巴巴僅在張北的數據中心就投入了 180 億。在數據中心的高額投入下,機器的資源使用效率卻面臨了很大的問題。以 Google 的數據中心為例,其生產環境下機器的平均 CPU 利用率只有 20%,Amazon 的 AWS EC2 平均 CPU 利用率只有 7%~17%。

為了更好的解決數據中心所面臨的挑戰,各大公司紛紛開始公開自己集群的數據集,希望通過數據集的方式,讓研究者更好的了解在大規模的場景下所遇到的問題。

以下為整理的部分公司開源的數據集和傳送門,會在慢慢的更新。

Google

1. 傳送門:google/cluster-data

2. 公開時間:2011年

3. 數據集時間跨度:30天

Microsoft Azure

1. 傳送門:Azure/AzurePublicDataset

2. 公開時間:2017年

3. 數據集時間跨度:30天

Alibaba Co-located cluster

1. 傳送門:alibaba/clusterdata

2. 2017年:1000+ 台機器,24小時的數據

3. 2018年:4000+ 台機器,9天的數據

4. 均為阿里內部私有雲集群的數據

Two sigma、LANL Mustang、LANL OpenTrinity

1. 傳送門:Parallel Data Lab Project: ATLAS

2. 數據集時間跨度:分別為9個月、五年、3個月

數據分析相關論文

Google

  • Heterogeneity and Dynamicity of Clouds at Scale: Google Trace Analysis(SoCC 2012)

Microsoft

  • Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms(SOSP 2017)

Alibaba

  • Who Limits the Resource Efficiency of My Datacenter: An Analysis of Alibaba Datacenter Traces(IWQoS 2019)
  • The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: a View from Alibaba Trace(SoCC 2018)
  • Characterizing Co-located Datacenter Workloads: An Alibaba Case Study(APsys 2018)
  • Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace(BIGDATA 2017)

Two sigma

  • On the diversity of cluster workloads and its impact on research results(ATC 2018)

推薦閱讀:

相关文章