编者按:在Alluxio开源社区,越来越多高校研究人员使用Alluxio作为研究载体。本专栏将介绍一系列基于Alluxio的前沿研究工作。该系列的第一篇博客邀请到了香港科技大学余英豪博士撰写介绍了他基于Alluxio的研究成果。本文不仅有技术介绍,还会分享他在开源软体上开展研究的心得与经验。
本文作者:余英豪
作者简介:香港科技大学电子与计算机工程系博士研究生,专注于分散式内存系统的性能优化
导师:王威教授,Khaled Ben Letaief教授
特别鸣谢:感谢Alluxio PMC范斌博士以及南京大学顾荣老师的校阅、指正
随著现代数据中心网路的大幅提速,传统的HDFS提供的基于硬碟存储的数据本地性变得越来越不重要 (链接1)。而同时对象存储(Object Store,包括Amazon S3 和 OpenStack Swift等)作为更便宜和更容易水平扩展的数据存储层系统,在广泛发展的众多大数据应用中越来越受到欢迎。由于硬碟的I/O速度仍远低于内存读写,因此在大数据应用和对象存储之间部署一个以Alluxio为代表的内存文件缓存层来缓存数据,可以有效提升整体的读写效率,并弥补网路带宽受限场景下存储与计算分离带来的数据本地性问题。为了进一步提升内存缓存层的整体性能,本文揭示了内存缓存层中由于文件热度不均导致的负载失衡的严重风险,并提出了一种选择性热点文件分割的策略来保障系统负载均衡。
常用链接
- Alluxio项目官网
- Alluxio Inc网站
- Alluxio在各大厂用例
- 关注Alluxio微信公众号:Alluxio_China
1、负载均衡
研究表明,数据中心里不同数据的访问有显著的热度差异。当这些数据被缓存在内存层中时,极容易产生负载失衡的问题:一部分数据被高频率地访问,形成局部热点(hot spot)。热点机器的网路拥塞往往会成为数据读写的瓶颈;而另一部分访问频率较低的数据因为占用缓存资源,导致资源不能更加优化地分配给热点数据,进而影响内存资源的使用效率。