让AI简单且强大：深度学习引擎OneFlow背后的技术实践

本文内容节选自由msup主办的第七届TOP100summit，北京一流科技有限公司首席科学家袁进辉（老师木）分享的《让AI简单且强大：深度学习引擎OneFlow背后的技术实践》实录。

北京一流科技有限公司将自动编排并行模式、静态调度、流式执行等创新性技术相融合，构建成一套自动支持数据并行、模型并行及流水并行等多种模式的分散式深度学习框架，降低了分散式训练门槛、极大的提高了硬体使用率。该框架已经成功帮助众多头部互联网公司及人工智慧企业提升了大模型训练效率，节约了硬体运营和使用成本，达到了降本增效的效果。一流科技是一家为企业客户提供面向大规模大计算大模型等深度学习框架的人工智慧领域科技创新公司。

分享者袁进辉是北京一流科技有限公司创始人，任首席科学家。2008年7月在清华大学计算机系获得工学博士学位，获得清华大学优秀博士学位论文奖。2013年加入微软亚洲研究院从事大规模机器学习平台的研发工作。2014年发明了当时世界上最快的主题模型训练演算法和系统LightLDA，只用数十台伺服器即可完成以前数千台伺服器才能实现的大规模主题模型，该技术成功应用于微软在线广告系统，被当时主管研究的全球副总裁周以真称为「年度最好成果」。2015年至2016年底，专注于搭建基于异构集群的深度学习平台，项目荣获微软亚洲研究院院长特别奖 (top 1%)。2017年创立北京一流科技有限公司，致力于打造分散式深度学习平台的事实工业标准。

编者按：2018年11月30日-12月3日，第七届全球软体案例研究峰会在北京国家会议中心盛大开幕，现场解读2018年「壹佰案例榜单」。本文为北京一流科技有限公司首席科学家袁进辉（老师木）分享的《让AI简单且强大：深度学习引擎OneFlow背后的技术实践》案例实录。

提纲：

研发OneFlow的动机
OneFlow技术突破
总结

01研发OneFlow的动机

软体OneFlow简介

业界有人工智慧浪潮的三驾马车之说，即数据、演算法、算力。具体到算力，业界更多关注的是硬体，譬如GPU，甚至是TPU之类的AI专用晶元。但是，人们发现，有了更快的加速器之后，制约大规模分散式训练算力的瓶颈是软体。怎么帮助数据科学家和研究员们更轻松的把各种演算法在底层硬体上跑起来，而且充分释放底层硬体的潜力，正是软体框架需要解决的问题。目前，已有的开源深度学习框架对数据并行场景解决的比较好，但遇到模型越来越大的场景就没有好办法。用户或者束手无策，或者只能付出极大成本基于开源框架做深度定制开发来满足需求。OneFlow团队的目标是研发一个通用框架自动解决这些问题，让那些没有框架研发能力的团队也能够享受分散式GPU集群带来的效率，这是我们历时两年多研发一套全新深度学习框架的初衷。

背后的动机：计算力是深度学习发展的最重要的推动力。

案例：2015 Microsoft Resnet

2016 Baidu Deep Speech 2

2017 Google NMT