寒武纪很少在公开渠道发声

这是近期圈内流传的他们下一代产品的相关信息

听在某互联网大厂工作的朋友说他们已经看到实物


应该有不少团队在接触寒武纪的新一代产品了,我也看到了其它来源的消息,题主还漏了一张关键图片

256Tops(int4)

128Tops(int8)

75w功耗

纸面规格非常接近NVIDIA最新一代的Tesla T4,发布时间也可以认为是同一代

T4在我们这边,功耗75w时性能只有50T,期待寒武纪的实测表现。

NVIDIA的晶元现在溢价比较高,有新的竞争者加入进来对业内每一家都是好事。


看题主的图片好像没有特别核心的参数,但能看出寒武纪云端晶元的迭代速度确实非常快,目测已经接近甚至领先NVIDIA了?说实在的对寒武纪的产品一直都挺有期待,毕竟学术国际上非常领先的团队+融资规模遥遥领先竞争对手,人工智慧这块全球实际上在一个相近的起跑线,新时代需要新的底层算力支持,中国团队机会挺大(虽然国内晶元产业基础确实一言难尽。。。) 上面有个回答拿nervana做类比有点不太合适,毕竟nervana一代晶元都没做出来。


根据问题中的图片,寒武纪的新一代云端 AI 晶元 MLU270 已于今年年初研制成功,主要包括如下五点特性:

  • 基于台积电 16nm 工艺打造。
  • 架构代号从上一代的 MLUv01 升级到了 MLUv02
  • 内建视频解码单元 (似乎是专门为视频处理市场配置)。
  • 但按照寒武纪一直把 MLU 系列晶元定位为通用智能晶元来看,MLU270 应该能够继续支持语音和自然语言处理等重要 AI 任务。
  • 峰值方面,这颗晶元提供 int4 256Tops, int8 128Tops 的惊人性能,功耗为 75w,与全球 AI 晶元龙头 NVIDIA 的最新一代 Tesla T4 基本持平。

寒武纪思元 270 晶元内部分技术参数

值得注意的是,照片中出现的」 思元」 这个名字,很可能是寒武纪云端晶元品牌

MLU(Machine learning unit)的中文名。笔者顺藤摸瓜,查了一下国家商标局的网站( http://sbj.saic.gov.cn/sbcx/),发现寒武纪已经在年初注册了 「思元」 商标。

国家商标局网站,寒武纪注册 「思元」 信息

「思元 270」 专注 AI 推断任务还是兼做训练任务?

耐人寻味的另一点是,照片中只包括了整数性能的数据,也没有交代是这颗晶元是专注人工智慧的推断任务还是兼做训练任务,令一些同行感到疑惑。

查阅寒武纪以往公开信息,发现寒武纪不存在任何一款代号是 MLU270 的晶元产品。寒武纪的上一代产品 MLU100 已经公布,是专注于推理的 AI 晶元,而且发布时间尚不满一年,不太可能是同一产品线自相残杀式的迭代,更有可能是专注于训练的新产品。

寒武纪上一代晶元 ——MLU100

照片中仅公布了低精度整数性能,存在两种可能性:

  • 一是表格中有意遗漏了浮点数据;
  • 二是寒武纪在低精度训练领域实现了关键性突破。

而新智元从业内传闻看更倾向于第二种可能性

实际上,低精度训练的需求在业界由来已久。演算法工程师使用 GPU 做训练,通常使用其浮点运算单元,主要是因为在有监督学习的 BP 演算法中,只有精确的浮点运算才能记录训练时很小的增量。而浮点运算单元占用的晶元面积和功耗相比于整数运算器都要大很多倍,导致单位晶元面积的处理能力要差很多。

目前业界在人工智慧的推断类应用上,发现整数运算可以不影响模型的精度,因此用于推断的晶元已经大量集成了整数运算器或低精度浮点运算器。但业界一直在尝试是否有机会用代价更低的整数运算器实现更为复杂的训练功能,这样可以在不增加晶元面积和功耗的前提下,大幅提升晶元做训练的运算能力。但这个问题在业界也还没有普适的解决方案。

如果寒武纪真的在低精度训练领域实现了突破,那将会是 AI 晶元领域的重大消息。新智元在发稿前尝试联系寒武纪确认该技术信息,但目前尚未有回复。

思元 270 系列板卡实物照片

寒武纪在过去三年一直保持每年一代的产品迭代速度。在终端领域:

  • 2016 年推出寒武纪 1A 处理器 IP;
  • 2017 年推出双核的寒武纪 1H;
  • 2018 年推出寒武纪 1M。

迄今已经服务于数千万台终端设备。

寒武纪 CEO 陈天石曾表示,寒武纪的云端智能晶元产品,迭代速度会和终端产品一样快。从这一次的消息泄露来看也确实如此,从去年初的 MLU100 到今年的 MLU270。能够以一年一代的速度进行研发的,国内也仅有华为海思一家在消费类手机晶元能做到。

在发稿前,新智元专门回顾了寒武纪去年发布会的新闻,发现陈天石博士在去年曾提到一款名为 「MLU200」 的云端晶元。这次泄露的 MLU270 晶元已经研制成功,但是否就是去年发布会时陈天石提到的 MLU200,抑或是寒武纪还另有名为 MLU200 的产品?

无论如何,大型 AI 晶元能在一年时间迭代一代确实令人意外,但如果寒武纪能够同时研发多款高复杂度的晶元,这可能意味著寒武纪已经具备非常完备的晶元研发能力,在迈向 AI 晶元新巨头的道路上又前进了一步。


智东西第一时间向寒武纪一位主要负责人求证了曝光的思元MLU270晶元信息,对方表示,这(MLU270晶元相关信息被曝光)是一次意外,相关图片可能是从合作伙伴处流出,不过寒武纪确实已经注册了「思元」这个商标,该款晶元的正式发布还未敲定。届时智东西将进行进一步报道。

另据一位安防行业主要厂商的高层透露,寒武纪晶元(应指该新款)在安防领域的应用,将要落地,正在评估。

MLU系列是寒武纪云端AI晶元系列产品。去年5月,寒武纪发布其首款云端AI晶元MLU100晶元,但此前未曾宣布过中文命名,官方也从未提到过MLU270这个型号。

本次PPT泄漏事件不仅曝光了新一代云端晶元的中文名「思元270」,还展示了该晶元的制程工艺、峰值性能、功耗等部分技术参数,性能数据直逼英伟达Tesla T4。

不过去年MLU 100晶元发布现场,另一款名为「MLU 200」也被一并公布,据介绍支持推理和训练,并偏重训练,目前尚不清楚是否和如今发布的思元270为同一款产品。

寒武纪第二代云端晶元部分参数曝光

延续寒武纪云端晶元MLU(Machine Learning Unit)系列,其二代云端AI晶元代号为「MLU270」。如今距离其在第一代云端推理AI晶元MLU100的推出刚满1年。

另外在今年初,寒武纪已为旗下晶元注册两大中文商标名,分别是「思元」、「玄思」。现在云端晶元基本可以确定中文名是「思元」了,说不定「玄思」会是给终端系列产品取得名字。

昨日,某一匿名用户又补上了一张更加直观的产品规格照片。

根据泄露的照片显示,寒武纪新一代AI晶元名为MLU270,中文名为思元270,于2019年年初研制成功,主要规格参数如下:

  • 工艺:TSMC 16nm
  • 峰值性能:256 TOPS [int4],128 TOPS [int8],64 TOPS [int16]
  • 系统介面:x 16 PCIe Gen3
  • 形状因素:Low-Profile PCIe
  • 散热设计功耗(TDP):75W

从曝光参数可见,寒武纪在制程上的打法相对稳健,延续上一代选用台积电16nm工艺,并没有像美国的赛灵思、AMD、Wave Computing等企业的新一代云端AI晶元那样采用7nm工艺。

在晶元架构上,新一代晶元从上一代MLUv01架构升级为MLUv02架构。

另外,思元270中内建视频解码单元,应该是为海量的视频处理市场而专门配置。

从性能方面来看,思元270似有向NVIDIA Tesla T4看齐的趋势。两者对比如下:

根据图表,思元270的功耗为75W,与Tesla T4刚发布时的功耗持平,不过现在NVIDIA的官网显示Tesla T4的功耗已经低至70W。

在峰值性能方面,思元270显示的数据非常接近Tesla T4。

有知乎匿名用户称,Tesla T4的实测性能表现并不如预期,而且溢价较高,认为新的竞争者加入是好事。

另有用户称,业内传闻说,寒武纪新一代晶元可以同时做训练和推理。

还有一位自称来自海康研究院员工匿名表示,其院长也比较喜欢这款晶元产品。

或在低精度训练领域实现关键性突破

随著深度学习的快速发展,数据科学工作者发现如果晶元能使用低精度计算的方法获得近似答案,其在速度和能耗比上将有很大优势,这对于移动设备及其他功率受限的设备相当适用。

虽然低精度计算听起来很好,但该方法目前主要应用于推理,而非训练。

这是因为,当使用较少的位进行训练时,舍弃的位会增加误差,致使训练的准确度被限制,通常训练至少需要FP32及更高精度的浮点运算。

尽管许多研究人员在探索使用低精度训练且不会限制准确度的演算法,目前市场上尚未出现有效且普遍适用的相关应用。

根据思元270目前曝光的信息,不过只公布了低精度整数性能,并未公布浮点数据。部分业内人士猜测,或许寒武纪在低精度训练领域实现了关键性突破。

如果这一猜测成真,这意味著寒武纪将为现有云端AI训练晶元做出重要的贡献。

正统学术派,寒武纪的三年造芯历程

寒武纪,全名中科寒武纪科技有限公司,是中科院计算所孵化的企业。

寒武纪的两位联合创始人陈天石和陈云霁是两兄弟,两人都是少年天才,从小考进中科大少年班,二十出头就博士毕业,在中科院计算所当研究员。2016年创业之初,寒武纪不仅在天使轮获得了中科院计算所的1000万元研究经费,还在各种项目资源中获得了中科院的支持。

作为国家队AI晶元的「扛把子」,出身中科院的寒武纪可以说是战功赫赫,自2016年3月成立以来,每年均发布多款晶元产品,而且客户的名字也都是相当响亮,其AI晶元IP帮助华为海思麒麟970晶元一举拿下国内首发手机AI晶元的桂冠。

从2016年起,寒武纪已经连续三年每年推出一代终端处理器产品,继去年发布云端AI晶元MLU 100后,第二代云端AI晶元也将在近期浮出水面。按照寒武纪在技术上贯彻「端云协作」的理念,思元270在大概率上能与寒武纪1A/1H/1M系列终端处理器完美适配。

此前在媒体采访中,寒武纪执行董事罗韬曾经介绍,寒武纪设立了三条产品线:

1、智能终端处理器IP授权,可以集成到手机、安防、汽车、可穿戴等终端晶元中。

2、智能云伺服器晶元,比如昨天发布的MLU100和即将发布的思元270,作为PCIE加速卡插在云伺服器上。另外去年发布会上提到的支持训练和推理的MLU200云端晶元,不确定是否就是今日泄露的思元270晶元。

3、家用智能服务机器人晶元,这条产品线暂时没有产品发布,就寒武纪研发产品的高效性来看,该产品线也相当值得期待。

结语:云端训练AI晶元战事将起,谁能挑战英伟达

云端训练战场正在狼烟四起。过去几年,英伟达凭借GPU的超强算力以及cuDNN、TensorRT等一系列AI软体,在深度学习云端领域构建起强大而稳固的生态,尤其是在云端训练方面基本上一家独大、所向披靡。

而随著寒武纪等一批实力晶元玩家加入赛道,云端训练的板块未必会一如既往地稳定不变。对于AI晶元创企而言,建立强大的生态系统是长久发展的关键,这需要持续的研发投入、过硬的技术、围绕晶元衍生的全套软硬体开发维护。

假使寒武纪云端晶元的落地应用经过了时间和市场的检验,无论是在安防还是在其它领域,将成为这些领域取代英伟等进口晶元的选择,前景很大,这对亟待晶元国产化的我国产业而言无疑将是好消息。


不匿,某大厂异构加速码农。

业界有传闻说,寒武纪的新一代晶元可以同时做训练和推理

高票匿名用户的图里只有定点运算器,有两种可能性,一者是他们没写浮点数值,二者是他们已经进一步突破了低精度训练技术。

低精度数值运算的性能功耗比很有优势,如果是后者,非常厉害!


推荐阅读:
相关文章