寒武紀很少在公開渠道發聲

這是近期圈內流傳的他們下一代產品的相關信息

聽在某互聯網大廠工作的朋友說他們已經看到實物


應該有不少團隊在接觸寒武紀的新一代產品了,我也看到了其它來源的消息,題主還漏了一張關鍵圖片

256Tops(int4)

128Tops(int8)

75w功耗

紙面規格非常接近NVIDIA最新一代的Tesla T4,發布時間也可以認為是同一代

T4在我們這邊,功耗75w時性能只有50T,期待寒武紀的實測表現。

NVIDIA的晶元現在溢價比較高,有新的競爭者加入進來對業內每一家都是好事。


看題主的圖片好像沒有特別核心的參數,但能看出寒武紀雲端晶元的迭代速度確實非常快,目測已經接近甚至領先NVIDIA了?說實在的對寒武紀的產品一直都挺有期待,畢竟學術國際上非常領先的團隊+融資規模遙遙領先競爭對手,人工智慧這塊全球實際上在一個相近的起跑線,新時代需要新的底層算力支持,中國團隊機會挺大(雖然國內晶元產業基礎確實一言難盡。。。) 上面有個回答拿nervana做類比有點不太合適,畢竟nervana一代晶元都沒做出來。


根據問題中的圖片,寒武紀的新一代雲端 AI 晶元 MLU270 已於今年年初研製成功,主要包括如下五點特性:

  • 基於台積電 16nm 工藝打造。
  • 架構代號從上一代的 MLUv01 升級到了 MLUv02
  • 內建視頻解碼單元 (似乎是專門為視頻處理市場配置)。
  • 但按照寒武紀一直把 MLU 系列晶元定位為通用智能晶元來看,MLU270 應該能夠繼續支持語音和自然語言處理等重要 AI 任務。
  • 峰值方面,這顆晶元提供 int4 256Tops, int8 128Tops 的驚人性能,功耗為 75w,與全球 AI 晶元龍頭 NVIDIA 的最新一代 Tesla T4 基本持平。

寒武紀思元 270 晶元內部分技術參數

值得注意的是,照片中出現的」 思元」 這個名字,很可能是寒武紀雲端晶元品牌

MLU(Machine learning unit)的中文名。筆者順藤摸瓜,查了一下國家商標局的網站( http://sbj.saic.gov.cn/sbcx/),發現寒武紀已經在年初註冊了 「思元」 商標。

國家商標局網站,寒武紀註冊 「思元」 信息

「思元 270」 專註 AI 推斷任務還是兼做訓練任務?

耐人尋味的另一點是,照片中只包括了整數性能的數據,也沒有交代是這顆晶元是專註人工智慧的推斷任務還是兼做訓練任務,令一些同行感到疑惑。

查閱寒武紀以往公開信息,發現寒武紀不存在任何一款代號是 MLU270 的晶元產品。寒武紀的上一代產品 MLU100 已經公布,是專註於推理的 AI 晶元,而且發布時間尚不滿一年,不太可能是同一產品線自相殘殺式的迭代,更有可能是專註於訓練的新產品。

寒武紀上一代晶元 ——MLU100

照片中僅公布了低精度整數性能,存在兩種可能性:

  • 一是表格中有意遺漏了浮點數據;
  • 二是寒武紀在低精度訓練領域實現了關鍵性突破。

而新智元從業內傳聞看更傾向於第二種可能性

實際上,低精度訓練的需求在業界由來已久。演算法工程師使用 GPU 做訓練,通常使用其浮點運算單元,主要是因為在有監督學習的 BP 演算法中,只有精確的浮點運算才能記錄訓練時很小的增量。而浮點運算單元佔用的晶元面積和功耗相比於整數運算器都要大很多倍,導致單位晶元面積的處理能力要差很多。

目前業界在人工智慧的推斷類應用上,發現整數運算可以不影響模型的精度,因此用於推斷的晶元已經大量集成了整數運算器或低精度浮點運算器。但業界一直在嘗試是否有機會用代價更低的整數運算器實現更為複雜的訓練功能,這樣可以在不增加晶元面積和功耗的前提下,大幅提升晶元做訓練的運算能力。但這個問題在業界也還沒有普適的解決方案。

如果寒武紀真的在低精度訓練領域實現了突破,那將會是 AI 晶元領域的重大消息。新智元在發稿前嘗試聯繫寒武紀確認該技術信息,但目前尚未有回復。

思元 270 系列板卡實物照片

寒武紀在過去三年一直保持每年一代的產品迭代速度。在終端領域:

  • 2016 年推出寒武紀 1A 處理器 IP;
  • 2017 年推出雙核的寒武紀 1H;
  • 2018 年推出寒武紀 1M。

迄今已經服務於數千萬台終端設備。

寒武紀 CEO 陳天石曾表示,寒武紀的雲端智能晶元產品,迭代速度會和終端產品一樣快。從這一次的消息泄露來看也確實如此,從去年初的 MLU100 到今年的 MLU270。能夠以一年一代的速度進行研發的,國內也僅有華為海思一家在消費類手機晶元能做到。

在發稿前,新智元專門回顧了寒武紀去年發布會的新聞,發現陳天石博士在去年曾提到一款名為 「MLU200」 的雲端晶元。這次泄露的 MLU270 晶元已經研製成功,但是否就是去年發布會時陳天石提到的 MLU200,抑或是寒武紀還另有名為 MLU200 的產品?

無論如何,大型 AI 晶元能在一年時間迭代一代確實令人意外,但如果寒武紀能夠同時研發多款高複雜度的晶元,這可能意味著寒武紀已經具備非常完備的晶元研發能力,在邁向 AI 晶元新巨頭的道路上又前進了一步。


智東西第一時間向寒武紀一位主要負責人求證了曝光的思元MLU270晶元信息,對方表示,這(MLU270晶元相關信息被曝光)是一次意外,相關圖片可能是從合作夥伴處流出,不過寒武紀確實已經註冊了「思元」這個商標,該款晶元的正式發布還未敲定。屆時智東西將進行進一步報道。

另據一位安防行業主要廠商的高層透露,寒武紀晶元(應指該新款)在安防領域的應用,將要落地,正在評估。

MLU系列是寒武紀雲端AI晶元系列產品。去年5月,寒武紀發布其首款雲端AI晶元MLU100晶元,但此前未曾宣布過中文命名,官方也從未提到過MLU270這個型號。

本次PPT泄漏事件不僅曝光了新一代雲端晶元的中文名「思元270」,還展示了該晶元的製程工藝、峰值性能、功耗等部分技術參數,性能數據直逼英偉達Tesla T4。

不過去年MLU 100晶元發布現場,另一款名為「MLU 200」也被一併公布,據介紹支持推理和訓練,並偏重訓練,目前尚不清楚是否和如今發布的思元270為同一款產品。

寒武紀第二代雲端晶元部分參數曝光

延續寒武紀雲端晶元MLU(Machine Learning Unit)系列,其二代雲端AI晶元代號為「MLU270」。如今距離其在第一代雲端推理AI晶元MLU100的推出剛滿1年。

另外在今年初,寒武紀已為旗下晶元註冊兩大中文商標名,分別是「思元」、「玄思」。現在雲端晶元基本可以確定中文名是「思元」了,說不定「玄思」會是給終端系列產品取得名字。

昨日,某一匿名用戶又補上了一張更加直觀的產品規格照片。

根據泄露的照片顯示,寒武紀新一代AI晶元名為MLU270,中文名為思元270,於2019年年初研製成功,主要規格參數如下:

  • 工藝:TSMC 16nm
  • 峰值性能:256 TOPS [int4],128 TOPS [int8],64 TOPS [int16]
  • 系統介面:x 16 PCIe Gen3
  • 形狀因素:Low-Profile PCIe
  • 散熱設計功耗(TDP):75W

從曝光參數可見,寒武紀在製程上的打法相對穩健,延續上一代選用台積電16nm工藝,並沒有像美國的賽靈思、AMD、Wave Computing等企業的新一代雲端AI晶元那樣採用7nm工藝。

在晶元架構上,新一代晶元從上一代MLUv01架構升級為MLUv02架構。

另外,思元270中內建視頻解碼單元,應該是為海量的視頻處理市場而專門配置。

從性能方面來看,思元270似有向NVIDIA Tesla T4看齊的趨勢。兩者對比如下:

根據圖表,思元270的功耗為75W,與Tesla T4剛發布時的功耗持平,不過現在NVIDIA的官網顯示Tesla T4的功耗已經低至70W。

在峰值性能方面,思元270顯示的數據非常接近Tesla T4。

有知乎匿名用戶稱,Tesla T4的實測性能表現並不如預期,而且溢價較高,認為新的競爭者加入是好事。

另有用戶稱,業內傳聞說,寒武紀新一代晶元可以同時做訓練和推理。

還有一位自稱來自海康研究院員工匿名表示,其院長也比較喜歡這款晶元產品。

或在低精度訓練領域實現關鍵性突破

隨著深度學習的快速發展,數據科學工作者發現如果晶元能使用低精度計算的方法獲得近似答案,其在速度和能耗比上將有很大優勢,這對於移動設備及其他功率受限的設備相當適用。

雖然低精度計算聽起來很好,但該方法目前主要應用於推理,而非訓練。

這是因為,當使用較少的位進行訓練時,捨棄的位會增加誤差,致使訓練的準確度被限制,通常訓練至少需要FP32及更高精度的浮點運算。

儘管許多研究人員在探索使用低精度訓練且不會限制準確度的演算法,目前市場上尚未出現有效且普遍適用的相關應用。

根據思元270目前曝光的信息,不過只公布了低精度整數性能,並未公布浮點數據。部分業內人士猜測,或許寒武紀在低精度訓練領域實現了關鍵性突破。

如果這一猜測成真,這意味著寒武紀將為現有雲端AI訓練晶元做出重要的貢獻。

正統學術派,寒武紀的三年造芯歷程

寒武紀,全名中科寒武紀科技有限公司,是中科院計算所孵化的企業。

寒武紀的兩位聯合創始人陳天石和陳雲霽是兩兄弟,兩人都是少年天才,從小考進中科大少年班,二十齣頭就博士畢業,在中科院計算所當研究員。2016年創業之初,寒武紀不僅在天使輪獲得了中科院計算所的1000萬元研究經費,還在各種項目資源中獲得了中科院的支持。

作為國家隊AI晶元的「扛把子」,出身中科院的寒武紀可以說是戰功赫赫,自2016年3月成立以來,每年均發布多款晶元產品,而且客戶的名字也都是相當響亮,其AI晶元IP幫助華為海思麒麟970晶元一舉拿下國內首發手機AI晶元的桂冠。

從2016年起,寒武紀已經連續三年每年推出一代終端處理器產品,繼去年發布雲端AI晶元MLU 100後,第二代雲端AI晶元也將在近期浮出水面。按照寒武紀在技術上貫徹「端雲協作」的理念,思元270在大概率上能與寒武紀1A/1H/1M系列終端處理器完美適配。

此前在媒體採訪中,寒武紀執行董事羅韜曾經介紹,寒武紀設立了三條產品線:

1、智能終端處理器IP授權,可以集成到手機、安防、汽車、可穿戴等終端晶元中。

2、智能雲伺服器晶元,比如昨天發布的MLU100和即將發布的思元270,作為PCIE加速卡插在雲伺服器上。另外去年發布會上提到的支持訓練和推理的MLU200雲端晶元,不確定是否就是今日泄露的思元270晶元。

3、家用智能服務機器人晶元,這條產品線暫時沒有產品發布,就寒武紀研發產品的高效性來看,該產品線也相當值得期待。

結語:雲端訓練AI晶元戰事將起,誰能挑戰英偉達

雲端訓練戰場正在狼煙四起。過去幾年,英偉達憑藉GPU的超強算力以及cuDNN、TensorRT等一系列AI軟體,在深度學習雲端領域構建起強大而穩固的生態,尤其是在雲端訓練方面基本上一家獨大、所向披靡。

而隨著寒武紀等一批實力晶元玩家加入賽道,雲端訓練的板塊未必會一如既往地穩定不變。對於AI晶元創企而言,建立強大的生態系統是長久發展的關鍵,這需要持續的研發投入、過硬的技術、圍繞晶元衍生的全套軟硬體開發維護。

假使寒武紀雲端晶元的落地應用經過了時間和市場的檢驗,無論是在安防還是在其它領域,將成為這些領域取代英偉等進口晶元的選擇,前景很大,這對亟待晶元國產化的我國產業而言無疑將是好消息。


不匿,某大廠異構加速碼農。

業界有傳聞說,寒武紀的新一代晶元可以同時做訓練和推理

高票匿名用戶的圖裡只有定點運算器,有兩種可能性,一者是他們沒寫浮點數值,二者是他們已經進一步突破了低精度訓練技術。

低精度數值運算的性能功耗比很有優勢,如果是後者,非常厲害!


推薦閱讀:
相关文章