隨着大數據的發展,計算能力的提升,AI算法進一步成熟,誰搶佔了AI芯片高地,誰就擁有了市場主導權。縱觀AI芯片市場,可謂戰火紛紛,羣雄逐鹿。

一、AI芯片整體規模

據前瞻產業研究院發佈的《中國人工智能行業市場前瞻與投資戰略規劃分析報告》統計數據顯示,2015中國人工智能市場規模已突破100億元,到了2016年人工智能市場規模達到142億元,截止到2017年人工智能市場規模達到了217億元,預計2018年人工智能市場規模將達339億元,並預測在2019、2020年人工智能市場規模將達500億元、710億元。2015-2020年複合年均增長率爲44.5%。

麥肯錫(McKinsey)的預測顯示出驚人的數據:2017年至2025年,人工智能類半導體將成爲半導體市場的領頭羊,其年複合增長率將比其它所有半導體的總和高出5倍。Tractica的一項調查將進一步解讀了這種增長:將中央處理器(CPU)與圖形處理器、現場可編程門陣列、特定用途集成電路進行比較。到2019年,基於中央處理器的營業額將從30億美元左右起步,到2025年將增長到120億美元左右。基於圖形處理器的系統(GPU)的收入將在2019年接近60億美元,到2025年將增長到約200億美元。現場可編程門陣列(FPGA)的貢獻非常小,到2025年可能只有10億美元左右。但特定用途集成電路(ASIC)市場份額將從2019年的約20億美元增長到2025年的約300億美元。到2022年左右,基於特定用途集成電路的人工智能將在份額上超過基於圖形處理器的人工智能。

二、市場發展環境

我國人工智能新一輪利好政策正密集落地。《經濟參考報》記者獲悉,2019年年初,包括成都、浙江在內的多個省市相繼出臺人工智能產業發展規劃,着力加大智能芯片、智能傳感器等基礎層技術攻關與資金支持,加快培育人工智能產業集聚區和領軍企業。業內預計,以基礎層爲核心的AI芯片投資空間廣闊。

三、AI芯片市場需求及企業競爭狀況

目前AI芯片的市場需求主要是三類:

1、面向於各大人工智能企業及實驗室研發階段的Training需求(主要是雲端,設備端Training需求尚不明確);

2、InferenceOnCloud,Face++、出門問問、Siri等主流人工智能應用均通過雲端提供服務;

3、InferenceOnDevice,面向智能手機、智能攝像頭、機器人/無人機、自動駕駛、VR等設備的設備端推理市場,需要高度定製化、低功耗的AI芯片產品。如華爲麒麟970搭載了"神經網絡處理單元(NPU,實際爲寒武紀的IP)"、蘋果A11搭載了"神經網絡引擎(NeuralEngine)"。


AI芯片市場現狀及企業競爭狀況


(一)Training訓練

2007年以前,人工智能研究受限於當時算法、數據等因素,對於芯片並沒有特別強烈的需求,通用的CPU芯片即可提供足夠的計算能力。AndrewNg和JeffDean打造的GoogleBrain項目,使用包含16000個CPU核的並行計算平臺,訓練超過10億個神經元的深度神經網絡。但CPU的串行結構並不適用於深度學習所需的海量數據運算需求,用CPU做深度學習訓練效率很低,在早期使用深度學習算法進行語音識別的模型中,擁有429個神經元的輸入層,整個網絡擁有156M個參數,訓練時間超過75天。

與CPU少量的邏輯運算單元相比,GPU整個就是一個龐大的計算矩陣,GPU具有數以千計的計算核心、可實現10-100倍應用吞吐量,而且它還支持對深度學習至關重要的並行計算能力,可以比傳統處理器更加快速,大大加快了訓練過程。


AI芯片市場現狀及企業競爭狀況


從上圖對比來看,在內部結構上,CPU中70%晶體管都是用來構建Cache(高速緩衝存儲器)和一部分控制單元,負責邏輯運算的部分(ALU模塊)並不多,指令執行是一條接一條的串行過程。GPU由並行計算單元和控制單元以及存儲單元構成,擁有大量的核(多達幾千個)和大量的高速內存,擅長做類似圖像處理的並行計算,以矩陣的分佈式形式來實現計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規模並行計算。

人工智能的通用計算GPU市場,NVIDIA現在一家獨大。2010年NVIDIA就開始佈局人工智能產品,2014年發佈了新一代PASCALGPU芯片架構,這是NVIDIA的第五代GPU架構,也是首個爲深度學習而設計的GPU,它支持所有主流的深度學習計算框架。2016年上半年,NVIDIA又針對神經網絡訓練過程推出了基於PASCAL架構的TESLAP100芯片以及相應的超級計算機DGX-1。DGX-1包含TESLAP100GPU加速器,採用NVLINK互聯技術,軟件堆棧包含主要深度學習框架、深度學習SDK、DIGITSGPU訓練系統、驅動程序和CUDA,能夠快速設計深度神經網絡(DNN),擁有高達170TFLOPS的半精度浮點運算能力,相當於250臺傳統服務器,可以將深度學習的訓練速度加快75倍,將CPU性能提升56倍。

Training市場目前能與NVIDIA競爭的就是Google。今年5月份Google發佈了TPU2.0,TPU(TensorProcessingUnit)是Google研發的一款針對深度學習加速的ASIC芯片,第一代TPU僅能用於推理,而目前發佈的TPU2.0既可以用於訓練神經網絡,又可以用於推理。據介紹,TPU2.0包括了四個芯片,每秒可處理180萬億次浮點運算。Google還找到一種方法,使用新的計算機網絡將64個TPU組合到一起,升級爲所謂的TPUPods,可提供大約11500萬億次浮點運算能力。Google表示,公司新的深度學習翻譯模型如果在32塊性能最好的GPU上訓練,需要一整天的時間,而八分之一個TPUPod就能在6個小時內完成同樣的任務。目前Google並不直接出售TPU芯片,而是結合其開源深度學習框架TensorFlow爲AI開發者提供TPU雲加速的服務,以此發展TPU2的應用和生態,比如TPU2同時發佈的TensorFlowResearchCloud(TFRC)。

上述兩家以外,傳統CPU/GPU廠家Intel和AMD也在努力進入這Training市場,如Intel推出的XeonPhi+Nervana方案,AMD的下一代VEGA架構GPU芯片等,但從目前市場進展來看很難對NVIDIA構成威脅。初創公司中,Graphcore的IPU處理器(IntelligenceProcessingUnit)據介紹也同時支持Training和Inference。該IPU採用同構多核架構,有超過1000個獨立的處理器;支持All-to-All的核間通信,採用BulkSynchronousParallel的同步計算模型;採用大量片上Memory,不直接連接DRAM。

總之,對於雲端的Training(也包括Inference)系統來說,業界比較一致的觀點是競爭的核心不是在單一芯片的層面,而是整個軟硬件生態的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨頭的競爭也纔剛剛開始。

(二)InferenceOnCloud雲端推理

相對於Training市場上NVIDIA的一家獨大,Inference市場競爭則更爲分散。若像業界所說的深度學習市場佔比(Training佔5%,Inference佔95%),Inference市場競爭必然會更爲激烈。

在雲端推理環節,雖然GPU仍有應用,但並不是最優選擇,更多的是採用異構計算方案(CPU/GPU+FPGA/ASIC)來完成雲端推理任務。FPGA領域,四大廠商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收購)在雲端加速領域優勢明顯。Altera在2015年12月被Intel收購,隨後推出了Xeon+FPGA的雲端方案,同時與Azure、騰訊雲、阿里雲等均有合作;Xilinx則與IBM、百度雲、AWS、騰訊雲合作較深入,另外Xilinx還戰略投資了國內AI芯片初創公司深鑑科技。目前來看,雲端加速領域其他FPGA廠商與Xilinx和Altera還有很大差距。


AI芯片市場現狀及企業競爭狀況


ASIC領域,應用於雲端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0僅用於DatacenterInference應用。它的核心是由65,536個8-bitMAC組成的矩陣乘法單元,峯值可以達到92TeraOps/second(TOPS)。有一個很大的片上存儲器,一共28MiB。它可以支持MLP,CNN和LSTM這些常見的神經網絡,並且支持TensorFLow框架。它的平均性能(TOPS)可以達到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5memory,這兩個數值可以達到大約GPU的70倍和CPU的200倍。TPU2.0既用於訓練,也用於推理,上一節已經做過介紹。

國內AI芯片公司寒武紀科技據報道也在自主研發雲端高性能AI芯片,目前與科大訊飛、曙光等均有合作,但目前還沒有詳細的產品介紹。

(三)InferenceOnDevice設備端推理

設備端推理的應用場景更爲多樣化,智能手機、ADAS、智能攝像頭、語音交互、VR/AR等設備需求各異,需要更爲定製化、低功耗、低成本的嵌入式解決方案,這就給了創業公司更多機會,市場競爭生態也會更加多樣化。

1)智能手機

華爲9月初發布的麒麟970AI芯片就搭載了神經網絡處理器NPU(寒武紀IP)。麒麟970採用了TSMC10nm工藝製程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構方面爲4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面採用了12核MaliG72MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升20%和50%;NPU採用HiAI移動計算架構,在FP16下提供的運算性能可以達到1.92TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務,有大約50倍能效和25倍性能優勢。

蘋果最新發布的A11仿生芯片也搭載了神經網絡單元。據介紹,A11仿生芯片有43億個晶體管,採用TSMC10納米FinFET工藝製程。CPU採用了六核心設計,由2個高性能核心與4個高能效核心組成。相比A10Fusion,其中兩個性能核心的速度提升了25%,四個能效核心的速度提升了70%;GPU採用了蘋果自主設計的三核心GPU圖形處理單元,圖形處理速度與上一代相比最高提升可達30%之多;神經網絡引擎NPU採用雙核設計,每秒運算次數最高可達6000億次,主要用於勝任機器學習任務,能夠識別人物、地點和物體等,能夠分擔CPU和GPU的任務,大幅提升芯片的運算效率。

另外,高通從2014年開始也公開了NPU的研發,並且在最新兩代驍龍8xx芯片上都有所體現,例如驍龍835就集成了"驍龍神經處理引擎軟件框架",提供對定製神經網絡層的支持,OEM廠商和軟件開發商都可以基於此打造自己的神經網絡單元。ARM在今年所發佈的Cortex-A75和Cortex-A55中也融入了自家的AI神經網絡DynamIQ技術,據介紹,DynamIQ技術在未來3-5年內可實現比當前設備高50倍的AI性能,可將特定硬件加速器的反應速度提升10倍。總體來看,智能手機未來AI芯片的生態基本可以斷定仍會掌握在傳統SoC商手中。

2)自動駕駛

NVIDIA去年發佈自動駕駛開發平臺DRIVEPX2,基於16nmFinFET工藝,功耗高達250W,採用水冷散熱設計;支持12路攝像頭輸入、激光定位、雷達和超聲波傳感器;CPU採用兩顆新一代NVIDIATegra處理器,當中包括了8個A57核心和4個Denver核心;GPU採用新一代Pascal架構,單精度計算能力達到8TFlops,超越TITANX,有後者10倍以上的深度學習計算能力。Intel收購的Mobileye、高通收購的NXP、英飛凌、瑞薩等汽車電子巨頭也提供ADAS芯片和算法。初創公司中,地平線的深度學習處理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平臺也是重點面向自動駕駛領域。

3)計算機視覺領域

Intel收購的Movidius是主要的芯片提供商,大疆無人機、海康威視和大華股份的智能監控攝像頭均使用了Movidius的Myriad系列芯片。目前國內做計算機視覺技術的公司中,商湯科技、Face++、雲從、依圖等,未來有可能隨着其自身計算機視覺技術的積累漸深,部分公司向上遊延伸去做CV芯片研發。另外,國內還有如人人智能、智芯原動等創業公司提供攝像頭端的AI加速IP及芯片解決方案。

4)其他

VR設備芯片的代表爲微軟爲自身VR設備Hololens而研發的HPU芯片,這顆由臺積電代工的芯片能同時處理來自5個攝像頭、一個深度傳感器以及運動傳感器的數據,並具備計算機視覺的矩陣運算和CNN運算的加速功能;語音交互設備芯片方面,國內有啓英泰倫以及雲知聲兩家公司,其提供的芯片方案均內置了爲語音識別而優化的深度神經網絡加速方案,實現設備的語音離線識別;在泛IOT領域,NovuMind設計了一種僅使用3×3卷積過濾器的AI芯片,第一款芯片原型預計今年底推出,預計可實現耗能不超過5瓦進行15萬億次浮點運算,可以廣泛應用於各類小型的互聯網"邊緣"設備。

(四)新架構-類腦計算芯片

"類腦芯片"是指參考人腦神經元結構和人腦感知認知方式來設計的芯片,其目標是開發出打破馮·諾依曼架構體系的芯片。這一領域目前仍處於探索階段,如歐盟支持的SpiNNaker和BrainScaleS、斯坦福大學的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;國內Westwell、清華大學、浙江大學、電子科技大學等也有相關研究。

IBM的TrueNorth,2014年公佈。在一顆芯片上集成了4096個內核,100萬個神經元、2.56億個可編程突觸,使用了三星的28nm的工藝,共540萬個晶體管;每秒可執行460億次突觸運算,總功耗爲70mW,每平方釐米功耗20mW。IBM的最終目標就是希望建立一臺包含100億個神經元和100萬億個突觸的計算機,這樣的計算機要比人類大腦的功都強大10倍,而功耗只有一千瓦,而且重量不到兩升。

國內AI初創公司西井科技Westwell是用FPGA模擬神經元以實現SNN的工作方式,有兩款產品:

1、仿生類腦神經元芯片DeepSouth(深南),第三代脈衝神經網絡芯片SNN,基於STDP(spike-time-dependentplasticity)的算法構建完整的突觸神經網絡,由電路模擬真實生物神經元產生脈衝的仿生學芯片,通過動態分配的方法能模擬出高達5000萬級別的"神經元",功耗爲傳統芯片在同一任務下的幾十分之一到幾百分之一。

2、深度學習類腦神經元芯片DeepWell(深井),處理模式識別問題的通用智能芯片,基於在線僞逆矩陣求解算法(OPIUMlite)對芯片中神經元間的連接權重進行學習和調整;擁12800萬個神經元,通過專屬指令集調整芯片中神經元資源的分配;學習與識別速度遠遠高於運行在通用硬件(如CPU,GPU)上的傳統方法(如CNN),且功耗更低。

總體來看,類腦計算芯片領域仍處於探索階段,距離規模化商用仍有比較遠的距離。

相关文章