5月27日,ARM於臺北COMPUTEX 2019大會開幕前發布了下一代旗艦機手機晶元設計方案,其中包括全新CPU Cortex-A77、新GPU Mali-G77。這家公司還首次公開了新一代神經網路晶元ARM ML,所有這些預計將會在2020年上市。

ARM 表示,新的晶元展示了該公司在 5G 融合、物聯網

、人工智慧(AI)與自動駕駛領域的投入。

Arm IP 產品事業羣總裁 Rene Haas 在發布會上。

Cortex-A77:製程不變,性能提升 20%

對 Arm 自己的 CPU 設計來說,2018 年是個不錯的年份。去年 5 月,我們看到了 Cortex-A76 的發布,以及後續的麒麟 980 和驍龍 855 晶元。從人們購買的反應就可以看出來——這代晶元令人印象深刻,而 Arm 成功實現了其在性能、效率和領域方面的所有承諾,為 2019 年的大多數旗艦手機提供了出色的晶元和設備。

今年,Arm 跟進了另一項技術,Cortex-A77——Cortex-A76 的繼任者。這一代 CPU 將是對去年主要微架構的直接進化,代表了 Arm 全新 Austin 內核系列的第二個實例。

Cortex-A77 不僅適用於手機,也可用作筆記本處理器,Arm 稱其性能已經超越 14nm 製程的英特爾酷睿 i5-7300U。

代號 Deimos

新的晶元架構 Cortex-A77 代號為 Deimos。它將 Cortex-A76 終止的地方作為起點,並遵循 Arm 的計劃軌跡,即每一代新的 Austin 系列 CPU 性能都能持續提升 20-25% 的 CAGR。

說到這裡,就有必要提一下 Cortex-A76 的性能了。

A76 對 Arm 及其授權廠商來說無疑是一款非常成功的內核。全新微架構和臺積電 7nm 製程工藝的結合,帶來了業內有史以來最大的性能和效率提升。結果就是麒麟 980 和驍龍 855 相對於各自的上一代手機晶元都有很大的性能飛躍。

雖然 A76 表現不錯,但競爭對手也沒有停滯不前。三星的 Exynos(獵戶座)處理器相比其上一代產品就有很大提升,製程是 8 納米。而真正的對手蘋果當前的 A11 和 A12 架構在性能和效率方面仍然遙遙領先,Arm 與它的差距大概是兩代微架構。

圖片來自 ChipRebel

Cortex-A77 概述

Cortex-A77 直接繼任了微架構 A76 意味著新的內核基本與先前的特性保持一致。Arm 表示,內核是為廠商設計的,他們無需太費力就可以輕鬆升級晶元 IP。

實際上,這意味著 A77 與其前身 A76 在架構上是一致的,仍然以 ARMv8.2 為 CPU 內核,並且與 DSU(DynamIQ Shared Unit)集羣內部的 Cortex-A55 小 CPU 配對。

A77 的緩存大小等基本配置特性與前身也沒有太大區別:仍然是 64KB 的 L1 指令和數據緩存,以及 256 或 512KB 的 L2 緩存。有趣的是,Arm 的確為基礎設施 Neoverse N1 CPU 內核(源自 A76)設計了 1MB L2 緩存選項,但選擇保留客戶端(移動)CPU IP 的較小配置選項。

作為 A76 的進化版,不論是從微架構還是從絕對性能的角度來看,A77 的性能提升都沒有預期中那樣令人驚艷。

A77 將還是採用 7 納米製程,Arm 宣佈它的峯值目標頻率與前身一樣為 3GHz。自然而然地,由於頻率不會有太大變化,這意味內核的 20% 性能提升只能歸因於 IP 的微架構變化。

為了實現 IPC(Instructions per clock) 增益,Arm 重新設計了微架構並引入了巧妙的新特性,總體上增強了 CPU IP,從而實現了更寬、更高性能的設計。

Mali-G77:全新架構,機器學習性能提升 60%

在 2019 年,全球遊戲市場產值將高達近 1500 億美元,這將是全球最大營收的市場之一。ARM 昨天推出的新一代移動端 GPU 將承載其中與日俱增的計算需求。

Mali-G77 採用了全新的 Valhall 架構,這是繼上代 Bifronst 架構發布三年之後的又一次重大升級。在性能上,與上一代的 Mali-G76 GPU 相比,Mali-G77 具有近 40% 的性能提升。同時 Mali-G77 還在關鍵的微構架上進行強化,包括引擎、texture pipes 和 load store caches,並將功耗效率以及性能密度均提升了 30%。

除此之外,Mali-G77 同時帶來 60% 的機器學習性能提升,顯著提升推理與神經網路性能,以支持更多的人工智慧應用。新的晶元設計將為開發人員提供更大的發揮空間,為移動 APP 生態催生出更多的新形式交互體驗。

Bifrost 架構的最後一次迭代——Mali-G76,對 Arm 來說是一次重大的飛躍,其 IP 在很大程度上解決了前身的一些關鍵問題,為 Exynos 9820 和麒麟 980 晶元組帶來了相對較好的結果。

但是,Arm 在迎頭追趕並努力解決 Bifrost 問題時,其對手也沒有閑著。高通的 Adreno GPU 架構已經引領移動領域好幾年了。儘管今年的 Adreno 640 沒有帶來令人印象深刻的進步,但在性能、效率和密度方面,它仍然領先 Arm。並且,蘋果 A12 的 GPU 在性能、效率方面帶來的絕對是一個重大飛躍,即使是高通最好的 GPU 也與之相去甚遠,更不要說 Arm 的了。

Valhall GPU 的第一次迭代即是 Mali-G77,它實現了一些架構上和微架構的改進。

Arm 承諾在能效和麪積密度(在 ISO 性能和製程方面)方面會有 30% 的增益,而 GPU 上機器學習推理工作負載的性能會提升 60%。

更有趣的是,Arm 表示在即將到來的 2019 年底和 2020 年,SoC 將預計比 2019 年的設備性能提升 40%。下一代 SoC 將只有微小的製程節點改進,所以這裡說的 40% 增益將主要來自 Mali-G77 GPU 在架構和微架構上的飛躍。

神經網路處理器 ARM ML

人工智慧正在成為便攜設備中不可或缺的組成部分,拍照中的場景識別、增強現實中的物體識別都需要特殊的算力。面對目前不斷出現的深度學習手機應用,ARM 一直在主推「異構計算」方式:使用手機晶元中的 CPU、GPU 和 ISP 協同工作承擔相應任務。

不過隨著華為麒麟、蘋果 A 系列晶元的成功,ARM 也在著手開發自己的機器學習 IP。2018 年 2 月,這家公司公佈了針對人工智慧的計算晶元 Project Trillium 項目。本次 ARM 透露了自家「NPU」(神經網路處理單元)晶元的能力。

ARM 表示,其最新的 NPU 可與 CPU 實現協同計算,提供高達兩倍的能效(5 TOPs/W),存儲器壓縮能力提升三倍。在與開源框架 ARM NN 共同使用的情況下,ARM NPU 的八核版本可以提供高達 32TOP/s 的算力。

ARM 的神經網路晶元設計作為一個可選項目,即使客戶選擇的 A77 設計中不含有該晶元,其手機仍然可以通過 CPU、GPU 等處理器完成機器學習計算。Haas 表示,ARM 的優化工作已大幅提升了深度學習框架的性能,特別是 TensorFlow。

在活動中,ARM 高管,產品事業羣總裁 Rene Haas 也被問及了與華為合作的問題,他表示:目前與華為終止合作仍存在很多變數,目前無法透露太多細節。

Rene Haas 在活動中。圖片來自 ettoday

ARM 提供晶元架構設計,具體實現還需要各家廠商的努力。在 2020 年,我們或許就可以看到採用新一代設計處理器的手機上市了。

參考鏈接:

anandtech.com/show/1438

anandtech.com/show/1438

ettoday.net/news/201905


推薦閱讀:
相關文章