單核心性能比驍龍855+要高7.5%,而且頻率更低。
實際內存延遲應該在120ms+,system cache的意義在於提高GPU npu等周邊的性能,但會增加CPU讀取內存的延遲。anandtech的的主編已經說了system cache會降低CPU性能,現代CPU 基本命中率都在99%左右,增加l4帶可以來的命中率提升,但也增加了延遲,可能並不能得到正回報。980 相比855多出來的cache帶來的ipc都不超過5%,更何況l4。
首先看看ARM 官方對 Cortex-A76 介紹[1]
A76 L2 Cache 的 大小是 128KB to 512KB 可配置。
SDM855 採用的方案[2]是:
1x Kryo 485 Gold (A76 derivative)@ 2.84GHz 1x512KB pL23x Kryo 485 Gold (A76 derivative) @ 2.42GHz 3x256KB pL24x Kryo 485 Silver (A55 derivative)@ 1.80GHz 4x128KB pL22MB sL3
1x Kryo 485 Gold (A76 derivative)
麒麟980 採用的方案[3]是
2x A76 @ 2.60 GHz2x A76 @ 1.92 GHz@ 512KB L2s4x A55 @ 1.80 GHz@ 128KB L2s4MBDSUL3
2x A76 @ 2.60 GHz
眾所周知大緩存對性能的影響,而高通閹割了 SDM855 的大核 L2 Cache,顯然對性能有不利影響。順便 L3 也不一樣。
麒麟 990 緩存信息目前未知,已知的只有主頻數據[4],不過可以猜測緩存配置和麒麟980一樣
2xA76 @2.86G2xA76 @2.36G4xA55 @1.95G
2xA76 @2.86G
在主頻緩存均領先的情況下 kirin 990 2.86Ghz 512k L2 性能強於 SDM855 2.84GHz 512k L2 是非常正常的事情。
至於 990 單核心強於855Plus,雖然L3緩存足以解釋,但我不知道題主從哪看到的數據。
我也不知道知乎上好多人從哪學來的「魔改」這個詞,就到處亂用。這也是我寫這篇廢話的根本原因。
ARM V8 是 ARM 公司定義的指令集(ISA),Cortex-A76 是 ARM 公司提供的微架構(Microarchitecture),Cortex-A76 是一種商業產品,雖然是可配置的,但是配置基本僅限主頻緩存和一些附加單元。
如果兩款 Soc 均採用了 同一個 ARM 微架構,且同配置同主頻,那他們的峰值性能肯定是基本一致的,而且 IPC 不應該有任何區別(如果有可能發生在訪存差異上)。
目前並沒有任何信息表明海思對 A76 進行了修改,而有確切證據表明了高通對 A76 進行了修改,人家都叫 Kryo 485 了。不過最近幾年高通對 ARM 官方的微架構修改力度已經不大了。
最後,海思是有能力和合法的在 ARMV8 架構下自己設計 ARM 指令集的 微架構的。(舉個例子 鯤鵬 920 我印象就是)以海思的能力,可以期待海思今後有相應產品面世,但是那時候前面就不會有 A的前綴了(Cortex-A的簡寫),就像蘋果的Soc (舉個例子,A12 大核叫Apple Vortex),你什時候看到介紹 蘋果 A12X 用 A76了 ?
不能說華為雞賊,畢竟華為自己能設計晶元,加什麼它說了算。
能說明問題是GB4跑分有BUG,要測試內存延遲的項目,被一個緩存給輕鬆騙了。GB5裡面,三星的分數不也降了?華為比三星動手晚吧。
好在還在分項目,一看分項目,還是能看出來。
但是,但是,假設有一天,華為針對GBn(5、6、7、8、9),的某個項目,單獨塞個加速器行不行呢?
移動時代,你們不知道了。
桌面時代,VIA(今天的兆芯)是在CPU裡面塞過AES加密解密引擎,在加密解密測試裡面超過英特爾很多的。
哪天,華為高興了,給麒麟某個處理器,塞個算GBn某項目的單獨加速器,跑分要多少分有多少分。
所以,這個問題,說明了GB4的不靠譜,乃至GB這個測試軟體的不靠譜。
安兔兔,這種顯卡,CPU分數能加在一起的垃圾就不說了。
正確的跑分軟體,應該是跑真實任務的。所以伺服器上跑SPEC2000,2006,2017。
手機上高負載的常用軟體,開啟時間,響應時間,處理器、內存、快閃記憶體綜合起來,給用戶的體驗好不好?
GPU,就是跑一個不作弊畫質的遊戲,你能跑多少幀,就是多少幀。不是一分鐘就完了跑個幀數。而是你最高幀數跑能堅持幾分鐘?
60幀或者90幀(根據屏幕刷新率),你能穩定多久?發熱多少度?
華為加這個緩存,不止跑分有幫助,遊戲可能也有幫助,相當於有了小尺寸的高速顯存。但是加成程度有沒有GB4跑分幅度那麼大,就有很大問題了。
一看GB4跑分,麒麟990性能比高通驍龍855高那麼多,A76都快趕上ARM A77了,用起來,不是一回事。
。,
利益相關,因為關鍵的改進就是我們團隊做的。
現在的手機SOC中,CPU是相對比較閑,4大4小(華為是兩大兩中4小)8個核心真正工作,尤其是滿負荷工作的機會是很少的,大部分時候是兩個小核做苦工,大核在小核實在忙不過來的時候偶爾幫幫忙。即使這麼一點時間中,CPU運算核心大部分時間也不工作,它在等各種外設!諸如各種存儲設備、通信設備、媒體設備的響應。各種等待中存儲設備的影響最大,因此任何一款高端計算設備,內存帶寬是必須標榜的。能夠提高內存帶寬,在任何一個計算機系統中都是高技術。華為通過自己的技術,提升了內存的使用效率,怎麼說也是一件比較牛的事情吧,為什麼在某些人眼裡就不值一提呢,好像他會似的。
附加:
補充一下研發過程,也許有助於大家理解我們的思路。
2015年 我們開始考慮優化CPU設計,首先要做的就是建立評價標準。bench mark用來給普通用戶看的,無法系統指導設計。我們建立標準的目標是常用軟體使用體驗提升。由於要支持模擬,代碼卻不能太大,又要能夠表徵各種軟體,存在難點。這個技術我們忙了一年,在A大學的支持下才搞定了。
2016年 用自己的評價標準對晶元進行模擬,我們發現一些問題。其中一個和這次爭論的問題相關。
2016年 下半年,就發現的問題我們和B大學共同研究,與2017年初給出了解決的演算法。演算法在990上驗證有效,決定合入。正式開始開發。
2019 年 晶元回片,,小核的效果比模擬好,但是大核不如預期。
2019 演算法繼續改進,預期可以合入2021年的晶元。
我們近6年的工作,被鍵盤俠說成刷分,實在忍不住要懟。
具體技術保密原因不能說。但是蘋果做的事是可以說的。現在AI演算法已經非常普遍了,現在大家的做法都是把相關演算法轉移到NPU中運行,但是如果演算法不夠複雜,轉移到NPU的成本也很高,完全可以在CPU側加一個協處理器來解決。事實上蘋果也是這麼做的。如果哪一天某個bench mark軟體考慮到AI的普遍應用,把AI相關計算放到CPU計算性能項中,蘋果的CPU跑分將遠遠超過其他CPU。鍵盤俠們是不是準備噴蘋果刷分?
geekbench 5.0的跑分出來了,A13的跑分相對於4.0提升了差不多1.5倍,從領先990/855 30%提升到了領先1倍。噴子們還不趕快去噴蘋果刷分!
有人提醒了一下,Arm的PPT用的是GB的分數,不是spec2006,所以這樣推算不夠準確。
—————————————————————————————————————
大學時做些嵌入式開發,不懂晶元設計,但可以總結些已知的情況。
放兩張圖,第一張是Cortex-A76時的PPT,第二張是anandtech在驍龍855出來時測的Spec2006分數。一般使用場景CPU的整數性能比較重要,所以我主要總結整數性能。
第一張圖可以看到ARM認為自己新發布的A76在3GHz下整數性能是A73在2.45GHz下的1.9倍。
第二張圖可以看到,整數性能上驍龍855:麒麟980:驍龍835=1.97:1.89:1
已知麒麟980大核(based A76)2.6GHz,驍龍855大核(Kryo485 based A76)2.84GHz,驍龍835大核(Kryo280,based A73)2.45GHz。
那麼,麒麟980在2.6GHz的整數性能大約和公版A76在3GHz下的整數性能相等,同頻整數性能高15%;
麒麟980在2.6GHz的整數性能大約相當於驍龍855在2.84GHz下整數性能的96%,同頻整數性能比驍龍855強5%。
總結:
如果麒麟990在2.86GHz下想贏驍龍855在2.96GHz下7.5%,同頻整數性能要高11%;也就是同頻整數性能要比麒麟980再高6%。似乎努努力也是可以實現的。
ARM推出的Cortex-A76被描述為一種「完全從零打造的全新架構」,到底有多厲害? - 處理器/DSP - 電子發燒友網?www.elecfans.comThe Snapdragon 855 Performance Preview: Setting the Stage for Flagship Android 2019?www.anandtech.com