單核心性能比驍龍855+要高7.5%,而且頻率更低。


實際內存延遲應該在120ms+,system cache的意義在於提高GPU npu等周邊的性能,但會增加CPU讀取內存的延遲。anandtech的的主編已經說了system cache會降低CPU性能,現代CPU 基本命中率都在99%左右,增加l4帶可以來的命中率提升,但也增加了延遲,可能並不能得到正回報。980 相比855多出來的cache帶來的ipc都不超過5%,更何況l4。


首先看看ARM 官方對 Cortex-A76 介紹[1]

A76 L2 Cache 的 大小是 128KB to 512KB 可配置。

SDM855 採用的方案[2]是:

1x Kryo 485 Gold (A76 derivative)

@ 2.84GHz 1x512KB pL23x Kryo 485 Gold (A76 derivative) @ 2.42GHz 3x256KB pL24x Kryo 485 Silver (A55 derivative)@ 1.80GHz 4x128KB pL22MB sL3

麒麟980 採用的方案[3]

2x A76 @ 2.60 GHz

2x A76 @ 1.92 GHz@ 512KB L2s4x A55 @ 1.80 GHz@ 128KB L2s4MBDSUL3

眾所周知大緩存對性能的影響,而高通閹割了 SDM855 的大核 L2 Cache,顯然對性能有不利影響。順便 L3 也不一樣。

麒麟 990 緩存信息目前未知,已知的只有主頻數據[4],不過可以猜測緩存配置和麒麟980一樣

2xA76 @2.86G

2xA76 @2.36G4xA55 @1.95G

在主頻緩存均領先的情況下 kirin 990 2.86Ghz 512k L2 性能強於 SDM855 2.84GHz 512k L2 是非常正常的事情。

至於 990 單核心強於855Plus,雖然L3緩存足以解釋,但我不知道題主從哪看到的數據

關於魔改

我也不知道知乎上好多人從哪學來的「魔改」這個詞,就到處亂用。這也是我寫這篇廢話的根本原因。

ARM V8 是 ARM 公司定義的指令集(ISA),Cortex-A76 是 ARM 公司提供的微架構(Microarchitecture),Cortex-A76 是一種商業產品,雖然是可配置的,但是配置基本僅限主頻緩存和一些附加單元。

如果兩款 Soc 均採用了 同一個 ARM 微架構,且同配置同主頻,那他們的峰值性能肯定是基本一致的,而且 IPC 不應該有任何區別(如果有可能發生在訪存差異上)。

目前並沒有任何信息表明海思對 A76 進行了修改,而有確切證據表明了高通對 A76 進行了修改,人家都叫 Kryo 485 了。不過最近幾年高通對 ARM 官方的微架構修改力度已經不大了。

最後,海思是有能力和合法的在 ARMV8 架構下自己設計 ARM 指令集的 微架構的。(舉個例子 鯤鵬 920 我印象就是)以海思的能力,可以期待海思今後有相應產品面世,但是那時候前面就不會有 A的前綴了(Cortex-A的簡寫),就像蘋果的Soc (舉個例子,A12 大核叫Apple Vortex),你什時候看到介紹 蘋果 A12X 用 A76了 ?

參考

  1. ^Cortex-A76 https://developer.arm.com/ip-products/processors/cortex-a/cortex-a76
  2. ^https://www.anandtech.com/show/13680/snapdragon-855-going-into-detail
  3. ^https://www.anandtech.com/show/13298/hisilicon-announces-the-kirin-980-first-a76-g76-on-7nm
  4. ^https://www.anandtech.com/show/14851/huawei-announces-kirin-990-and-kirin-990-5g-dual-soc-approach-integrated-5g-modem


不能說華為雞賊,畢竟華為自己能設計晶元,加什麼它說了算。

能說明問題是GB4跑分有BUG,要測試內存延遲的項目,被一個緩存給輕鬆騙了。GB5裡面,三星的分數不也降了?華為比三星動手晚吧。

好在還在分項目,一看分項目,還是能看出來。

但是,但是,假設有一天,華為針對GBn(5、6、7、8、9),的某個項目,單獨塞個加速器行不行呢?

移動時代,你們不知道了。

桌面時代,VIA(今天的兆芯)是在CPU裡面塞過AES加密解密引擎,在加密解密測試裡面超過英特爾很多的。

哪天,華為高興了,給麒麟某個處理器,塞個算GBn某項目的單獨加速器,跑分要多少分有多少分。

所以,這個問題,說明了GB4的不靠譜,乃至GB這個測試軟體的不靠譜。

安兔兔,這種顯卡,CPU分數能加在一起的垃圾就不說了。

正確的跑分軟體,應該是跑真實任務的。所以伺服器上跑SPEC2000,2006,2017。

手機上高負載的常用軟體,開啟時間,響應時間,處理器、內存、快閃記憶體綜合起來,給用戶的體驗好不好?

GPU,就是跑一個不作弊畫質的遊戲,你能跑多少幀,就是多少幀。不是一分鐘就完了跑個幀數。而是你最高幀數跑能堅持幾分鐘?

60幀或者90幀(根據屏幕刷新率),你能穩定多久?發熱多少度?

華為加這個緩存,不止跑分有幫助,遊戲可能也有幫助,相當於有了小尺寸的高速顯存。但是加成程度有沒有GB4跑分幅度那麼大,就有很大問題了。

一看GB4跑分,麒麟990性能比高通驍龍855高那麼多,A76都快趕上ARM A77了,用起來,不是一回事。

。,


利益相關,因為關鍵的改進就是我們團隊做的。

現在的手機SOC中,CPU是相對比較閑,4大4小(華為是兩大兩中4小)8個核心真正工作,尤其是滿負荷工作的機會是很少的,大部分時候是兩個小核做苦工,大核在小核實在忙不過來的時候偶爾幫幫忙。即使這麼一點時間中,CPU運算核心大部分時間也不工作,它在等各種外設!諸如各種存儲設備、通信設備、媒體設備的響應。各種等待中存儲設備的影響最大,因此任何一款高端計算設備,內存帶寬是必須標榜的。能夠提高內存帶寬,在任何一個計算機系統中都是高技術。華為通過自己的技術,提升了內存的使用效率,怎麼說也是一件比較牛的事情吧,為什麼在某些人眼裡就不值一提呢,好像他會似的。


附加:

  1. 所有噴的人沒有一個說清楚了為什麼內存分會提高。你都不知道別人怎麼做的,就不知道別人為什麼就要這麼做,然後就開始噴口水。這樣做良心痛不痛?!這是晶元,每一個改動都是要花面積、花錢的,不是像安兔兔改個代碼就能加一堆分數。麒麟9系列大幾千萬的銷量,花一美金去改一下,總共要花多少錢?你們以為是敲一下鍵盤的事嗎?
  2. 有人噴既然內存提高了,為什麼整形、浮點計算性能沒有提高?你們噴華為不能連帶噴評測軟體好不好?如果一個評測軟體連運算性能和內存性能都分不清,那還算啥評測軟體?從另一方面說,測試運算性能那點代碼,放在L1 cache都綽綽有餘了,根本用不到內存子系統。不要拿自己的無知來噴別人,丟了臉還不覺得。
  3. 所謂的smart cache 高通也有,從845開始就有了,也沒見高通的分數暴漲。既然高通的smart cache刷不了分數,憑什麼說華為的就能刷分數?
  4. 所有的晶元分數都是堆面積堆出來的,別人堆了面積,花了錢,性能好了,你們就說別人刷分數。按照你們的說法,以後這個帽子可以一直扣下去了。計算性能好了,你們可以說加了ALU刷分數。AI性能好了,你們可以說加協處理器刷分數。哪一天華為把自研核心放手機了,你們會不會說「天吶,華為把伺服器的核放到手機上來刷分數」,做人能不能不這麼流氓?
  5. 還有人說測試軟體升級了就現原形了。測試軟體升級了難道晶元上的晶體管就消失了?它該發揮什麼作用還是會發揮什麼作用,測試軟體測不出就否定它的存在,這是現代版的掩耳盜鈴嗎?麒麟晶元上很多東西測試軟體都測不出來,難道他們都是廢物?

補充一下研發過程,也許有助於大家理解我們的思路。

2015年 我們開始考慮優化CPU設計,首先要做的就是建立評價標準。bench mark用來給普通用戶看的,無法系統指導設計。我們建立標準的目標是常用軟體使用體驗提升。由於要支持模擬,代碼卻不能太大,又要能夠表徵各種軟體,存在難點。這個技術我們忙了一年,在A大學的支持下才搞定了。

2016年 用自己的評價標準對晶元進行模擬,我們發現一些問題。其中一個和這次爭論的問題相關。

2016年 下半年,就發現的問題我們和B大學共同研究,與2017年初給出了解決的演算法。演算法在990上驗證有效,決定合入。正式開始開發。

2019 年 晶元回片,,小核的效果比模擬好,但是大核不如預期。

2019 演算法繼續改進,預期可以合入2021年的晶元。

我們近6年的工作,被鍵盤俠說成刷分,實在忍不住要懟。

具體技術保密原因不能說。但是蘋果做的事是可以說的。現在AI演算法已經非常普遍了,現在大家的做法都是把相關演算法轉移到NPU中運行,但是如果演算法不夠複雜,轉移到NPU的成本也很高,完全可以在CPU側加一個協處理器來解決。事實上蘋果也是這麼做的。如果哪一天某個bench mark軟體考慮到AI的普遍應用,把AI相關計算放到CPU計算性能項中,蘋果的CPU跑分將遠遠超過其他CPU。鍵盤俠們是不是準備噴蘋果刷分?


geekbench 5.0的跑分出來了,A13的跑分相對於4.0提升了差不多1.5倍,從領先990/855 30%提升到了領先1倍。噴子們還不趕快去噴蘋果刷分!


有人提醒了一下,Arm的PPT用的是GB的分數,不是spec2006,所以這樣推算不夠準確。

—————————————————————————————————————

大學時做些嵌入式開發,不懂晶元設計,但可以總結些已知的情況。

放兩張圖,第一張是Cortex-A76時的PPT,第二張是anandtech在驍龍855出來時測的Spec2006分數。一般使用場景CPU的整數性能比較重要,所以我主要總結整數性能。

第一張圖可以看到ARM認為自己新發布的A76在3GHz下整數性能是A73在2.45GHz下的1.9倍。

第二張圖可以看到,整數性能上驍龍855:麒麟980:驍龍835=1.97:1.89:1

已知麒麟980大核(based A76)2.6GHz,驍龍855大核(Kryo485 based A76)2.84GHz,驍龍835大核(Kryo280,based A73)2.45GHz。

那麼,麒麟980在2.6GHz的整數性能大約和公版A76在3GHz下的整數性能相等,同頻整數性能高15%;

麒麟980在2.6GHz的整數性能大約相當於驍龍855在2.84GHz下整數性能的96%,同頻整數性能比驍龍855強5%。

總結:

如果麒麟990在2.86GHz下想贏驍龍855在2.96GHz下7.5%,同頻整數性能要高11%;也就是同頻整數性能要比麒麟980再高6%。似乎努努力也是可以實現的。

ARM推出的Cortex-A76被描述為一種「完全從零打造的全新架構」,到底有多厲害? - 處理器/DSP - 電子發燒友網?

www.elecfans.com圖標The Snapdragon 855 Performance Preview: Setting the Stage for Flagship Android 2019?

www.anandtech.com圖標


推薦閱讀:
相关文章