借AI硬體峯會的機會,我和業界朋友聊了很多AI晶元相關的話題。總的感覺,AI晶元經過幾年比較熱的發展,現在似乎進入一個相對平靜的階段。不過,與其說是AI晶元「遇冷」,可能說產業更加「冷靜」更合適。同時,AI晶元的熱潮在這兩年對於相關的產業鏈也產生很多積極的影響,把「熱度」傳導到了其它一些領域。

本文很多內容是閑聊的結果,如果引用了哪位朋友的話而沒有說明還請見諒。


「冷」

參加過去年矽谷的AI Hardware Summit的朋友,普遍反映這次在北京的會議沒有那麼火了。這當然有很多原因,比如大環境下大家比較低調。即使只看AI晶元,進入19年之後,新鮮的話題明顯少了。一位朋友是這麼跟我說的,他在去年峯會之後就把關注的重心轉到了5G,最近轉回到AI晶元,好像也沒錯過什麼。我想了想,似乎確實如此。從去年Habana發布晶元以來,今年只有Tesla發布FSD晶元(多角度解析Tesla FSD自動駕駛晶元)引起了廣泛關注。一方面,我們看到的實質性進展(不管是指標上還是商業上)不多;另一方面,PR看的太多了之後,大家也更冷靜了。

經過這兩年的摸爬滾打,早期進場的AI晶元玩家,比如寒武紀,地平線,Graphcore,百度,Habana等等,基本已經有了第一代晶元,開始積極投入商用的嘗試。而這個「落地」的過程,比晶元研發本身更具挑戰,既是對第一代架構設計的試金石,又需要龐大的軟體開發和客戶支持的力量。雖然這些公司都在快速擴充這些力量,但客觀上看商用的步伐並沒有預期的那麼快。同時,在下一代晶元的定義和設計上,大家似乎也冷靜了很多。

從這次峯會的多個演講可以看出,在積累了幾年的經驗之後,大家開始更深入的思考AI晶元架構和生態的問題。對有的問題大家給出了不同的答案,比如「AI晶元應該更專用還是更通用?」,在很多講演者強調專用硬體的效率的同時,百度崑崙晶元的架構師歐陽劍就結合他們的研發經驗指出通用性會越來越重要。除了不同的思考,很多講演者不約而同的強調了軟硬體聯合優化的重要性,這也反映了大家已經逐漸從能夠先保證功能的粗放設計過度到提高競爭力和差異性的精耕細作了。

軟硬體聯合優化,也是我寫公眾號以來探討的一個核心問題,這裡多說幾句。其實這個詞說起來簡單,看著也很美,但實際操作還是非常困難的。先說一個非技術的挑戰,軟硬體思維方式的差異。這次峯會上,地平線的餘凱博士在panel討論上提到了一個管理上的難題就是軟硬體工程師的思維方式的差異,很有意思。而在具體設計中要實現軟硬體聯合優化,最好是有同時具備軟硬體知識和經驗的工程師操刀,或者至少要求軟硬體工程師能夠理解對方在說什麼,想什麼。這往往需要一個相互培訓和磨合的過程。即便如此,在一個團隊中還有「話語權」的問題。而在AI晶元領域,不同團隊中演算法,軟體和硬體的話語權分配是各不相同的。演算法和軟體強的公司,可能傾向於輕硬體(硬體架構和功能簡單),而大部分優化在演算法和軟體層面完成。而硬體強的公司和傳統IC公司類似,硬體架構和設計往往是中心,軟體團隊是圍繞這個中心工作的。話語權對設計的影響不一定是壞事,比如Google的軟體能力很強,TPU可以用一個相對簡單的架構,既能快速實現又可充分發揮。但如果話語權在trade-off中產生畸形的影響,就很難找到一個比較合理的平衡點。相對而言,初創公司(團隊)往往沒有歷史包袱,內部團隊間交流成本比較低,在這方面有一點優勢。

當然,軟硬體聯合優化的技術挑戰也很大。簡單來說,就是把軟體和硬體優化放在一起考慮,會出現探索空間爆炸的問題。好消息是目前AI晶元加速的運算是比較有限的,這會很大程度上縮小探索的空間。另外就是我們可以通過一些自動化的方法來加速這個過程,或者解放工程師的勞動。這也是我和我的團隊正在努力的方向,歡迎大家和我交流。還是那句話,有挑戰的地方也意味著機會。個人感覺未來AI晶元的一個主要創新點也在這個地方。

我們再回到峯會的討論上,另一個大家比較一致的看法是Compiler對於整個生態的重要性。這個問題我後面可能會專門討論一下,大家也可以看看我之前的文章(Deep Learning的IR「之爭」)。

總得來說,我更願意把這段時間看作AI晶元「蓄力」的階段,AI晶元公司能更加冷靜和理性的思考自己發展;投資人和羣眾能夠更冷靜和理性的分辨什麼是PR,什麼是乾貨。(這裡面應該也有我的一點點貢獻吧。)。

https://basicmi.github.io/AI-Chip/

"熱"

"During the gold rush its a good time to be in the pick and shovel business."

- Mark Twain

AI晶元從大熱過渡到「冷靜」,是個正常的發展過程。而在這個過程中,AI晶元的熱度也逐漸傳遞到了產業鏈中的其它玩家。AI晶元公司融到的大量資金除了燒在自己的工程師身上,也有很大一部分流入了這些供應商手中,比如流片和封測,IP,EDA工具,設計服務和其它服務。對有些供應商來說,AI晶元的熱潮比較簡單的反映在客戶和收入的增加;而在一些領域中,它還帶來了一些技術方向,技術趨勢和路線圖的變化。我們下面就主要看看後者。

AI晶元的熱潮首先帶火的是NoC(片上網路)技術的供應商。到目前為止,基本上主要的NoC IP廠商都已經被各大公司搶走了。NoC最早的熱潮出現在十幾年前,我的博士論文也和這個技術有關。NoC的產業應用則一直是個很小的生意,直到這輪AI熱潮改變了傳統的計算範式,數據流動的效率成了瓶頸性問題。其實這個挑戰不僅對NoC是重大利好,對於存儲介面,片間互聯和網路技術都有更高的需求。Mellanox也可以說是個很好的例子。傳統技術和標準,比如PCIe,Serdes,DDR,Ethernet?,InfiniBand其標準演進和技術落地都在加速。而一些新的互聯標準,比如Nvdia的NvLink,CCIX,Intel的CKL等等也是類似的情況。由於未來數據流動的需求還會持續增長,這部分應該會持續得到關注。

除了數據流的瓶頸,晶元的硬體的scale-up也給一些新技術帶來了機會。由於目前對AI加速的基本硬體比較規則,可以比較簡單的擴大規模。所以,一種技術路線就是充分利用片上資源的低成本和低功耗特性,盡量在一顆晶元上實現更多的運算和存儲。這也導致晶元面積越來越大,極端的情況是wafer-scale的晶元(如何設計一顆40PFLOPS量級的AI晶元?)。在這個背景下,也出現了一些新的商機。

前一段時間,做in-chip monitor IP的公司Moortec希望我把他們放到AI chip landscape的圖裡面。我問他們和AI晶元有什麼關係。以下就是他們的回答,其實是我上面所說的技術趨勢的一個佐證:「in-chip monitoring is becoming an essential requirement on AI chips which are typically on the advanced nodes (16nm, 7nm & below). As you know AI chips are not regular ASICs and are usually dominated by an array of regular structures where there are often 100』s in not 1000』s of cores in a single die, being grouped of into clusters, the die sizes themselves can be quite large as well often 100』s of mm squared if not approaching reticle size. This all leads to thermal issues, supply issues (IR drop) and process issues in terms of PVT Corners. Optimizing temperature and voltage supply and identifying process corners using embedded in-chip monitoring subsystems can greatly improve the data throughput and computational performance of the design. Moortecs in-chip monitoring allows chip designers to save power, optimize performance, increase reliability and ultimately reduce cost and risk...

除了用更先進的工藝和更多的面積,另一條技術路線是用多個面積較小的die通過超短距離高速互聯和多矽片封裝技術在一個封裝裏裝入更多的算力和存儲。它的優勢是可以避免單個矽片面積太大帶來的各種問題(上面說的),還可能用比較廉價的工藝實現類似的算力,因此可能降低TOPS/$。這種技術最終的形態就是Chiplet(從AI Chip到AI Chiplet),在到達所謂的超級異構晶元之前,同構的多die互聯目前進展比較快,應該會更早實現。另外,這個方向也會驅動封裝技術革新的提速。

在0.5代AI晶元(AI晶元0.5與2.0)進入相對「平靜」的階段的同時,一些新興技術的熱度並沒有減弱。光計算就是個很好的例子,從比較早開始的Lightelligence到剛剛宣佈拿到比爾蓋茨投資的Luminous Computing,受到的關注度也非常之高。這次還非常高興的看到了Lightelligence的演示系統,感覺他們也在很紮實的向實用化推進。總得來說,這些新興技術的落地時間可能會因為AI晶元的熱潮大大縮短。


最後用這次峯會的Keynote,來自阿里徐凌傑的,「The Long March of AI Chips」中的一句話收尾吧。大家共勉。

-- The End --

歡迎關注我的微信公眾號:

StarryHeavensAbove AI晶元文章導讀?

mp.weixin.qq.com
圖標

題圖來自網路,版權歸原作者所有

本文為個人興趣之作,僅代表本人觀點,與就職單位無關


推薦閱讀:
相關文章