AI晶元的「冷」與「熱」

借AI硬體峯會的機會，我和業界朋友聊了很多AI晶元相關的話題。總的感覺，AI晶元經過幾年比較熱的發展，現在似乎進入一個相對平靜的階段。不過，與其說是AI晶元「遇冷」，可能說產業更加「冷靜」更合適。同時，AI晶元的熱潮在這兩年對於相關的產業鏈也產生很多積極的影響，把「熱度」傳導到了其它一些領域。

本文很多內容是閑聊的結果，如果引用了哪位朋友的話而沒有說明還請見諒。

「冷」

參加過去年矽谷的AI Hardware Summit的朋友，普遍反映這次在北京的會議沒有那麼火了。這當然有很多原因，比如大環境下大家比較低調。即使只看AI晶元，進入19年之後，新鮮的話題明顯少了。一位朋友是這麼跟我說的，他在去年峯會之後就把關注的重心轉到了5G，最近轉回到AI晶元，好像也沒錯過什麼。我想了想，似乎確實如此。從去年Habana發布晶元以來，今年只有Tesla發布FSD晶元（多角度解析Tesla FSD自動駕駛晶元）引起了廣泛關注。一方面，我們看到的實質性進展（不管是指標上還是商業上）不多；另一方面，PR看的太多了之後，大家也更冷靜了。

經過這兩年的摸爬滾打，早期進場的AI晶元玩家，比如寒武紀，地平線，Graphcore，百度，Habana等等，基本已經有了第一代晶元，開始積極投入商用的嘗試。而這個「落地」的過程，比晶元研發本身更具挑戰，既是對第一代架構設計的試金石，又需要龐大的軟體開發和客戶支持的力量。雖然這些公司都在快速擴充這些力量，但客觀上看商用的步伐並沒有預期的那麼快。同時，在下一代晶元的定義和設計上，大家似乎也冷靜了很多。

從這次峯會的多個演講可以看出，在積累了幾年的經驗之後，大家開始更深入的思考AI晶元架構和生態的問題。對有的問題大家給出了不同的答案，比如「AI晶元應該更專用還是更通用？」，在很多講演者強調專用硬體的效率的同時，百度崑崙晶元的架構師歐陽劍就結合他們的研發經驗指出通用性會越來越重要。除了不同的思考，很多講演者不約而同的強調了軟硬體聯合優化的重要性，這也反映了大家已經逐漸從能夠先保證功能的粗放設計過度到提高競爭力和差異性的精耕細作了。

軟硬體聯合優化，也是我寫公眾號以來探討的一個核心問題，這裡多說幾句。其實這個詞說起來簡單，看著也很美，但實際操作還是非常困難的。先說一個非技術的挑戰，軟硬體思維方式的差異。這次峯會上，地平線的餘凱博士在panel討論上提到了一個管理上的難題就是軟硬體工程師的思維方式的差異，很有意思。而在具體設計中要實現軟硬體聯合優化，最好是有同時具備軟硬體知識和經驗的工程師操刀，或者至少要求軟硬體工程師能夠理解對方在說什麼，想什麼。這往往需要一個相互培訓和磨合的過程。即便如此，在一個團隊中還有「話語權」的問題。而在AI晶元領域，不同團隊中演算法，軟體和硬體的話語權分配是各不相同的。演算法和軟體強的公司，可能傾向於輕硬體（硬體架構和功能簡單），而大部分優化在演算法和軟體層面完成。而硬體強的公司和傳統IC公司類似，硬體架構和設計往往是中心，軟體團隊是圍繞這個中心工作的。話語權對設計的影響不一定是壞事，比如Google的軟體能力很強，TPU可以用一個相對簡單的架構，既能快速實現又可充分發揮。但如果話語權在trade-off中產生畸形的影響，就很難找到一個比較合理的平衡點。相對而言，初創公司（團隊）往往沒有歷史包袱，內部團隊間交流成本比較低，在這方面有一點優勢。

當然，軟硬體聯合優化的技術挑戰也很大。簡單來說，就是把軟體和硬體優化放在一起考慮，會出現探索空間爆炸的問題。好消息是目前AI晶元加速的運算是比較有限的，這會很大程度上縮小探索的空間。另外就是我們可以通過一些自動化的方法來加速這個過程，或者解放工程師的勞動。這也是我和我的團隊正在努力的方向，歡迎大家和我交流。還是那句話，有挑戰的地方也意味著機會。個人感覺未來AI晶元的一個主要創新點也在這個地方。

我們再回到峯會的討論上，另一個大家比較一致的看法是Compiler對於整個生態的重要性。這個問題我後面可能會專門討論一下，大家也可以看看我之前的文章（Deep Learning的IR「之爭」）。

總得來說，我更願意把這段時間看作AI晶元「蓄力」的階段，AI晶元公司能更加冷靜和理性的思考自己發展；投資人和羣眾能夠更冷靜和理性的分辨什麼是PR，什麼是乾貨。（這裡面應該也有我的一點點貢獻吧。）。