如何評價嘉楠耘智的勘智K210晶元？

最近ARM這麼坑爹，大家不妨趁機愛好一下RISC-V。

不說神經網路加速器的事情（這塊兒肯定很快就會有大批煉丹家跟進），這是第一個足夠便宜的雙核RISC-V單片機，也是第一個64位單片機，這就夠大家玩一陣子了……

20180917更新：SDK、工具鏈和簡略版文檔出來啦。

Downloads - Kendryte

做完整的人臉方案，基本上就是廢柴，只做基本的檢測還可以低精度跑一跑。

圖像方面基本沒什麼卵用。

————

補充一下，這些賺急錢的廠商，晶元可靠性，壽命和批量穩定性只能先呵呵，為什麼海思性能那麼爛價格那麼高也大把人用？

————

再補一下：量化校準 SDK 之類都沒有，沒看出團隊演算法多先進，大概率先是要坑一兩個合作夥伴，坑出門道才能完善，比如手段不怎麼光明的 GTI。

————

2018 12 26 修改一下：

回答了評論區的同學後，重新看了下規格書和其他人的評論，感覺就是一群沒接觸過產品的人 YY 出來的產品，或者晶元的產品是個外dou行bi，要是我們這些搞模型的這樣隨意，怕不是要被客lao戶ban打死。

晶元Spec

預覽

晶元價格

唔，勘智K210，是28nm製程，架構上是雙核RISCV加專用電路實現CNN加速，晶元性能INT16下300GMAC/s@400MHz，典型功耗1W內，如果配置到較低頻率可以做到低於0.3W。測試中是TinyYolov2可以在VGA下做到30FPS的速度，存儲部分沒有外部存儲，完全基於片內的SRAM，ROM則支持SPI NOR Flash或者Nand Flash。價格2.99刀。

如題目中所說省下了所有廣告資源，所以你根本搜不到啥信息。當然官網在嘉楠勘智。

帶Wifi的核心板，或被稱為荔枝丹

從晶元本身來講，由於SRAM較小，晶元無法支持較為複雜的模型，這意味著一些模型想要部署到晶元上需要進行一定的壓縮剪枝操作，或者使用模型蒸鎦。然後晶元也是定點器件，對模型參數定點化也是必要的。還有，與現有的很多方案類似，無法支持一些較為折騰的網路比如DenseBlock等等。雖然我能講出很多這個片子不夠強大的地方，然而這片子2.99美元，大概是一包香煙/一頓外賣的價格，現在已經可以購入一款Inference Accelerator了，這價格已經可以堵住所有質疑人的嘴了。20左右的價格，而且外圍夠簡單，還可以代替一些現有MCU直接做到產品里，上市的話應該會先幹掉一批定點視頻DSP產品，ADAS之類任務都可以做得很好。另外未來應該有更高端的可以跑更複雜模型的後續產品。

圖片和信息來自於網路，數據真實性待官方確認，如有侵權煩請通知刪除。禁轉。

佔座，擺丹爐，賣荔枝丹

作為首批拿到K210封裝片的內測玩家，看到目前嘉楠幾乎沒有的PR，以及知乎上的一些胡亂猜測回答，覺得有必要來些乾貨/硬核評測了。此回答會隨答主把玩進度不定期更新，看完之後有任何問題的，可以在下面留言，或者在群里交流，我會儘可能解答。

想要儘快拿到K210真機上手把玩的，可以加荔枝qq群來實時關註：

3000人大群：826307240

荔枝丹已經上架淘寶啦，來剁手吧：AI核心板 K210開發板荔枝丹/機器視覺/麥克風陣列/邊緣計算

〇.晶元緣起

眾所周知 嘉楠是礦片公司，為何會做AI晶元？

一是看到AI大勢所趨，結構近期不會有大的改動，可以像做礦片那樣固化下網路基礎計算單元(卷積內核)，獲得秒殺類似某鑒科技基於FPGA的加速方案的效果。之前在7nm晶元的討論中，很多人看不起礦片，覺得結構簡單，其實礦片更像是點錯的科技樹，在那一點上，甚至超越了時代幾十年；所以礦片公司來做專用計算結構的晶元，如AI晶元，在技術上是非常有優勢的。其次，由於眾所周知的原因，在成本上也會很有優勢，所以和礦片公司打價格戰是非常愚蠢的。

二是前兩年由於上市的問題，主營業務被擋在門外，不得己迂迴做這個正經晶元意圖上市。當然人算不如天算，由於幣市風起雲湧，以及歷史的進程，今年上半年證監會親自考察了嘉楠，目前應該不需要這個迂迴晶元也能正常上市了。

那麼，是一群怎樣的人做的這顆晶元？

這是一群90左右的大佬。

由於某些原因，嘉楠在這顆晶元上的投入是很少的（相對礦片來說，但也是上億的），這導致了這顆晶元現在的某些缺憾（比如某些IP的缺失），以及團隊的精悍。

大家很難想像，這顆晶元，是由 三四個大佬為核心的個位人數小團隊僅用一年研發而成，研發周期非常緊張。我在晶元回片的末期參與了模塊與驗證底板的設計調試，5天通宵2次，其餘均是2點後睡覺；而這個作息是他們團隊一年來的常態，可想而知團隊的戰鬥力。

一.晶元鑒賞

話不多說，先上封裝片真圖：

K210 是BGA144封裝，球距0.65mm，晶元8*8mm。

第一眼看上去，這個尺寸，這個pin數，是不是有點眼熟？沒錯，和谷歌EDGE TPU很接近：

EDGE TPU: 7*7mm, 137pin

沒錯，K210對標的就是谷歌EDGE TPU。

就我看來，K210相對EDGE TPU還是有優勢的：

親民的封裝，別看都是BGA，但是K210的封裝精心設計過，甚至可以用雙面板布通！
親民的價格，發布會的$2.99，想必即使谷歌也難以在價格上佔優
性能功耗優勢，EDGE TPU目前準確參數還沒公布，但已知也是不支持浮點，只支持int8,int16定點。K210和EDGE TPU 均是28nm工藝，理論上性能極限接近，但是在這裡我相信礦片公司點偏的科技樹。K210標稱是300GOPS，但根據目前的內部情報推測，極限甚至可接近1TOPS！同時在標稱情況下，功耗低至0.35W。
架構方面，EDGE TPU信息尚未透露，K210使用了雙核RV64GC，這個設計在前兩年算是非常超前的，並不是像某些回答說RV是非主流內核。具體加速單元方面的信息目前還不能透露，但我認為是有優勢的，後面開放資料後更新。
介面方面，K210因為是作為主機設計，具有嵌入式工程師耳熟能詳的常用介面：UART/I2C/I2S/PWM/DVP/LCD,而且可以通過FPIOA實時任意切換引腳映射，非常方便。而作為從機設計的EDGE TPU，推測沒有這些介面。
方案優勢，EDGE TPU是作為從機，使用PCIE介面與主機連接才能發揮加速作用。但是大家想想就知道帶PCIE介面的處理器成本會有多高？而K210是作為主機使用設計，雖然會在內存上存在短板，但是在大多數邊緣計算中足夠，多數應用場景是成本敏感型的，可以說谷歌 EDGE TPU整個SoM成本跨入百元級別，已經無法和兩位數成本的K210 SoM競爭了。
其它後面想起來再補充。

但是K210還是有其明顯缺陷的，或者說成本妥協的短板：內存。

K210內置了8MByte的高速SRAM，減小了系統複雜度的同時，給軟體帶來了不小的優化難度。在PC上跑的模型，可能都是上百M的，在移動端的模型，也多數在幾十M的大小，如何將模型壓縮一個數量級塞進8M SRAM，是個難點。

但是據說是有自帶的專用模型轉換工具，幫助開發者將模型壓縮到限定大小內。

說完這些，在來不同角度觀察下K210本身：

Xray靚照：

紅點為一腳標記，紅框為基板輪廓。

可見晶元內埋入了8顆0201電容，推測為1uf左右電容，根據引腳排列，可以推測是8個bank的去耦電容。在晶元內封了電容，使得外部布板簡潔，2層板布通成為可能，這個是設計者為下游開發者精心設計的，很有誠意。

紅框內可見柵欄狀痕迹，推測是flipchip封裝工藝的bump的痕迹，細數估算晶元有768個bump，結合晶元尺寸比例，估算晶元尺寸約5*4.5mm。

晶元從業者看到這，應該知道28nm，22平方毫米，$2.99，意味著什麼了。。

SEM靚照：

溶解了一顆燒毀的晶元：

如上Xray推斷，這是flipchip工藝，所以看到的平面是光滑的硅基背面。

上光學看正面：全是bump，目測接近1K個。

所以即使上SEM也看不出啥電路結構了，放棄。。

工作時紅外靚照：

晶元在跑圈人臉常式時，溫度僅32度，圖裡左上方是攝像頭，溫度與CPU接近。

這個工作溫度是完秒其它CPU/GPU運算的板子的，已經達到了單片機級的熱成像表現。

等我找到紅外微距鏡頭再拍下細節。。

晶元的一些測試數據：

內核電壓0.9V時：主頻-&>電流 @ 5V

50 15

100 22

200 34 32℃

400 63

500 76

600 92

內核電壓1.0V時：主頻-&>電流 @ 5V

600 130

650 141

700 157 45℃

極限750M，是可以長時間工作的頻率，即1.05V安全門限電壓。

內核電壓 1.1V時：

700

800

內核電壓 1.2V時：

800

900

二.模組設計

三.開發板設計

四.SDK把玩

五.生態規劃

六.影響及下一代展望

Appendix:

皮一下，調戲人臉識別模型：

從目前發布會提供的資料來看，這款晶元性價比非常高，同時在其控制單元中使用了RISC-V ISA兼容的處理器，非常值得期待。

但是『如何評價』言之過早，至少經過一段時間的開發，才能夠評價這款晶元。

現在的單片機多如牛毛，但是大家盡量使用arm架構，保持兼容，節約人力資源成本。如果嫌外國的貴，還有一大把便宜國產的名字。不太看好這種非主流架構

勘智K210晶元非官方論壇來了：

IoTamp;中國芯 - 小羊實驗室 - Powered by Discuz!?

www.lamblabs.net

便宜啊，可惜感覺不是很能討領導歡心，宣傳還是必須的，順手提供個face id現成模型的話賣給拼多多不錯

RISC-V原本是伯克利教學用的自研核，唯一優勢就是便宜，其他什麼的不一定做得過ARM，畢竟沒有錢怎麼請人開發高科技。這個K210希望是個ASIC，如果要用戶編程的話還得搞一套基於RISC-V的IDE。

另外我個人更看好像Xilinx Zynq這樣的架構來作為通用運算加速晶元的模板，因為一旦對特定的演算法進行了電路邏輯優化加速了後，對其他的演算法可能就不友好了。現在所謂的智能晶元在邏輯電路上無非是對特定的數學運算進行了加速，用FPGA這樣的可重構電路的形式可以覆蓋到更多的應用，可以起更大的量，畢竟同一顆晶元出貨量1000萬時的價格可比1萬時低很多。

有些人可能會認為ASIC是解決特定問題的最優方式，但運算加速的應用領域實在太多，對一個中小型公司來說維護十幾條產品線並提供必要技術支持已經非常吃力了，擴張下去的邊際效應可能很低，如果不做大未來又有被吃掉的風險。

首先沒看到細節，不便評論。

還是等9.6之後吧不過，出於好奇，看了他們的官網。點了kpu，我震驚了。映入眼帘的是一個酷炫視頻，一個「高帥富」的一天恩，這真的是產品介紹，不是狗血偶像劇么？這些亂七八糟的酷炫item中間，哪個是kpu?起碼特斯拉不是吧？另外為啥去上班有司機，回來只能苦逼自己開，司機都不摸方向盤自己要摸，這人工智慧略弱啊。折騰了半天我總算知道怎麼把這視頻退出全屏和快進了。可是還沒找到「真正的」產品介紹，恩，等9.6號吧～

嘉楠耘智拿到投資搞 RISC-V 我倒是挺意外的。拿來做 AI 這方面的 SoC 就有點奇怪了，雖說確實是最近行業熱點。然而 ZYNQ 也拿著他的 FPGA 往 AI 領域沖，人家 PS/PL 的架構相當吃香，也有很多不錯的成品。這算是第一個槽點。

第二個槽點是「省下所有廣告資源」，確實看起來是省了，可是 datasheet 呢？