最近ARM这么坑爹,大家不妨趁机爱好一下RISC-V。

不说神经网路加速器的事情(这块儿肯定很快就会有大批炼丹家跟进),这是第一个足够便宜的双核RISC-V单片机,也是第一个64位单片机,这就够大家玩一阵子了……

20180917更新:SDK、工具链和简略版文档出来啦。

Downloads - Kendryte


做完整的人脸方案,基本上就是废柴,只做基本的检测还可以低精度跑一跑。

图像方面基本没什么卵用。

————

补充一下,这些赚急钱的厂商,晶元可靠性,寿命和批量稳定性只能先呵呵,为什么海思性能那么烂价格那么高也大把人用?

————

再补一下:量化校准 SDK 之类都没有,没看出团队演算法多先进,大概率先是要坑一两个合作伙伴,坑出门道才能完善,比如手段不怎么光明的 GTI。

————

2018 12 26 修改一下:

回答了评论区的同学后,重新看了下规格书和其他人的评论,感觉就是一群没接触过产品的人 YY 出来的产品,或者晶元的产品是个外dou行bi,要是我们这些搞模型的这样随意,怕不是要被客lao户ban打死。


晶元Spec

预览

晶元价格

唔,勘智K210,是28nm制程,架构上是双核RISCV加专用电路实现CNN加速,晶元性能INT16下300GMAC/s@400MHz,典型功耗1W内,如果配置到较低频率可以做到低于0.3W。测试中是TinyYolov2可以在VGA下做到30FPS的速度,存储部分没有外部存储,完全基于片内的SRAM,ROM则支持SPI NOR Flash或者Nand Flash。价格2.99刀。

如题目中所说省下了所有广告资源,所以你根本搜不到啥信息。当然官网在嘉楠勘智。

带Wifi的核心板,或被称为荔枝丹

从晶元本身来讲,由于SRAM较小,晶元无法支持较为复杂的模型,这意味著一些模型想要部署到晶元上需要进行一定的压缩剪枝操作,或者使用模型蒸镏。然后晶元也是定点器件,对模型参数定点化也是必要的。还有,与现有的很多方案类似,无法支持一些较为折腾的网路比如DenseBlock等等。虽然我能讲出很多这个片子不够强大的地方,然而这片子2.99美元,大概是一包香烟/一顿外卖的价格,现在已经可以购入一款Inference Accelerator了,这价格已经可以堵住所有质疑人的嘴了。20左右的价格,而且外围够简单,还可以代替一些现有MCU直接做到产品里,上市的话应该会先干掉一批定点视频DSP产品,ADAS之类任务都可以做得很好。另外未来应该有更高端的可以跑更复杂模型的后续产品。

图片和信息来自于网路,数据真实性待官方确认,如有侵权烦请通知删除。禁转。


占座,摆丹炉,卖荔枝丹

作为首批拿到K210封装片的内测玩家,看到目前嘉楠几乎没有的PR,以及知乎上的一些胡乱猜测回答,觉得有必要来些 干货/硬核 评测了。此回答会随答主把玩进度不定期更新,看完之后有任何问题的,可以在下面留言,或者在群里交流,我会尽可能解答。

想要尽快拿到K210真机上手把玩的,可以加荔枝qq群来实时关注:

3000人大群:826307240

荔枝丹已经上架淘宝啦,来剁手吧:AI核心板 K210开发板 荔枝丹/机器视觉/麦克风阵列/边缘计算

〇.晶元缘起

众所周知 嘉楠是矿片公司,为何会做AI晶元

一是看到AI大势所趋,结构近期不会有大的改动,可以像做矿片那样固化下网路基础计算单元(卷积内核),获得秒杀类似某鉴科技基于FPGA的加速方案的效果。之前在7nm晶元的讨论中,很多人看不起矿片,觉得结构简单,其实矿片更像是点错的科技树,在那一点上,甚至超越了时代几十年;所以矿片公司来做专用计算结构的晶元,如AI晶元,在技术上是非常有优势的。其次,由于众所周知的原因,在成本上也会很有优势,所以和矿片公司打价格战是非常愚蠢的。

二是前两年由于上市的问题,主营业务被挡在门外,不得己迂回做这个正经晶元意图上市。当然人算不如天算,由于币市风起云涌,以及历史的进程,今年上半年证监会亲自考察了嘉楠,目前应该不需要这个迂回晶元也能正常上市了。

那么,是一群怎样的人做的这颗晶元

这是一群90左右的大佬

由于某些原因,嘉楠在这颗晶元上的投入是很少的(相对矿片来说,但也是上亿的),这导致了这颗晶元现在的某些缺憾(比如某些IP的缺失),以及团队的精悍

大家很难想像,这颗晶元,是由 三四个大佬为核心的个位人数小团队 仅用一年研发而成,研发周期非常紧张。我在晶元回片的末期参与了模块与验证底板的设计调试,5天通宵2次,其余均是2点后睡觉;而这个作息是他们团队一年来的常态,可想而知团队的战斗力。

一.晶元鉴赏

话不多说,先上封装片真图:

K210 是BGA144封装,球距0.65mm,晶元8*8mm。

第一眼看上去,这个尺寸,这个pin数,是不是有点眼熟?没错,和谷歌EDGE TPU很接近:

EDGE TPU: 7*7mm, 137pin

没错,K210对标的就是谷歌EDGE TPU。

就我看来,K210相对EDGE TPU还是有优势的:

  1. 亲民的封装,别看都是BGA,但是K210的封装精心设计过,甚至可以用双面板布通!
  2. 亲民的价格,发布会的$2.99,想必即使谷歌也难以在价格上占优
  3. 性能功耗优势,EDGE TPU目前准确参数还没公布,但已知也是不支持浮点,只支持int8,int16定点。K210和EDGE TPU 均是28nm工艺,理论上性能极限接近,但是在这里我相信矿片公司点偏的科技树。K210标称是300GOPS,但根据目前的内部情报推测,极限甚至可接近1TOPS!同时在标称情况下,功耗低至0.35W。
  4. 架构方面,EDGE TPU信息尚未透露,K210使用了双核RV64GC,这个设计在前两年算是非常超前的,并不是像某些回答说RV是非主流内核。具体加速单元方面的信息目前还不能透露,但我认为是有优势的,后面开放资料后更新。
  5. 介面方面,K210因为是作为主机设计,具有嵌入式工程师耳熟能详的常用介面:UART/I2C/I2S/PWM/DVP/LCD,而且可以通过FPIOA实时任意切换引脚映射,非常方便。而作为从机设计的EDGE TPU,推测没有这些介面。
  6. 方案优势,EDGE TPU是作为从机,使用PCIE介面与主机连接才能发挥加速作用。但是大家想想就知道带PCIE介面的处理器成本会有多高?而K210是作为主机使用设计,虽然会在内存上存在短板,但是在大多数边缘计算中足够,多数应用场景是成本敏感型的,可以说谷歌 EDGE TPU整个SoM成本跨入百元级别,已经无法和两位数成本的K210 SoM竞争了。
  7. 其它后面想起来再补充。

但是K210还是有其明显缺陷的,或者说成本妥协的短板:内存

K210内置了8MByte的高速SRAM,减小了系统复杂度的同时,给软体带来了不小的优化难度。在PC上跑的模型,可能都是上百M的,在移动端的模型,也多数在几十M的大小,如何将模型压缩一个数量级塞进8M SRAM,是个难点。

但是据说是有自带的专用模型转换工具,帮助开发者将模型压缩到限定大小内。

说完这些,在来不同角度观察下K210本身:

Xray靓照

红点为一脚标记,红框为基板轮廓。

可见晶元内埋入了8颗0201电容,推测为1uf左右电容,根据引脚排列,可以推测是8个bank的去耦电容。在晶元内封了电容,使得外部布板简洁,2层板布通成为可能,这个是设计者为下游开发者精心设计的,很有诚意。

红框内可见栅栏状痕迹,推测是flipchip封装工艺的bump的痕迹,细数估算晶元有768个bump,结合晶元尺寸比例,估算晶元尺寸约5*4.5mm。

晶元从业者看到这,应该知道28nm,22平方毫米,$2.99,意味著什么了。。

SEM靓照:

溶解了一颗烧毁的晶元:

如上Xray推断,这是flipchip工艺,所以看到的平面是光滑的硅基背面。

上光学看正面:全是bump,目测接近1K个。

所以即使上SEM也看不出啥电路结构了,放弃。。

工作时红外靓照:

晶元在跑圈人脸常式时,温度仅32度,图里左上方是摄像头,温度与CPU接近。

这个工作温度是完秒其它CPU/GPU运算的板子的,已经达到了单片机级的热成像表现。

等我找到红外微距镜头再拍下细节。。

晶元的一些测试数据:

内核电压0.9V时:主频-&>电流 @ 5V

50 15

100 22

200 34 32℃

400 63

500 76

600 92

内核电压1.0V时:主频-&>电流 @ 5V

600 130

650 141

700 157 45℃

极限750M,是可以长时间工作的频率,即1.05V安全门限电压。

内核电压 1.1V时:

700

800

内核电压 1.2V时:

800

900

二.模组设计

三.开发板设计

四.SDK把玩

五.生态规划

六.影响及下一代展望

Appendix:

皮一下,调戏人脸识别模型:


从目前发布会提供的资料来看,这款晶元性价比非常高,同时在其控制单元中使用了RISC-V ISA兼容的处理器,非常值得期待。

但是『如何评价』言之过早,至少经过一段时间的开发,才能够评价这款晶元。


现在的单片机多如牛毛,但是大家尽量使用arm架构,保持兼容,节约人力资源成本。如果嫌外国的贵,还有一大把便宜国产的名字。不太看好这种非主流架构


勘智K210晶元 非官方论坛来了:

IoTamp;中国芯 - 小羊实验室 - Powered by Discuz!?

www.lamblabs.net


便宜啊,可惜感觉不是很能讨领导欢心,宣传还是必须的,顺手提供个face id现成模型的话卖给拼多多不错


RISC-V原本是伯克利教学用的自研核,唯一优势就是便宜,其他什么的不一定做得过ARM,毕竟没有钱怎么请人开发高科技。这个K210希望是个ASIC,如果要用户编程的话还得搞一套基于RISC-V的IDE。

另外我个人更看好像Xilinx Zynq这样的架构来作为通用运算加速晶元的模板,因为一旦对特定的演算法进行了电路逻辑优化加速了后,对其他的演算法可能就不友好了。现在所谓的智能晶元在逻辑电路上无非是对特定的数学运算进行了加速,用FPGA这样的可重构电路的形式可以覆盖到更多的应用,可以起更大的量,毕竟同一颗晶元出货量1000万时的价格可比1万时低很多。

有些人可能会认为ASIC是解决特定问题的最优方式,但运算加速的应用领域实在太多,对一个中小型公司来说维护十几条产品线并提供必要技术支持已经非常吃力了,扩张下去的边际效应可能很低,如果不做大未来又有被吃掉的风险。


首先没看到细节,不便评论。

还是等9.6之后吧不过,出于好奇,看了他们的官网。点了kpu,我震惊了。映入眼帘的是一个酷炫视频,一个「高帅富」的一天恩,这真的是产品介绍,不是狗血偶像剧么?这些乱七八糟的酷炫item中间,哪个是kpu?起码特斯拉不是吧?另外为啥去上班有司机,回来只能苦逼自己开,司机都不摸方向盘自己要摸,这人工智慧略弱啊。折腾了半天我总算知道怎么把这视频退出全屏和快进了。可是还没找到「真正的」产品介绍,恩,等9.6号吧~

嘉楠耘智拿到投资搞 RISC-V 我倒是挺意外的。拿来做 AI 这方面的 SoC 就有点奇怪了,虽说确实是最近行业热点。然而 ZYNQ 也拿著他的 FPGA 往 AI 领域冲,人家 PS/PL 的架构相当吃香,也有很多不错的成品。这算是第一个槽点。

第二个槽点是「省下所有广告资源」,确实看起来是省了,可是 datasheet 呢?

这是出来搞笑的吧
嘉楠勘智?

kendryte.com图标

这个网站做的太屑了。


推荐阅读:
查看原文 >>
相关文章