以VR、AR甚至是MR(混合现实)为代表的新一代技术,改变了人机交互的方式,而3D感知就是带来这种变化最大的核心技术。通过3D感知,用户可以看到逼真的虚拟物体和真实世界的物体叠加在一起,可同时和虚拟及真实物体进行互动,且双方也会发生交互。具备了3D感知的智能终端设备,就是用户手中的一扇混合现实视窗,而其界面就是摄像头。

VR、无人机领域方兴未艾,AR市场波澜又起,并且由AR眼镜、头盔等独立设备发展为配备智能手机的AR工具。2017年11月28日下午,华为荣耀在北京工业大学奥林匹克体育馆举行发布会,推出了华为称之为「点云深度摄像头」的散斑结构光手机配件—Jupiter X(舜宇内部料号)。

人机交互发展趋势

3D人脸表情分析与人脸识别

一、水煮:微软之所以停产Kinect

Kinect1结构光散点图及其主要零部件

创立于 2005 年的 PrimeSense 是一家主要通过视觉,让数字设备获得对真实世界三维感知能力的无厂半导体公司。凭借低成本、高性能的结构光 3D 机器视觉技术,让这家公司成为了消费市场的领军人物,微软正是基于 PrimeSense 深度摄像技术,开发出了 Kinect。Kinect 上市三年之后,2013 年苹果公司以大约 3.6 亿美元的价格,收购了 PrimeSense。然而,这个60 天 800 万套销量,吉尼斯世界纪录上销售速度最快的消费电子产品来自于一款游戏周边——微软的体感操控设备 Kinect,且累计销量截至目前,已经超过了 3500 万台,却于2017年10月25日,微软宣布Kinect下架。Why?

Primesense自制PS1080晶元

1、场地限制。Kinect受制于主动照明和环境光干扰,需在在室内场景,且需要2*3平米的使用空间,这种对场景的要求就限制了其游戏应用范围;

2、精度限制。Kinect的3D测量精度对于高精度指向性的游戏难以满足定位要求,诸如枪战等游戏无法胜任;

3、内容限制。Kinect的游戏设计建立在动作的较大幅度的视觉定位基础上,而之前许多的手柄游戏无需大幅运动就可以通过手柄按键及遥感完成游戏虚拟对象的驱动,这对于那些喜欢躺在沙发或是地板上的用户缺少长期吸引力;

4、用户面窄。Kinect的隔空打虎式的人体姿态估计驱动游戏内容的方法,对于喜欢机械按键与手柄的具有力量传递的触感用户来说,缺少了触觉的贴切感知感。

5、其他应用领域未打开。Kinect寄希望于在无人驾驶领域打开市场,最终仍未搭上谷歌无人车的顺风。

6、结构光与TOF等3D感知模组越发的成熟,在硬体器件方面,微软无法获得高额利润,反而成了半导体晶元制造厂商的输血来源;对应的3D成像演算法的发展并不乐观,而这部分也在受到其他竞争对手的追赶与超越,砍掉不具备垄断价值的硬体模块继续发展演算法技术成了必然选择。

综上,Kinect在游戏领域的应用受到自身、环境及受用对象的使用习惯限制等,市场热度与接受度持续下滑,微软放弃kinect也就在所难免。

二、成福:无心插柳柳成荫

从产品的角度出发,Kinect 已经走到了生命周期的终点,但显然,从 Kinect 的研发中所获得的经验以及技术,是其贡献给微软以及业界重要的财富。例如,微软的 HoloLens AR 眼镜、Windows Hello 面部识别系统中,均应用到了 Kinect 的相关技术。

作为在体感控制探索道路上的先行者,7 年前 Kinect 面市的时候,全新的产品形态带给了人们足够想像的空间以及启发性。

近期,在 iPhone X 上所使用的 Face ID 功能,其工作原理和 早期的Kinect相同,均使用结构光实现3D成像。而其所使用的结构光技术的最初提供者,正是此前为 Kinect 提供技术支持者PrimeSense 公司。Kinect 上市三年之后,2013 年苹果公司以大约 3.6 亿美元的价格,收购了 PrimeSense。所以 Face ID 在原理上与 Kinect 有相同点,也就不足为奇。

三种3D成像方式示意图

在苹果的iphoneX推出前后,结构光和飞行时间及双目3D成像这3种3D成像方式成为许多人的关注点,主要原因还是在于苹果可以持续引领未来趋势,这点在后来的指纹识别被3D人脸识别所替代而遭到市场冷落可以进步说明。苹果选择结构光大概也有几点原因(详细对比可查阅:深度感知解决方案 | 深度摄像头的三种主流技术优劣对比):

1、双目方案,成本相对另外两种方案最低,深度信息依赖纯软体演算法或是专用晶元计算得出,它也继承了普通RGB摄像头的缺点:在昏暗环境下以及特征不明显的情况下并不适用,受光照,物体纹理性质影响明显。Leap公司2013年发布的Leap Motion体感控制器,以及英特尔的RealSense就应用了这个技术。以Leap Motion为例说明该方案的主要结构:Leap Motion有红外LED+两个摄像头,利用双摄像头捕获的图像差别和三角测量演算法,形成三维立体图片,而LED灯用于加强目标和背景的亮度对比,使得识别更为准确。

2、结构光方案优势在于体积小,功耗小,且目前应用相对比较成熟,很多激光雷达和3D扫描都应用此技术。缺点是由于结构光方案通过折射光的落点位移来取得位置信息,在现有技术条件下深度信息的精度还不够,对识别的距离也有严格的要求,容易受到太阳光、玻璃反射的红外光等环境光线的干扰,户外使用很困难。以色列公司PrimeSense在很早以前就开始研发3D感测器,微软2009年与PrimeSense合作发布的Kinect 一代就应用了结构光技术,该公司又于2013年被苹果3.6亿美元收购。

结构光成像示意图

3、TOF其实是相对结构光和双目视觉来说受环境影响最小的技术,响应速度快、深度信息精度高。TOF相比结构光,其成熟度相对低,其对光源要求更高,一般为垂直腔面发射激光器(VCSEL,High Power VCSEL Array(TOF)),同时解析度较低且成本高。但由于其实时性高,不需要额外增加计算资源,几乎无演算法开发工作量,是未来iphone后置3D成像器件的首选。其主要结构包括红外发光二极体、红外光图像感测器、可见光景深相机、处理晶元等,与结构光设备基本一致。微软2013年发布的Kinect 2代就是采用这种方案。Kinect2代是微软在1代之后自行研发出的3D感知产品,大大改善了1代中存在的成像模糊,动作识别不敏锐等问题。

VCSEL示意图

前期考虑结构光主要应该为相比较于TOF的成熟度和相对于双目的抗噪能力等优点上。

三种3D成像技术性能比较

三种主流3D视觉方案代表性产品

三、国内3D成像器件谁主沉浮?

谷歌的Tango、苹果的AR Kit,巨头公司分别针对Android和iOS系统推出了配备智能手机的AR产品。2016年6月,联想在TechWorld 2016大会上正式推出了搭载谷歌Tango的全球首款消费级AR智能手机——联想Phab 2 Pro;Phab 2 Pro机身背部除了一颗标准的1600万像素摄像头,还有两个额外的摄像头,一个用来感知景深,一个进行运动追踪,可以实时为用户周围的环境进行3D建模,并在手机屏幕上呈现出增强现实的效果。2017年6月,苹果在WWDC 2017大会上推出针对 iOS 11的AR Kit,AR Kit支持大部分的苹果设备,依靠优秀的SLAM演算法,不需要额外的硬体配置,在单目摄像头环境下就可以完成一定的增强现实功能,为今后iOS移动端的巨大AR平台的搭建提供坚实基础,迎来AR领域一次质的飞跃。

手机AR

众多前沿领域的应用将越来越依赖深度摄像头,就好像VR、机器人、安防等为了得到更精准的体验,这也是为什么国际巨头都在布局于此的原因。深度摄像头(又称3D感测器)从视觉数据获取的角度提升机器感知能力。由于其具有一定的技术门槛,国内外涉足此研发的比较少。集中在国外有苹果、微软、谷歌、INTEL、Oculus、SONY,国内奥比中光、华捷艾米,图漾,乐行天下等。目前,深度摄像头已经渡过技术基础期,方向明确了,将进入3-5年的成长期,未来将掀起3D感测器的浪潮。

依据海通证券行业研究报告信息披露,2017年前置结构光3D摄像头硬体成本在15美元左右,随著3D摄像头的普及,规模效应将逐渐显现,预计2020年硬体成本变为8美元左右;后置TOF时间光3D摄像头由于在硬体方面比结构光简单,因此成本略低,预计2017年成本约为11美元,预计到2020年硬体成本将变为6美元左右。

3D结构光方案细分零部件价值

移动端3D视觉结构光方案产业链汇总

移动端3D视觉结构光方案国内产业链汇总

视觉结构光方案TX发射部分结构图

奥比中光(单目结构光):该公司推出的3D深度摄像头产品有Astra和Astra-Mini,此两款已经量产,后续还会推出更加小型化的Astra-E以及Astra-P,可运用于手机、平板、无人机、VR/AR等。Astra系列深度摄像头主要由一个红外摄像头、一个激光器和一个RGB摄像头组成,如图所示。

Astra产品图

Astra-Mini产品图

 图漾(双目+结构光):图漾的方案采用的是两个红外摄像头加一个激光器进行深度信息测量,模组下图所示:

图漾模组样品

乐行天下(TOF):该公司开发的RGBD 3D视觉深度摄像头设备采用一颗TOF深度摄像头以测量视觉范围内的景物深度信息和轮廓信息,还有另外一颗普通RGB拍照摄像头,用于获得物理表面纹理信息,两者结合就可以很好的判断前方物体距离和形状,再配合乐行自主开发的人物识别、人脸识别、轮廓分离、骨骼追踪、动作识别等演算法,可应用于机器人定位和导航、VR/AR手势识别、体感游戏、三维建模、工业智能化检测等等领域。(更多详情请阅智慧产品圈发布的《揭秘国内独家TOF深度摄像头,助力机器人避障与室内导航》一文。)其模块如图所示:

乐行天下RGBD 3D深度摄像头结构图

有望取代激光雷达引发机器人及VR内容应用革命。深度摄像头最知名的消费级应用是体感摄像头,如微软XBOX游戏机的体感摄像头Kinect。微软的HOLOLENSE也大量采用了深度摄像头。深度摄像头最热的领域是机器人,自动驾驶,AR/VR,智能安防,智能家居,消费娱乐等,它们对深度摄像头有著非常巨大的需求。机器人的导航主要有无线定位、激光雷达、视觉导航、惯性导航以及超声波等方式。随著3D感测器的发展,视觉导航有望成为最主流的方式。

本次3D成像浪潮中,上述国内初创公司虽已经上市3D成像模块,但距离成熟的手机端应用所需要的成熟度还是有一定的距离,这种距离差距一样面来自初创公司的技术沉淀不足以快速堆积创新形成产品;另一方面,对于手机移动端的3D成像模组未能快速上市,也与其自身的体量有关,华为,oppo,vivo,小米等国内大块头终端机集成商对于初创公司的研发能力存在怀疑;更深层次的原因在于,这些大厂认为,3D成像模组属于手机端的战略核心器件,更希望自身具有较多的掌控权,在其掌握3D成像演算法资源后,这种3D结构光成像模组本身的核心技术就在于制造封装,而制造封装的优势却是传统光电企业所具有的。相对与初创公司,大厂的研发设计及演算法公关能力更为强劲,在3D成像演算法方面积累及与高校科研机构合作更为深入,绕开初创公司,与传统光电制造商直接合作,获取更快更成熟且更低价的3D模组便成为必然。对于这部分初创公司,能否敲开中小企业的大门,成为这轮3D大战能否胜出的关键。

对于基于TOF器件的3D成像模组的初创企业,由于核心器件为意法或是TI等国外半导体公司,这些初创公司的核心竞争力将演化为为不具备演算法研发实力的中小企业提供演算法支持,这些中小企业将利用自己的硬体制造优势,直接使用TOF器件和VSCEL生产成像模组,两者结合形成产品,这些初创公司的生存空间将被压缩,是否能找到3D成像模组的垂直应用产品,直接面向C端用户成为未来存活与发展的关键。舜宇光学,欧菲光,水晶光电,邱泰,汇顶科技等传统光电在其公告中也都有表示3D成像模组处于研发中。

VR、无人机领域方兴未艾,AR市场波澜又起,并且由AR眼镜、头盔等独立设备发展为配备智能手机的AR工具。2017年11月28日下午,华为荣耀在北京工业大学奥林匹克体育馆举行发布会,推出了华为称之为「点云深度摄像头」的散斑结构光手机配件—Jupiter X(舜宇内部料号)。

「点云深度摄像头」可以感知用户脸部的深度,对用户的脸部建模,识别精度达到亚毫米级别,从而达到高精度及安全性的人脸识别。

此外,借助结构光技术,荣耀 V10可以实现 3D 人脸建模和人脸识别,同时还有 3D 面部表情控制以及 3D 小物体建模。

Jupiter X,舜宇智能光学提供了包括光学设计、结构设计、ID设计、图像处理等嵌入式软体系统开发的解决方案。

四、总之

从触摸屏到语音助手到指纹识别,iPhone引领了智能手机的进化方向。当2017年推出的10周年版的 iPhone X将3D深度感知变成必备配件时,3D感知的普及也就是时间问题,华为荣耀V10将这一时间大大的缩短。对于3D成像器件产业而言,结构光初创公司能否尽快推出移动端产品并获得手机大厂的青睐,是其能否与传统光电巨头竞争分羹的关键;基于TOF的初创公司是否能找到3D成像模组的垂直应用产品,直接面向C端用户成为未来存活与发展的关键。得益于这些微小的半导体晶圆,智能手机将变成一个沟通现实和虚拟世界的窗口,替换滑鼠、触摸屏,创造新的人机交互方式。

参考:

1、不得不看!国内深度摄像头方案大起底-智慧产品圈

2、深度摄像头已过基础期_行业新闻_中安网

3、【西南电子】舜宇光学科技(2382.HK)深度--迈向浪潮之巅的大陆光学领导者--智能汽车

4、智能光学大事件 | 华为荣耀V10:全球首款「散斑结构光」手机配件发布—Jupiter X

5、苹果3d视觉深度分析:龙头全新意志,开启消费电子「AI+AR」新时代 - MBA智库文档

推荐阅读:

相关文章