一、 人工智慧晶元发展现状及趋势1、深度学习演算法对晶元要求更为苛刻,通用 CPU 性价比相对较差经历了 60 多年的起起伏伏之后,人工智慧终于迎来了第三次爆发。第三次爆发的核心引爆点是深度学习演算法的出现,但其背后的支撑是数据和算力。对整个 AI 行业来讲,演算法、数据和算力三大基本要素中,数据尤其是海量数据的获取和处理难度在下降,演算法也在深度学习模型的基础上不断优化,而负责将数据和深度演算法统一协调起来的晶元能否获得大的飞跃,成为市场关注的焦点。

深度学习演算法对晶元性能需求主要表现在三个方面:一、海量数据在计算和存储单元之间的高速通信需求。这不但需要晶元具备强大的缓存和片上存储能力,而且还需要计算和存储单元之间有较大的通信带宽。二、专用计算能力需求高。深度学习演算法中有大量卷积、残差网路、全连接等特殊计算需要处理,还需要提升运算速度,降低功耗。三、海量数据自身处理同样也对晶元提出了新的要求,尤其是非结构化数据的增多,对传统晶元结构造成了较大的压力。通用 CPU 在深度学习中可用但效率较低。比如在图像处理领域,主要用到的是 CNN(卷积神经网路),在自然语言识别、语音处理等领域,主要用到的是 RNN(循环神经网路),虽然这两种演算法模型有著较大的区别,但本质上都是向量和矩阵运算,主要是加法和乘法,辅助一些除法和指数运算。传统 CPU 可用于做上述运算,但是 CPU 还有大量的计算逻辑控制单元,这些单元在 AI 计算中是用不上的,造成了 CPU 在 AI 计算中的性价比较低。

2、GPU、FPGA 以及 ASIC 各有优劣,成为当前 AI 晶元行业的主流

正因为 CPU 在 AI 计算上的弱点,给了可以实现海量并行计算且能够对进行计算加速的 AI 晶元留下了市场空间。从广义上讲,面向 AI 计算的晶元都可以称为 AI 晶元,包括基于传统架构的 GPU、FPGA以及 ASIC(专用晶元),也包括正在研究但离商用还有较大差距的类脑晶元、可重构 AI 晶元等。云端训练晶元市场较为集中,而推理市场云、边两端均有大量企业参与按照部署位置划分,AI 晶元可以分为云端晶元和边缘端晶元。云端晶元部署位置包括公有云、私有云或者混合云等基础设施,主要用于处理海量数据和大规模计算,而且还要能够支持语音、图片、视频等非结构化应用的计算和传输,一般情况下都是用多个处理器并行完成相关任务;边缘端 AI 晶元主要应用于嵌入式、移动终端等领域,如摄像头、智能手机、边缘伺服器、工控设备等,此类晶元一般体积小、耗电低,性能要求略低,一般只需具备一两种 AI 能力。按照承担的任务分,AI 晶元可以划分为训练晶元和推理晶元。训练是指通过大量标记过的数据在平台上进行「学习」,并形成具备特定功能的神经网路模型;推理则是利用已经训练好的模型输入新数据通过计算得到各种结论。训练晶元对算力、精度要求非常之高,而且还需要具备一定的通用性,以适应多种演算法的训练;推理晶元更加注重综合能力,包括算力能耗、时延、成本等因素。综合来看,训练晶元由于对算力的特殊要求,只适合在云端部署,而且多采用的是「CPU+加速晶元」类似的异构模式,加速晶元可以是 GPU,也可以是 FPGA 或者是 ASIC 专用晶元。AI 训练晶元市场集中度高,英伟达和谷歌领先,英特尔和 AMD 正在积极切入。推理在云端和终端都可进行,市场门槛相对较低,市场参与者较多。云端推理晶元除了传统的英伟达、谷歌、赛灵思等晶元大厂外,Groq等国际新兴力量也在加入竞争,国内寒武纪、比特大陆也有不错表现;终端推理晶元市场较为分散,场景各异,参与者除了英伟达、英特尔、ARM 和高通之外,国内企业如寒武纪、地平线、云知声、云天励飞等在各自细分领域均有所建树。

GPU 擅长云端训练,但需与 CPU 异构、功耗高且推理效率一般GPU(Graphics Processing Unit)是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的晶元。正是由于其具备良好的矩阵计算能力和并行计算优势,最早被用于 AI 计算,并在云端获得大量应用。GPU 中超过 80%部分为运算单元(ALU),而 CPU 仅有 20%,因此 GPU更擅长于大规模并行运算。以英伟达的 GPU TITAN X 为例,该产品在深度学习中所需训练时间只有CPU 的 1/10 不到。但 GPU 用于云端训练也有短板,GPU 需要同 CPU 进行异构,通过 CPU 调用才能工作,而且本身功耗非常高。同时,GPU 在推理方面需要对单项输入进行处理时,并行计算的优势未必能够得到很好的发挥,会出现较多的资源浪费。

▲CPU与GPU架构对比

FPGA 晶元算力强、灵活度高,但技术难度大国内差距较为明显

FPGA(Field-Programmable Gate Array)即现场可编程门阵列,该晶元集成了大量的基本门电路以及存储器,其灵活性介于 CPU、GPU 等通用处理器和专用集成电路 ASIC 之间,在硬体固定之前,允许使用者灵活使用软体进行编程。FPGA 在出厂时是「万能晶元」,用户可根据自身需求,用硬体描述语言对 FPGA 的硬体电路进行设计;每完成一次烧录,FPGA 内部的硬体电路就有了确定的连接方式,具有了一定的功能;输入的数据只需要依次经过各个门电路,就可以得到输出结果。FPGA 应用于 AI 有以下优势:(1)算力强劲。由于 FPGA 可以同时进行数据并行和任务并行计算,在处理特定应用时效果更加明显,对于某一个特定的运算,FPGA 可以通过编辑重组电路,生成专用电路,大幅压缩计算周期。从赛灵思推出的 FPGA 产品看,其吞吐量和时延指标都好于 CPU 和 GPU 产品。(2)功耗优势明显。FPGA 能耗比是CPU的10倍以上、GPU的3倍。由于在 FPGA 中没有取指令与指令解码操作,没有这部分功耗;而在复杂指令集(X86)的 CPU 中仅仅解码就占整个晶元能耗的约 50%,在 GPU 里取指与解码也会消耗 10%至 20%的能耗。(3)灵活性好。使用通用处理器或 ASIC 难以实现的下层硬体控制操作技术,利用 FPGA 可以很方便的实现,从而为演算法的功能实现和优化留出了更大空间。(4)成本相对 ASIC 具备一定优势。FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC,在晶元需求还未成规模、深度学习演算法暂未稳定需要不断迭代改进的情况下,利用具备可重构特性的FPGA 晶元来实现半定制的人工智慧晶元是最佳选择。正因为存在上述优势,FPGA 被广泛用于 AI 云端和终端的推理。国外包括亚马逊、微软都推出了基于 FPGA 的云计算服务,而国内包括腾讯云、阿里云均在 2017 年推出了基于 FPGA 的服务,百度大脑也使用了 FPGA 晶元。从市场格局上看,全球 FPGA 长期被 Xilinx(赛灵思)、Intel(英特尔)、Lattice(莱迪思)、Microsemi(美高森美)四大巨头垄断。其中,赛灵思和英特尔合计占到市场的 90%左右,赛灵思的市场份额超过 50%,国内厂商刚刚起步,差距较大。

专用晶元(ASIC)深度学习演算法加速应用增多,可提供更高能效表现和计算效率ASIC(Application Specific Integrated Circuits),即专用晶元,是一种为特定目的、面向特定用户需求设计的定制晶元,具备性能更强、体积小、功耗低、可靠性更高等优点。在大规模量产的情况下,还具备成本低的特点。ASIC 与 GPU、FPGA 不同,GPU、FPGA 除了是一种技术路线之外,还是实实在在的确定产品,而 ASIC 只是一种技术路线或者方案,其呈现出的最终形态与功能也是多种多样的。近年来,越来越多的公司开始采用 ASIC 晶元进行深度学习演算法加速,其中表现最为突出的 ASIC 就是 Google 的TPU(张量处理晶元)。TPU 是谷歌为提升 AI 计算能力同时大幅降低功耗而专门设计的晶元。该晶元正式发布于 2016 年 5月。TPU 之所以称为 AI 专用晶元,是因为它是专门针对 TensorFlow 等机器学习平台而打造,该晶元可以在相同时间内处理更复杂、更强大的机器学习模型。谷歌通过数据中心测试显示,TPU 平均比当时的 GPU 或 CPU 快 15-30 倍,性能功耗比(TFOPS/Watt)高出约 30-80 倍。但是,ASIC 一旦制造完成以后就不能修改了,且研发周期较长、商业应用风险较大,目前只有大企业或背靠大企业的团队愿意投入到它的完整开发中。国外主要是谷歌在主导,国内企业寒武纪开发的 Cambricon 系列处理器也广泛受到关注。其中,华为海思的麒麟 980 处理器所搭载的 NPU 就是寒武纪的处理器 IP。

3、短期内 GPU 仍将是 AI 晶元主导,长期看三大技术路线将呈现并行态势短期内 GPU 仍将主导 AI 晶元市场,FPGA 的使用将更为广泛GPU 短期将延续 AI 晶元的领导地位。GPU 作为市场上 AI 计算最成熟、应用最广泛的通用型晶元,应用潜力较大。凭借其强大的计算能力、较高的通用性,GPU 将继续占领 AI 晶元的主要市场份额。当前,两大 GPU 厂商都还在不断升级架构并推出新品,深度学习性能提升明显,未来应用的场景将更为丰富。英伟达凭借著其在矩阵运算上的优势,率先推出了专为深度学习优化的 Pascal GPU,而且针对 GPU 在深度学习上的短板,2018 年推出了 Volta 架构,正在完成加速-运算-AI 构建的闭环;AMD 针对深度学习,2018 年推出 Radeon Instinct 系列,未来将应用于数据中心、超算等 AI 基础设施上。我们预计,在效率和场景应用要求大幅提升之前,作为数据中心和大型计算力支撑的主力军,GPU 仍具有很大的优势。

FPGA 是短期内 AI 晶元市场上的重要增长点,FPGA 的最大优势在于可编程带来的配置灵活性,在当前技术与运用都在快速更迭的时期,FPGA 具有明显的实用性。企业通过 FPGA 可以有效降低研发调试成本,提高市场响应能力,推出差异化产品。在专业晶元发展得足够完善之前,FPGA 是最好的过渡产品,正因为如此,科技巨头纷纷布局云计算+FPGA 的平台。随著 FPGA 的开发者生态逐渐丰富,适用的编程语言增加,FPGA 运用会更加广泛。因此短期内,FPGA 作为兼顾效率和灵活性的硬体选择仍将是热点所在。长期来看 GPU、FPGA 以及 ASIC 三大类技术路线将并存GPU 主要方向是高级复杂演算法和通用型人工智慧平台。(1)高端复杂演算法实现方向。由于 GPU 本身就具备高性能计算优势,同时对于指令的逻辑控制上可以做的更复杂,在面向复杂 AI 计算的应用方面具有较大优势。(2)通用型的人工智慧平台方向。GPU 由于通用性强,性能较高,可以应用于大型人工智慧平台够高效地完成不同种类的调用需求。FPGA 未来在垂直行业有著较大的空间。由于在灵活性方面的优势,FPGA 对于部分市场变化迅速的行业最为实用。同时,FPGA 的高端器件中也可以逐渐增加 DSP、ARM 核等高级模块,以实现较为复杂的演算法。随著 FPGA 应用生态的逐步成熟,FPGA 的优势也会逐渐为更多用户所认可,并得以广泛应用。ASIC 长远来看非常适用于人工智慧,尤其是应对未来爆发的面向应用场景的定制化晶元需求。ASIC的潜力体现在,AI 演算法厂商有望通过演算法嵌入切入该领域,以进入如安防、智能驾驶等场景。由于其具备高性能低消耗的特点,可以基于多个人工智慧演算法进行定制,以应对不同的场景,未来在训练和推理市场上都有较大空间。4、国内外 AI 晶元市场需求将保持较快增长势头,云端、边缘均具备潜力近年来,伴随著全球 AI 产业的快速增长,AI 晶元需求大幅上升。按照 Gartner 最新数据,2018 年全球 AI 晶元市场规模达到 42.7 亿美元。未来几年,全球各大晶元企业、互联网巨头、初创企业都将在该市场上进行角逐,预计到 2023 年全球市场规模将达到 323 亿美元。未来五年(2019-2023年)平均增速约为 50%,其中数据中心、个人终端、物联网晶元均是增长的重点。

相比之下中金公司研究部公布的一组数据则更为乐观,该数据显示,2017年,整体AI晶元市场规模达到62.7亿美元,其中云端训练AI晶元20.2亿美元,云端推理晶元3.4亿美元,边缘计算AI晶元39.1亿美元;到2022年,整体AI晶元市场规模将会达到596.2亿美元,CAGR57%,其中云端训练AI晶元172.1亿美元,CAGR 53.5%,云端推断晶元71.9亿美元,CAGR 84.1%,边缘计算AI晶元352.2亿美元,CAGR 55.2%。

国内人工智慧晶元行业发展仍处在起步阶段。长期以来,我国在 CPU、GPU 和 DSP 设计上一直处于追赶状态,绝大多数晶元依靠国外的 IP 核进行设计,自主创新能力不足。但我们也看到,国内人工智慧产业的快速发展,也为国内晶元产业实现换道超车创造了机会。由于国内外在晶元生态上并未形成垄断,国内晶元设计厂商尤其是专用晶元设计厂商,同国外竞争对手还处在同一起跑线上。目前国内人工智慧晶元市场呈现出百花齐放的态势。AI 晶元的应用领域广泛分布在金融证券、商品推荐、安防、消费机器人、智能驾驶、智能家居等众多领域,催生了大量的人工智慧创业企业,如地平线、深鉴科技、寒武纪、云知声、云天励飞等。我们认为,未来随著国内人工智慧市场的快速发展,生态建设的完善,国内 AI 晶元企业将有著更大的发展空间,未来 5 年的市场规模增速将超过全球平均水平。二、 AI 晶元主要应用场景1、数据中心(云端)数据中心是 AI 训练晶元应用的最主要场景,主要涉及晶元是 GPU 和专用晶元(ASIC)。如前所述,GPU 在云端训练过程中得到广泛应用。目前,全球主流的硬体平台都在使用英伟达的 GPU 进行加速,AMD 也在积极参与。亚马逊网路服务 AWS EC2、Google Cloud Engine(GCE)、IBM Softlayer、Hetzner、Paperspace 、LeaderGPU、阿里云、平安云等计算平台都使用了英伟达的 GPU 产品提供深度学习演算法训练服务。

在云端推理市场上,由于晶元更加贴近应用,市场更多关注的是响应时间,需求也更加的细分。除了主流的 CPU+GPU 异构之外,还可通过 CPU+FPGA/ASIC 进行异构。目前英伟达在该市场依然保持著领军位置。主要原因是:GPU强大的并行计算能力(相比CPU)、通用性以及成熟的开发环境。但是GPU也并非是完美无缺的解决方案,明显的缺点如:高能耗以及高昂的价格。相比之下,FPGA的低延迟、低功耗、可编程性优势(适用于感测器数据预处理工作以及小型开发试错升级迭代阶段)和 ASIC 的特定优化和效能优势(适用于在确定性执行模型)也正在凸显,赛灵思、谷歌、Wave Computing、Groq、寒武纪、比特大陆等企业市场空间也在扩大。

来自IDC和Gartner的数据也显示,全球AI伺服器及AI晶元市场规模自2016年到2020年都将保持持续的高速增长,而与此同时全球云端AI晶元当中GPU的市场份额呈现出持续下滑的趋势,预计到2022年云端训练GPU占比将降至60%,云端推理GPU占比更是只有30%。2、移动终端智能手机在经历了近10年的高速增长后,市场已趋于饱和,出货增速趋近于0,行业逐渐转为存量市场。近年来,一批国产厂商在产品质量上逐渐达到了第一梯队的水平,进一步加剧了头部市场的竞争。为实现差异化竞争,各厂商加大手机AI功能的开发,通过在手机SoC晶元中加入AI引擎,调配现有计算单元来实现AI计算,或者直接加入AI协处理器,实现在低功耗情况下AI功能的高效运行。随著未来竞争进一步加剧,以及产量上升所带来的成本下降,预计AI晶元将会进一步渗透进入到中等机型市场,市场空间广阔。移动端AI晶元市场不止于智能手机,潜在市场还包括:智能手环/手表、VR/AR眼镜等市场。AI晶元在图像及语音方面的能力可能会带来未来人机交互方式的改变并进一步提升显示屏、摄像头的能力,有可能在未来改变移动端产品。以往通过云数据中心做手机端AI推理任务面临网路带宽延迟瓶颈的问题,严重影响用户使用体验,而CPU适合逻辑运算,但并不适合AI并行运算任务,目前市场上流行在SoC中增加协处理器或专用加速单元来执行AI任务。以智能手机为代表的移动互联网终端是一个多感测器融合的综合数据处理平台,AI晶元需要具备通用性,能够处理多类型任务能力。由于移动终端依靠电池驱动,而受制于电池仓大小和电池能量密度限制,晶元设计在追求算力的同时对功耗有著严格的限制,可以开发专用的ASIC晶元或者是使用功耗较低的DSP作为AI处理单元。

目前手机晶元市场存在以下情况:1)、AI应用场景、功能有限;2)、AI晶元厂商一般向SoC厂提供IP并收取授权费,需要AI-IP与整块SoC进行良好的匹配,而创业公司缺少与SoC厂商合作经验;3)、传统手机SoC厂商和IP厂商都在开发自己的AI加速器,传统IP巨头可以采取IP打包销售的方式推广其AI-IP产品。相比之下新进厂商在成本、功能、产品线、匹配度等都不占优的情况下很难在该领域存活。新进厂商应加强其软体方面优势,并加深与手机厂商合作共同进行手机AI功能开发。3、自动驾驶自动驾驶汽车装备了大量的感测器、摄像头、雷达、激光雷达等车辆自主运行需要的部件,每秒都会产生大量的数据,对晶元算力有很高的要求, 但受限于时延及可靠性,有关车辆控制的计算不能再依托云端进行,高算力、快速响应的车辆端人工智慧推理晶元必不可少。

目前,自动驾驶所使用的晶元主要基于 GPU、FPGA 和 ASIC 三条技术路线。但由于自动驾驶演算法仍在快速更迭和进化,因此大多自动驾驶晶元使用 GPU+FPGA 的解决方案。未来演算法稳定后,ASIC将成为主流。根据美国汽车工程师协会(SAE)将自动驾驶按照车辆行驶对于系统依赖程度分为L0~L5六个级别,L0为车辆行驶完全依赖驾驶员操纵,L3级以上系统即可在特定情况下实现驾驶员脱手操作,而L5级则是在全场景下车辆行驶完全实现对系统的依赖。目前商业化乘用车车型中仅有Audi A8、Tesla、凯迪拉克等部分车型可实现L2、3级ADAS。预计在2020年左右,随著感测器、车载处理器等产品的进一步完善,将会有更多的L3级车型出现。而L4、5级自动驾驶预计将会率先在封闭园区中的商用车平台上实现应用落地,更广泛的乘用车平台高级别自动驾驶,需要伴随著技术、政策、基础设施建设的进一步完善,预计至少在2025年~2030年以后才会出现在一般道路上。

目前汽车电子控制系统是分散式ECU架构,不同的信息娱乐、车身、车辆运动和动力总成系统及其细分功能分别由不同独立的ECU单元进行独立控制,部分高档车型上的ECU数量超过100个。未来随著汽车进入L3级以上的高级别自动驾驶时代,随著车载感测器数量及其所产生的数据量剧增,分散式电子系统难以满足对大量、多元的感测器数据进行高效融合处理,并综合所有感测器数据做出车辆控制决策等一系列操作需求。要满足以上功能需求,汽车电子系统由需要向著域控制器(DCU)、多域控制器(MDC)等集中化方向发展,未来,汽车电子操控系统将会进一步向著集中化、软硬体解耦及平台化方向发展,汽车将会由统一的超算平台对感测器数据进行处理、融合、决策最终实现高级别的自动驾驶功能。

伴随人工智慧技术在视觉领域的应用,基于视觉技术的自动驾驶方案逐渐变为可能,这需要在传统行车电脑平台上添加用于视觉演算法处理的AI晶元。自动驾驶汽车计算单元设计需要考虑算力、功耗体积等问题,出于硬体资源最优化应用,往往采取异构计算平台设计方案,及「CPU+XPU」(XPU包括:DSP/GPU/FPGA/ASIC),其中可采取DSP用于图像特征提取任务、GPU/FPGA/ASIC等计算单元用于目标识别、追踪任务等,而CPU则会用于定位、决策等逻辑运算任务。目前最典型的产品如英伟达的DRIVE PX系列及后续的Xavier、Pegasus等。除硬体计算平台外,英伟达为客户提供配套的软体平台及开放的上层感测器布局和自定义模块使得客户能够根据自身需要进行二次开发,其还为客户提供感知、制图以及行驶策略等解决方案。目前其产品已经被包括ZF、Bosch、Audi、Benz以及Tesla等Tier1s、OEMs厂商及诸多自动驾驶创业公司采用作为其处理器方案所使用。在全部的边缘计算场景中,用于自动驾驶的计算晶元设计难度最大,这主要体现在:1)算力要求高, L3级以上自动驾驶需要复数种类的感测器实现感测器冗余,包括:6~12颗单目摄像头、3~12台毫米波雷达、5台以内的激光雷达等(不同方案配置侧重不同),因此产生的数据量极大( 估计L5级一天可产生数据量4000GB),在车辆高速行驶的情况下系统需要能够快速对数据进行处理;2)汽车平台同样是由电池供电,因此对于计算单元功耗有较高的要求,早期计算平台功耗大、产热也较大,对于系统的续航及稳定性都有较大的印象;3)汽车电子需要满足ASIL-D车规级电子产品设计标准,而使自动驾驶所需要的中央处理器达到ASIL-D级设计标准难度更大。目前自动驾驶市场尚处于发展早期,市场环境不够成熟,但以英伟达、Intel(Mobileye、Altera)等科技巨头为代表的厂商已经投入巨资在该领域开发出了相关的硬体产品及配套软体技术。人工智慧晶元创业公司应该加强与OEMs、Tier1或产业联盟合作为其提供AI晶元+软体工具链的全套解决方案。AI 晶元用于自动驾驶之后,对传统的汽车电子市场冲击较大,传统的汽车电子巨头(恩智浦、英飞凌、意法半导体、瑞萨)虽然在自动驾驶晶元市场有所斩获,但风头远不及英特尔、英伟达、高通甚至是特斯拉。国内初创企业如地平线、眼擎科技、寒武纪也都在积极参与。在自动驾驶晶元领域进展最快以及竞争力最强的是英特尔和英伟达,英特尔强在能耗,英伟达则在算力和演算法平台方面优势明显。英特尔进入自动驾驶晶元市场虽然较晚,但通过一系列大手笔收购确立了其在自动驾驶市场上的龙头地位。2016 年,公司出资 167 亿美元收购了 FPGA 龙头 Altera;2017 年 3 月以 153 亿美元天价收购以色列 ADAS 公司 Mobileye,该公司凭借著 EyeQ 系列晶元占据了全球 ADAS 70%左右的市场,为英特尔切入自动驾驶市场创造了条件。收购完成之后,英特尔形成了完整的自动驾驶云到端的算力方案——英特尔凌动/至强+Mobileye EyeQ+Altera FPGA。英特尔收购 Mobileye 之后,后者也直接推出了 EyeQ5,支持 L4-L5 自动驾驶,预计在 2020 年量产。

英伟达在汽车AI晶元的竞争中不落下风。英伟达在2015年推出了世界首款车载超级计算机Drive PX,紧接著 2016 年推出 Drive PX2,2018 年推出新一代超级计算机 Drive Xavier,同年,基于双 Drive Xavier 晶元针对自动驾驶计程车业务的 Drive PX Pegasu 计算平台面世。2019 CES 上,英伟达推出了全球首款商用 L2+自动驾驶系统 NVIDIA DRIVE AutoPilot。DRIVE AutoPilot 的核心是 Xavier 系统级晶元。该晶元处理器算力高达每秒 30 万亿次,已经投产。

4、安防安防市场是全球及国内 AI 最为确定以及最大的市场,尤其是 AI 中的图像识别和视频处理技术正在全面影响安防产业。其中,在安防产品中,摄像头、交换机、IPC(网路摄像机)、硬碟刻录机、各类伺服器等设备都需要晶元,这些晶元也决定了整个安防系统的整体功能、技术指标、能耗以及成本。在安防晶元中,最为关注的还是四类与监控相关的晶元(ISP 晶元、DVR SoC 晶元、IPC SoC晶元、NVR SoC 晶元)。ISP 晶元(Image Signal Processing,图像信号处理)主要负责对前端摄像头所采集的原始图像信号进行处理;DVR(DigitalVideoRecorder,数字硬碟录像机)SoC 晶元主要用于模拟音视频的数字化、编码压缩与存储;IPC (IP Camera,IP 摄像机)SoC 晶元通常集成了嵌入式处理器(CPU)、图像信号处理(ISP)模块、视音频编码模块、网路介面模块等,具备入侵探测、人数统计、车辆逆行、丢包检测等一些简单的视频分析功能;NVR (Network Video Recorder,网路硬碟录像机) SoC 晶元主要用于视频数据的分析与存储,功能相对单一,但由于多与 IPC 联合使用,市场增长也较快。通常情况下,安防视频监控模拟摄像机的核心部件包括一颗图像感测器和一颗 ISP 晶元,安防视频监控网路摄像机的核心部件包括一颗图像感测器和一颗 IPC SoC 晶元。单从国内来看,未来国内视频监控行业增速仍将保持 12%-15%左右的水平增长,其中网路监控设备增长更为迅速,相关晶元产品需求十分旺盛。安防 AI 晶元市场上,除了传统晶元以及安防厂商,还有大量的创业企业在涌入。国外晶元厂商主要有英伟达、英特尔、安霸、TI、索尼、特威、三星、谷歌等;国内厂商主要有海思(华为)、国科微、中星微、北京君正、富瀚微、景嘉微、寒武纪、深鉴科技、云天励飞、中科曙光等。英伟达、英特尔等企业凭借著通用处理器以及物联网解决方案的优势,长期与安防巨头如海康、大华、博世等保持紧密联系;国内寒武纪、地平线、云天励飞等企业,都有 AI 晶元产品面世,海思本身就有安防摄像机 SoC 晶元,在新加入 AI 模块之后,竞争力进一步提升。

从安防行业发展的趋势来看,随著 5G 和物联网的快速落地,「云边结合」将是行业最大的趋势,云端晶元国内企业预计很难有所突破,但是边缘侧尤其是视频处理相关 AI 晶元还是有较大潜力,国产化替代将加速。但也看到,AI 晶元离在安防领域实现大规模快速落地仍有距离。除了功耗和算力约束外,工程化难度大也是困扰行业的重要因素,尤其是在安防这种产业链长而高度碎片化的产业,新技术落地需要长时间的积累与打磨,以及人力资源的不断投入。5、智能家居智能家居近年来也成为人工智慧重要的落地场景。从技术应用上讲,人类 90%的信息输出是通过语音,80%的是通过视觉,智能家居领域应用最多的就是智能语音交互技术。近年来,正是看到语音交互技术与智能家居深度融合的潜力,谷歌、苹果、微软均将其作为进入智能家居领域的重要切入口,发布了多款软硬体平台,如亚马逊推出的智能音箱设备。国内智能语音龙头企业科大讯飞较早就切入了该领域,联合地产商推出了硬体平台魔飞(MORFEI)平台,电视、咖啡机、电灯、空调、热水器等产品都能通过融入相关平台实现智能化。当前,无论是智能音箱还是其他智能家居设备,智能功能都是在云端来实现,但云端存在著语音交互时延的问题,对网路的需求限制了设备的使用空间,而且由此还带来了数据与隐私危机。为了让设备使用场景不受局限,用户体验更好,端侧智能已成为一种趋势,语音 AI 晶元也随之切入端侧市场。国内主要语音技术公司凭借自身在语音识别、自然语言处理、语音交互设计等技术上的积累,开始转型做 AI 语音晶元集成及提供语音交互解决方案,包括云知声、出门问问、思必驰以及 Rokid。市场上主流的 AI 语音晶元,一般都内置了为语音识别而优化的深度神经网路加速方案,以实现语音离线识别。随著演算法的精进,部分企业的语音识别能力得到了较快提升,尤其是在远场识别、语音分析和语义理解等方面都取得了重要进展。云知声在 2018 年 5 月,推出语音 AI 晶元雨燕,并在研发多模态晶元,以适应物联网场景,目前公司晶元产品已经广泛用于智能家电如空调之中;出门问问也在 2018 年推出了 AI 语音晶元模组「问芯」MobvoiA1;Rokid 也发在 2018 年发布了 AI 语音晶元 KAMINO18;思必驰利用其声纹识别等技术优势,2019 年初推出基于双 DSP 架构的语音处理专用晶元 TH1520,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能。

由于语音晶元市场过于细碎,需要企业根据场景和商业模式需要设计出晶元产品,这对传统的通用晶元企业的商业模式是一种颠覆,以致于在 2018 年以前都很少有晶元巨头进入该领域,这也给了国内语音晶元企业较大的施展空间。而对演算法公司来说,通过进入晶元市场,进而通过解决方案直接面向客户和应用场景,通过实战数据来训练和优化演算法。6、机器人机器人是人工智慧行业最早的落地形态,也是现在和将来重要的应用方向。机器人主要包括两类——制造环境下的工业机器人和非制造环境下的服务机器人。工业机器人主要是面向工业领域的多关节机械手或多自由度机器人。服务机器人则是除工业机器人之外的、用于非制造业并服务于人类的各种先进机器人。随著云物移大智等信息及智能化技术的发展,机器人在某些领域的工作效率高于人类,并在工业和服务场景中得到了大量应用。据国际机器人联盟统计,2017 年,全球工业机器人产量达到 38.1 万台,同比增长 30%,预计 2018-2021 年全球工业机器人产量将保持 10%以上增速增长,2021 年产量预计将达到 63.0 万台。中国是全球最大的工业机器人生产国,2017 年产量达到 13.79 万台,同比大幅增长 60%。服务机器人主要用于物流、防务、公共服务、医疗等领域,虽然规模不大,但是增长迅速。2017 年全球产量为 10.95 万台,同比大幅增长 85%。预计 2018 年全球专业服务机器人产量将达到 16.53 万台,同比增长 32%,2019-2021 年平均增速将保持在 21%左右。

机器人尤其是国内产业规模的快速扩大,将大幅带动国内机器人相关智能晶元产业的发展。机器人由控制、感测、驱动和电源四大装置构成,其中控制装置是机器人的「大脑」,核心是 AI 晶元。机器人晶元需要具备强大的数据计算、自主判断思考和执行能力,国外厂商如高通、英特尔、英伟达都在积极部署该领域,国内企业目前处于追赶状态,相关企业包括瑞芯微、珠海全志、炬力等。

三、AI晶元行业产业链及商业模式半导体行业产业链长,具有资本和技术壁垒双高的行业特点半导体行业产业链从上游到下游大体可分为:设计软体(EDA)、设备、材料(晶圆及耗材)、IC设计、代工、封装等。Fabless与IDM厂商负责晶元设计工作,其中IDM厂商是指集成了设计、制造、封装、销售等全流程的厂商,一般是一些科技巨头公司,Fabless厂商相比IDM规模更小,一般只负责晶元设计工作。分工模式(Fabless-Foundry)的出现主要是由于晶元制程工艺的不断发展,工艺研发费用及产线投资升级费用大幅上升导致一般晶元厂商难以覆盖成本,而 Foundry厂商则是统一对Fabless和IDM的委外订单进行流片,形成规模化生产优势,保证盈利的同时不断投资研发新的制程工艺,是摩尔定律的主要推动者。当前在半导体产业链中,我国在上游软体、设备、高端原材料以及代工制造与全球一线厂商差距较大,而在封装环节拥有长电、华天、通富微等行业前十企业,今年来在IC设计领域也逐渐涌现了以海思为代表的一批优秀企业。

半导体行业商业模式主要可分为:IP授权与流片生产模式行业主要存在两种商业模式IP授权和流片模式。其中在IP授权模式中,IP设计公司将自己设计的晶元功能单元,如:CPU、GPU、DSP、NPU等,授权给其他的IC设计公司,如华为海思麒麟970、980晶元获得了寒武纪NPU的IP授权。被授权方将会向授权方支付一笔授权费来获得IP,并在最终晶元产品销售中,以晶元最终售价的1%~3%向授权方支付版税。授权费用实现IP开发成本的覆盖,而版税作为IP设计公司的盈利。但正如手机晶元市场,优质的IP资源往往集中在科技巨头手中,拥有单一或少量IP的创业公司往往因为自身IP竞争力不足、或是难以提供具有综合竞争力的完整解决方案而最终落得被收购或退出市场的境地。流片生产模式虽然前期投入较大,但一款成功的产品将会使公司获得丰厚的利润,一般晶元产品定价采取8:20原则,即硬体成本:最终产品售价=8:20。该比率可能会随厂商对市场话语权不同而上下波动,因此一款成功的晶元销售毛利应在60%以上。但公司是否能够最终实现盈利,还需要在毛利中进一步扣除前期研发费用。

晶元设计需要厂商承担昂贵的EDA费用及高昂的人力成本晶元整体设计制造流程大体包括:1)IC设计公司进行晶元架构设计,2)将设计完成的晶元「图纸」文件交由Foundry厂商进行流片,3)裸片将会交由OSAT厂商进行封装,4)产品销售。研发费用主要包括:研发团队人力成本、EDA软体及IP授权费用及其他场地租金、水电费用等。其中,人力成本占研发成本主要部分,项目开发效率与资深工程师数量正相关,国内资深晶元设计工程师年薪一般在50~100万元之间。EDA工具是晶元设计工具,是发展超大型集成电路的基石,EDA工具可有效提升产品良率。目前,该领域被海外厂商高度垄断,CR3大于70%。EDA厂商主要是通过向IC设计公司进行软体授权获取盈利,根据调研,20人的研发团队设计一款晶元所需要的EDA工具采购费用在100万美元/年左右(包括EDA和LPDDR等IP购买成本)。英伟达开发Xavier,动用了2000个工程师,开发费用共计20以美金,Xlinix ACAP动用了1500个工程师,开发费用总共10亿美金。

晶元设计技术积累+市场洞察力=晶元产品市场推广成功与否在IP授权和流片生产两大类商业模式中,IP授权由于不涉及晶元制造,仅需要考虑研发费用,资金占用相对小、风险较低。流片除前期的研发投入以外,还需要向代工厂支付巨额的代工费用,对资金占用极大,需要晶元销售达到一定量级才能分摊掉前期巨额投入实现盈利,若期间出现流片失败(即流片未达设计期望性能指标)或者市场推广失利等情况,晶元设计厂商需要承担前期巨额的研发和制造投入、费用损失。晶元单位硬体成本主要包含掩膜、封装、测试和晶圆成本,并受到制程工艺、产量、晶元面积等多因素的影响。我们简要测算16nm制程工艺下,不同产量不同面积的晶元单位成本,可以看出晶元单位硬体成本随晶元面积、产量上升逐渐下降。因此,一款晶元能否获得广大的市场认可,并拥有较长的产品生命周期,实现晶元产品的规模销售和生产显著决定了企业的盈亏情况。

四、国内外AI晶元企业融资概况从2012年开始,英伟达将其GPU产品应用于AI并行运算应用中,人们意识到了AI晶元的巨大潜力,传统半导体行业巨头、科技巨头和众多创业团队纷纷加入到该领域的产品研发中来。国内创业公司多成立于15年以后,从2017年开始大量的AI计算晶元产品陆续发布,产品逐步开始实现落地。传统的半导体巨头和科技巨头也在布局AI晶元领域,除自主研发以外,基于资金优势通过对外投资收购优质资产及创业团队等手段加速自身的AI晶元业务发展,典型代表如Intel,大手笔收购了包括Altera、Nervana、Movidius以及Mobileye在内的多家AI晶元企业,阿里巴巴也通过先后投资、收购布局AI晶元的开发。

国内大量的AI晶元创业公司都是在2015-2017年成立,2018年新增企业数量减少。资本方面,受到宏观经济影响虽然行业内投融资事件相比2017年同比增长了32%,但行业整体投融资金额骤减,但头部企业在2018年依然持续获得投资人青睐,多家企业创造了估值新高。

五、国内外 AI 晶元厂商概览1、整体排名近年来,各类势力均在发力 AI 晶元,参与者包括传统晶元设计、IT 厂商、技术公司、互联网以及初创企业等,产品覆盖了 CPU、GPU、FPGA 、ASIC 等。在市场调研机构 Compass Intelligence 2018年发布的 AI Chipset Index TOP24 榜单中,前十依然是欧美韩日企业,国内晶元企业如华为海思、联发科、Imagination(2017 年被中国资本收购)、寒武纪、地平线机器人等企业进入该榜单,其中华为海思排 12 位,寒武纪排 23 位,地平线机器人排 24 位。

2、晶元企业晶元设计企业依然是当前 AI 晶元市场的主要力量,包括英伟达、英特尔、AMD、高通、三星、恩智浦、博通、华为海思、联发科、Marvell(美满)、赛灵思等,另外,还包括不直接参与晶元设计,只做晶元 IP 授权的 ARM 公司。其中,英伟达、英特尔竞争力最为强劲。英伟达:AI 晶元市场的领导者,计算加速平台广泛用于数据中心、自动驾驶等场景英伟达创立于 1993 年,最初的主业为显卡和主板晶元组。其主板晶元组主要客户以前是 AMD,但是在 AMD 收购 ATI 推出自研晶元组之后,英伟达在该领域的优势就荡然无存。于是,公司全面转向到 GPU 技术研发,同时进入人工智慧领域。2012 年,公司神经网路技术在其 GPU 产品的支持下取得重大进展,并在计算机视觉、语音识别、自然语言处理等方面得到广泛应用。2016 年,全球人工智慧发展加速,英伟达迅速推出了第一个专为深度学习优化的 Pascal GPU。2017年,英伟达又推出了性能相比 Pascal 提升 5 倍的新 GPU 架构 Volta,同时推出神经网路推理加速器TensorRT 3。至此,英伟达完成了算力、AI 构建平台的部署,也理所当然成为这一波人工智慧热潮的最大受益者和领导者。公司的战略方向包括人工智慧和自动驾驶。人工智慧方面,英伟达面向人工智慧的产品有两类,Tesla 系列 GPU 晶元以及 DGX 训练伺服器。Tesla 系列是专门针对 AI 深度学习演算法加速设计 GPU 晶元,DGX 则主要是面向 AI 研究开发人员设计的工作站或者超算系统。2018 年,公司包含这两款产品的数据中心业务收入大幅增长 52%,其中Tesla V100 的强劲销售是其收入的主要来源。自动驾驶方面。英伟达针对自动驾驶等场景,推出了 Tegra 处理器,并提供了自动驾驶相关的工具包。2018 年,基于 Tegra 处理器,英伟达推出了 NVIDIA DRIVE AutoPilot Level 2+,并赢得了丰田、戴姆勒等车企的自动驾驶订单。同时,2018 年,公司也正在积极推动 Xavier 自动驾驶晶元的量产。值得关注的是,英伟达还正在通过投资和并购方式继续加强在超算或者数据中心方面的业务能力。2019 年 3 月,英伟达宣称将斥资 69 亿美元收购 Mellanox。Mellanox 是超算互联技术的早期研发和参与者。通过与 Mellanox 的结合,英伟达将具备优化数据中心网路负载能力的能力,其 GPU 加速解决方案在超算或者数据中心领域的竞争力也将得到显著提升。英特尔加速向数字公司转型,通过并购+生态优势发力人工智慧英特尔作为传统的 CPU 设计制造企业,在传统 PC、伺服器市场有著绝对的统治力。随著互联网时代的到来以及个人电脑市场的饱和,公司也在开始加快向数字公司转型。尤其在人工智慧兴起之后,英特尔凭借著技术和生态优势,打造算力平台,形成全栈式解决方案。英特尔主要产品为 CPU、FPGA 以及相关的晶元模组。虽然 CPU 产品在训练端的应用效率不及英伟达,但推理端优势较为明显。英特尔认为,未来 AI 工作周期中,推理的时长将是训练时长的 5 倍甚至 10 倍,推理端的晶元需求也会放量。同时,即使是云端训练,GPU 也需要同 CPU 进行异构。目前,英特尔在人工智慧晶元领域主要通过三条路径:1)通过并购快速积累人工智慧晶元相关的技术和人才,并迅速完成整合。英特尔在收购了 Altera 后,还先后收购了 Nervana、Movidius 与 Mobileye等初创企业。在完成上述一系列并购之后,英特尔设立了 AI 事业群,整合了 Xeon、Xeon Phi、Nervana、Altera、Movidius 等业务和产品,同时将原有的自动驾驶业务板块并入 Mobileye。2)建立多元的产品线。目前,英特尔正建构满足高性能、低功耗、低延迟等差异化晶元解决方案,除了 Xeon 外,包括可支持云端服务 Azure 的 Movidius VPU 与 FPGA。3)通过计算平台等产品,提供强大的整合能力,优化 AI 计算系统的负载,提供整体解决方案。在英特尔收购的这些企业中,除了前面已经提到的 Altera、Mobileye 之外,Nervana 也非常值得关注。2016 年 8 月,英特尔斥资超过 3.5 亿美元收购这家员工人数不超过 50 人的创业公司,但是经过不到三年的成长,这家公司已经成为英特尔 AI 事业部的主体。依托 Nervana,英特尔成功在 2017年 10 月推出了专门针对机器学习的神经网路系列晶元,目前该晶元已经升级至第二代,预计 2019年下半年将正式量产上市,该晶元在云端上预计能和英伟达的 GPU 产品一较高下。

3、IT 及互联网企业AI 兴起之后,互联网及 IT 企业凭借著在各大应用场景上技术和生态积累,也在积极拓展 AI 相关市场,其中 AI 晶元是部署重点之一。相较而言,互联网企业凭借著数据和场景先天优势,在 AI 演算法和晶元领域优势更为明显,如美国谷歌、国内的 BAT。IT 企业如 IBM,在人工智慧领域较早开始研究,2018 年年中曾经推出专门针对深度学习演算法的原型晶元。谷歌:TPU 晶元已经实现从云到端,物联网 TPU Edge 是当前布局重点谷歌可谓是 AI 晶元行业的一匹黑马,但是竞争力强劲。谷歌拥有大规模的数据中心,起初同其他厂商的数据中心一样,都采用 CPU+GPU 等异构架构进行计算加速,用来完成图像识别、语音搜索等计算服务。但是,随著业务量的快速增长,传统的异构模式也很难支撑庞大的算力需求,需要探索新的高效计算架构。同时,谷歌也需要通过研发晶元来拓展 AI 平台 TensorFlow 的生态。因此,2016年,Google 正式发布了 TPU 晶元。从谷歌 TPU 的本质来看,它是一款 ASIC(定制晶元),针对 TensorFlow 进行了特殊优化,因此该产品在其他平台上无法使用。第一代 Cloud TPU 仅用于自家云端机房,且已对多种 Google 官方云端服务带来加速效果,例如 Google 街景图服务的文字处理、Google 相簿的照片分析、甚至 Google搜寻引擎服务等。Cloud TPU 也在快速改版,2017 年推出第二代,2018 年推出第三代晶元 TPU 3.0。同时,谷歌对 TPU 的态度也更为开放,之前主要是自用,目前也在对用户开放租赁业务,但没有提供给系统商。除了云端,谷歌针对边缘端推理需求快速增长的趋势,也在开发边缘 TPU 晶元。2017 年 11 月,Google 推出轻量版的 TensorFlow Lite(某种程度取代此前的 TensorFlow Mobile),使得能耗有限的移动设备也能支持TensorFlow,2018年推出的Edge TPU晶元即是以执行TensorFlow Lite为主,而非 TensorFlow。Edge TPU 性能虽然远不如 TPU,但功耗及体积大幅缩小,适合物联网设备采用。Edge TPU 可以自己运行计算,不需要与多台强大计算机相连,可在感测器或网关设备中与标准晶元或微控制器共同处理 AI 工作。按照谷歌的规划,Edge TPU 将提供给系统商,开放程度将进一步提升。如果 Edge TPU 推广顺利,支持的系统伙伴将进一步增多,谷歌将尽快推出下一代 Edge TPU 产品。即使推广不顺利,Google也可能自行推出 Edge 网关、Edge 设备等产品。

阿里巴巴:推出自研神经网路处理晶元,同时加速对 AI 企业投资布局阿里巴巴作为国内 AI 领域的领军企业,在底层算力、演算法技术以及应用平台方面都有较强积累。同Google 类似原因,阿里巴巴也在近年来开始开发 AI 晶元,同时加大对相关领域的投资布局。2017 年,阿里巴巴成立阿里达摩院,研究领域之一就是 AI 晶元技术。2018 年 4 月,阿里达摩院对外宣布正研发一款 Ali-NPU 神经网路晶元,预计将在 2019 年下半年问世。这款晶元将主要应用于图像视频分析、机器学习等 AI 推理计算。阿里巴巴在自研 AI 晶元之前,主要在通过投资的方式布局 AI 晶元领域。目前,寒武纪、深鉴科技、杭州中天微等都有阿里巴巴的入股,其中 2016 年 1 月份还成为了 AI 晶元设计企业杭州中天微的第一大股东。

百度:通过自研、合作以及投资等多种方式布局 AI 晶元百度作为搜索企业,其对 AI 晶元的需求更为明确。早在 2011 年,百度就在 FPGA 和 GPU 进行了大规模部署,也开始在 FPGA 的基础上研发 AI 加速器来满足深度学习运算的需要。此后,百度就不断通过合作、投资和自研的方式来推进该业务。1)加强同晶元设计及 IP 企业合作。2017 年 3 月,百度发布了 DuerOS 智慧晶元,并与紫光展锐、ARM、上海汉枫达成战略合作。这款晶元搭载了对话式人工智慧操作系统,可以赋予设备可对话的能力,能广泛用于智能玩具、蓝牙音箱、智能家居等多种设备。2017 年 8 月,百度又与赛思灵(Xilinx)发布了 XPU,这是一款 256 核、基于 FPGA 的云计算加速晶元。同在 2017 年,百度同华为达成合作,推动终端 AI 晶元的落地。2)参与 AI 晶元企业投资。2018 年 2 月 5 日,美国初创公司 Lightelligence 宣布获得了 1000 万美元种子轮融资,由百度风投和美国半导体高管财团领投。Lightelligence主要利用基于光学的新技术,来加速人工智慧的工作负载,通过光子电路的新兴技术来加速信息处理。3)自研晶元也正在加速部署。2018 年 7 月,百度正式发布了自研的 AI 晶元「昆仑」,这是当时国内第一款云端全功能 AI 晶元,其中包含训练晶元昆仑 818-300,推理晶元昆仑 818-100。昆仑 AI 晶元是基于百度 CPU、GPU、FPGA 的 AI 加速器研发,能够在 100W 左右的功耗下,提供高达 260 万亿次/秒的运算速度,算力处于业界领先水平。

4、创业企业寒武纪:同时发力终端和云端晶元,技术综合实力较强寒武纪发源于中科院,是目前全球领先的智能晶元公司,由陈天石、陈云霁兄弟联合创办,团队成员主要人员构成也来自于中科院,其中还有部分参与龙芯项目的成员。2018 年 6 月公司,公司获得数亿美元投资,此轮融资之后,寒武纪科技估值从上年的 10 亿美金大幅上升至 25 亿美元。公司是目前国内为数不多的同时具备云端和终端 AI 晶元设计能力的企业。公司最早发力的是终端晶元,主要为 1A 系列,包括 1A、1H8 和 1H16,公司通过 IP 授权的模式赋能终端或者晶元设计企业,目前主要合作伙伴包括华为,其中麒麟 970 就采用其 1A 处理器。另外,公司还推出了面向低功耗场景视觉应用的寒武纪 1H8,高性能且拥有广泛通用性的寒武纪 1H16,以及用于终端人工智慧产品的寒武纪 1M。2018 年 9 月,华为发布的麒麟 980 依然集成了优化版的寒武纪 1H 新一代智能处理器。公司云端晶元也取得较大突破。云端晶元一直是英特尔、英伟达等公司的领地,国内企业很难进入。2018 年 5 月,寒武纪推出算力达到 128Tops 的 MLU 100 云端智能晶元,可用于训练和推理。MLU100相比传统的 GPU 和 CPU 晶元,MLU 晶元拥有显著的性能功耗比和性能价格比优势,适用范围覆盖了图像识别、安防监控、智能驾驶等多个重点应用领域。2019年6月20日,寒武纪正式推出了第二代云端AI晶元——思元270(MLU270)及板卡产品。思元270采用的是寒武纪自主研发的MLUv02指令集,可支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智慧应用,更为视觉应用集成了充裕的视频和图像编解码硬体单元。具体性能指标方面,思元270晶元处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍,达到了128TOPS(INT8);同时在定点训练领域取得关键性突破,兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS;支持浮点运算和混合精度运算。

综合来看,公司在 AI 晶元方面竞争力较强。公司拥有自己的处理器架构和指令集,而且通过硬体神经元虚拟化、开发通用指令集、运用稀疏化处理器架构解决了 ASIC 用于深度学习时存在的云端算力的挑战、能效瓶颈、手机端和云端超大规模计算场景应用问题。地平线机器人:公司AI晶元和计算平台在嵌入式及智能驾驶领域具备优势地平线成立于 2015 年,主要从事边缘人工智慧晶元和计算平台业务,场景聚焦于智能驾驶和 AIoT边缘计算。2018 年起,公司逐渐实现产品化落地。2019 年 2 月,公司官方宣布已获得 6 亿美元 B轮融资,SK 中国、SK Hynix 以及数家中国一线汽车集团(与旗下基金)联合领投。B 轮融资后,地平线估值达 30 亿美元。2017 年 12 月,地平线发布中国首款全球领先的嵌入式人工智慧视觉晶元征程(Journey)系列和旭日(Sunrise)系列。旭日 1.0 处理器面向智能摄像头等应用场景,具备在前端实现大规模人脸检测跟踪、视频结构化的处理能力,可广泛用于智慧城市、智慧零售等场景。征程 1.0 处理器面向智能驾驶,具备同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时检测与识别的处理能力,同时满足车载严苛的环境要求以及不同环境下的视觉感知需求,可用于高性能 L2 级别的高级驾驶辅助系统 ADAS 。2018 年 2 月,地平线自主研发的高清智能人脸识别网路摄像机,搭载地平线旭日人工智慧晶元,提供基于深度学习演算法的人脸抓拍、特征抽取、人脸特征值比对等功能。可以在摄像机端实现人脸库最大规模为 5 万的高性能人脸识别功能,适用于智慧城市、智慧零售等多种行业。2018 年 4 月,公司发布地平线 Matrix1.0 自动驾驶计算平台。目前已经更新到性能更强的升级版本,地平线 Matrix 自动驾驶计算平台结合深度学习感知技术,具备强大的感知计算能力,能够为 L3 和 L4 级别自动驾驶提供高性能的感知系统。地平线 Matrix 自动驾驶计算平台已向世界顶级Robotaxi 厂商大规模供货,成功开创了中国自动驾驶晶元产品出海和商业化的先河。比特大陆:区块链矿机霸主进军AI领域比特大陆是全球领先的算力晶元设计企业,其致力于开发高性能、低功耗、全定制的算力晶元,是全球少数几家掌握最先进7nm制程设计能力并可规模量产7nm晶元的公司之一。目前,比特大陆的产品主要应用于区块链和人工智慧两个领域,区块链矿机的市场份额高达74.5%。2017年,比特大陆正式发布了面向人工智慧领域的子品牌——「算丰」,并推出了针对深度学习推理的第一代云端AI晶元BM1680。2018年3月,比特大陆快速推出了第二代云端人工智慧晶元BM1682,2018年9月份推出了面向终端的AI晶元产品BM1880,并计划于2019年推出其第三代云端AI晶元BM1684。此外,比特大陆基于其晶元,在云端还研发了加速卡、伺服器等产品,在终端推出了计算棒、模组、开发板等产品,为不同行业的客户提供适应多种应用场景的产品。在项目落地方面,比特大陆基于云端AI晶元的人脸闸机助力福建618展会与厦门98投洽会成功举办,累计通行超过30万人次,通道表现稳定可靠,状况良好。在第二届数字中国峰会安保系统中,搭载比特大陆自研晶元的算丰人工智慧伺服器与海康威视人脸识别演算法相融合,全程应用于峰会安全保障工作,3D人脸轨迹系统为日均6万余人次、累计150余万张人脸图片的海量分析提供算力支持。在合作方面,比特大陆与福建当地企业合资成立福建省算域大数据科技有限公司,负责福州城市大脑的投资、建设与运营,为日后福州AI产业发展建设好基础设施。比特大陆还作为首批企业加入海淀城市大脑科技产业联盟,助力海淀「城市大脑」建设,后还与海淀区签署了围绕「智能处理晶元应用场景建设」的重大项目合作意向书,推动算力晶元应用落地。此外,公司还与东亚最大的游戏云平台优必达( Ubitus )合作,共同建设公司位于日本、台湾的机房,基于「算丰」晶元,公司协助Ubitus共同开发计算机视觉相关的AI功能。嘉楠科技:转型AI晶元厂商作为仅次于比特大陆的全球第二大比特币矿机厂商,近几年以来,嘉楠科技也开始积极转型AI晶元厂商,目前已掌握集AI晶元研发、AI演算法、结构、SoC集成及流程实现一体化等综合技术,以AI晶元为核心建立AI生态链,以生态伙伴需求为依归,为生态伙伴提供一揽子AI服务方案。 嘉楠科技于2013年发布了全球首款基于ASIC晶元的区块链计算设备,引领行业进入ASIC时代。2015年,嘉楠科技获清华长三角研究院投资,并作为重点项目被引进至科技重镇杭州。同年,嘉楠科技成功实现28nm制程工艺晶元的量产,迈出了AI晶元量产的第一步。 嘉楠科技在2016年实现了16nm晶元量产,一举通过国家高新技术企业认定。并于2017年被正式评定为杭州市高科技独角兽企业。2018年,嘉楠科技连获两项全球重大技术突破,实现量产全球首个基于自研的7nm晶元,以及量产全球首款基于RISC-V 自研商用边缘智能计算晶元。2018年9月,嘉楠科技推出了第一代边缘侧AI晶元勘智K210,通过完全自主研发的神经网路加速器IP,同时具备机器视觉和语音识别能力,可以在超低功耗下进行高速卷积神经网路计算。随后勘智K210很快在无感门禁、智能门锁、病虫害防治等领域得到应用。在项目落地方面,嘉楠科技提供的无感门禁系统已经得到了软通动力总部大楼(共有集团员工5万人)的采用,目前已实现每个监控点日均2000次的识别数量。嘉楠科技提供的智能电表解决方案也被亚洲最大的社区——贵阳南明花果园社区采用,实现了对社区10万多个传统电气表的智能化升级改造,解决传统人工入户抄表模式的「高成本、低效率、难入户」等问题。在治理林业病虫害的业务场景中,嘉楠与百度、林业大学合作,将搭载8通道高性能麦克风阵列的音频处理硬体插入树中,以虫子嗑咬树植的声音为音源,判断害虫的位置。同时,还可利用K210晶元的视觉能力,将晶元置入40mm见方的智能盒子,通过图像分类和检测的方法判断视野内是否有害虫存在。这种视听综合判断的方法有效提升了判断的效率与精度,在林业、农田都有广泛的应用场景。同时,该智能盒子不需要外接供电设备,只需要电池供电即可,相比传统的设备更为轻量化,使用成本更低廉。在生态合作方面,2019年5月29日,嘉楠联合百度大脑发布PaddlePi-K210。该产品作为一款AI开发板,尺寸仅为3 X3cm,相当于一个火柴盒大小,具有1Tops的澎湃算力,同时兼具300mw的极低功耗,即使加上摄像头和屏幕也只有1w的功耗,充分适配边缘侧设备对于极低功耗的业务场景需求。同时,该产品打通PaddlePaddle模型设备端部署解决方案。开发者不需要硬体更改,使用公版模具就可以一直支持用户做到产品小样阶段,对开发者十分友好。2018年9月21日,嘉楠科技还与天津市西青区人工智慧产业基地签约AI项目。此次人工智慧产业集中签约重点项目有平台类、晶元设计、软体研发类、应用类。涉及智能网联车、智慧医疗、智慧城市、智能制造多个人工智慧领域。编辑:芯智讯-浪客剑综合自:平安证券、艾瑞咨询等机构研报及相关网路资料
推荐阅读:
相关文章