NVIDIA CEO 黄仁勋在 GTC CHINA 2019 上发表的主题演讲有什么值得关注的信息?
散了散了,显卡方面没有发布新东西,今年rtx显卡和super系列的refresh都已经发布了。。。。
又强调了一遍Max-Q的优越之处,但为啥是联想。。。ROG的厚砖本比Y900厚,GX531/502/701都比Y740薄这样对比岂不是更直接。。。莫非今年lenovo创收更大。。。
有更多游戏支持rtx了,居然专门拿出一张ppt和视频来介绍我的世界支持rtx。。。看来有必要试一下实际感受了,就怕机器性能不够玩
其他部分就不是笔记本显卡相关了,记得不太清,主要是面向开发者和深度学习AI。。。
展出了6台studio pc,有宏碁triton 500改,暗影精灵5 air改,雷蛇15改,thinkpad p53改和gx502改,只有一个zenbook是真全新开模。。。
看著还是蛮不错的,啥时候能白嫖一台就好了。。。
看到一张招聘广告,给相关的人士看一下
这是哪个GPU?
吐槽一下午饭的规格,这明显没考虑北方人的食量。。。
会场有各种厂商的展台,几乎每个展台都有扫码填问卷给礼物的活动,逐渐忘记使命。。。
最后,这个nv信仰包不错,量大皮实,塞17寸厚砖本都不是问题
又到了一年一度的NVIDIA GTC China大会,这次,NVIDIA创始人兼CEO黄仁勋将焦点放在四大主题:人工智慧(AI)、汽车、游戏和HPC。
黄仁勋说,这是迄今为止最大规模的GTC China,与会人数达到6100,较三年前的2400人增加250%。
黄仁勋宣布一系列NVIDIA新品及合作进展,核心内容如下:
1、百度、阿里使用NVIDIA AI平台做推荐系统;
2、推出第七代推理优化软体TensorRT 7,进一步优化实时会话式AI,T4 GPU上推理延迟是CPU的1/10;
3、NVIDIA AI推理平台在全世界范围内得到了广泛的应用;
4、推出软体定义的AV平台、新一代自动驾驶和机器人SoC Orin,算力达200TOPS,计划于2022年开始投产;
5、向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网路,在NGC上推出NVIDIA DRIVE预训练模型;
6、滴滴将在数据中心使用NVIDIA GPU训练机器学习演算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力;
7、推出全新版本NVIDIA ISAAC软体开发套件SDK,为机器人提供更新AI感知和模拟功能;
8、宣布六款支持RTX技术的游戏;
9、腾讯与NVIDIA合作推出START云游戏服务,在中国将电脑游戏体验引入云端;
10、宣布全亚洲最大云渲染平台瑞云云渲染平台将配备NVIDIA RTX GPU,首批5000片RTX GPU将在2020年上线;
11、发布面向建筑行业(AEC)的Omniverse开放式3D设计协作平台;
12、面向基因组测序,黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。
一、AI:入驻百度阿里推荐系统,推出新一代TensorRT软体
自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU赢得ImageNet竞赛以来,NVIDIA在5年内将训练性能提升300倍。
借助Volta、新Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink和DGX系统组合,NVIDIA正助力更多AI研究。
AI将从云扩展到边缘,NVIDIA正为以下每种用例分别打造一个平台:用于训练的DGX,用于超大规模云的HGX,用于边缘的EGX和用于自治系统的AGX。
1、百度、阿里推荐系统采用NVIDIA GPU
黄仁勋说,互联网一个最重要的机器学习模型是推荐系统模型。
没有推荐系统,人们就无法从上亿次网页检索、几十亿淘宝商品、几十亿抖音短视频、各种网路新闻、推文和照片中找到自己需要的内容。
深度学习可实现自动特征学习,支持非结构化内容数据,通过加速缩短延迟并提高吞吐率。
总体来看,做推荐系统面临两大挑战:海量数据带来的复杂模型处理任务,以及让用户立即看到推荐结果的实时性要求。
针对这一问题,百度提出AI-Box解决方案来训练高级的大规模推荐系统。
百度AI-Box是Wide and Deep结构,采用NVIDIA AI平台,基于NVIDIA GPU训练TB级数据,速度比CPU更快的同时,训练成本仅有CPU的1/10,且支持更大规模的模型训练。
同样,阿里做的推荐系统也选用了NVIDIA AI平台。
今年「双十一」当日,阿里的销售额超过了380亿美元的商品,电商网站上共列出约20亿类商品,有5亿用户在购物,一天销售额达2684亿,每秒几十亿次推荐请求。
如果一位用户花1秒看1个产品,那么看完所有商品要花32年的时间。
对此,阿里使用NVIDIA T4 GPU来训练推荐系统,这使得每当用户点击一个商品,就会看到其他相关推荐商品。
原先使用CPU速度较慢,仅3QPS,而NVIDIA GPU将速度提升至780QPS。
2、推出第七代推理优化软体TensorRT
现场,黄仁勋宣布正式推出第七代推理优化编译器TensorRT 7,支持RNN、Transformer和CNN。
TensorRT是NVIDIA针对神经网路推理阶段提供的加速软体,它能通过提供优化的AI模型来大幅提升性能。
去年在GTC China大会上发布的TensorRT 5仅支持CNN,只支持30种变换,而TensorRT 7面向Transformer和RNN做了大量优化,能以更少内存实现高效运算,并支持1000多种计算变换和优化。
TensorRT 7能融合水平和垂直方向的运算,可为开发者设计的大量RNN配置自动生成代码,逐点融合LSTM单元,甚至可跨多个时间步长进行融合,并尽可能做自动低精度推理。
此外,NVIDIA在TensorRT 7中引入一个内核生成功能,用任何RNN可生成一个优化的内核。
会话式AI是TensorRT 7强大功能的典型代表。
其功能非常复杂,比如一个用户用英文说了一句话,要把它翻译成中文,这个过程需要先将英文口语转化成文字,理解这段文字,然后转化成想要的语言,再通过语音合成将这段文字转化成语音。
一套端到端会话式AI的流程可能由二三十种模型组成,用到CNN、RNN、Transformer、自编码器、NLP等多种模型结构。
推理会话式AI,CPU的推理延迟是3秒,现在使用TensorRT 7在T4 GPU上推理仅0.3s就完成,比CPU快10倍。
3、NVIDIA AI平台得到广泛的应用
另外,快手、美团等互联网公司也在用NVIDIA AI平台做深度推荐系统,以提高点击率,并降低延迟和提高吞吐量,更好理解和满足用户需求。
例如,美团用户想找一个餐厅或者是找酒店,都是通过用户的搜索来实现的。
会话式AI需要可编程性、丰富的软体推展及低GPU延迟。包含这些模型在内的NVIDIA AI平台将为智能云提供支持。
NVIDIA EGX是面向边缘AI应用打造的一体化AI云,专为流式AI应用程序、Kubernetes容器编排、保护动态数据和静态数据安全而打造,已连接到所有物联网云。
比如,沃尔玛使用它进行智能结账,美国邮政服务在EGX上通过计算机视觉分类邮件,爱立信将在EGX伺服器上运行5G vRAN和AI物联网。
二、推出新一代汽车SoC,算力200TOPS
NVIDIA DRIVE是一个端到端AV自动驾驶平台,该平台由软体定义,而非固定功能的晶元,使得大量开发人员可按照持续集成、持续交付的开发方式进行协作。
黄仁勋表示,将在NGC容器注册上,向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网路。
1、下一代自动驾驶处理器ORIN,算力是Xavier的7倍
NVIDIA发布NVIDIA DRIVE AGX Orin,它是新一代自动驾驶和机器人处理器SoC,达到了ISO 26262 ASIL-D等系统安全标准,将包含一系列基於单一架构的配置,计划于2022年开始投产。
Orin凝聚著NVIDIA团队为期四年的努力,被用于处理多个高速感测器、感知环境、创建一个周围环境的模型并定义自己、根据特定目标制定合适的行动策略。
它使用了包含8个核心的64位Arm Hercules CPU,有170亿个晶体管,再加上全新深度学习和计算机视觉加速器,其性能达到200TOPS,几乎比上一代的技术(Xavier)提升7倍。
它拥有易编程性,有丰富工具和软体库支持,还拥有全新功能安全特性,可使CPU和GPU锁步运行和提升容错性。
Orin系列可从L2扩展到L5,与Xavier相兼容,可充分利用原有软体,因此开发者能够在一次性投资后使用跨多代的产品。
其新特性是提高针对OEM的低成本版本,即想用一个单路摄像机做L2级别的AV,同时能利用整个AV产品线中的软体栈。
除了晶元外,NVIDIA的平台、软体等很多技术可应用在汽车中,帮助客户定制化应用以进一步提升产品的性能。
2、推出NVIDIA DRIVE预训练模型
黄仁勋还宣布在NGC上推出NVIDIA DRIVE预训练模型。
一个正常运行的安全自动驾驶技术需要许多AI模型组成,其演算法具有多样性和冗余性。
NVIDIA开发了先进的感知模型,用于检测、分类、跟踪和轨迹预测,还可用于感知、本地化、规划和制图。
这些预训练模型均可从NGC上注册下载。
3、滴滴选用NVIDIA自动驾驶和云基础设施
滴滴出行将使用NVIDIA GPU和其他技术开发自动驾驶和云计算解决方案。
滴滴将在数据中心使用NVIDIA GPU训练机器学习演算法,并采用NVIDIA DRIVE为其L5级自动驾驶汽车提供推理能力。
今年8月,滴滴将其自动驾驶部门升级为独立公司,并与产业链合作伙伴开展广泛合作。
作为滴滴自动驾驶AI处理的一部分,NVIDIA DRIVE借助多个深度神经网路融合来自各类感测器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境360度全方位的理解,并规划出安全的行驶路径。
为了训练更安全高效的深度神经网路,滴滴将采用NVIDIA GPU数据中心伺服器。
滴滴云将采用新的vGPU许可证模式,旨在为用户提供体验更佳、应用场景更丰富、效率更高、更具创新性和灵活的GPU计算云服务。
4、发布NVIDIA ISAAC机器人SDK
面向机器人领域,黄仁勋宣布推出全新NVIDIA Isaac机器人SDK,大大加快开发和测试机器人的速度,使机器人能通过模拟获得由AI驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和验证,并节省成本。
Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网路模型、演算法、库、驱动程序和API),用于室内物流的参考应用程序,并引入Isaac Sim训练机器人,可将所生成的软体部署到在现实世界中运行的真实机器人中。
其中,基于摄像头的感知深度神经网路有对象检测、自由空间分割、3D姿态估计、2D人体姿态估计等模型。
全新SDK的对象检测也已通过ResNet深度神经网路进行了更新,可以使用NVIDIA的迁移学习工具包对其进行训练,使添加新对象进行检测和训练新模型更加容易。
另外,该SDK提供了多机器人模拟,开发人员可将多个机器人放入模拟环境中进行测试,各个机器人可在共享的虚拟环境中移动时,运行独立版本的Isaac导航软体堆栈。
全新SDK还集成了对NVIDIA DeepStream软体的支持,开发人员可在支持机器人应用程序的边缘AI,部署DeepStream和NVIDIA GPU,以实现对视频流的处理。
已开发了自己代码的机器人开发人员,可将自己的软体堆栈连接到Isaac SDK,通过C API访问路由的Isaac功能,这样极大程度地减少编程语言转换。C-API访问许可权同时支持开发人员在其他编程语言中使用Isaac SDK。
据黄仁勋介绍,国内大学都采用Isaac来教授和研究机器人技术。
5、NVIDIA的汽车生态圈
NVIDIA在汽车领域已深耕了超过10年,和合作伙伴做了很多的事情,让AI的大脑能更好的了解、甚至能够去「驾驶」车辆。
经过不断模拟、测试、验证,确认系统奏效后,NVIDIA与合作伙伴才会将其真正应用于实际道路上。
无论是卡车公司、普通汽车公司还是计程车公司,均可使用这一平台针对具体车型来定制化自己的软体。
NVIDIA提供迁移学习工具,允许用户对模型进行在训练,并利用TensorRT进行再优化。
另外,NVIDIA还开发了联邦学习系统,它对看中数据隐私的行业都尤为受用。
无论是医院、实验室还是汽车公司,在开发训练神经网路后,可以只将训练处理后的结果上传到一些全球伺服器中,同时将数据保留在本地,保证数据隐私。
三、游戏:与腾讯合作推出START云游戏服务
《我的世界》是全球最卖座的电子游戏,最近在中国已达到3亿注册用户,NVIDIA和微软共同宣布《我的世界》将支持实时光线追踪(RTX)技术。当前NVIDIA RTX技术已被多个业界最流行的渲染平台所支持。
现场,黄仁勋宣布了6款支持RTX的游戏:
(1)《暗影火炬》,由上海钛核网路开发;
(2)《Project X》(项目代号),由米哈游开发;
(3)《无限法则》,由腾讯北极光工作室群开发;
(4)《轩辕剑柒》,由大宇资讯开发;
(5)《铃兰计划》,由龙之力科技开发;
(6)《边境》,由柳叶刀科技开发。
人们想要更轻便、轻薄的游戏笔记本,对此NVIDIA创造Max-Q设计,将超高GPU能和总体系统优化集于一身,使得功能强大的GPU可用于轻薄笔记本。
今年,中国游戏笔记本发货量超过500万台,五年内增加4倍,其中GeForce RTX Max-Q笔记本电脑是增速最快的游戏平台。
此外,黄仁勋宣布腾讯与NVIDIA合作推出START云游戏服务,在中国将电脑游戏体验引入云端。
NVIDIA GPU将为腾讯START云游戏平台提供支持,腾讯计划扩展该平台供数百万玩家使用,为他们提供和本地游戏主机一致的游戏体验,即便使用性能不足的终端也无损体验。
NVIDIA RTX平台包含40多个面向内容工作者打造的产品,涵盖从配备GeForce RTX 2060的Max-Q轻薄笔记本,到配备4路SLI Quadro RTX 8000的工作站和配备8路RTX 8000的伺服器。
黄仁勋宣布,瑞云云渲染平台将配备NVIDIA RTX GPU,首批5000片RTX GPU将在2020年上线。
这是全亚洲最大的云渲染平台,渲染了2019年中国三大热门电影《战狼2》、《哪吒和《流浪地球》,超过85%的中国电影工作室都是瑞云的客户。
黄仁勋还发布了面向建筑行业(AEC)的Omniverse开放式3D设计协作平台,本地和云端均支持在AEC工作流中增加实时协作功能,将支持Autodest REVIT、Trimble SketchUP和McNeel Rhino等主流AEC应用。
现场展示了使用OMNIVERSE AEC的Demo,中国华润大厦由KPF建筑师事务所设计,在配备了8路RTX 8000的伺服器上进行实时渲染。
四、HPC:面向基因组测序推出CUDA加速的基因组分析工具包
NVIDIA在HPC方面的应用也很丰富。比如计划2030年将人类送上火星的NASA,在NVIDIA GPU上通过FUN3D流体力学软体运行了数十万次火星著陆场景模拟,生成150TB 的数据。
面向基因组测序,黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。
Parabricks可与用于发现变异,并能产生与行业标准GATK最佳实践流程一致的结果,可实现30-50倍的加速,并提供DeepVariant工具,利用深度学习技术进行基因变异检测。
黄仁勋说,很高兴宣布华大基因已采用Parabricks,通过借助若干GPU伺服器,可按其测序仪生成数据的速率来处理基因组。
据他介绍,NVIDIA 今年为CUDA增加5G vRAN和基因组两个新主流应用,已得到爱立信和华大基因等行业领导者的支持。
另外,黄仁勋也再次提到此前已公布NVIDIA GPU和Arm的合作,现已支持用CUDA加速Arm伺服器,并已公布基于Arm的首个参考架构NVIDIA HPC for ARM,可使用各种基于Arm的HPC伺服器进行配置。
TensorFlow现已支持在Arm上加速,借助NVIDIA CUDA on ARM,TensorFlow可实现世界一流的性能和扩展能力。
结语
2019年已经接近尾声,NVIDIA也在本次大会上,不仅大秀AI、汽车、游戏和HPC能力,也晒出了多个领域的朋友圈。
黄仁勋说,随著摩尔定律的终结,GPU加速计算将成为未来的发展方向,这一点现已得到公认。
NVIDIA可实现单线程处理和并行多线程处理的加速,并通过整个软体堆栈进行优化,使得多GPU和多节点系统实现难以置信的性能。NVIDIA已售出15亿块GPU,每块GPU都兼容同一个架构CUDA。
作为迄今AI深度学习红利的最大受益者,NVIDIA以高性能的软硬体和系统为基础,持续丰富其AI和自动驾驶生态,而找到核心场景加速落地仍是当下的重头戏。
这么全面的回答,不来一个点赞+关注二连?
发布于 2019-12-18继续浏览内容知乎发现更大的世界打开Chrome继续夏晶晶kunpeng architect有一个神秘的数字非常值得关注。
让很多人颤抖!!
上面这图有秘密。
左上角这两个GPU大家都知道,是T4。
那右上角这两个GPU是什么?
V100?不是,对不上。T4也不是。
(2000-400)/2 = 800TOPS
(750-130)/2 = 310W
800TOPS INT8折算400T FP16或BF16
这是一颗inference性能和阿里含光相近,如果支持训练的话,是Volta V100性能3.3倍的GPU。
这就是传说中的ampere A100么⊙ω⊙ ?
AI产业玩家很多,近期的AI晶元的军备竞赛,打法都是直接降维打击的方式打,cerebras也是、含光也是。想表达的就是一个意思,「你可以退出了」。
劝退级别的GPU。
有一个神秘的数字非常值得关注。
让很多人颤抖!!
上面这图有秘密。
左上角这两个GPU大家都知道,是T4。
那右上角这两个GPU是什么?
V100?不是,对不上。T4也不是。
(2000-400)/2 = 800TOPS
(750-130)/2 = 310W
800TOPS INT8折算400T FP16或BF16
这是一颗inference性能和阿里含光相近,如果支持训练的话,是Volta V100性能3.3倍的GPU。
这就是传说中的ampere A100么⊙ω⊙ ?
AI产业玩家很多,近期的AI晶元的军备竞赛,打法都是直接降维打击的方式打,cerebras也是、含光也是。想表达的就是一个意思,「你可以退出了」。
劝退级别的GPU。
#矿机盛会#
6000人,早早提前一小时到现场,拐了几个弯才到队伍末尾。都只为目睹黄教主本人。
会场音乐,灯光都很迷幻,炫酷。
黄教主不拖沓,准时入场,直奔主题
先是展示了游戏显卡,PC端的Rtx显卡升级了,游戏玩家又可以买买买了。
百度,阿里均用到NVIDIA的gpu做推荐系统的加速模块。
快进到自动驾驶环节……
Tensorrt 7.0发布
新一代的车载gpu单元AGX Orin发布,算力是Xavier的7倍,满足ISO 26262 ASIL-D等系统安全标准,更高的算力,功能安全统统考虑进去。
滴滴,图森,智加,小鹏,文远知行,上汽,吉利,Autox等等,除了主机厂,占据量产重要地位的Tire 1大陆、博世、采埃孚、海拉也在跟NVIDIA合作,NVIDIA的汽车圈好友乘Ai之风在不断壮大。
图森coo郝佳男说的一句,自动驾驶可以define为"一切皆计算",但"一切计算皆会出错",演讲没讲图森多牛,现在进展怎样,更多的是提到自动驾驶的进一步的难点问题,"冗余计算,错误检测与纠错,容错技术,锁步执行",给人一种图森已早已跨越demo及演示阶段,过渡到一个细节优化再优化的阶段。
今天小鹏自动驾驶副总裁说了这么一句话Nvidia的产品已成标配。L3可选平台,算力支持,功能安全,工具链的完备性上仅NVIDIA一家。
NVIDIA is the workhouse of morden ai
最后,黄教主的演讲能力真very incredible!!!
目测软体caffe→tensorflow→pytorch继续升级更新,唯一不变的仍然离不开NVIDIA的gpu。
主打的游戏,火爆的自动驾驶-机器人,跟进的医疗,更快的互联网推荐系统,处处都有NVIDIA的影子,真的如教主所讲,
The more you pay,The more you save!
感慨一下,矿机,AI,自动驾驶,游戏,都是年轻人热衷的,从参会的群体来看,年轻人居多,看起来路人甲,路人乙,路人丙似乎都是个个博学,头顶几篇paper,边走路可以随时拿出电脑的geek or coder。另外,听年轻的leader讲神经网路,讲技术,讲自动驾驶,比老领导更有意思,也更专业,更有共鸣性。在老一辈看来,神经网路似乎是一个可以主打的点,其实并不是。
最后在展区看到了视频里播放的英伟达自动驾驶原型车。
Nv car下面这个是NVIDIA GTC峰会前写的预热文章
诸葛有鱼:2019自动驾驶盛会——NVIDIA GTC?zhuanlan.zhihu.com福利时间
黄教主演讲视频:
GTC China 2019 主题演讲?www.nvidia.cn演讲PPT:
链接:https://pan.baidu.com/s/17yavfoDaSgUssnA58huo7A
提取码:vfl7
英伟达首席执行官黄仁勋(Jensen Huang)在参会人数创新高的GTC China 2019上再次发布重磅新品——下一代SoC Orin。Orin是英伟达花费4年时间投入数十亿美元打造,性能比最新一代Xavier提升7倍,算力最高可达200TOPS。
目前,英伟达已经售出15亿块GPU,它们都有相同的架构CUDA。黄仁勋表示,通过全栈优化,GPU可以实现摩尔定律的加速。
英伟达想要做的不仅是加速摩尔定律,也要推动显示技术的创新。
RTX的新进展
去年,英伟达发布了RTX新一代GPU架构——Turing(图灵),以及一系列基于图灵架构的RTX GPU。黄仁勋表示图灵架构为英伟达十多年来在计算机图形领域最重要的创新,将光线追踪技术引入英伟达的GPU中。发布之后,已经有多款游戏支持RTX,并且采用RTX技术的开发者数量迅速增长。
黄仁勋今天宣布了6款支持RTX的游戏,还展示了仅由一个人使用RTX技术制作的视频。
除此之外,英伟达还创造出了Max-Q设计,它将超高的GPU能效和总体系统优化集于一身,可以用于轻薄的高性能笔记本电脑。
高性能的笔记本是游戏必不可少的,但随著云计算的普及,云游戏也将越来越普及。黄仁勋在GTC China 2019上也宣,英伟达与腾讯游戏合作推出START云游戏服务,该服务已从今年初开始进入测试阶段。START使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩AAA游戏。
光线追踪GPU是英伟达去年最重磅的发布,英伟达也正在推动这项技术更多的应用。今年,「核弹」产品无疑是面向下一代汽车和机器人的Orin的发布。
「核弹」产品——下一代的汽车和机器人技术Orin
黄仁勋在演讲当中提到, 该晶元由170亿个晶体管组成,凝聚著英伟达团队为期四年的努力。Orin系统级晶元集成了英伟达新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算(200TOPS),几乎是英伟达上一代Xavier系统级晶元性能的7倍。Orin计划2022年投产。
Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网路,达到了ISO 26262 ASIL-D等系统安全标准。
作为一个软体定义平台,DRIVE AGX Orin能够赋力从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软体产品系列。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。
Orin也已经获得了合作伙伴的支持,滴滴与英伟达一起共同推进自动驾驶和云计算领域的发展和合作。据悉,滴滴已经选择英伟达DRIVE作为他们的L4级的AV平台和云计算平台。另外,滴滴会采用英伟达的AI技术应用,用在它们的自动驾驶车辆当中,并且也支持「滴滴云」。
5年以前很多人就说:「2020年就能够看到自动驾驶的车辆了。」如今马上进入2020年了,但是到现在还没有实现这个目标,技术还在向前推进,整个业界也意识到这个事情的复杂度远比我们想像的要高。
转移学习和联邦学习进一步降低AI门槛
面对自动驾驶最核心的需求「安全」,英伟达开发了 「端到端平台」,即:在数据中心中的AI。也就是说,真正技术在道路上使用之前,首先是要在数据中心进行验证。
对于自动驾驶来说,第一步就是海量的数据收集工作。在有人驾驶的车辆上,需要安装很多的感测器。包括摄象头、雷达,它们的作用就是收集大量的数据。
一般情况下,一辆车一天在外面开6小时-8小时,每周就会收集到PB级的数据。意味著有海量的信息需要进行处理、标记、存储、训练,从而更好的了解周围的环境,并且识别其它的车辆、车道信息等。
其实,早前基于英伟达的DRIVE结构,汽车厂商已经可以构建和部署具有功能安全性、并符合诸如ISO 26262等国际安全标准的自动驾驶乘用车和卡车。此外,英伟达也开发了一个开放的软体平台,包括驾驶的操作系统等。
除此之外,英伟达也开发了很多「深度神经网路」来识别各种各样的东西。也就是迁移学习,预训练的模型可以进行调整以适应原始的设备制造商,包括主机厂、感测器和具体的地区要求,当然调整的自由度是有限制的。
例如:检测路上的一些物体、路标,以及处理雷达、激光雷达。按照英伟达的说法,目前整个的这一系列软体,现在都可以给业界开放使用。这些都是基于英伟达自主知识产权的「预训练」模型,也是在他们的「云」上来进行训练的。
英伟达的策略是「深度开放」,无论是乘用车还是卡车,他们都可以对这些进行定制化。也就是说,客户可以把自己的数据放到这些模型当中,然后基于这些模型不断的进行优化。不过,这些都是基于TensorRT来实现的,这也能够进一步加速这些自动驾驶公司研发的进程。
英伟达推出的另外一个技术,就叫「联邦学习」。这项技术是极其重要的,它不仅仅是在汽车行业,在很多行业都能够充分利用,尤其是那些对于数据隐私非常看重的行业,例如医疗。在医疗行业,很多的数据是不能够跟其他人共享的。所以它可以利用我们的这项技术,基于他们的数据来创建各种各样的AI模型。
「联邦学习」最主要的功能就是能够保证数据隐私不被侵犯。按照官方说法,无论是医院、实验室、汽车公司,大家都可以去开发并且训练这些神经网路,数据还可以保存在本地。
黄仁勋举例道,目前很多公司都在美国和中国有往来业务,数据在传输方面其实是有一些限制的。运用「联邦学习」,他们就可以保证数据还存在本地,但是可以把一些训练和处理后的结果上传到一些全球的伺服器上。所以 联邦学习其实对于公司之间的合作,包括各品牌之间的合作、各地区之间的合作是非常有用的,因为它能够保证数据隐私不被侵犯。
更重要的是,这些工具让汽车客户能够去针对他们自己的车型来定制化自己的软体,这个是之前做不到的。
英伟达全新版本Isaac软体开发套件(SDK),为机器人提供更新的AI感知和模拟功能。黄仁勋提到,在建立统一的机器人开发平台以实现AI、模拟和操控功能方面,Isaac SDK迈出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网路模型、演算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。
值得注意的是,新版本引入了一项重要功能——使用Isaac Sim训练机器人,并将所生成的软体部署到在现实世界中运行的真实机器人中。这有望大大加快机器人的开发速度,从而实现综合数据的训练。
GPU替换CPU,成本仅1/10,性能提升百倍
自动驾驶、机器人是AI落地的代表应用,AI技术如今在数据分析和挖掘、高性能计算中发挥著更加重要的作用,英伟达已经推出了面向训练、云端、终端、自动驾驶的AI平台。AI对于拥有大量数据的科技公司尤为重要,比如推荐系统,如果没有推荐系统,人们无法从上万亿次网页检索、几十亿淘宝商品、几十亿抖音视频、各种新闻中找到自己需要的内容。
因此,一个能够深度理解每一个用户,在正确时间给出正确的推荐的推荐系统极为关键。
百度AIBox推荐系统采用英伟达AI,100多个推荐模型被使用在百度的众多应用中。雷锋网了解到,这个系统基于英伟达Telsa v100 GPU,利用这些TB级的数据集去创建一个模型、在GPU上训练这些数据,然后把它放到GPU的内存当中去训练这种TB级别的数据,GPU训练成本只有CPU的十分之一,并且支持更大规模的模型训练。
还有线上购物,今年淘宝双十一成交额达到了2684亿元,较 2018 年的 2135 亿同比增长了 25.7%,这需要强大的云计算平台来支撑。同样关键的是,双十一5亿的淘宝的用户要从20亿商品中挑选最合适的产品是一件非常困难的事情,如果一个用户每一秒看1个商品,需要花费32年时间才能浏览完20亿个商品。
阿里巴巴搭建的推荐系统采用了英伟达的T4 GPU,推荐系统的吞吐量得到了大幅提升。面对每秒几十亿次的推荐请求,CPU速度只有3 QPS,英伟达GPU则提升到了780 QPS,提升百倍。
虽然拥有自研云端AI晶元,但为了解决推荐系统面临的两大挑战,阿里和百度都选择使用英伟达的GPU构建推荐系统,这其中很重要的原因是系统的构建面临两大挑战。一个是推荐模型及其复杂,需要处理的参数非常多,这就意味著需要非常强的计算能力,另一大挑战是推荐系统需要进行实时计算并给出反馈。
从结果来看,使用擅长并行计算的GPU构建推荐系统比使用CPU构建推荐系统成本大幅降低或性能实现了百倍提升。。
当然,AI功能的实现并非单纯来自硬体,软体和模型的优化也非常重要,这也是实现会话式AI的关键。
软体优化是实现会话式AI的关键
业界越来越意识到,即便AI晶元算力再强,不能充分使用其算力并不能实现很好的AI功能,因此AI晶元的有效算力正成为衡量AI晶元的关键指标。软硬体结合以及软体优化意义重大,比如在高性能计算的应用中,要使用CUDA进行全基因组测序,或用于研究畜牧业、农业和导致疾病的微生物。
英伟达今年6月也宣布CUDA年底前支持Arm生态系统,让基于Arm的晶元可以更多地应用于超算系统中进行更多地深度学习计算。
根据黄仁勋给出的数据,GPU+Arm的硬体,加上CUDA以及TensorFlow的优化,Arm进行深度学习的性能是x86处理器性能的96%。
一个更为关键的软体平台是此前推出的计算图优化编译器TensorRT,去年英伟达发布了 TensorRT5,通过优化PyTorch和TensorFlow等框架中训练出来的AI模型,减少计算和内润访问,让模型在GPU上运行的效率大幅提升。
GTC China 2019上,黄仁勋宣布推出TensorRT 7,它支持各种类型的RNN、Transformer和CNN。TensorRT 7能够融合水平和垂直方向的运算,可以为开发者设计的大量RNN配置自动生成代码,逐步融合LSTM单元,甚至可跨多个时间步长今日那个融合。相比TensorRT5只支持30中变换,TensorRT 7能支持1000多种不同的计算变换和优化。
Transformer一个典型的例子就是BERT,它有很多非常先进的自然语言理解的功能。RNN一多用于语音识别或者是将文本转化成语音。这些模型和演算法对于会话式AI非常关键,也正是TensorRT 7可以发挥作用的典型应用。
因为想要实现会话式AI,首先需要把语音转化为文字,然后通过AI语音演算法模型获得需要的语音,并理理解其含义,再将回应合成为语音进行回复。对话式AI需要可编程性、丰富的软体堆栈以及低GPU延迟,基于TensorRT 7这一系列复杂的在300毫秒(0.3秒)内就能完成。
有意思的是,去年的GTC China上,黄仁勋因为现场观众没能实时理解他的演讲,他表示希望未来借助AI能够把他的英文演讲实时翻译成中文。今年的GTC China刚开场,黄仁勋就表示他今天的演讲依旧会使用英文,希望未来某一天他用英文演讲,但AI可以把它翻译成任何一种听众需要的语言。
看来,距离这一天的到来又近了一步。
无论是云端、终端还是高性能计算,英伟达都已经推出了对应的硬体平台和产品,软体优化的重要性也正在突显,软体定义也能大大提高AI的效率。
小结
AI的竞争正变得越来越激烈,对于AI晶元公司而言,提供更高有效算力、更易用的软体平台无疑是吸引用户的关键,因此英伟达花费数十亿美金打造了下一代SoC,算力高达200TOPS。同时也推出的新一代推理优化软体平台Tensor RT,转移学习、联邦学习的方式,能更好地推动AI落地,这也是英伟达发布更多软体产品的原因。
同时也要看到,对于任何一家想要使用AI技术保持领先的公司而言,他们愿意尝试任何一种能够实现最好效果,总体拥有成本最低的软硬体方案,这是英伟达能够说服阿里和百度使用GPU构建推荐系统的原因。
GPU的通用性搭配上更好的软体优化显然能够继续在AI的应用中发挥重要作用,而软体定义硬体能够让硬体拥有更长的生命周期,但正如GTC China 2019开场视频中所提到的AI的应用涉及工业、医疗、物流等等,黄仁勋也表示GPU不是要替代CPU,而是AI负载一个更好的选择。
随著演算法的演进以及众多AI软硬体解决方案的推出,未来谁将主导市场仍然未知。(雷锋网)
发布于 2019-12-20继续浏览内容知乎发现更大的世界打开Chrome继续丽台科技?已认证的官方帐号- All in AI. 发布 TensorRT 7,作为NVIDIA第七代推理软体开发套件,可以实现更加智能的AI人机交互,与语音代理、聊天机器人和推荐引擎等应用进行实时互动。
- RTX ON! 越来越多的游戏以及专业应用程序支持RTX实时光线追踪技术。推出面向建筑工程施工行业的Omniverse平台,能够增加实时协作功能。
- 加速汽车创新,开源自动驾驶深度神经网路NVIDIA DRIVE?,并发布软体定义的自动驾驶平台Orin?。
- 生态融合。在此次GTC China主题演讲中,NVIDIA宣布与滴滴、阿里等达成合作,全面助力AI加速落地。
当然,丽台作为NVIDIA密切的合作伙伴,会不遗余力地专注于GPU专业视觉计算领域,为各行各业提供专业的解决方案和服务。
发布于 2019-12-25继续浏览内容知乎发现更大的世界打开Chrome继续恍惚间觉得现在的ai处境到了2000年互联网的时候了,AI map 互联网;自动驾驶 map 浏览器
- All in AI. 发布 TensorRT 7,作为NVIDIA第七代推理软体开发套件,可以实现更加智能的AI人机交互,与语音代理、聊天机器人和推荐引擎等应用进行实时互动。
- RTX ON! 越来越多的游戏以及专业应用程序支持RTX实时光线追踪技术。推出面向建筑工程施工行业的Omniverse平台,能够增加实时协作功能。
- 加速汽车创新,开源自动驾驶深度神经网路NVIDIA DRIVE?,并发布软体定义的自动驾驶平台Orin?。
- 生态融合。在此次GTC China主题演讲中,NVIDIA宣布与滴滴、阿里等达成合作,全面助力AI加速落地。
当然,丽台作为NVIDIA密切的合作伙伴,会不遗余力地专注于GPU专业视觉计算领域,为各行各业提供专业的解决方案和服务。
发布于 2019-12-25继续浏览内容知乎发现更大的世界打开Chrome继续恍惚间觉得现在的ai处境到了2000年互联网的时候了,AI map 互联网;自动驾驶 map 浏览器
恍惚间觉得现在的ai处境到了2000年互联网的时候了,AI map 互联网;自动驾驶 map 浏览器
中国的人口真是多,去年就5000了,今年6000了。。。
不知道开发者之夜会不会多备点吃的
去年排了半场长度的队是在太难顶了
看了一小段直播,作为半导体从业者,主要关心新一代晶元。
Nvidia对于Inference重视程度前所未有,尤其在Edge SoC上Nvidia持续迭代装入更强算力。新的Orin SoC在面积比上一代Xavier小的情况下,性能反而提升7倍。晶体管数量也从原来的90亿个达到现在的170亿个。毫无疑问,单位面积上的晶体管数量更多,考虑到上一代Xaiver是采用12nm制程,新的Orin架构应该是采用了台积电7nm制程。
即便是采用更先进的制程,Orin的性能提升也是惊人的,这主要得益于新的架构。 与上一代Xavier相比, CPU、GPU和DLA(Deep Learning Accelerator)都有了提升。 CPU采用arm最新的Hercules架构,从下图可以看出,Hercules在5nm下性能是16nm Coretex-A73的2.5倍。另外GPU和DLA的AI Inference算力大幅提升,在INT8精度下达到200TOPS。应该是对DLA模块的架构做了大幅的改进提升。
从单位的算力功耗比来考虑,新的Orin功耗只有65W,200T算力,Xavier功耗30W,30T算力,算力功耗比提升了3倍,更加适合实时大数据处理和对功耗要求较高的场景,目标还是自动驾驶。但Nvidia特别强调Orin的目标是机器人处理器SoC,耐人寻味。
另外还有,TensorRT助力多种AI演算法加速,提升人机对话智能;与阿里巴巴合作推荐系统,在推荐系统这个垂直领域与互联网巨头精准合作。
与很多人相信AI专用晶元架构大爆发不同,教主的演讲在向大家宣布,Nvidia仍然是一个架构服务N多演算法的信徒。更关键的是Nvidia Volta V100出货量创下新高,而在edge端又有强力的Orin晶元加持,眼看到潜在竞争对手们越拉越远,教主的心情应该特别好。最后说一句,教主真的比较喜欢阿里巴巴,把跟百度的合作口误说成阿里。这也许是他内心的想法吧。
推荐阅读: