如何看待搜狗联合新华社发的全球首个3D AI合成主播？

5G时代，AI还会开启哪些想像空间？

废话少说，你们自己看看吧:-)

闪亮登场~

人工智慧长这样，希望能出个男声版的，给她找个搭档。

突然能够理解「没有情感的工作机器」

这AI在哪。。就是个3D模型。。

手部残疾，表情怪异。妖怪

这种建模~~最主要的是眼睛~~眼睛有神了~~脸僵一点儿也不会别扭~~

主持人真的不适合替代，每个新闻主播有自己个性特色，特别是说话声音，感觉人工智慧还是替代重复劳动，不能替代具有个性和特色的岗位

认知正在被颠覆

AI?，这语气，这外形

现在的游戏是啥样的，这好意思吹…

16年的古墓丽影劳拉都比这像人

刚好最近也跟搜狗的朋友聊了这个话题，讲真这个3D AI合成主播是一个不错的成果，我的第一个感受是真的好逼真：

大家可以去找视频看看，无论是五官、表情、肢体动作，已经非常生动自然了。你看这五官多么自然，这表情神态多么生动形象，包括肢体动作太逼真了相信用不了多久，当你看视频时，可能再也分不清你面前的是真人还是虚拟人。

先科普一下3D AI合成主播的打造历程：

搜狗先是找来了新华社一位记者做真人原型，通过几百个摄像头，在她身体各个部位进行全方位打点扫描，采集每一处细节。毕竟数据是模型的灵魂，数据越精细，标注越精准，细节就越好，逼真度就越高。

接著就是3D建模了，需要通过扫描还原演算法，对面部肌肉、表情、肢体动作进行捕捉与绑定，还需要通过演算法对3D模型进行实时渲染，让面部表情、肢体动作和语言表达达到一个比较高的契合度。

为了动作更加自然逼真，他们在3D建模时，采用了肌肉模型，而不是骨骼动画或Blendshape 。想像一下当你在运动过程中，每一个动作都是由一系列肌肉运动产生，肌肉之间会有很多协同工作，让机器去学习肌肉的运动规律，可以让动作、表情更加自然。

更重要的是，跟游戏、影视中的3D卡通人物或数字人不同，它是完全由人工智慧驱动的，而非人工。传统游戏影视中的3D人物，往往需要预先找来演员，让他先表演一遍，然后对他的动作进行扫描、捕捉，进行真人与卡通人物绑定，还需要采集他们的声音等等，然后美术师再一帧一帧勾画出来，这个过程非常耗时耗力，一部动漫电影往往要制作好几年。

但3D AI主播可不一样，模型训练好以后，直接丢一个文本进去，就能输出一个视频，这个过程往往以分钟计。

可以想像，对于3D设计、影视、游戏以及传媒行业，无论是用虚拟主播替代真人主播，还是减少3D设计的时间成本、劳动成本，3D AI合成主播未来都大有潜力。

但这个潜力倒不是说完全替代人，而是成为一种工具，人机协作，去更高效的工作。比如一个一分钟的转场动画，一个美术师可能要制作1~2天，有了AI驱动之后，能不能半天或者数小时搞定，AI做基础生成、渲染，然后美术师去做个性化设计，这样生产效率相信会有质的提升。

首先从观感和效果层面来说，AI合成主播的播音流畅性还是非常有保障的，没有出现卡壳之类的局面。但从面部表情来看，与真人还是有非常明显的区别的，表情比较僵硬，也非常固定化，比如眨眼睛、脸部肌肉的运动等能够看出来有固定的规律，比较不自然。

对于一部分媒体来说，AI合成主播的吸引力还是比较强的，不过对于省台或者CCTV这样的电视台来说，还是真人播音员更有感情，能够更好的传达信息。

其实3D AI合成主播之前已经有了，后面就是如何去精进的问题。而从5G和AI延伸到其他领域，有许多是和我们生活息息相关的。

比如简单的翻译、无人超市、机器人服务员等等。镁客君之前采访的一家公司做得就是智能的耳机，这个耳机是这样用的，假设你和一个德国人需要交流，但你不懂德语，就可以他用一个耳机你用一个耳机去同步翻译，然后交流。

无人超市不用讲，现在国内不少公司已经在尝试了，另外还有比较有趣的就是机器人服务员，可以帮酒店、餐厅送菜、消毒等，比较方便和有趣。

另外在智能家居、汽车这块，AI和5G的到来，会促使将来大部分家装修的家具都会变成智能化的，且一体的。比如回家之前可以先空调，用手机直接关灯、拉好窗帘等。汽车方面的辅助驾驶乃至无人驾驶等。

发布于 2020-06-01继续浏览内容