热度逐渐从爆火转凉。那么近两年人工智慧在学术与工业界有哪些和Alpha Go一样有趣的进展呢?或者未来几年,你觉得哪个方面会有更大的进展?


有人说,AI技术经过最近十多年的快速发展,近一两年已经进入了下半场,取得的进展不如从前了。我并不这样认为,也许AI基础模型方面的发展一定程度上告别了之前大跨步前进,进入了稳步发展的阶段,但对于将AI技术应用于各行各业来说,黄金时代才刚刚开启。各种有趣的进展层出不穷,今天我们就谈一谈其中的一个领域:基于生成对抗网路的图像生成

-------枯燥的理论部分,不感兴趣的可跳过--------

生成对抗网路(GANs)是Goodfellow等人在2014年提出的一个基于深度学习的生成模型。GANs包括两个深层神经网路:一个是用来捕获真实数据分布的生成器G和一个用来确定样本是来自模型分布还是真实数据分布的判别器D。该框架利用损失函数V(D,G)进行零和博弈,具体优化公式如下:

[公式]

其中 [公式] 为真实数据, [公式] 为真实数据分布, [公式] 为杂讯, [公式] 为杂讯分布(通常为高斯分布或均匀分布)。

以上公式可解释为: [公式] 的目标是根据真实数据分布来生成尽可能「真」的样本,通过最小化上述公式中的[公式]来实现; [公式] 的作用是将 [公式] 生成的样本判别为「假」,将真实数据判别为「真」,通过最大化上述公式中的D进行优化。整个框架可以通过反向传播进行训练,这意味著 [公式][公式] 的决策中获得反馈,然后在下一次迭代中学习如何更好地欺骗 [公式]

-------枯燥的理论部分结束--------

将以上零和博弈原则应用到图像生成领域,催生了一些有趣的任务,包括:从无到有生成高精度人脸图像,从低解析度到高解析度的图像超解析度,还有图像风格转换

这些任务在前几年陆续被提出来,但两年之前,这些任务上的生成能力还不够强大,效果还不那么逼真。这两年取得的进展可以用amazing来形容。看下面三个具体例子。

1、高精度人脸图像生成

首先介绍英伟达公司在2018年12月提出的一个高精度人脸图像生成的工作。这个算是一个石破惊天的工作,首先看下arXiv论文链接(https://arxiv.org/pdf/1812.04948.pdf)中的两个生成效果图。

从图片中可以看到,该论文方法生成的人脸与真实人脸几无差异,无论是整体上还是细节上。至少从我站上一个普通人的角度上来看,若是没有人告诉我些图像这是生成的,我是发现不了。而在此之前,虽然可以生成比较像的人脸,但大多解析度不高,而且细节部分不够精致。

这个工作更大的意义在于人工智慧图像生成进入了「眼见不再为实」的阶段,我第一次看到这些图片时的巨大心理冲击主要也在于此。

技术的发展进入到新的阶段,一方面凸显了人工智慧安全、可控发展的必要性,比如控制不要让本著不良目的虚拟生成的内容在网路上流传,发展其有效鉴别技术,另一方面,也催生了一批新型应用场景,例如下图所示的卡通化人脸生成。图像生成技术的发展让人脸卡通化变成一个低门槛,可快速复制的行业,这恐怕是一个让很多漫画从业者颤抖的消息。

2、图像超解析度

接下来再介绍一个图像超解析度方面有趣的工作《PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》,发表在CVPR 2020。

虽然说图像超分辨在三四年前就有一些激动人心的工作,比如CVPR 2017上的SRGAN。但是,超解析度的倍数一般还在宽高4倍(对应超解析度到面积大16倍的图像)左右的范畴,PULSE做到了将一个16*16的小图像超解析度到1024*1024,效果如下图所示:

可以看到,这个生成效果也是非常惊人的。

更重要的是,这意味著现在的技术已经可以从一个个非常小的人脸,例如照片拍到的比赛看台上的成百上千个人脸,生成出一个个高清晰度的人脸,虽然是虚拟生成的,但论文作者以及广大网友的测试表明,生成的人脸与真实人脸还是有一定的相似度。

更宽泛一点来说,对于监控视频分析等业务,从视频流中远处的小人脸重构出相似的高精度人脸,便于案情分析等,也在一定程度上成为可能。

另外值得一提的是,作者代码和模型开源后,人们发现基于作者的开源模型,大部分时候倾向于生成白人人脸,把美国前总统奥巴马的小图像输进去也是。这一现象引起了一场关于种族歧视的大辩论,以至于深度学习先驱,图灵奖得主Yann LeCun教授只不过针对这个问题发表了一些技术性的观点,也受到了网路暴民的群起攻之,最后不得不在推特上说farewell everyone。

3、图像风格转换—虚拟试衣

最后再介绍一个图像风格转换方面的工作,具体的,虚拟试衣。这是图像风格转换在电商这一垂直应用领域中的一个具体场景。具体来说,人们在购物网站浏览时,看到漂亮的衣服但经常困扰的是衣服究竟适不适合自己。不同于在实体店可以马上试穿,网路上只能靠脑补想像,失手的时候不可避免。对于卖家来说,会导致退货率高居不下,对于买家来说,也会浪费时间和精力。

随著这两年图像生成技术的进步,生成图像的质量和细节得到显著提升,虚拟试衣的实用性也得到了极大的提升,下图是亚马逊在2018年的虚拟试衣效果图

可以看到,衣服上身后什么效果,已经大致有谱了。最近,亚马逊在CVPR 2020上又进一步将这项工作进行了扩展,可以生成混搭的虚拟试衣。具体的,给定一张自己图像,以及一张甚至多张购物网站上参考图像的情况下,该方法能够生成混搭的穿衣效果,如下图所示。

以上。


必须要给艺术家大厂 OpenAI 排面,当然了,我是肯定不会讲使用了钞能力的 GPT-3 的。

之所以把 OpenAI 叫做艺术家大厂,是因为他们的网站前端与博客封面做得太美了,充满了抽象艺术的迷幻色彩。让我感觉这是一个脱离了工程师低级趣味的工程师团队,真的太喜欢逛他们的网站了。

截个主页瞧瞧:

说到近两年有趣的进展,值得一提的是 OpenAI 在机器人灵巧手单手拧魔方上的进展

随手一截就是壁纸啊

这是一篇2019年10月的paper,所以也算是近两年吧。这个领域发展的太快了,我差点以为这是五年前的工作了。Paper 链接:Solving Rubiks Cube with a Robot Hand。视频如下:

OpenAI机械手单手拧魔方刘浚嘉的视频 · 1841 播放

说实话,让我单手拧个魔方都可能会拧到手抽筋,更不用说视频后面的外界干扰实验了。所以第一次看到这项工作的时候,我心中只有一个词:惊艳。

此外,作为一个颜控,机械臂的喷漆满足了我对美学的追求,曾经被我用到了专栏文章的封面。

刘浚嘉:MuJoCo自定义机器人建模指南?

zhuanlan.zhihu.com图标

视频中有句话我很喜欢:

We tried to build robots learn a little bit like humans do by trial and error.

Trial and error 的精神才是 Reinforcement Learning 这个分支留给我们的宝贵财富。


第二项工作还是强化学习,利用多智能体协作、对抗实现捉迷藏。

Paper Link: Emergent Tool Use From Multi-Agent Autocurricula

OpenAI 多智能体实现捉迷藏刘浚嘉的视频 · 1280 播放

视频中的蓝色小人逐渐学会:

  1. 利用地形躲藏;
  2. 移动可移动物体堵住房门;
  3. 多个小人分工合作,同时移动多个物体堵门;
  4. 抢先一步收走红色小人的斜坡状物体(66666);
  5. 甚至利用可移动物体搭建一个安全的封闭空间;
  6. 提前锁定红色小人可以surf的物体。

红色小人呢:

  1. 学会利用斜坡状的可移动物体搭梯子翻墙;
  2. 爬上方块,来一场box surfing冲进蓝色小人的保护圈;

即使这是大规模分散式学习的结果,可能学了不知多少亿次,但是其体现出的智能性和策略性都让人耳目一新。

The most important: all of these works are learning from scratch!

就像 @Flood Sung 在 Deep Reasoning 开篇中提到的,我们现在想要让机器去解决人也需要思考一下的任务。

Flood Sung:OpenRes 0: 从头开始研究Deep Reasoning?

zhuanlan.zhihu.com图标

最后感慨一句,一个有情怀的研究院,会把每一项 project 当作独一无二的艺术品来看待。


人工智慧的围棋水平超越人类,如今已是不争的事实。但更加细思恐极的是,机器能做的绝不只是游戏。很多人的确已经感到了,未来被 AI 支配的恐惧


从物理学角度来看,并没有一条物理定律规定,基于电子晶元的人工智慧不可能超越人类大脑机能。也并没有一条物理定律规定,人工智慧一定会对人类言听计从,绝不可能违反指令。


有人说,AlphaGo 象征著人工智慧时代的黎明。


而这,或许也是人类的落日……

棋逢对手

这场人机大战,已经载入世界围棋史册。


2016 年 3 月 9 日-12 日,AlphaGo 连下三城,根据五局三胜的赛制,李世石九段已提前被淘汰,无缘 100 万美元奖金。


3 月 13 日,李世石扳回一局;3 月 15 日收官战,AlphaGo 再下一城,最终比分定格在 4:1。



这一刻标志著,从五子棋、魔方到象棋的一切智力游戏, 人类已经没有一项是机器的对手


仅半年多后的 2016 年 12 月 29 日,世界棋坛又出大事了,神秘围棋高手震惊江湖!



在中国最火的围棋对战平台「弈城」上,这个自称 Master 的怪人,不知疲倦地找顶尖高手单挑,完事后一言不发。

最变态的是,他从没输过。



唯一的一场平局,是在和新科冠军陈耀烨下到第 7 手时,机智的耀哥突然掉线——30 秒没有落子,系统自动判定和棋!


不过翌日再战,还是败给了 Master……


短短一周内,Master 豪取 60 连胜,干掉了 10 多位中韩世界冠军,包括曾经排名第一的柯洁「大棋渣」,史称「七日之战」。



Top20 的大佬,凡是敢单挑 Master 的都被干掉了!


看著一大波九段们被活活团灭,大家终于悟出来了:地球上根本没有人这么强!

这种事情,只有「狗」做得出来!



1 月 4 日 ,AlphaGo 的主人,DeepMind 团队终于官方宣布:Master 就 是「AlphaGo」的马甲!


「我们最近很努力地开发 AlphaGo,刚过去的几天我们在网路的对弈平台进行了一些非正式的快棋对局,目的是为了检验我们最新版本的 A lphaGo 是 否如我们的预期。」


AlphaGo 又双叒叕赢了!


去年,AlphaGo 4:1 击败李世石的时候,人人都记得柯洁撂下一句狠话。



「狗」真的来了,柯洁一样是输,连续 3 次 。唯一的区别是,去年李世石好歹还扳回一局啊!


在这个欢乐的打脸时刻,令围观群众失望的是,年少轻狂的柯洁居然一反常态地保持沉默。第二天早上才知道,原来是到医院去了……



围棋作为象征著人类智力高度的最后一块处女地,在我们的眼皮底下彻底沦陷。


面对这样的结局,高晓松悲鸣:人类的路已经走完了!



作为一种游戏,围棋肯定会继续流传下去,至少会比 LOL 的寿命长;但是对于那些把围棋当作真理般探索的情怀主义者,人类的求道之路已经走完了,以后只能指望 A I 老司机带路了。


现在,地球上已经没有人能下过 AlphaGo;但是,我们至少有能力理解,人工智慧究竟是如何超越人类思维的。


这是我们最后的尊严。


弱肉强食,不要重蹈 7 万年前尼安德特人的覆辙。





将来,会不会有更多,我们曾经引以为豪的东西,被 AI 碾压呢?


一切还要从 2014 年说起……

人工智慧崛起

2014 年 ,谷歌豪掷 4 亿英镑,收购位於伦敦的人工智慧公司 DeepMind。作为一个没有产品、没有盈利、纯靠发论文攒人品的研究院性质的公司,当时没有人知道这一切究竟是为什么。



不过坊间传言,DeepMind 正在研发三款产品:


一款具有高级人工智慧的游戏;


一个电子商务智能推荐系统;


一款与图片处理相关的产品。


2015 年,「一款具有高级人工智慧的游戏」来了。这就是一年后颠覆棋坛的人工智慧:AlphaGo。



这里的「Go」不是跑路,而是英文中「围棋」的意思,来源于日语「碁」的音译。



那么「Alpha」呢?它是希腊字母表的第一个字母,一定要翻译成中文的话,对应的词应该是 「头儿」「老大」「首领」之类。



「AlphaGo」,翻译过来就是,围棋大 Boss——人家的名字取得够赤裸裸吧。


作为第一个具备真正学习能力的围棋 AI,「AlphaGo」在内部训练中进步神速,让 4 子 ,战胜了此前最负盛名的围棋 AI: CrazyStone 和 Zen。团队内部会下围棋的几个兄弟自然早已被虐得体无完肤。


到了 2015 年 8 月,DeepMind 团队觉得,必须找个职业选手才能填饱这条「饿狗」的胃口了。


他们盯上了当时正在捷克参加欧洲冠军杯的职业二段:樊麾,反正这里离伦敦不远。


2015 年 10 月,在五局三胜的赛制中,不满一岁的 AlphaGo 把这位三届欧洲围棋冠军扫地出门,用一种摧枯拉朽的方式——5:0。



由于签了保密协议,樊麾当时不能透露 AlphaGo 的任何细节,甚至连和「狗狗」下过棋都不能说。以下是后来樊麾接受采访时的吐槽:

「只要我一犯错,棋局就进入它的轨道了,我就再也翻不了身了。在出错之前,我一直认为我是会赢的,但是一出错我就知道自己要输了。

但它没犯什么错……我就是感觉下不过它。我当时的心情非常不好——电脑第一次打败职业棋手,这是个历史时刻,这是以前从来没有过的事情。」

樊老师,您说得太好了——这是个历史时刻!作为第一个被电脑击败的职业围棋手,您和 AlphaGo 将一起被载入史册,就像关云长刀下的颜良、文丑一样。



我们不知道接下来的四个月里,DeepMind 实验室究竟发生了什么,但是有一件事是肯定的——一口吞下樊麾后,AlphaGo 会长得更快。


这一次,它又「饿」了。

世石胜于雄辩

2016 年 1 月 27 日,谷歌宣布 2016 年 3 月将悬赏 100 万美元,和传奇棋手李世石(职业九段)进行五番棋较量。


如果你对小李同志的光辉战绩不感兴趣,那么只需要了解以下基础知识:


围棋分业余级(1~9 段 )和职业级(1~9 段 )共 18 个等级;


职业九段是金字塔的顶端;


中国从 20 世纪 80 年代至今近 40 年,总共只出了 39 位职业九段选手。


而今年 33 岁的李世石,是当时世界职业九段的 Top4 之 一(2015 年 7 月排名)。



李世石究竟有多牛?

最低 0.3 元/天开通会员,查看完整内容

购买该电子书查看完整内容

电子书

机器新脑:人工智慧将如何进化?

神们自己

是 AI 统治人类,还是人类掌控 AI?

¥9.99 会员免费


没看到大佬们提过情感AI[1](Artificial Emotional Intelligence)。

---------------定义---------------

情感AI是一个跨学科领域,涉及计算机科学、 心理学和认知科学,旨在研发能够识别、解释、处理、模拟人类情感的系统。[虽然该学科最早可追溯至早期的哲学研究,即人们对情绪的剖析,但真正使其成为现代计算机科学分支的,则是1995年罗莎琳·皮卡德发表的关于情感计算的论文。人们研究情感计算很大程度上是为了能够模拟共情——机器应该能够解释人类的情绪状态,做出相适应的行为,对情绪给予恰当的回应。

情感AI技术的基础在于心理学层面的情感识别分析技术,在该技术出现前,人类的情感只能用语言去描述,属于纯粹主观经验判断。而情感识别和量化技术由美国心理学家保罗·艾克曼教授创立,其最大的学术贡献是面部动作编码系统(FACS)[2]。通过该技术,人类第一次可以通过科学标记计量的方法将高兴、伤心、害怕、愤怒、厌恶、惊讶、轻蔑等七种基本情绪进行科学定性定量分析。

---------------技术实现---------------

尽管人类目前可能在情感识别方面占上风,但是机器正在利用自己的优势在不断进步。麻省理工学院斯隆(MIT Sloan)教授Erik Brynjolfsson解释说,机器非常擅长分析大量数据,他们可以聆听声音变化,并开始识别这些变化与情绪变化的关系。同时机器可以分析图像并在人类面部微表情中识别出细微之处,速度比人类甚至还要快[3]

情感AI现在主要通过视频、 声音和文本展开。

  • 视频或图片的情感AI主要通过深度神经网路训练模型然后进行情感预测。

人类的表情丰富多样,种类大致有7类,但微表情种类则异常丰富,主要表情+微表情可以很好的反映受试者的情感状态即变化。

比如下图,预测结果:最有可能:安静,次之: 高兴。

  • 对于声音情感AI,一般采用音频情绪识别等方法。

人类处理声音的方式异常复杂,从音频剪辑中感知情感的方式涉及很多因素。一个人的性别,其语气变化,甚至所用词语的类型都会影响我们理解所说内容的方式。

梅尔频率倒谱[4](MFC)是数据的短期功率谱,对语音分析特别有用。人发出的声音会受到声道形状(包括声带,喉,舌头,牙齿等)的影响。从最基本的意义上说,梅尔频率倒谱在数字上代表了这种声音通道。梅尔音阶的目的是模仿低频的人耳对声音的感知,方法是在较低频率下更具判别力,而在较高频率下则具有较少判别力。它可以缩放频率,使其与人耳听到的声音紧密匹配(人类更擅长识别低频下语音的细微变化)。

详细的技术原理可以参考下面的文章。

九三山人:语音识别中的声学特征提取:梅尔频率倒谱系数MFCC?

zhuanlan.zhihu.com图标
  • 对于文本级别的情感AI分析,一般采用的是文本情感分析

文本情感分析[5](也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)。

---------------进展---------------

十多年来,一些大公司以及规模较小的初创公司已经在情感AI方面进行了投资,它使用计算机视觉或语音分析来识别人类情感。这些公司中的许多公司开始专注于市场研究,抓取和分析人类对产品反应。其中一些进展包括:

  • 医学诊断。该软体可以通过语音分析帮助医生诊断诸如抑郁症和痴呆症等疾病。

其中2018年一项研究[6],对来自30名来自不同文化背景下的儿童视频研究,通过深度学习对于视频的处理,对于自闭症儿童的个体和文化差异的影响进行了实证研究,为自闭症的进一步研究提供了数据基础。

  • 员工安全。情绪AI可以帮助分析工作量很大的员工(例如急救人员)的压力和焦虑程度。

位于阿姆斯特丹的Koninklijke Philips Electronics NV和ABN AMRO Bank NV开发的技术[7],目的降低金融市场的交易风险。研究表明,处于情绪高涨状态的交易者将为资产和轻描淡写的风险支付过多的费用,这种情况被称为「竞价热」或「竞标狂潮」。为了解决这个问题,两家公司共同开发了一种称为Rationalizer的工具,该工具具有两个部分:连接在交易者手腕上的手环,该手环通过皮肤电活动(类似于测谎仪的工作方式)来测量情绪,而显示屏则显示手腕的力量。研究人员发现,当用户意识到自己情绪高涨时,他们更有可能重新考虑自己的决定。

  • 视频游戏。游戏机/视频游戏使用计算机视觉,在游戏过程中通过面部表情检测情绪并适应性调整。

Facebook的「情绪检测自拍滤镜」专利,这个想法是根据照片中检测到的情绪自动选择合适的自拍「面具」。例如,如果自拍者看起来很悲伤,则过滤器默认为卡通泪滴;如果看起来很开心则会得到「Happy Panda」。

  • 教育。已经开发了学习软体原型以适应孩子的情绪。当孩子由于一项任务太困难或太简单而感到沮丧时,该程序会适应该任务,从而使任务变得或多或少。
  • 病人护理。「护士机器人」不仅提醒长期医疗计划中的老年患者服用药物,而且每天与他们交谈以监控他们的总体健康状况。
  • 汽车安全。汽车销售商可以使用计算机视觉技术来监视驾驶员的情绪状态。极端的情绪状态或嗜睡可能会触发驾驶员警报。
  • 自动驾驶汽车。未来,自动驾驶汽车的内部将配备许多感测器,包括摄像头和麦克风,以监视发生的情况并了解用户驾驶体验的反馈。
  • 欺诈识别。保险公司使用语音分析来检测客户在提交索赔时是否在说真话。根据独立调查,高达30%的用户承认向其汽车保险公司撒谎以获取保险。
  • 呼叫中心智能路由。可以从一开始就发现生气的客户,并将其路由到训练有素的业务代表,后者还可以实时监控对话的进行和调整。
  • 公共服务。情感AI技术供应商和监控摄像头提供商之间已经建立了合作关系。阿拉伯联合大公国公共场所的摄像机可以检测人们的面部表情,因此可以了解人们的总体情绪。
  • 零售。零售商已开始研究在商店中安装计算机视觉情感AI技术,以获取人口统计信息以及访客的情绪和反应。

---------------总结---------------

现在情感AI已经慢慢渗透到我们生活的方方面面了,虽然可能我们感知不到,但它实实在在的在帮助我们构建一个更安全,更友好,更intelligent的世界,现在的应用大多数只是基於单个数据维度,未来融合技术对于情感AI或是一个契机。

参考

  1. ^https://zh.wikipedia.org/wiki/%E6%83%85%E6%84%9F%E8%AE%A1%E7%AE%97
  2. ^https://mitpress.mit.edu/books/affective-computing
  3. ^https://mitsloan.mit.edu/ideas-made-to-matter/emotion-ai-explained
  4. ^https://zh.wikipedia.org/zh/%E6%A2%85%E5%B0%94%E9%A2%91%E7%8E%87%E5%80%92%E8%B0%B1%E7%B3%BB%E6%95%B0
  5. ^https://zh.wikipedia.org/wiki/%E6%96%87%E6%9C%AC%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90
  6. ^https://www.media.mit.edu/publications/culturenet-a-deep-learning-approach-for-engagement-intensity-estimation-from-face-images-of-children-with-autism/
  7. ^https://sloanreview.mit.edu/article/how-emotion-sensing-technology-can-reshape-the-workplace/


好多大佬都讲了很多,我这里做个总结性的,分年份介绍下2018-2020年AI的一些进展。可能会和上面说过的有小部分重叠,但仅仅为概括性介绍,并不深入细节。


2018年

2018年AI届大大小小发生了不少事,我选了一些技术方面比较能代表2018年的人工智慧发展的进展。

Deepfake引发担忧

在2018年deepfake技术成熟,某站上面换脸的视频就多起来了。deepfake这个技术最早起源于2016年,在2018年时遇到了舆论上的指责。2018年一月份发布了桌面版FakeApp,二月份被reddit禁了话题。deepfake引发的担忧并非毫无道理。4月份,印度记者Rana Ayyub被人用她的照片做了那种视频,人身受到严重侮辱。

但deepfake如果利用得当,也是能做得很好的。新华社就做了个合成AI主播[1],可以一天24小时读新闻,视频中音频和表情、唇动能保持自然一致,展现与真人主播无异的信息传达效果。

谷歌 Duplex 代替人类自动接打电话

2018年的 Google I/O 大会上,Google 展示了一项名为Duplex的AI ,现场演示了它以假乱真地使用自然语言与真实人类对话沟通,而人类竟然完全没有意识到电话的另一边并非真人,而是 Google的Duplex。

Google IO 大会演示Duplex桔了个仔的视频 · 1148 播放

不过后来因为舆论压力,google在duplex里加入了表明身份的提示,以免给对方造成误会。

OpenAI DOTA 5v5 AI 接连完胜人类团队

6月,OpenAI 宣布 OpenAI Five 在 Dota2 5V5 团战中战胜人类。在这次人机大战中,AI 先后对战了 5 支人类玩家团队:OpenAI 员工组成的团队、现场观众随机组成的路人团队、Valve 员工组成的团队、一支业余 Dota2 玩家组成的团队以及一支半职业团队。AI 很轻松地在几轮对抗中碾压了前 3 支业余队伍,而在与后两支专业队伍的对战中,OpenAI Five 三局两胜。

Google AI 团队发布 BERT 模型,为 NLP 带来历史性的突破

这个得重点吹一下。前面讲的是应用,和很多AI从业者并不有直接交集,而BERT可以说是造福了很多AI从业者。

公司AI团队发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%,MultiNLI准确度达到86.7% (绝对改进率5.6%)等。

谷歌团队的Thang Luong发推:BERT模型开启了NLP的新时代!

BERT这篇论文[2]的最重要意义不在于用了什么模型或者怎么训练的,而是它提出一种船新(渣渣辉语气)规则,利用深层双向的encoding,学习句子和句对的关系表示。

这实验效果,看懂的,掌声在哪???

AI首次在超过两名玩家的德普游戏中击败人类精英

CMU与Facebook联合研发的AI扑克机器玩家Pluribus,在六人无限注德州扑克游戏中打败了15名人类顶级职业扑克手。这是AI系统首次在超过两名玩家的游戏中击败人类精英玩家,表明人类向利用人工智慧解决不完全、非对称性多方博弈类复杂问题方面迈出了一大步。


2019年

2019年比起2018年似乎有点降温,但依然有一些令人振奋的消息。

谷歌宣布实现「量子霸权」

谷歌声称已经达到「量子霸权」[3],打造出第一台能够超越当今最强大的超级计算机能力的量子计算机,能够在3分20秒内完成当今最强大的超级计算机Summit需要约10000年才能完成的计算量。

Process for demonstrating quantum supremacy.

当然这是个令人振奋的消息,不过我们离著实现量子计算的完全功力还有很远的距离。简单来说,如下图,第四层是容错通用量子计算机,能实现量子计算的完全功力,但谷歌只达到第一层。谷歌实现了量子霸权吗?可以说是,也可以说不是。因为他确实只用200s实现了经典计算机要用1万年,但因为它完成了个什么计算呢?产生随机数而已。宣布霸权时,除了产生随机数,它其他活也干不了。

含光800发布

2019年的杭州云栖大会上,阿里推出了这款全球最强的 AI晶元——含光800。在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 晶元性能高 4 倍;能效比500 IPS/W,一个含光800相当于10个GPU的算力。

GPT-2发布

这个在2019年是当时最大的模型,拥有15亿参数。(当然你看到2020年会发现没什么)。GPT-2[4]是OpenAI训练的大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、自动摘要等,无需做任何微调,就能取得令人惊艳的结果,但其结果仍不及专门系统。

GPT-2刚发布时还被称作「假新闻生成神器」,这说明GPT-2的效果好,也说明对其可能被滥用的担忧。不过后面确实没有被滥用,可能实验效果和实际效果有出入吧哈哈哈,不过这种担忧,我觉得GPT-3才是需要担忧的。

由于等下要吹GPT-3,这里就不好意思展开篇幅介绍GPT-2了。但无可否认,GPT-2还是2019年的王者。


2020年

有人觉得,2020年AI的发展似乎到了瓶颈。其实并不准确,对于很多小公司,确实遇到了很多瓶颈,但2020年至今也有一些令人满意的进展。

谷歌发布TensorFlow新版本,支持基于量子计算的机器学习

3月12号朕熬夜加早期看Tensorflow 2.2发布会,就是为了看看TF Quantum。TensorFlow Quantum (TFQ) 是一个量子机器学习库,可用于快速设计量子-经典机器学习混合模型的原型。量子演算法和应用的研究可以利用 Google 的量子计算框架,所有这些框架都可以在 TensorFlow 中找到。[5]

2020 TensorFlow Dev Summit 什么让你印象最深刻??

www.zhihu.com图标

量子计算里面,单位是Qubit。

虽然量子计算概念不太好理解,但看起来TF quantum的使用看起来没讲的那么难。我把我个人理解写在了发布会当天写的回答里了。

2020 TensorFlow Dev Summit 什么让你印象最深刻??

www.zhihu.com图标

GPT-3

虽然回答区有个说过了,但我还是必须要再次吹爆这个了。什么叫大力出奇迹呢?看看下图你就懂了。

这里有几组试验,分别是只用13亿个参数,用130亿个参数,和用1750亿个参数。我们前面讲到GPT-2用了15亿个参数达到了不错的效果,如果同样数量的参数用在GPT-3,可以说是没效果。GPT-3比GPT-2」铺得更广「,所以参数数量的起点也更高。

GPT-3对于AI从业者吸引力多大?看下图就懂了。

GPT-3也许会带来的生产力与生产工具的重大变化,有人已经用GPT-3做了自动生成UI,生成代码的工具了

甚至还有人拿GPT-3用在Google sheets上

GPT-3的使用范围有点颠覆我的认知了。我申请了OpenAI API,但队伍太长了,我排队可能已经排到外太空了。现在 GPT-3 体验许可权的申请入口仍然开放,到 OpenAI 的网站上即可申请。

https://beta.openai.com/?

beta.openai.com

正如霍华德大神在他的答案里说「弱人工智慧的极限就在于用超级模型把整个人类的语料都学习一遍。」,而这个GPT-3在逼近这个极限。但我认为GPT系列并不会带来强人工智慧,当会带来」越来越强的弱人工智慧「。现在GPT也许再出几代,现在基于统计学派的深度学习会走到发展的天花板,不知道到时会不会出现新的学派,给人工智慧带来突破性发展。

参考

  1. ^全球首个「AI合成主播」在新华社上岗 http://www.xinhuanet.com/politics/2018-11/07/c_1123678126.htm
  2. ^BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/pdf/1810.04805.pdf
  3. ^Quantum Supremacy Using a Programmable Superconducting Processor https://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html
  4. ^GPT-2 https://github.com/openai/gpt-2
  5. ^TensorFlow Quantum 是一种量子-经典混合机器学习库。 https://www.tensorflow.org/quantum


推荐阅读:
相关文章