【新智元导读】一般认为 GAN 是 2014 年由 Ian Goodfellow 等人提出的,但有人发现同样的想法早在 2010 年,就被一位芬兰的电气工程师提出了,引发关于 「怎样才算是第一个发明者」 的讨论。

Ian Goodfellow 于 2014 年提出的 GAN,至今已经是计算机视觉领域最重要、使用最广泛的概念之一。

学术界流传的一则 GAN 诞生的传说。据说是因为一天晚上 Ian Goodfellow 在酒吧在喝高的状态下与同事讨论学术问题,突然灵光一闪,提出了 GAN 初步的想法,当时并没有得到同事的认可。

后来从酒吧回去发现女朋友已经睡了,于是熬夜写了代码,发现还真有效果。经过一番研究后,GAN 就诞生了。

GAN 的主要灵感来源于博弈论

中零和博弈的思想,由一个生成网路与一个判别网路组成,二者不断博弈:生成网路从潜在空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网路的输入则为真实样本或生成网路的输出,其目的是将生成网路的输出从真实样本中尽可能分辨出来。而生成网路则要尽可能地欺骗判别网路。两个网路相互对抗、不断调整参数,最终目的是使判别网路无法判断生成网路的输出结果是否真实。

有人比 Ian Goodfellow 早 4 年就提出了 GAN?

正当大家都已经认为 GAN 等于 Ian Goodfellow 的时候,Reddit 上有人挖坟,称其实早在 Ian 提出 GAN 这一概念的 4 年前,就已经有人提出了非常类似的概念。

Reddit 讨论地址:

https://www.reddit.com/r/MachineLearning/comments/bnqm0p/d_gans_were_invented_in_2010/?

www.reddit.com

这位叫做 Olli Niemitalo 的芬兰电气工程师,会在自己的博客上记录他时不时冒出的一些想法。2010 年 2 月 24 日,他记录了一种训练人工神经网路以在可变上下文内、生成缺失数据的方法。

博客链接:

Ideas " iki.fi/o?

yehar.com
图标

在博客中他写到:图像可能丢失像素,那么如何通过周围已知的像素,去恢复丢失的像素呢?

他提出的方法是一种叫做 「生成器」 的神经网路,在给定周围像素作为输入的情况下,生成缺失像素。(看,在 2010 年,Olli 就已经提到了 generator 这个概念!)

那么接下来的问题就是,该如何训练这样的网路呢?

比如一个草原的照片上有一块污渍,我们知道被盖住的部分(缺失的数据)也是草,那么我们就可以训练神经网路用草去修复,并可以根据生成的草,与原始数据之间的均方根差(RMSD),对神经网路的成果进行评分。

但如果生成器遇到不属于训练集的图像,那么神经网路就不可能将所有叶子(尤其是缺失部分的中心位置的数据)放在恰当的位置。如果生成器的结果看起来不理想,就会遭受惩罚。

看,生成 / 对抗,都有了!接下来,他还画了一个流程图:

解释一下上图。给定一个分类器网路,使之同时和生成器进行训练。分类器网路以随机、或交替顺序给出生成的原始数据。

接著,分类器需要猜测在周围图像上下文的上下文中,输入是原始数据 or 生成数据,并给猜测结果打分。原始数据给 1 分,生成数据给 0 分。

生成器网路的目的就是获得尽可能高的分数。随著生成器网路不断学会获得高分,最终能够生成逼真的、人眼区分不出真假的图像。

看到这里,很多 Reddit 网友不淡定了,纷纷感慨 「这个人是谁?」「可惜他不出名,要不然 blahblah」:

MasterSama:Olli 是数百万领先他们时代却籍籍无名的例子之一。但我仍然认为虽然 Ian 可能不是第一个提出 GAN 的人,却是第一个让 GAN 火起来的。

whymauri:同意 MasterSama。我上课的时候听过一个说法,没有任何一个科学发明是以最早发现它的那个科学家命名的。

alexmlamb:先入为主的感情来说,我并不想承认两者是相同的。但我可能不得不承认两者的相似度高的让人不可思议。

GAN 之父的头衔从来不缺质疑,其中就包括 LSTM 之父

中国古话说,文无第一武无第二。在学术领域,永远不缺乏争论。

比如今年图灵奖的归属,包括南京大学人工智慧学院院长周志华教授在内的许多学界人士,均发出质疑为什么图灵奖得主不是 LSTM 之父 Jürgen Schmidhuber?他也是深度学习领域的大家啊。

LSTM 之父 Jürgen Schmidhuber 声称,他在 92 年提出了一种 PM(Predictability Minimization)模型,其与 GAN 有一些相似之处,所以称 Ian Goodfellow 的 「GAN 之父」 的说法是站不住脚的。

最后,无奈之下的 Goodfellow 只好在论文的最终版本里加入了 GAN 和 PM 不同之处的比较,这才有了第一篇 GAN 论文的诞生。

为此,Schmidhuber 和 Ian 不仅在邮件中展开了激烈的争论,甚至在 2016 NIPS 大会上,趁 Ian 正在做 GAN 的 tutorial 的时候,Schmidhuber 站起来打断演讲。首先介绍了一下自己 92 年提出的 PM 模型,介绍了 PM 模型的原理和实现过程等等,然后反问 Ian 如何看待 GAN 和 PM 的相似点。

Ian 当场直接明说他们之前已经在邮件里讨论了这个问题,不想牵扯到 NIPS 大会上来浪费广大听众的时间。

Ian 的言论赢得了在场大佬的多次掌声。一位五十多岁的长者试图碾压三十出头的小伙子,但被小伙子反杀,场面一度十分尴尬。

点子一文不值,做出成果的人才有话语权?

人工智慧、机器人、空间科学工程师 John Cooper 在 Twitter 阐述了他对此事的观点:点子一文不值,做出成果的人才有话语权。

Ian 也在下面回复,从侧面认可 「做永远比说有价值」:如果你有确切的想法可行,并且领域知识能够认识到它应该有效,那实际上就确实有价值。制作第一个能运作的 GAN 只花了大约 1 个小时,写论文只花了 2 个星期。这绝对是一个 「99%灵感,1%汗水」 的故事。

言外之意就是 「我做出来了,就这么一点工作量,你呢?」

Keras 之父 Fran?ois Chollet 回复说:这对学术界来说是一个大问题。通常需要数十人(如果不是数百人),花费很多年心血才能正确地发展一个想法。然而,荣誉要归功于第一篇学术论文的第一作者(无论学术界之外的现有技术如何)。

事实上,如果我们翻开维基百科对 GAN 的定义,就会看到其实 Wiki 提到了 Olli Niemitalod 在 2010 年的博客。不仅如此,还列举了从 1990 年到 2017 年,所有和 GAN 相似的概念。

比如 92 年 Schmidhuber 的可预测性最小化;2012Yan Zhou 等将对抗原理应用于 SVM;2013 年 Li、Gauci 和 Gross 采用了在竞争环境中推断模型提出 「图灵学习」;直到 2014 年,Ian Goodfellow 向公众介绍了 GAN 的概念,对今后的人工智慧领域产生了巨大影响。

大神的成就总会被人记住。而即使一个默默无闻的人,也可能会在 10 年后被人提到进行热议。

Ian 也好,Schmidhuber 也好,科学家做出的成果的重要性和原创性,总会有人认可、有人质疑。但无论如何,大神们总有相似之处,那就是坚持!

正如 Ian 所说:我把整个 GAN 理念放在一起只需要大约 30 秒钟。但这是建立在我花了 4 年时间攻读相关领域的博士学位,加上在攻读博士学位之前、用了 2 年作为业余爱好的基础之上

台上 30 秒,台下需 6 年!


新智元 · AI_era

每日推送 AI 领域前沿学术解读、AI 产业最新资讯

戳右上角【+ 关注】↗↗

喜欢请分享、点赞吧


推荐阅读:
相关文章