听到一些对深度学习的负面评价,比如pearl 认为深度学习做社区做的不过是曲线拟合的工作而已,如何反驳这个观点?


偏个题,从这个问题提到的Judea Pearl的观点让我想到,争论这些观点对错的同时,也值得从这些学术巨人身上学习那种略显「偏执」的精神。正是这种对自己学术观点的坚持,才能让他们宠辱不惊,坚持几十年建筑自己的学术思想大厦。

现在人工智慧的主流方法是深度学习,无论Judea Pearl还是Noam Chomsky的观点,放在他们的学术思想中来看,都有其正确的一面。他们的学术坚持和不随波逐流,决定了他们会对深度学习潮流持有的观点。

Judea Pearl说:As much as I look into what』s being done with deep learning, I see they』re all stuck there on the level of associations. Curve fitting.

To Build Truly Intelligent Machines, Teach Them Cause and Effect | Quanta Magazine?

www.quantamagazine.org图标

Noam Chomsky最近采访说:(Deep learning is) not discovering the nature of the system at all because it does just as well, or even better on things that violate the structure of the system, and it goes on from there.

乔姆斯基专访:深度学习并没有探寻世界本质?

www.jiqizhixin.com图标

深度学习现在是显学,时间也不过10年而已。代表学者Geoffrey Hinton,Yann LeCun,Yoshua Bengio此前都坐了相当长时间的冷板凳。这从Yoshua Bengio的2003年的代表作Neural LM近十几年的引用情况可见一斑。试想那段时间,他们如果没有类似Judea Pearl和Noam Chomsky的坚持,估计中途就会改弦易辙。

能做到这点当然非常难,相当于做整个学术界主流的逆行者了,真的需要强大内心和「偏执」来支持。做学术研究,还真的需要一点这种「攻其一点、不及其余」的精神劲儿。共勉。


深度学习在业界的成功应用是事实,不用有任何质疑。特别是在互联网的现金牛,广告、推荐、搜索领域的应用,对各业界巨头业绩的提升是毫无疑问的,极其显著的。

因为理论基础薄弱就放弃深度学习的应用,那你得问问各大巨头的广告部门愿不愿意自降5-10个点的利润(保守估计),回归到传统机器学习上去,关键意义在哪呢?

其实这个问题的题目和描述简直文不对题,极其歪曲Judea Pearl的本意。作为贝叶斯网路的奠基人,Pearl的本意一定是说深度学习网路没有发现事物中蕴含的「因果」关系,没有探寻到事物发展的本质。这当然是正确的,这是一个存粹的学术路线,学术方向的问题,和深度学习的应用没有一点关系。

从这也可以再次体会到学界和业界的区别,业界的应用是充满功利心的,不管怎样的技术,不管有没有理论支撑,只要能够提升效果,你管他有没有告诉你本质原因。

学界当然是不同的,Judea Pearl这个级别的科学家当然要以探寻事物发展的本质和扩展人类认知边界为最高目标,要是都以业界应用为导向,那人类可以完全放弃数学、哲学和一切基础科学的研究了。


如果想抬杠,认为「深度学习做的不过是曲线拟合」,无异于说计算机科学做的不过是加减乘除。

我觉得Judea Pearl的挫折感来自于AI现状和AGI之间这个宏大的gap,相信这种无奈感在很多researcher里都有。

比如Facebook最近release了Blender,一个号称可以骗过人的chatbot。但是别人试了之后发现稍微不常见一点的对话,bot就会错误百出:

这让人们又纷纷觉得即使Bert这样的强大模型也并不理解语言,而只是做曲线拟合。但我觉得我们需要在human level的语言理解和random guess之间寻找个合适的边界,是不是有个gold metric,60分了就算理解了语言,59分就不是理解?个人觉得这种metric是不存在的。语言理解是有许多层面的,比如做NLP的人都知道「中文屋子」的思想实验,如果一个bot可以根据需求总是从language map到合适的行为,那它内部到底是曲线拟合或者别的什么机制,有什么关系呢?如果我们训练一条狗,说「出门」它就知道要出门去玩了,它也只是学到了「出门」这个词和出门这个动作的映射关系,它很可能并不知道这个词是「出」和「门」的组合,更难generalize到「进门」、「门口」这些新的组合。个人觉得掌握这种映射关系比Bert的理解程度还低很多。现在Bert这样的模型至少可以找到主谓宾,找到一个句子里,哪些词之间是互相修饰的关系,找到哪些词是对特定任务重要的language cue,尽管由于过分依赖了这些cue而经常犯愚蠢的错误。

最后,我个人的观点是,从最简单的蚂蚁、蜜蜂的智能到AGI,这是个连续光谱,尽管人在某些地方实现了breakthrough(比如符号处理能力),但在很多层面智能是个连续的东西,而现在的deep learning应该已经在某些方面可以达到或者超越一些低等动物的智能。AI社区的人没必要因为没达到AGI而妄自菲薄,也不需要那么在意社区外的人对现有技术的嘲笑。


每一个青年人都不应该迷信权威:人非圣贤,孰能无过,要摒弃这种「因为他是知名教授/图灵奖得主/某某之父,所以他说得对」的思维。

「All the impressive achievements of deep learning amount to just curve fitting.」这样一句话,如果把他的身份背书抛开,你会同意吗?深度学习的成就显然不是用曲线拟合就可以概括的,深度学习擅长的问题从来就不是什么「波士顿房价预测」,如果说深度学习的成就都归结于曲线拟合,那我们岂不是也可以说,计算机在做的事情也只是01的多种运算?

类似之前有XX之父说「神经网路做的事情不过是记忆」,实际上这种对复杂系统的简单总结解读并不能对认清问题、解决问题起到多少积极作用。

当然这句话也不能脱离开语境来理解,Judea Pearl是很崇尚因果推理的,所以他反对深度学习方法也是很正常的,深度学习确实存在一些局限,但这不代表它是一条走不通的路,至少按目前的效果来看,它还是一条很有前景的道路。:)

P.S. 在我看来,所谓的人工智慧本身就是依赖于应用场景的,抛开应用场景谈智能就是耍流氓。是骡子是马,要拉出来遛一遛才知道。

P.P.S. 关于智能,每个人的定义不一样,从需求上来看,如果你希望让AI减轻人类的工作负担,那么深度学习就大有可为;如果你希望AI能够完全代替人类,那么目前的深度学习显然是有很多问题的。


当前脑科学研究理论基础薄弱

是否意味著我们应该放弃用脑


推荐阅读:
相关文章