知乎用户?

www.zhihu.com图标


方向类似的来回答下

其实有的时候

第一点

希望能有学术写作的能力清晰表达,以及整理好自己的思路用实验的evidence来说明自己的思路是对的

既然觉得自己数学好

那就严格的用符号来表达,如果是riemann流形,流形是啥,riemann度量是啥,最小的能量是啥,这也是重要的数学能力

第二点

任何问题都有多个角度,不要觉得自己的角度make sense就无视别人的角度

不只有control 各种的东西都能解释dl

control也有多个分支,不要一上来就lddmm,lddmm也不是主流方法,要不是我是做基于微分方程的图像处理,我也不可能知道这个。大家图像配准都用optical flow,没有那么好的物理性质。。。。。

第三点

既然做机器学习,就学一下机器学习和learning theory,至少fundations那本书至少读完吧。。。


我还一直以为走狗同志只是喜欢侃侃而谈眼高手低的学生,没想到有人挂出他的文章了,还指出 ta 是一个有教职的老师一类的。反正像我这种博士差点毕不了业,被学术江湖斗争搞得工作和博后都差点找不到,也没文章的挫人,说人家不是恐怕是笑话。所以,下面的观点,只是个人愚见。

首先摆明态度,我是很敬佩走狗老师在知乎上特立独行的表现的,我很长时间不做理论了,数学几乎废掉,所以 ta 学术水平的东西我评价不了,不过就在知乎展现的学术态度上,我是非常敬佩的,比那些口口声称不要对论文有仪式感,顶会是培养新人用的,大家要找亮点的学者,更加有学术傲骨。在这个学术理想烂到底的国度,多一些侃侃而谈眼高手低的理想主义者,我不觉得有啥不好,总好过搞江湖斗争,找漂亮姑娘亮点,造假灌水,发一些论文得了高分就整个朋友圈晒的 ML (make love)学阀们。

所以,就事论事,我讨论他的论文,希望我是理解他做的东西的,并善意的批判这种做事风格。

看起来,走狗老师经常 claim 的观点:深度学习都是几何的,似乎都是关于 LDDMM 和神经网路的某种联系,模糊一点来讲,走狗老师是希望把神经网路抽象成 operator 的 stacking 以后的,如何「凑」网路结构的 Lagrange 的问题,Lagrange 确实是整个物理的核心,而且 Lagrange 最小化在某些特殊的坐标系统下也确实有一些黎曼几何的影子,所以走狗老师说深度学习是几何,是物理,从形而上学角度来看,是没问题的。

但是,单纯形式化角度来讲,结构生成泛函,其实也不是只有 LDDMM 可以做到,走狗老师学了物理没有学深入的情况下,肯定和很多第一天进入物理圈学生一样,被理论物理形式美震惊以后,觉得世间万物都可以凑出「拉矢量」,就是凑出一个一键生成各种网路结构的泛函。大体都是把图像坐标 p 上的,第 t 步处理得到的 feature vector [公式] ,抽象成一个 field 的思路。这件事,也不是走狗老师第一个想过的,ICLR 被 strongly reject 的一堆文章里,就有不少 quantum field theory and deep learning,其实,如果你把 feature-vector 都抽象成 field,然后凑一个 Lagrange 出来,没啥东西不可以说成是物理。

就算不用物理手段,用 Proximal gradient method 那套,把激活函数和权重层解耦以后,一通串起来,一样可以实现一个网路结构生成函数,数学形式上也长得也挺像 LDDMM 这类东西,只是初始约束不一样。这个方法,其实清华有位老师也做过有点类似的 idea,据说效果还不错。

当然,近端梯度单纯只有 proxy 函数的极小,通常情况下,图像为了一些连续性,铁定里面不能只有函数,还需要函数的梯度信息,做图像融合的人应该知道著名的一套演算法都带有梯度。表示 feature vector 随著坐标 p 不能有跳变性,必须有一个 [公式] 类型的约束去把跳变转为渐变,做任何流体力学都知道拉普拉斯运算元表征局部连续扩散能力,离散化以后就是一个 kernel,往 Lagrange 里面凑通常还都是平方形式,所以,很直接的,「拉矢量」里面梯度信息也有了。

所以形式上,我们有梯度,有 field,剩下如何 minmize 这个泛函,物理上,数学上都是被车轱辘轮流转无数轮的话题了。而这个泛函,只要你锁定初始条件和末态条件,出来的就是一个泛函空间的 path,根据你空间属性,梯度信息也有了,坐标信息也有了,做这个 path 出来以后,某种程度上称之为「测地线」也没啥不可以的,所以黎曼几何亦可以塞进去。

所以,单纯从理论上来看,大家不要批判走狗老师风牛马不相及的名词流风格,他确实不是民科。而且,从他 CVPR 糟糕论文话题下怼人的作风来看,他才是真正想去思考对方亮点,而不是出于为自己学生,情人,利益相关者开路的 ML 学阀们嘴巴里说的:要找对方(我情人)的亮点。

我下面要善意批评这种作风,我觉得走狗老师有那么一点点装逼的成分,以前理论物理系转过来做 ML 的,装的逼格更加高,害得我为了破除这种特大号理论名词流作风,学了一堆用于怼那些家伙的知识,才勉强让他们老实一点。

最不可忍受的是做 Ads/CFT 到深度学习的,其中一条路,大体就是 GKP-Witten 的延伸, 把低维 bulk boundary operator 和高维 bulk local 的 operator 之间有一些联系发挥到极致,其实本质上就是非平衡统计物理对热力学 second-law 的一个改版,统计物理学过的同学当然都知道一个系统局部的 entropy 可以靠一个 path 依赖的 energy 积分来表示出来(涨落耗散 crook 定理这些),所以非常高屋建瓴来讲,有了零维(局部物理量)和一维(path 上的能量积分)的联系。只是引力系统是放在高维的,会出现更加神奇的属性,4 维引力可以用 5 维拉式量表示出来,导致理论学家都非常 high。我之所以不爽,就是这些学物理的,真地要务实一点来做事的话,他应该知道放到计算机里头,不可避免都还只是平直时空一个标准大气压室温下的线性代数问题,你用不用这些高大上名词绝对不影响你解决问题。

所以,对走狗老师的评价是,我觉得 ta 在知乎表现的学术精神非常棒很有追求,不过我还是希望 ta 尽量写好代码实现出来,哪怕一个 toy 一点的例子,写成知乎文章科普也行,飙名词流只有我这种出身的或多或少看得懂,其它人看不懂,一定是拒绝接受的。而且,我们如今这个国家最需要的,是大批有理想有追求有傲骨的人,肯躬身于一个实际的问题,打磨精透一个领域,而不是泛泛而谈。

只是,这么多对科学没有仪式感,对论文没有仪式感,对真理没有仪式感的学者存在这个大陆,我觉得要走狗老师放弃个人利益最大化,放弃追求名利,不去装逼,而是务实地去改造其它领域的思想,我自己都不曾做到,要求走狗老师这样做,是不是有点强人所难。


我认为这和微博挂人没什么区别。大家都有说话的权利,谁也没想到一言不合,对方就把自己的说的话挂出来让嘲讽。

私底下,有意见大家说说就行,我还是觉得这种号召一群人去点评(群嘲)的行为是不好的。

大家争执的话,可以像twitter大佬一样转发评论互喷,但是这种挂出来群嘲,我觉得会让后来人害怕学术争执,削弱发言的勇气,我想我们这群做学术的人还是守护一下「让同行敢于互喷」的这个环境吧,不要轻易挂人,挂人不好。


粗略的了解了一些他的观点,我觉得:他关心的问题是正确的,why deep learning works? 解决问题的大方向也是正确的,我相信这个问题最后的解答应该是距离资讯理论,微分流形,微分几何不太远。我也曾对这样的问题研究过一段时间,但理论要求超越了我的能力。

更正:上面的微分几何改成信息几何


稍微看了下LDDMM, 是给定初态和终态,去找一个时变的矢量场使得初态可以微分同胚的变到终态。但是DL是已知初态和梯度流,去寻找终态的过程。我可能还没理解这两者的对应关系。

另外寻找两个领域的关联,应该要找的是functor, 不止要寻找object的对应,还要寻找map的对应。这样的关联要能带来新的启发和结果,而且想法需要有计算作为支持。

DL的几何是个很有趣的研究方向,希望看到更多类似neural tangent kernel类型的文章。


推荐阅读:
相关文章