如何看待知乎用户「信息门下走狗」的理论和行为？

知乎用户?
www.zhihu.com

方向类似的来回答下

其实有的时候

第一点

希望能有学术写作的能力清晰表达，以及整理好自己的思路用实验的evidence来说明自己的思路是对的

既然觉得自己数学好

那就严格的用符号来表达，如果是riemann流形，流形是啥，riemann度量是啥，最小的能量是啥，这也是重要的数学能力

第二点

任何问题都有多个角度，不要觉得自己的角度make sense就无视别人的角度

不只有control 各种的东西都能解释dl

control也有多个分支，不要一上来就lddmm，lddmm也不是主流方法，要不是我是做基于微分方程的图像处理，我也不可能知道这个。大家图像配准都用optical flow，没有那么好的物理性质。。。。。

第三点

既然做机器学习，就学一下机器学习和learning theory，至少fundations那本书至少读完吧。。。

我还一直以为走狗同志只是喜欢侃侃而谈眼高手低的学生，没想到有人挂出他的文章了，还指出 ta 是一个有教职的老师一类的。反正像我这种博士差点毕不了业，被学术江湖斗争搞得工作和博后都差点找不到，也没文章的挫人，说人家不是恐怕是笑话。所以，下面的观点，只是个人愚见。

首先摆明态度，我是很敬佩走狗老师在知乎上特立独行的表现的，我很长时间不做理论了，数学几乎废掉，所以 ta 学术水平的东西我评价不了，不过就在知乎展现的学术态度上，我是非常敬佩的，比那些口口声称不要对论文有仪式感，顶会是培养新人用的，大家要找亮点的学者，更加有学术傲骨。在这个学术理想烂到底的国度，多一些侃侃而谈眼高手低的理想主义者，我不觉得有啥不好，总好过搞江湖斗争，找漂亮姑娘亮点，造假灌水，发一些论文得了高分就整个朋友圈晒的 ML （make love）学阀们。

所以，就事论事，我讨论他的论文，希望我是理解他做的东西的，并善意的批判这种做事风格。

看起来，走狗老师经常 claim 的观点：深度学习都是几何的，似乎都是关于 LDDMM 和神经网路的某种联系，模糊一点来讲，走狗老师是希望把神经网路抽象成 operator 的 stacking 以后的，如何「凑」网路结构的 Lagrange 的问题，Lagrange 确实是整个物理的核心，而且 Lagrange 最小化在某些特殊的坐标系统下也确实有一些黎曼几何的影子，所以走狗老师说深度学习是几何，是物理，从形而上学角度来看，是没问题的。

但是，单纯形式化角度来讲，结构生成泛函，其实也不是只有 LDDMM 可以做到，走狗老师学了物理没有学深入的情况下，肯定和很多第一天进入物理圈学生一样，被理论物理形式美震惊以后，觉得世间万物都可以凑出「拉矢量」，就是凑出一个一键生成各种网路结构的泛函。大体都是把图像坐标 p 上的，第 t 步处理得到的 feature vector ，抽象成一个 field 的思路。这件事，也不是走狗老师第一个想过的，ICLR 被 strongly reject 的一堆文章里，就有不少 quantum field theory and deep learning，其实，如果你把 feature-vector 都抽象成 field，然后凑一个 Lagrange 出来，没啥东西不可以说成是物理。

就算不用物理手段，用 Proximal gradient method 那套，把激活函数和权重层解耦以后，一通串起来，一样可以实现一个网路结构生成函数，数学形式上也长得也挺像 LDDMM 这类东西，只是初始约束不一样。这个方法，其实清华有位老师也做过有点类似的 idea，据说效果还不错。

当然，近端梯度单纯只有 proxy 函数的极小，通常情况下，图像为了一些连续性，铁定里面不能只有函数，还需要函数的梯度信息，做图像融合的人应该知道著名的一套演算法都带有梯度。表示 feature vector 随著坐标 p 不能有跳变性，必须有一个类型的约束去把跳变转为渐变，做任何流体力学都知道拉普拉斯运算元表征局部连续扩散能力，离散化以后就是一个 kernel，往 Lagrange 里面凑通常还都是平方形式，所以，很直接的，「拉矢量」里面梯度信息也有了。

所以形式上，我们有梯度，有 field，剩下如何 minmize 这个泛函，物理上，数学上都是被车轱辘轮流转无数轮的话题了。而这个泛函，只要你锁定初始条件和末态条件，出来的就是一个泛函空间的 path，根据你空间属性，梯度信息也有了，坐标信息也有了，做这个 path 出来以后，某种程度上称之为「测地线」也没啥不可以的，所以黎曼几何亦可以塞进去。

所以，单纯从理论上来看，大家不要批判走狗老师风牛马不相及的名词流风格，他确实不是民科。而且，从他 CVPR 糟糕论文话题下怼人的作风来看，他才是真正想去思考对方亮点，而不是出于为自己学生，情人，利益相关者开路的 ML 学阀们嘴巴里说的：要找对方（我情人）的亮点。

我下面要善意批评这种作风，我觉得走狗老师有那么一点点装逼的成分，以前理论物理系转过来做 ML 的，装的逼格更加高，害得我为了破除这种特大号理论名词流作风，学了一堆用于怼那些家伙的知识，才勉强让他们老实一点。

最不可忍受的是做 Ads/CFT 到深度学习的，其中一条路，大体就是 GKP-Witten 的延伸，把低维 bulk boundary operator 和高维 bulk local 的 operator 之间有一些联系发挥到极致，其实本质上就是非平衡统计物理对热力学 second-law 的一个改版，统计物理学过的同学当然都知道一个系统局部的 entropy 可以靠一个 path 依赖的 energy 积分来表示出来（涨落耗散 crook 定理这些），所以非常高屋建瓴来讲，有了零维（局部物理量）和一维（path 上的能量积分）的联系。只是引力系统是放在高维的，会出现更加神奇的属性，4 维引力可以用 5 维拉式量表示出来，导致理论学家都非常 high。我之所以不爽，就是这些学物理的，真地要务实一点来做事的话，他应该知道放到计算机里头，不可避免都还只是平直时空一个标准大气压室温下的线性代数问题，你用不用这些高大上名词绝对不影响你解决问题。

所以，对走狗老师的评价是，我觉得 ta 在知乎表现的学术精神非常棒很有追求，不过我还是希望 ta 尽量写好代码实现出来，哪怕一个 toy 一点的例子，写成知乎文章科普也行，飙名词流只有我这种出身的或多或少看得懂，其它人看不懂，一定是拒绝接受的。而且，我们如今这个国家最需要的，是大批有理想有追求有傲骨的人，肯躬身于一个实际的问题，打磨精透一个领域，而不是泛泛而谈。

只是，这么多对科学没有仪式感，对论文没有仪式感，对真理没有仪式感的学者存在这个大陆，我觉得要走狗老师放弃个人利益最大化，放弃追求名利，不去装逼，而是务实地去改造其它领域的思想，我自己都不曾做到，要求走狗老师这样做，是不是有点强人所难。

我认为这和微博挂人没什么区别。大家都有说话的权利，谁也没想到一言不合，对方就把自己的说的话挂出来让嘲讽。

私底下，有意见大家说说就行，我还是觉得这种号召一群人去点评（群嘲）的行为是不好的。

大家争执的话，可以像twitter大佬一样转发评论互喷，但是这种挂出来群嘲，我觉得会让后来人害怕学术争执，削弱发言的勇气，我想我们这群做学术的人还是守护一下「让同行敢于互喷」的这个环境吧，不要轻易挂人，挂人不好。

粗略的了解了一些他的观点，我觉得：他关心的问题是正确的，why deep learning works? 解决问题的大方向也是正确的，我相信这个问题最后的解答应该是距离资讯理论，微分流形，微分几何不太远。我也曾对这样的问题研究过一段时间，但理论要求超越了我的能力。

更正：上面的微分几何改成信息几何

稍微看了下LDDMM, 是给定初态和终态，去找一个时变的矢量场使得初态可以微分同胚的变到终态。但是DL是已知初态和梯度流，去寻找终态的过程。我可能还没理解这两者的对应关系。

另外寻找两个领域的关联，应该要找的是functor, 不止要寻找object的对应，还要寻找map的对应。这样的关联要能带来新的启发和结果，而且想法需要有计算作为支持。

DL的几何是个很有趣的研究方向，希望看到更多类似neural tangent kernel类型的文章。