如何看待知乎用戶「信息門下走狗」的理論和行為？

知乎用戶?
www.zhihu.com

方向類似的來回答下

其實有的時候

第一點

希望能有學術寫作的能力清晰表達，以及整理好自己的思路用實驗的evidence來說明自己的思路是對的

既然覺得自己數學好

那就嚴格的用符號來表達，如果是riemann流形，流形是啥，riemann度量是啥，最小的能量是啥，這也是重要的數學能力

第二點

任何問題都有多個角度，不要覺得自己的角度make sense就無視別人的角度

不只有control 各種的東西都能解釋dl

control也有多個分支，不要一上來就lddmm，lddmm也不是主流方法，要不是我是做基於微分方程的圖像處理，我也不可能知道這個。大家圖像配準都用optical flow，沒有那麼好的物理性質。。。。。

第三點

既然做機器學習，就學一下機器學習和learning theory，至少fundations那本書至少讀完吧。。。

我還一直以為走狗同志只是喜歡侃侃而談眼高手低的學生，沒想到有人掛出他的文章了，還指出 ta 是一個有教職的老師一類的。反正像我這種博士差點畢不了業，被學術江湖鬥爭搞得工作和博後都差點找不到，也沒文章的挫人，說人家不是恐怕是笑話。所以，下面的觀點，只是個人愚見。

首先擺明態度，我是很敬佩走狗老師在知乎上特立獨行的表現的，我很長時間不做理論了，數學幾乎廢掉，所以 ta 學術水平的東西我評價不了，不過就在知乎展現的學術態度上，我是非常敬佩的，比那些口口聲稱不要對論文有儀式感，頂會是培養新人用的，大家要找亮點的學者，更加有學術傲骨。在這個學術理想爛到底的國度，多一些侃侃而談眼高手低的理想主義者，我不覺得有啥不好，總好過搞江湖鬥爭，找漂亮姑娘亮點，造假灌水，發一些論文得了高分就整個朋友圈曬的 ML （make love）學閥們。

所以，就事論事，我討論他的論文，希望我是理解他做的東西的，並善意的批判這種做事風格。

看起來，走狗老師經常 claim 的觀點：深度學習都是幾何的，似乎都是關於 LDDMM 和神經網路的某種聯繫，模糊一點來講，走狗老師是希望把神經網路抽象成 operator 的 stacking 以後的，如何「湊」網路結構的 Lagrange 的問題，Lagrange 確實是整個物理的核心，而且 Lagrange 最小化在某些特殊的坐標系統下也確實有一些黎曼幾何的影子，所以走狗老師說深度學習是幾何，是物理，從形而上學角度來看，是沒問題的。

但是，單純形式化角度來講，結構生成泛函，其實也不是隻有 LDDMM 可以做到，走狗老師學了物理沒有學深入的情況下，肯定和很多第一天進入物理圈學生一樣，被理論物理形式美震驚以後，覺得世間萬物都可以湊出「拉矢量」，就是湊出一個一鍵生成各種網路結構的泛函。大體都是把圖像坐標 p 上的，第 t 步處理得到的 feature vector ，抽象成一個 field 的思路。這件事，也不是走狗老師第一個想過的，ICLR 被 strongly reject 的一堆文章裏，就有不少 quantum field theory and deep learning，其實，如果你把 feature-vector 都抽象成 field，然後湊一個 Lagrange 出來，沒啥東西不可以說成是物理。

就算不用物理手段，用 Proximal gradient method 那套，把激活函數和權重層解耦以後，一通串起來，一樣可以實現一個網路結構生成函數，數學形式上也長得也挺像 LDDMM 這類東西，只是初始約束不一樣。這個方法，其實清華有位老師也做過有點類似的 idea，據說效果還不錯。

當然，近端梯度單純只有 proxy 函數的極小，通常情況下，圖像為了一些連續性，鐵定裡面不能只有函數，還需要函數的梯度信息，做圖像融合的人應該知道著名的一套演算法都帶有梯度。表示 feature vector 隨著坐標 p 不能有跳變性，必須有一個類型的約束去把跳變轉為漸變，做任何流體力學都知道拉普拉斯運算元表徵局部連續擴散能力，離散化以後就是一個 kernel，往 Lagrange 裡面湊通常還都是平方形式，所以，很直接的，「拉矢量」裡面梯度信息也有了。

所以形式上，我們有梯度，有 field，剩下如何 minmize 這個泛函，物理上，數學上都是被車軲轆輪流轉無數輪的話題了。而這個泛函，只要你鎖定初始條件和末態條件，出來的就是一個泛函空間的 path，根據你空間屬性，梯度信息也有了，坐標信息也有了，做這個 path 出來以後，某種程度上稱之為「測地線」也沒啥不可以的，所以黎曼幾何亦可以塞進去。

所以，單純從理論上來看，大家不要批判走狗老師風牛馬不相及的名詞流風格，他確實不是民科。而且，從他 CVPR 糟糕論文話題下懟人的作風來看，他纔是真正想去思考對方亮點，而不是出於為自己學生，情人，利益相關者開路的 ML 學閥們嘴巴里說的：要找對方（我情人）的亮點。

我下面要善意批評這種作風，我覺得走狗老師有那麼一點點裝逼的成分，以前理論物理系轉過來做 ML 的，裝的逼格更加高，害得我為了破除這種特大號理論名詞流作風，學了一堆用於懟那些傢伙的知識，才勉強讓他們老實一點。

最不可忍受的是做 Ads/CFT 到深度學習的，其中一條路，大體就是 GKP-Witten 的延伸，把低維 bulk boundary operator 和高維 bulk local 的 operator 之間有一些聯繫發揮到極致，其實本質上就是非平衡統計物理對熱力學 second-law 的一個改版，統計物理學過的同學當然都知道一個系統局部的 entropy 可以靠一個 path 依賴的 energy 積分來表示出來（漲落耗散 crook 定理這些），所以非常高屋建瓴來講，有了零維（局部物理量）和一維（path 上的能量積分）的聯繫。只是引力系統是放在高維的，會出現更加神奇的屬性，4 維引力可以用 5 維拉式量表示出來，導致理論學家都非常 high。我之所以不爽，就是這些學物理的，真地要務實一點來做事的話，他應該知道放到計算機裡頭，不可避免都還只是平直時空一個標準大氣壓室溫下的線性代數問題，你用不用這些高大上名詞絕對不影響你解決問題。

所以，對走狗老師的評價是，我覺得 ta 在知乎表現的學術精神非常棒很有追求，不過我還是希望 ta 盡量寫好代碼實現出來，哪怕一個 toy 一點的例子，寫成知乎文章科普也行，飆名詞流只有我這種出身的或多或少看得懂，其它人看不懂，一定是拒絕接受的。而且，我們如今這個國家最需要的，是大批有理想有追求有傲骨的人，肯躬身於一個實際的問題，打磨精透一個領域，而不是泛泛而談。

只是，這麼多對科學沒有儀式感，對論文沒有儀式感，對真理沒有儀式感的學者存在這個大陸，我覺得要走狗老師放棄個人利益最大化，放棄追求名利，不去裝逼，而是務實地去改造其它領域的思想，我自己都不曾做到，要求走狗老師這樣做，是不是有點強人所難。

我認為這和微博掛人沒什麼區別。大家都有說話的權利，誰也沒想到一言不合，對方就把自己的說的話掛出來讓嘲諷。

私底下，有意見大家說說就行，我還是覺得這種號召一羣人去點評（羣嘲）的行為是不好的。

大家爭執的話，可以像twitter大佬一樣轉發評論互噴，但是這種掛出來羣嘲，我覺得會讓後來人害怕學術爭執，削弱發言的勇氣，我想我們這羣做學術的人還是守護一下「讓同行敢於互噴」的這個環境吧，不要輕易掛人，掛人不好。

粗略的瞭解了一些他的觀點，我覺得：他關心的問題是正確的，why deep learning works? 解決問題的大方向也是正確的，我相信這個問題最後的解答應該是距離資訊理論，微分流形，微分幾何不太遠。我也曾對這樣的問題研究過一段時間，但理論要求超越了我的能力。

更正：上面的微分幾何改成信息幾何

稍微看了下LDDMM, 是給定初態和終態，去找一個時變的矢量場使得初態可以微分同胚的變到終態。但是DL是已知初態和梯度流，去尋找終態的過程。我可能還沒理解這兩者的對應關係。

另外尋找兩個領域的關聯，應該要找的是functor, 不止要尋找object的對應，還要尋找map的對應。這樣的關聯要能帶來新的啟發和結果，而且想法需要有計算作為支持。

DL的幾何是個很有趣的研究方向，希望看到更多類似neural tangent kernel類型的文章。