知乎用戶?

www.zhihu.com圖標


方向類似的來回答下

其實有的時候

第一點

希望能有學術寫作的能力清晰表達,以及整理好自己的思路用實驗的evidence來說明自己的思路是對的

既然覺得自己數學好

那就嚴格的用符號來表達,如果是riemann流形,流形是啥,riemann度量是啥,最小的能量是啥,這也是重要的數學能力

第二點

任何問題都有多個角度,不要覺得自己的角度make sense就無視別人的角度

不只有control 各種的東西都能解釋dl

control也有多個分支,不要一上來就lddmm,lddmm也不是主流方法,要不是我是做基於微分方程的圖像處理,我也不可能知道這個。大家圖像配準都用optical flow,沒有那麼好的物理性質。。。。。

第三點

既然做機器學習,就學一下機器學習和learning theory,至少fundations那本書至少讀完吧。。。


我還一直以為走狗同志只是喜歡侃侃而談眼高手低的學生,沒想到有人掛出他的文章了,還指出 ta 是一個有教職的老師一類的。反正像我這種博士差點畢不了業,被學術江湖鬥爭搞得工作和博後都差點找不到,也沒文章的挫人,說人家不是恐怕是笑話。所以,下面的觀點,只是個人愚見。

首先擺明態度,我是很敬佩走狗老師在知乎上特立獨行的表現的,我很長時間不做理論了,數學幾乎廢掉,所以 ta 學術水平的東西我評價不了,不過就在知乎展現的學術態度上,我是非常敬佩的,比那些口口聲稱不要對論文有儀式感,頂會是培養新人用的,大家要找亮點的學者,更加有學術傲骨。在這個學術理想爛到底的國度,多一些侃侃而談眼高手低的理想主義者,我不覺得有啥不好,總好過搞江湖鬥爭,找漂亮姑娘亮點,造假灌水,發一些論文得了高分就整個朋友圈曬的 ML (make love)學閥們。

所以,就事論事,我討論他的論文,希望我是理解他做的東西的,並善意的批判這種做事風格。

看起來,走狗老師經常 claim 的觀點:深度學習都是幾何的,似乎都是關於 LDDMM 和神經網路的某種聯繫,模糊一點來講,走狗老師是希望把神經網路抽象成 operator 的 stacking 以後的,如何「湊」網路結構的 Lagrange 的問題,Lagrange 確實是整個物理的核心,而且 Lagrange 最小化在某些特殊的坐標系統下也確實有一些黎曼幾何的影子,所以走狗老師說深度學習是幾何,是物理,從形而上學角度來看,是沒問題的。

但是,單純形式化角度來講,結構生成泛函,其實也不是隻有 LDDMM 可以做到,走狗老師學了物理沒有學深入的情況下,肯定和很多第一天進入物理圈學生一樣,被理論物理形式美震驚以後,覺得世間萬物都可以湊出「拉矢量」,就是湊出一個一鍵生成各種網路結構的泛函。大體都是把圖像坐標 p 上的,第 t 步處理得到的 feature vector [公式] ,抽象成一個 field 的思路。這件事,也不是走狗老師第一個想過的,ICLR 被 strongly reject 的一堆文章裏,就有不少 quantum field theory and deep learning,其實,如果你把 feature-vector 都抽象成 field,然後湊一個 Lagrange 出來,沒啥東西不可以說成是物理。

就算不用物理手段,用 Proximal gradient method 那套,把激活函數和權重層解耦以後,一通串起來,一樣可以實現一個網路結構生成函數,數學形式上也長得也挺像 LDDMM 這類東西,只是初始約束不一樣。這個方法,其實清華有位老師也做過有點類似的 idea,據說效果還不錯。

當然,近端梯度單純只有 proxy 函數的極小,通常情況下,圖像為了一些連續性,鐵定裡面不能只有函數,還需要函數的梯度信息,做圖像融合的人應該知道著名的一套演算法都帶有梯度。表示 feature vector 隨著坐標 p 不能有跳變性,必須有一個 [公式] 類型的約束去把跳變轉為漸變,做任何流體力學都知道拉普拉斯運算元表徵局部連續擴散能力,離散化以後就是一個 kernel,往 Lagrange 裡面湊通常還都是平方形式,所以,很直接的,「拉矢量」裡面梯度信息也有了。

所以形式上,我們有梯度,有 field,剩下如何 minmize 這個泛函,物理上,數學上都是被車軲轆輪流轉無數輪的話題了。而這個泛函,只要你鎖定初始條件和末態條件,出來的就是一個泛函空間的 path,根據你空間屬性,梯度信息也有了,坐標信息也有了,做這個 path 出來以後,某種程度上稱之為「測地線」也沒啥不可以的,所以黎曼幾何亦可以塞進去。

所以,單純從理論上來看,大家不要批判走狗老師風牛馬不相及的名詞流風格,他確實不是民科。而且,從他 CVPR 糟糕論文話題下懟人的作風來看,他纔是真正想去思考對方亮點,而不是出於為自己學生,情人,利益相關者開路的 ML 學閥們嘴巴里說的:要找對方(我情人)的亮點。

我下面要善意批評這種作風,我覺得走狗老師有那麼一點點裝逼的成分,以前理論物理系轉過來做 ML 的,裝的逼格更加高,害得我為了破除這種特大號理論名詞流作風,學了一堆用於懟那些傢伙的知識,才勉強讓他們老實一點。

最不可忍受的是做 Ads/CFT 到深度學習的,其中一條路,大體就是 GKP-Witten 的延伸, 把低維 bulk boundary operator 和高維 bulk local 的 operator 之間有一些聯繫發揮到極致,其實本質上就是非平衡統計物理對熱力學 second-law 的一個改版,統計物理學過的同學當然都知道一個系統局部的 entropy 可以靠一個 path 依賴的 energy 積分來表示出來(漲落耗散 crook 定理這些),所以非常高屋建瓴來講,有了零維(局部物理量)和一維(path 上的能量積分)的聯繫。只是引力系統是放在高維的,會出現更加神奇的屬性,4 維引力可以用 5 維拉式量表示出來,導致理論學家都非常 high。我之所以不爽,就是這些學物理的,真地要務實一點來做事的話,他應該知道放到計算機裡頭,不可避免都還只是平直時空一個標準大氣壓室溫下的線性代數問題,你用不用這些高大上名詞絕對不影響你解決問題。

所以,對走狗老師的評價是,我覺得 ta 在知乎表現的學術精神非常棒很有追求,不過我還是希望 ta 盡量寫好代碼實現出來,哪怕一個 toy 一點的例子,寫成知乎文章科普也行,飆名詞流只有我這種出身的或多或少看得懂,其它人看不懂,一定是拒絕接受的。而且,我們如今這個國家最需要的,是大批有理想有追求有傲骨的人,肯躬身於一個實際的問題,打磨精透一個領域,而不是泛泛而談。

只是,這麼多對科學沒有儀式感,對論文沒有儀式感,對真理沒有儀式感的學者存在這個大陸,我覺得要走狗老師放棄個人利益最大化,放棄追求名利,不去裝逼,而是務實地去改造其它領域的思想,我自己都不曾做到,要求走狗老師這樣做,是不是有點強人所難。


我認為這和微博掛人沒什麼區別。大家都有說話的權利,誰也沒想到一言不合,對方就把自己的說的話掛出來讓嘲諷。

私底下,有意見大家說說就行,我還是覺得這種號召一羣人去點評(羣嘲)的行為是不好的。

大家爭執的話,可以像twitter大佬一樣轉發評論互噴,但是這種掛出來羣嘲,我覺得會讓後來人害怕學術爭執,削弱發言的勇氣,我想我們這羣做學術的人還是守護一下「讓同行敢於互噴」的這個環境吧,不要輕易掛人,掛人不好。


粗略的瞭解了一些他的觀點,我覺得:他關心的問題是正確的,why deep learning works? 解決問題的大方向也是正確的,我相信這個問題最後的解答應該是距離資訊理論,微分流形,微分幾何不太遠。我也曾對這樣的問題研究過一段時間,但理論要求超越了我的能力。

更正:上面的微分幾何改成信息幾何


稍微看了下LDDMM, 是給定初態和終態,去找一個時變的矢量場使得初態可以微分同胚的變到終態。但是DL是已知初態和梯度流,去尋找終態的過程。我可能還沒理解這兩者的對應關係。

另外尋找兩個領域的關聯,應該要找的是functor, 不止要尋找object的對應,還要尋找map的對應。這樣的關聯要能帶來新的啟發和結果,而且想法需要有計算作為支持。

DL的幾何是個很有趣的研究方向,希望看到更多類似neural tangent kernel類型的文章。


推薦閱讀:
相關文章