關於那篇disentangled representation的best paper,我想說說自己的觀點,但我並不是說這篇文章糟糕,相反我從第一次看到這篇文章就覺得它在disentangled representation learning領域很有價值,所以在本題下面屬於跑題的回答,只是大家對這篇paper討論的比較多,所以單獨聊聊。

首先是disentangled representation的定義。目前並沒有一個普遍認可的formal定義,但普遍接受的非正式定義如下:

  • A disentangled representation should separate the distinct, informative factors of variations in the data.
  • Single latent units are sensitive to changes in single generative factors, while being relatively invariant to changes in other factors (Y. Bengio et al., 2013).
  • A change in a single underlying factor of variation [公式] should lead to a change in a single factor in the learned representation [公式] (Locatello et al., 2019).

大家可能會質疑為什麼我們要糾結於把不同的factor獨立的映射到representation vector中的不同維呢?也許對於某些task,比如一些分類問題,這一點並不影響complexity,即,entangled representation同樣可能達到相同的complexity,比如最簡單的等價變換。但是disentangled representation在有些task中確實有用,比如RL task,機器人從環境中學出一些disentangled representations能夠與那些compact features describing its surrounding「一一對應」,那麼當它面對一些不同的task,比如讓它撿起一個紅色的物體/撿起一個方形的物體,它便可以只利用表徵中的少數幾維來幫助完成這個任務,比如只需要position and color/shape。如果只學出了等價的entangled representation,便無法實現這一點。這是我們做disentangled representation learning的motivation的例子。參考Suter et al., 2019 introduction部分。

目前有一些工作在嘗試對disentangled representation做嚴格定義,比如Higgins et al. (2018)從group theory,Suter et al. (2019)從causality。但都是基於上面的informal定義formalize.

明確了以上的事情,回到這篇文章。我認為作者基於目前對disentangled representation的定義,challenge了目前研究中一些假設,非常critical and solid,態度十分端正。大概從beta-vae開始,近兩年disentangled representation learning有一些工作甚至有了套路,對某個生成模型的目標函數做些修改,稱這樣可以disentangle,在一些toy dataset上show一下實驗結果traversal基本就結束了。這篇paper使得大家在做相關研究時,不得不去觸及essential problems,做一些更有價值的工作。

以上只是我淺顯的見解,希望大家批評指正。

PS. 歡迎大家討論以下問題

請介紹Causality和Disentanglement作為機器學習的promising領域? - 知乎 https://www.zhihu.com/question/325432144


前面匿名用戶提到 disentanglement representation 那篇 best paper 有意見,我也是對這篇文章有點意見,我下面要去得罪人了。

首先一點,他開篇數學就寫錯了,隨便定義一個映射,然後概率密度處處相等,測度論學的挺好的(我希望我沒看錯):

當然,這個只是小問題,實驗做的也是夠辛苦的,態度滿分呀。

大概意思我能理解,就是過了 decoder 以後,哪怕過了一層, disentanglement 就不會 disentanglement 了,導致這個原因是因為 disentanglement 定義有問題呀,誰特么拿矢量一個分量去定義 factor,以前看一堆文章全都是分量去相關性解耦做 disentanglement 我立馬不想看了 ,難道不知道任何線性空間做幺正變換本質沒變呀,你說拿特徵矢量作為 factor 我或者沒啥意見。

其實,也可以靠這條路去定義的 https://arxiv.org/pdf/1812.02230.pdf,當然,我覺得這篇文章格局還是不行,沒啥乾貨,限定太多了,稍微涉及語義的表徵立馬定義不出來,路都走不下去。

額。。雖然深度學習時代,大部分數學都沒用,做好實驗才行,但也別這麼仗著自家機器多,這麼隨便搞理論嘛。。。。。每天這麼燒 GPU,就不怕環保局找你們麻煩嗎?


MixHop: Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing

https://arxiv.org/pdf/1905.00067.pdf

這一篇 好水啊

咱已經有attention了為啥還要糾結究竟要mix幾個鄰居。

而且看poster的時候感覺作者還挺迷之自信……


討論解耦表示的最佳論文就是一篇糟糕的論文。它完全沒有意識到網路作為對數據的表示,其結構應該完全是relational的,是不應該依賴於任何絕對坐標系的。論文做給出的等價表示的不可區分的例子,恰恰說明了網路應該具有的坐標變換下的不變性特徵。作者是拿著正確的論據,得到了一個錯誤的結論。

所以,這是一篇糟糕的很有意義的論文,把這個糟糕的結論作為一個悖論來重新闡述,就可以得到完全不糟糕的結論。

正在整理思路準備寫個和這個問題有關的東西。沒有看懂思路的同學不必費神了,看懂了的同學就不要和我搶了,我都準備了好久了。


說一個我感覺有點水的文章:

Making Convolutional Networks Shift-Invariant Again

這文章通篇證明了一件事:CNN下採樣導致的混疊會降低性能(之前也有文章說過),我們建議在下採樣之前加低通濾波。

我不否認文章的工作量很大,尤其是在很多應用方向都做了實驗,說明了"移不變"的CNN可以在相關方向獲得更好的性能。但是,本文的方法實在是太過於"直白"了。只要是出現stride&>=2的運算單元。全部加上一個高斯核進行低通濾波。個人覺得這個方法只要學過信號與系統,數字信號處理,數字圖像處理中任意一門課的人都會想到,只是至今無人會這麼做而已。不過也可能本文的意義就是想說明,一個簡單的抗混疊就可以提高CNN的泛化能力,希望大家多多關注這個點。


被 NeurIPS18 和 ICLR19 拒掉的那些, 感覺很多都已經 tweak 的不成樣子了....目測 deep rl session就是重災區. fb 上有直播錄像可以看.


推薦閱讀:
相关文章