ICLR 2020 有什麼值得關注的投稿？

2600篇投稿，真是太多了。來不及全部翻，不過下面這一篇真是亮瞎了我眼睛。該文提出了個叫 Artificial Super Intelligence (ASI) 的東西，然後用廣義相對論(General Relativity)和廣義達爾文主義(Universal Darwinism)來建模Multi-Agent RL。下面是論文的第一二幅圖，太極和道德經，這確定不是猴子派來逗比的么。。。

ARTIFICIAL DESIGN: MODELING ARTIFICIAL SUPER INTELLIGENCE WITH EXTENDED GENERAL RELATIVITY AND UNIVERSAL DARWINISM VIA GEOMETRIZATION FOR UNIVERSAL DESIGN AUTOMATION (FAR FROM THE MADDING CROWD: HOW TO BE SHALLOW TO AVOID GOT LOST IN DEEP FOREST?)

https://openreview.net/pdf?id=SyxQ_TEFwS?
openreview.net
結語：很可能是BERT模型生成的論文。訓練集其實作者在最後也給出來了：

作為Graph Mining工作者，看到以下兩篇paper，覺得很不錯。（無利益相關，只是今天看openreview看到的）

Demystifying Graph Neural Network Via Graph Filter Assessment?
openreview.net
Demystifying Graph Neural Network Via Graph Filter Assessment
簡單介紹一下background。
做GCN，GNN的都知道，最簡單的GCN公式是這樣的
,
其中AHW分別是卷積核，隱藏層特徵和可訓練的參數。一般說來，A會被設置成和圖鄰接矩陣相關的某種filter，以方便隱藏層特徵在全圖上的傳播，比如說，把A設置成歸一化鄰接矩陣，就可以實現對鄰居特徵的聚合（乘以鄰接矩陣就可以實現特徵的傳播，歸一化是為了防止矩陣範數爆炸）。

圖摘自Thomas N Kipf的blog
但是如何取這樣的歸一化，是有不同選擇的，比如說
這三種都是常見的對鄰接矩陣做度數的歸一化。有研究表明這樣歸一化的鄰接矩陣表現出了和PageRank相關的性質，但具體它們哪個更好，是一個不太顯然的問題。
此外還有取高階卷積核的，比如說
這樣一次卷積可以提取2階3階鄰域的信息。但很顯然，肯定沒有哪一種卷積核的形式是最優的，那麼一個問題就出現了，我們怎麼評估卷積核在特定圖結構上的好壞呢。
這篇文章從LDA（線性判別分析）借鑒了靈感，通過刻畫不同類別的圖節點是否能夠通過卷積核變化後線性可分，來評價圖卷積核的好壞。

圖摘自原論文，一個簡單的例子解釋這麼做的intuition，圖4顯然是最好的，也對應與最大的score.
此外，作者還探究了最優圖卷積核與原圖性質的關係，我覺得讓我眼前一亮的是，作者發現圖卷積核的好壞核圖度數的power law係數有關。這是一個很有趣的性質，我猜測是因為不同power law係數的圖會有不一樣的結構特徵（比如有不一樣的graphlet分布，聚集係數etc）。

綜上我覺得這篇文章是一篇不錯的關於圖神經網路性質的研究，出發點很簡單，使用的工具也不複雜，但是確實研究了很有趣的性質。

第二篇，GraphSAINT: Graph Sampling Based Inductive Learning Method
GraphSAINT: Graph Sampling Based Inductive Learning Method?
openreview.net
看名字大概就知道了，和GraphSAGE基本上是一個路子的。
這篇文章的思路非常新穎，它解決的問題是，本來我們訓練GCN，為了方便和效率起見，我們一般是採樣每個頂點的固定大小鄰域 (Hamilton et al 2017 GraphSAGE)，這樣每個頂點的鄰居都是規則的，複雜度可控的。雖然還有很多採樣方法 (Huang et al 2018, Chen et al 2018 FastGCN, Li et al 2019 GCN-LASE)，但是根本上還是對每個頂點採樣其鄰居。
這就導致一個問題，就是我們不能採樣特別深的GCN，因為一旦深就指數爆炸了，比如說每個節點採樣20個鄰居，兩層就是400個，四層就是160000個（但是GCN不是一旦超過4層就會過度平滑導致完全失去作用嗎？有印象是這麼說的，求指正）。

本文要解決的就是這個問題，它從根本上改變了採樣方式。它不再在原圖上採樣鄰居，而是從原圖上採樣一個子圖下來，在這個子圖上做局部的、完全展開的GCN。這樣做的好處是，不僅我們解決了鄰居採樣的指數化問題，而且我們可以對採下來的子圖進行直接的並行化，就大大的改進了效率。
當然，採樣子圖肯定不是隨便採的，直觀來說，影響大的節點肯定傾向於要被保留下來，但這就引入了採樣的bias。為了解決這個問題，本文作者採用了改進的聚合，在聚合中引入被採樣的概率，使得整體的卷積層計算還是無偏的。舉個簡單的例子，我們要算，但是每個i被採樣的概率是非均一的，我們只需要做
類似off-policy RL裡面importance sampling的做法。這個做法有點類似我們今年被ICDE拒了之後改投AAAI的一篇文章，也是通過改變目標函數來修正採樣偏差，最終達到無偏但高效的採樣計算。
此外作者還提出了降低採樣方差的方法，這部分沒細看，但看起來理論還是很嚴謹的。

實驗結果看起來很牛逼，但我沒有想通為什麼它能吊錘GCN和GraphSAGE那麼多，在此拋磚引玉等一個解釋吧。
@曹恭澤的解釋，GCN相當於full gradient descent，沒有batch泛化好。GraphSAGE採樣batch方差大，收斂性不好。我覺得有道理。
這篇文章改變了我們一直以來做GCN的採樣思路，也非常有新意。

現在錄取結果已經出來了，整理一些我認為比較有趣的NLP paper，主要關注Language Representation Learning，Language Generation Machine Translation，之後會更新一些Imitation Learning和Reinforcement Learning的paper。

Language Representation Learning

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations?
openreview.net
一個更輕型的BERT，不再將embedding size和hidden size綁定在一起，而是將低維的embedding線性投影到hidden space，避免在hidden size增加的同時增加embedding size帶來的overhead；同時採用類似Universal Transformer的方式讓不同encoder layer共享參數。另外，為了增加next sentence prediction的難度，本文採用sentence-order prediction，即預測兩個句子的前後順序是非正確，使模型在SQuAD和RACE上有所提高。
A Mutual Information Maximization Perspective of Language Representation Learning?
openreview.net
用Mutual Information的一個下界InfoNCE來重新解釋BERT和XLNET的objective，並提出一個新的DIM objective以最大化一個句子的global representation和其中一個ngram的local representation之間的Mutual Information。

Language Generation Machine Translation

Data-dependent Gaussian Prior Objective for Language Generation?
openreview.net
這篇paper解決的是MLE objective的一個問題：正確的預測只有一個，所有錯誤的預測都給一樣的penalty。然而錯誤的預測千差萬別，有的只是單複數錯誤，有的是連詞性都不對。所以作者提出根據所有詞和ground-truth的embedding距離構造出一個data-dependent Gaussian Prior，然後通過降低model distribution和prior之間KL divergence來解決這個問題。
A Latent Morphology Model for Open-Vocabulary Neural Machine Translation?
openreview.net
以層級式的方式生成文本，先生成一些隱變數來控制下一個詞的lemma和inflection，然後根據隱變數通過Character RNN生成下一個詞。整個模型通過Latent Variable Model的方式訓練。
Mirror-Generative Neural Machine Translation?
openreview.net
這篇初看有點複雜，涉及四個model還有加入了隱變數z。但從inference的角度就很容易理解了，我認為提高主要來自三個方面：1）Decoding時用Translation+LM score，並用reconstruction score做reranking；2）在TM和LM里加入了包含semantic信息的隱變數z作為輸入，主要對LM幫助比較大，讓LM score更可信；3）Inference的過程是iterative（EM）的，就是不斷修正生成的translation，生成更adequate的結果（也更費時）。從實驗結果里可以看出這種conditional LM對inference的幫助較一般的LM更大，我還比較好奇的是iterative decoding對結果的提高有多大，以及它和Deliberation Network的比較。
Neural Machine Translation with Universal Visual Representation?
openreview.net
為了降低Multi-modal NMT對有圖像標註的翻譯數據集的依賴，本文提出通過建立Topic-image Lookup Table的方式更高效地利用已有圖像文本數據，並且在訓練和測試NMT的時候通過Image Retrieval的方式獲得圖像信息，從而在更大規模的數據上訓練Multi-modal NMT。
通過Retrieval的方式來擴充數據的工作其實有很多，比如這篇：Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation。
A Probabilistic Formulation of Unsupervised Text Style Transfer?
openreview.net
這篇是從Generative Model的角度來做Unsupervised Style Transfer和Unsupervised Machine Translation，也是language as a latent variable的思路，和很早的一篇很像：Language as a Latent Variable: Discrete Generative Models for Sentence Compression。
我覺得比較有趣的部分是一些實驗發現：

在近似reconstruction loss term在inference model上的gradient的時候，假設gradient為零比採用更為複雜的Policy Gradient或者Gumbel Softmax更有效。

加上KL loss term的主要作用是防止transduction model直接copy，所以在英德翻譯任務上加上KL loss沒有什麼明顯效果。

掃了一眼NAS的文章，比較喜歡分析類型的文章：
Understanding and Robustifying Differentiable Architecture Search?
openreview.net
Understanding Architectures Learnt by Cell-based Neural Architecture Search?
openreview.net
Deeper Insights into Weight Sharing in Neural Architecture Search?
openreview.net
Improving One-Shot NAS By Suppressing The Posterior Fading?
openreview.net
NAS evaluation is frustratingly hard?
openreview.net
Evaluating The Search Phase of Neural Architecture Search?
openreview.net
，但是人各有喜好，所以就把NAS的文章的pdf專門挑選出來，給人下載吧：
https://pan.baidu.com/s/17SEf1sg9pX9yvuo7NTVjpw?
pan.baidu.com

Deep Learning for Symbolic Mathematics
https://openreview.net/pdf?id=S1eZYeHFDS?
openreview.net
用transformer預測符號運算的答案，包括積分、一階微分方程和二階微分方程。效果號稱比Mathematica還好，挺神奇的

推薦閱讀：