2600篇投稿,真是太多了。來不及全部翻,不過下面這一篇真是亮瞎了我眼睛。該文提出了個叫 Artificial Super Intelligence (ASI) 的東西,然後用廣義相對論(General Relativity)和廣義達爾文主義(Universal Darwinism)來建模Multi-Agent RL。下面是論文的第一二幅圖,太極和道德經,這確定不是猴子派來逗比的么。。。

ARTIFICIAL DESIGN: MODELING ARTIFICIAL SUPER INTELLIGENCE WITH EXTENDED GENERAL RELATIVITY AND UNIVERSAL DARWINISM VIA GEOMETRIZATION FOR UNIVERSAL DESIGN AUTOMATION (FAR FROM THE MADDING CROWD: HOW TO BE SHALLOW TO AVOID GOT LOST IN DEEP FOREST?)

https://openreview.net/pdf?id=SyxQ_TEFwS?

openreview.net

結語:很可能是BERT模型生成的論文。訓練集其實作者在最後也給出來了:


作為Graph Mining工作者,看到以下兩篇paper,覺得很不錯。(無利益相關,只是今天看openreview看到的)


Demystifying Graph Neural Network Via Graph Filter Assessment?

openreview.net

Demystifying Graph Neural Network Via Graph Filter Assessment

簡單介紹一下background。

做GCN,GNN的都知道,最簡單的GCN公式是這樣的

[公式] ,

其中AHW分別是卷積核,隱藏層特徵和可訓練的參數。一般說來,A會被設置成和圖鄰接矩陣相關的某種filter,以方便隱藏層特徵在全圖上的傳播,比如說,把A設置成歸一化鄰接矩陣,就可以實現對鄰居特徵的聚合(乘以鄰接矩陣就可以實現特徵的傳播,歸一化是為了防止矩陣範數爆炸)。

圖摘自Thomas N Kipf的blog

但是如何取這樣的歸一化,是有不同選擇的,比如說

[公式]

這三種都是常見的對鄰接矩陣做度數的歸一化。有研究表明這樣歸一化的鄰接矩陣表現出了和PageRank相關的性質,但具體它們哪個更好,是一個不太顯然的問題。

此外還有取高階卷積核的,比如說

[公式]

這樣一次卷積可以提取2階3階鄰域的信息。但很顯然,肯定沒有哪一種卷積核的形式是最優的,那麼一個問題就出現了,我們怎麼評估卷積核在特定圖結構上的好壞呢。

這篇文章從LDA(線性判別分析)借鑒了靈感,通過刻畫不同類別的圖節點是否能夠通過卷積核變化後線性可分,來評價圖卷積核的好壞。

圖摘自原論文,一個簡單的例子解釋這麼做的intuition,圖4顯然是最好的,也對應與最大的score.

此外,作者還探究了最優圖卷積核與原圖性質的關係,我覺得讓我眼前一亮的是,作者發現圖卷積核的好壞核圖度數的power law係數有關。這是一個很有趣的性質,我猜測是因為不同power law係數的圖會有不一樣的結構特徵(比如有不一樣的graphlet分布,聚集係數etc)。

綜上我覺得這篇文章是一篇不錯的關於圖神經網路性質的研究,出發點很簡單,使用的工具也不複雜,但是確實研究了很有趣的性質。


第二篇,GraphSAINT: Graph Sampling Based Inductive Learning Method

GraphSAINT: Graph Sampling Based Inductive Learning Method?

openreview.net

看名字大概就知道了,和GraphSAGE基本上是一個路子的。

這篇文章的思路非常新穎,它解決的問題是,本來我們訓練GCN,為了方便和效率起見,我們一般是採樣每個頂點的固定大小鄰域 (Hamilton et al 2017 GraphSAGE),這樣每個頂點的鄰居都是規則的,複雜度可控的。雖然還有很多採樣方法 (Huang et al 2018, Chen et al 2018 FastGCN, Li et al 2019 GCN-LASE),但是根本上還是對每個頂點採樣其鄰居。

這就導致一個問題,就是我們不能採樣特別深的GCN,因為一旦深就指數爆炸了,比如說每個節點採樣20個鄰居,兩層就是400個,四層就是160000個(但是GCN不是一旦超過4層就會過度平滑導致完全失去作用嗎?有印象是這麼說的,求指正)。

本文要解決的就是這個問題,它從根本上改變了採樣方式。它不再在原圖上採樣鄰居,而是從原圖上採樣一個子圖下來,在這個子圖上做局部的、完全展開的GCN。這樣做的好處是,不僅我們解決了鄰居採樣的指數化問題,而且我們可以對採下來的子圖進行直接的並行化,就大大的改進了效率。

當然,採樣子圖肯定不是隨便採的,直觀來說,影響大的節點肯定傾向於要被保留下來,但這就引入了採樣的bias。為了解決這個問題,本文作者採用了改進的聚合,在聚合中引入被採樣的概率,使得整體的卷積層計算還是無偏的。舉個簡單的例子,我們要算 [公式] ,但是每個i被採樣的概率是非均一的 [公式] ,我們只需要做

[公式]

類似off-policy RL裡面importance sampling的做法。這個做法有點類似我們今年被ICDE拒了之後改投AAAI的一篇文章,也是通過改變目標函數來修正採樣偏差,最終達到無偏但高效的採樣計算。

此外作者還提出了降低採樣方差的方法,這部分沒細看,但看起來理論還是很嚴謹的。

實驗結果看起來很牛逼,但我沒有想通為什麼它能吊錘GCN和GraphSAGE那麼多,在此拋磚引玉等一個解釋吧。

@曹恭澤 的解釋,GCN相當於full gradient descent,沒有batch泛化好。GraphSAGE採樣batch方差大,收斂性不好。我覺得有道理。

這篇文章改變了我們一直以來做GCN的採樣思路,也非常有新意。


現在錄取結果已經出來了,整理一些我認為比較有趣的NLP paper,主要關注Language Representation Learning,Language Generation Machine Translation,之後會更新一些Imitation Learning和Reinforcement Learning的paper。

Language Representation Learning

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations?

openreview.net

一個更輕型的BERT,不再將embedding size和hidden size綁定在一起,而是將低維的embedding線性投影到hidden space,避免在hidden size增加的同時增加embedding size帶來的overhead;同時採用類似Universal Transformer的方式讓不同encoder layer共享參數。另外,為了增加next sentence prediction的難度,本文採用sentence-order prediction,即預測兩個句子的前後順序是非正確,使模型在SQuAD和RACE上有所提高。

A Mutual Information Maximization Perspective of Language Representation Learning?

openreview.net

用Mutual Information的一個下界InfoNCE來重新解釋BERT和XLNET的objective,並提出一個新的DIM objective以最大化一個句子的global representation和其中一個ngram的local representation之間的Mutual Information。

Language Generation Machine Translation

Data-dependent Gaussian Prior Objective for Language Generation?

openreview.net

這篇paper解決的是MLE objective的一個問題:正確的預測只有一個,所有錯誤的預測都給一樣的penalty。然而錯誤的預測千差萬別,有的只是單複數錯誤,有的是連詞性都不對。所以作者提出根據所有詞和ground-truth的embedding距離構造出一個data-dependent Gaussian Prior,然後通過降低model distribution和prior之間KL divergence來解決這個問題。

A Latent Morphology Model for Open-Vocabulary Neural Machine Translation?

openreview.net

以層級式的方式生成文本,先生成一些隱變數來控制下一個詞的lemma和inflection,然後根據隱變數通過Character RNN生成下一個詞。整個模型通過Latent Variable Model的方式訓練。

Mirror-Generative Neural Machine Translation?

openreview.net

這篇初看有點複雜,涉及四個model還有加入了隱變數z。但從inference的角度就很容易理解了,我認為提高主要來自三個方面:1)Decoding時用Translation+LM score,並用reconstruction score做reranking;2)在TM和LM里加入了包含semantic信息的隱變數z作為輸入,主要對LM幫助比較大,讓LM score更可信;3)Inference的過程是iterative(EM)的,就是不斷修正生成的translation,生成更adequate的結果(也更費時)。從實驗結果里可以看出這種conditional LM對inference的幫助較一般的LM更大,我還比較好奇的是iterative decoding對結果的提高有多大,以及它和Deliberation Network的比較。

Neural Machine Translation with Universal Visual Representation?

openreview.net

為了降低Multi-modal NMT對有圖像標註的翻譯數據集的依賴,本文提出通過建立Topic-image Lookup Table的方式更高效地利用已有圖像文本數據,並且在訓練和測試NMT的時候通過Image Retrieval的方式獲得圖像信息,從而在更大規模的數據上訓練Multi-modal NMT。

通過Retrieval的方式來擴充數據的工作其實有很多,比如這篇:Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation。

A Probabilistic Formulation of Unsupervised Text Style Transfer?

openreview.net

這篇是從Generative Model的角度來做Unsupervised Style Transfer和Unsupervised Machine Translation,也是language as a latent variable的思路,和很早的一篇很像:Language as a Latent Variable: Discrete Generative Models for Sentence Compression。

我覺得比較有趣的部分是一些實驗發現:

  1. 在近似reconstruction loss term在inference model上的gradient的時候,假設gradient為零比採用更為複雜的Policy Gradient或者Gumbel Softmax更有效。
  2. 加上KL loss term的主要作用是防止transduction model直接copy,所以在英德翻譯任務上加上KL loss沒有什麼明顯效果。


掃了一眼NAS的文章,比較喜歡分析類型的文章:

Understanding and Robustifying Differentiable Architecture Search?

openreview.net

Understanding Architectures Learnt by Cell-based Neural Architecture Search?

openreview.net

Deeper Insights into Weight Sharing in Neural Architecture Search?

openreview.net

Improving One-Shot NAS By Suppressing The Posterior Fading?

openreview.net

NAS evaluation is frustratingly hard?

openreview.net

Evaluating The Search Phase of Neural Architecture Search?

openreview.net

,但是人各有喜好,所以就把NAS的文章的pdf專門挑選出來,給人下載吧:

https://pan.baidu.com/s/17SEf1sg9pX9yvuo7NTVjpw?

pan.baidu.com


Deep Learning for Symbolic Mathematics

https://openreview.net/pdf?id=S1eZYeHFDS?

openreview.net

用transformer預測符號運算的答案,包括積分、一階微分方程和二階微分方程。效果號稱比Mathematica還好,挺神奇的


推薦閱讀:
相关文章