注意力模型已成為神經網路中的一種重要概念,並在很多應用領域展開了研究。本文提出了一種分類方法,對這些研究進行了全面有序地綜述,並對注意力模型在一些應用領域產生的重大影響進行了討論。

選自arXiv,作者:Sneha Chaudhari 等,機器之心編譯,參與:王淑婷、杜偉。

注意力背後的直覺可以用人類的生物系統來進行最好的解釋。例如,我們的視覺處理系統往往會選擇性地聚焦於圖像的某些部分上,而忽略其它不相關的信息,從而有助於我們感知。類似地,在涉及語言、語音或視覺的一些問題中,輸入的某些部分相比其它部分可能更相關。通過讓模型僅動態地關注有助於有效執行手頭任務的部分輸入,注意力模型引入了這種相關性概念。

圖 1 顯示了使用注意力模型對 Yelp 評論進行情感分類的例子 [Yang et al., 2016]。在這個例子中,注意力模型知道了在五個句子中,第一句和第三句更相關。

圖 1:用注意力建模對 Yelp 評論進行分類的例子

此外,在這些句子中,單詞 delicious 和 amazing 在決定評論的情感方面更有意義。

神經網路中建模注意力的快速發展主要源於三個方面。首先,這些模型對多個任務(如機器翻譯、問答、情感分析、詞性標註、句法解析和對話系統)來說是當前最佳的模型;其次,除了提高主要任務的性能,它們還有一些其它優勢。它們還被廣泛用於提高神經網路的可解釋性,無法解釋的神經網路被視為黑箱模型;第三,它們還有助於克服循環神經網路的一些挑戰,如隨著輸入長度的增加而導致的性能下降,以及輸入的序列處理所帶來的計算效率低下。因此,本文旨在對注意力模型進行簡短而又全面的綜述。

論文:An Attentive Survey of Attention Models

論文地址:arxiv.org/abs/1904.0287

注意力模型已成為神經網路中的一種重要概念,並在各種應用領域進行了研究。本次綜述全面有序地概述了建模注意力方面的發展。研究者特別提出了一種分類法,該方法將現有技術歸併到連貫類別中。研究者對各種引入了注意力的神經架構進行了回顧,還展示了注意力如何提高神經模型的可解釋性。最後,研究者討論了建模注意力起到重大影響的一些應用。希望本次綜述可以簡明扼要地介紹注意力模型,為從業者提供指導,同時為其應用開發可行的方法。

注意力模型

注意力模型意在通過讓解碼器訪問完整的編碼輸入序列 {h_1, h_2, ..., h_T } 來減輕這些挑戰。中心思想是在輸入序列中引入注意力權重α,來對具有相關信息的位置集合進行優先順序排序,以生成下一個輸出 token。

圖 2:編碼器-解碼器架構:(a) 為傳統結構,(b) 為帶注意力機制的結構

具有注意力的相應編碼器-解碼器架構如圖 2(b) 所示。架構中的注意力模塊負責自動學習注意力權重α_ij,該權重會捕獲 h_i(編碼器隱狀態,被稱之為候選狀態)和 s_j(解碼器隱狀態,被稱之為查詢狀態)之間的相關性。這些注意力權重之後會被用於構建語境向量 c,而該向量被作為輸入傳遞給解碼器。

研究者將注意力分為四大類,並闡明瞭每一大類中不同類型的注意力,如下表所示(表 1)。

表 1:各大類別中的注意力類型

為了理解這一概念,研究者提供了一系列重要的技術論文,並在表 2 中詳細說明瞭本文方法所用到的多種注意力類型。

表 2:有關注意力模型技術方法的重要論文。『-』表示「不適用」。

注意力網路架構

在這一部分,研究者描述了與注意力相關的三種顯著的神經架構:(1)編碼器-解碼器框架;(2)將注意力擴展至單個輸入序列之外的記憶網路;(3)利用注意力規避循環模型序列處理組件的架構。

編碼器-解碼器

注意力最早用作基於 RNN 的編碼器-解碼器框架的一部分,以編碼較長的輸入語句。一個有趣的事實是,注意力模型可以接受任何輸入表徵,並將其減少為固定長度的單個語境向量,該向量可用於解碼步驟。因此,研究者可以從輸出中解耦輸入表徵。

記憶網路

像問答和聊天機器人這樣的應用需要具備根據事實資料庫中的信息進行學習的能力。端到端的記憶網路通過使用記憶模塊陣列來存儲事實資料庫,並使用注意力來建模記憶中每個事實的相關性來回答問題,從而實現了這一點。

不帶 RNN 的網路

Transformer 架構中,編碼器和解碼器由一堆相同的層組成,這些層則皆由兩個子層組成:對應位置的前饋神經網路(FNN)層和多頭自注意力層。Transformer 架構實現了重要的並行處理、更短的訓練時間和更高的翻譯準確率,而無需任何重複的組件。

用於可解釋性的注意力

由於模型的性能以及透明性和公平性,人們對 AI 模型的可解釋性產生了巨大的興趣。從可解釋性的角度來看,建模注意力尤其有趣,因為它讓我們可以直接觀察深度學習架構的內部工作機制。

如圖 4(a) 所示,Bahdanau 等人可視化了注意力權重,這些權重清楚地展示了法語和英語句子的自動對齊,儘管這兩種語言中動詞和名詞的位置不同。

圖 4:注意力權重的可視化例子

圖 4(b) 顯示,注意力權重有助於識別用戶的興趣。用戶 1 似乎偏好「卡通」視頻,而用戶 2 偏好關於「動物」的視頻。

最後,Xu 等人提供了相關圖像區域(即具有高注意力權重的區域)的大量可視化列表,這些區域對圖像字幕任務(圖 4(c))中生成的文本具有重大的影響。

雖然注意力機制有助於提高模型可解釋性的這種觀點比較普遍,但有研究者經過實驗證明,標準的注意力模塊在解釋模型方面基本沒什麼用。


推薦閱讀:
相關文章