AAAI 2019:基於不同顆粒度語言聯合訓練的表示學習
作者丨姜松浩
學校丨中國科學院計算技術研究所碩士生
研究方向丨機器學習、數據挖掘
語言的表示是自然語言處理中的基礎問題也是重要問題,常見的分散式詞向量 Word2Vector、Glove 等方法令很多 NLP 研究者和從業人員都受用無窮。然而現有的方法同樣存在這諸多問題,本文通過不同顆粒度的有監督語言聯合訓練方式,實現端到端的語言表示來完成自然語言處理中的常見任務,這種方式具有更強的魯棒性。
本文是劍橋大學和哥本哈根大學發表於 AAAI 2019 的工作,該方法採用分層次、分階段獲取重要特徵的結構來實現不同顆粒度的語言表示學習的方法,並通過規定一些合理有效的目標函數來實現有監督聯合訓練的目的。
模型介紹
論文作者將其發表於 NAACL 2018 的論文模型 Zero-shot sequence labeling: Transferring knowledge from sentences to tokens [1] 進行改進的最新研究成果。
模型結構
該模型如下所示,其將作者發表於 NAACL 2018 的模型 [1] 由單層結構改為多層結構,從模型結構來看與文本分類模型 HAN [2] 有一定的相似度,但在細節上卻有不同的變化。
從整體看可以將模型為兩個部分。首先,將辭彙轉化為字元級利用雙向 LSTM 模型得到相應的詞向量特徵 m,然後將特徵 m 與預訓練(pre-train)詞向量 w 進行矩陣的拼接處理得到更具魯棒性和適應性的詞向量 x;然後再將上一階段得到的詞向量 x 同樣再次利用雙向 LSTM 獲得向量 h;最後再利用 self-attention 的方式獲得辭彙權重。
其方法上與 HAN [2] 如出一轍,該方法目的在於為針對不同任務具有不同重要性的單位辭彙分配不同權重,再通過不同權重的詞向量組合得到相應的句向量表示結果 s。
該文章的亮點在於提出了幾種有特點的目標函數(損失函數)來實現有監督聯合訓練方式。其中一個就是如下所示的函數,被作者定義為語句級別的目的函數。
該目的函數採用平方損失函數,其中上標 y 表示句向量 s 的帶 Sigmoid 激活函數的全連接計算預測結果,而 y 表示為有標註的實際結果。作者選用 Sigmoid 激活函數的目的是進行語句二分類,當然對於不同的多分類任務,也可以將激活函數拓展為其他。
有監督的注意力機制
與以往的端到端聯合訓練的注意力機制不同,作者為得到更好的辭彙注意力權重,提出了有監督的注意力方式,該方式利用辭彙標註,其函數表示如下所示。
該函數同樣採用平方損失,其中上標 a 表示為模型預測的注意力權重,而 a 表示為標註的注意力權重即 1 或者 0。作者將其定義為辭彙級別的損失函數。
語言模型的目標函數
作者為實現模型對自然語言處理的其他任務的特徵表示的魯棒性,加入了語言模型的目的函數,其函數如下所示。
目標函數中,定義了 LSTM 中第 i 個辭彙的前向向量 q 對於第 i+1 詞的條件概率的 log 損失,以及第 i 個辭彙的前向向量 q 對於第 i-1 詞的條件概率的 log 損失。對於辭彙的條件概率計算過程如下公式所示。
字元級語言模型的目標函數
字元級的語言模型目標函數如下所示,該函數與上述語言模型目標函數的總體目的是一致的,但在辭彙預測的條件概率計算方式上略有不同。
字元級語言模型,利用第 i-1 詞中的字元基於 LSTM 得到的前向與後向向量,以及第 i+1 詞中的字元前向後向向量構成的預測向量 g 來預測第 i 個辭彙。其計算過程如下所示。
控制注意力權重表示範圍的目標函數
該目標函數目的在於實現注意力權重的合理分配,該方法的提出基於兩種假設:
1. 一句話中只有部分辭彙(token)具有積極作用;
2. 對於有積極作用的辭彙而言,是在整句的全局作用中具有全局作用。
因此基於上述兩種假設,作者提出了控制注意力權重表示範圍的目標函數,函數如下所示。
該函數的目的是將無效辭彙的注意力權重逐漸趨近於 0,而重要辭彙的權重則趨近於 1。
模型聯合訓練的目標函數定義
為實現不同顆粒度語言特徵的端到端表示的聯合訓練,將目標函數定義如下。
該函數定義了超參數,其作用是對於自然語言處理中的不同任務分配不同的目標權重來更好地完成任務。例如將語句的損失函數參數定義為 1 其他為 0 時可用於語句分類。
模型實驗效果
作者通過對文本分類和情感分析等經典數據集的實驗結果測試得出結論,該文中提出的聯合方法效果最佳。實驗結果如下所示,其中 BiLSTM-LAST [3-4] 是常見的雙向 LSTM 的方法,BiLSTM-ATTN 即為 HAN [2]。
此外由於辭彙標註的人工成本極高,為達到良好效果,文章中實驗發現僅需 20% 的辭彙標註就能遠超沒有標註過的樣本訓練結果。同時發現當超過 20% 樣本的辭彙標註時,其變化與 20% 左右的樣本辭彙標註效果差距並不明顯。
論文評價
這篇論文的模型結構無大創新,但其在定義目標函數上有極強的創造性。本文作者對模型中的每個細節理解到位,並且為了模型發揮到極致,將其與有監督的目標函數相結合,這種做法值得學習。
然而文中提到的部分目標函數與人工標註相關聯,儘管作者通過實驗認為 20% 的標註就能達到很好的效果,但這同樣增加了人工成本。
參考文獻
[1] Rei, M., and S?gaard, A. 2018. Zero-shot sequence labeling: Transferring knowledge from sentences to tokens. NAACL-HLT.
[2] Yang, Z.; Yang, D.; Dyer, C.; He, X.; Smola, A.; and Hovy, E. 2016. Hierarchical Attention Networks for Document Classification. AACL:HLT.
[3] Tang, D.; Qin, B.; and Liu, T. 2015. Document modeling with gated recurrent neural network for sentiment classification. EMNLP.
[4] Neelakantan, A.; Le, Q. V.; and Sutskever, I. 2016. Neural programmer: Inducing latent programs with gradient descent. ICLR.
#投 稿 通 道#
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術乾貨。我們的目的只有一個,讓知識真正流動起來。
?? 來稿標準:
? 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)
? 如果文章並非首發,請在投稿時提醒並附上所有已發布鏈接
? PaperWeekly 默認每篇文章都是首發,均會添加「原創」標誌
?? 投稿方式:
? 方法一:在PaperWeekly知乎專欄頁面點擊「投稿」,即可遞交文章
? 方法二:發送郵件至:[email protected] ,所有文章配圖,請單獨在附件中發送
? 請留下即時聯繫方式(微信或手機),以便我們在編輯發布時和作者溝通
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
加入社區:http://paperweek.ly
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀: