Iterative Alternating Neural Attention for Machine Reading
作者:Alessandro Sordoni,Phillip Bachman,Yoshua Bengio
原文鏈接:[1606.02245v2] Iterative Alternating Neural Attention for Machine Reading
摘要:我們提出了一種新的神經attention架構來解決機器閱讀理解任務,諸如一些基於文本的完形填空式的問題。我們並沒有把query摺疊成一個單一的向量,我們採用了一種持續迭代的注意力機制來允許對query和document的細粒度探索。我們的模型取得了state-of-the-art的效果。
1、Introduction
最近,訓練機器閱讀理解模型,使其可以閱讀,理解、回答問題的快速發展主要由於兩個原因。首先是深度學習技術的出現,其次是標準機器閱讀理解數據集的出現,提供了實驗性能的參考。
2 任務定義
使用完形填空式問題去評估機器閱讀理解任務的優勢是不需要大規模的人力幹預就能有數據集。CBT和CNN就是這樣的兩個數據集。
CBT語料庫來源於著名的孩童課本中的古騰堡項目。文本由很多組20句的摘錄組成,與此相關的query是其第21句,並把其中一個詞替換為佔位符詞。根據被替換的詞的詞性,數據集被分為四個子集。分別是命名實體,通用名詞,動詞以及介詞。我們將集中關注前兩個,因為後兩個實在太簡單。
CNN語料庫來源自CNN網站上的新聞文章。Document是文章的主體,除主體外文章還包括簡短的,關鍵字的總結。開發者將總結中替換一個命名實體的單詞為佔位符作為query。
對兩個數據集來說,訓練集和評估集由這樣的元組構成(Q,D,A,a),Q是query,D是document,A是可能答案的集合,a屬於A,並且是正確答案。所有的單詞都在辭彙表V中。我們設定A集合是D集合的子集,集A中所有詞都是在D中出現過的。對於每個query來說,佔位符應該是要被替換為正確答案a。數據集統計如上表格1所示