QANet 閱讀筆記
寫在前面
論文題目:
QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension.
Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, Quoc V. Le. ICLR 2018
文章摘要:
本文用 CNN + attention 代替傳統的 RNN 模型來完成閱讀理解任務。在沒有犧牲準確率的情況下,加速了訓練。
相關鏈接:
- 論文地址
- 項目源碼
1 主要貢獻
- 模型方面創新的用 CNN+attention 來完成閱讀理解任務:在編碼層放棄了 RNN,只採用 CNN 和 self-attention。CNN 捕捉文本的局部結構信息(local interactions),self-attention 捕捉全局關係(global interactions),在沒有犧牲準確率的情況下,加速了訓練(訓練速度提升了 3x-13x,預測速度提升 4x-9x)
- 數據增強方面通過神經翻譯模型(把英語翻譯成外語(德語/法語)再翻譯回英語)的方式來擴充訓練語料,增加文本多樣性
2 模型架構
QANet 是在 BiDAF 的基礎上進行改進的,主要的不同在 Embedding encoder layer 和 Model encoder layer。
Embedding encoder layer 由幾個基本 block 堆疊而成,每個 block 的結構是:convolution-layer + self-attention-layer + feed-forward-layer。
Model encoder layer 和 BiDAF 差不多,不過這裡用 CNN 而不是 RNN。