寫在前面

論文題目:

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension.

Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, Quoc V. Le. ICLR 2018

文章摘要:

本文用 CNN + attention 代替傳統的 RNN 模型來完成閱讀理解任務。在沒有犧牲準確率的情況下,加速了訓練。

相關鏈接:

  1. 論文地址
  2. 項目源碼

1 主要貢獻

  • 模型方面創新的用 CNN+attention 來完成閱讀理解任務:在編碼層放棄了 RNN,只採用 CNN 和 self-attention。CNN 捕捉文本的局部結構信息(local interactions),self-attention 捕捉全局關係(global interactions),在沒有犧牲準確率的情況下,加速了訓練(訓練速度提升了 3x-13x,預測速度提升 4x-9x)
  • 數據增強方面通過神經翻譯模型(把英語翻譯成外語(德語/法語)再翻譯回英語)的方式來擴充訓練語料,增加文本多樣性

2 模型架構

QANet 是在 BiDAF 的基礎上進行改進的,主要的不同在 Embedding encoder layer 和 Model encoder layer。

Embedding encoder layer 由幾個基本 block 堆疊而成,每個 block 的結構是:convolution-layer + self-attention-layer + feed-forward-layer。

Model encoder layer 和 BiDAF 差不多,不過這裡用 CNN 而不是 RNN。

3 總結

至此本專欄已經介紹了四個經典的閱讀理解模型,實際上,近兩年機器閱讀理解任務在 SQuAD 任務的激勵下,取得了很大的進步,感興趣的朋友可以不定時地關注其榜單從而關注此領域的最新發展。

推薦閱讀:

相关文章