台湾 || 语言: 大陆简体港澳繁體台灣正體

机器阅读理解之推理网路（三）Iterative Alternating Neural Attention for Machine Reading

雪花台湾 2019-03-09 00:50

Iterative Alternating Neural Attention for Machine Reading

作者：Alessandro Sordoni,Phillip Bachman,Yoshua Bengio

原文链接：[1606.02245v2] Iterative Alternating Neural Attention for Machine Reading

摘要：我们提出了一种新的神经attention架构来解决机器阅读理解任务，诸如一些基于文本的完形填空式的问题。我们并没有把query折叠成一个单一的向量，我们采用了一种持续迭代的注意力机制来允许对query和document的细粒度探索。我们的模型取得了state-of-the-art的效果。

1、Introduction

最近，训练机器阅读理解模型，使其可以阅读，理解、回答问题的快速发展主要由于两个原因。首先是深度学习技术的出现，其次是标准机器阅读理解数据集的出现，提供了实验性能的参考。

2 任务定义

使用完形填空式问题去评估机器阅读理解任务的优势是不需要大规模的人力干预就能有数据集。CBT和CNN就是这样的两个数据集。

CBT语料库来源于著名的孩童课本中的古腾堡项目。文本由很多组20句的摘录组成，与此相关的query是其第21句，并把其中一个词替换为占位符词。根据被替换的词的词性，数据集被分为四个子集。分别是命名实体，通用名词，动词以及介词。我们将集中关注前两个，因为后两个实在太简单。

CNN语料库来源自CNN网站上的新闻文章。Document是文章的主体，除主体外文章还包括简短的，关键字的总结。开发者将总结中替换一个命名实体的单词为占位符作为query。

对两个数据集来说，训练集和评估集由这样的元组构成（Q,D,A,a），Q是query，D是document，A是可能答案的集合，a属于A，并且是正确答案。所有的单词都在辞汇表V中。我们设定A集合是D集合的子集，集A中所有词都是在D中出现过的。对于每个query来说，占位符应该是要被替换为正确答案a。数据集统计如上表格1所示

相关文章