最新消息:晏之淘宝五金店

论文引介:Iterative Alternating NeuralAttention for Machine Reading

372

文章原名:Iterative Alternating NeuralAttention for Machine Reading

作者:Alessandro Sordoni, PhillipBachman, Yoshua Bengio

单位:Université de Montréal,Canada

译者:韩旭

链接:http://arxiv.org/pdf/1606.02245.pdf(可戳下方阅读原文)

【导读】

作者认为,在当下通过模型的训练使得机器具备一定的理解能力并能够做到阅读、理解和解答问题这三位一体的能力在逐渐的变为现实。这得益于两个方面的工作,其一在于近几年来深度学习的快速发展,使得训练更为有效;其二则是完形填空(Cloze-style)这样简单有效的测量方式的引入,使得模型提出和实验验证能够快速的迭代向前。基于这两点,作者在以往的RNN模型基础上提出了一种交替迭代的Attention模型,能够将问题(query)和问题相关的文本(document)同时考虑进来进行抽象,而非单纯将问题(query)表示为向量后进行预测,并取得了很好的效果。

【模型】

模型的运作分为三个阶段,问题(query)和文本(document)的双向编码(Bidirectional Encoding),在问题和文本间交替迭代的attention模型(Alternating Iterative Attention),结果预测(Answer Prediction)。如图所示,在第一阶段中,问题和文本在以词向量的形式输入后,以从前向后和从后向前两种扫描方式,通过一层RNN进行编码(即为图中的(1)、(2));在第二阶段中,交替迭代的attention模型以第一阶段中RNN的输出编码为输入,再通过一层RNN在问题和文本之间交替迭代获取特征,并将重要特征进行强化;第三阶段则通过一个概率模型来对结果词的概率进行描述,通过优化概率模型来对前两层的网络进行反馈。此模型的最大特点在于结果的考量是将文本和问题的特征充分考虑进去,并且在attention的实施中,问题的attention和文本的attention是相互影响的,在RNN的作用下交替迭代多次后效果拔群。

实验在两种不同机理的数据集(CBT和CNN)上展开,其中CBT的问题均是从对应的文本中抽取而后将抽取句子的某一部分去除后产生;CNN的问题则是从文本的摘要(summary)中去除某一部分后产生。当然,这些去除的词均可在文本中找到。实验表明,在这两套产生机理不太相同的数据集合上,交替迭代的attention模型均有很好的提升。

来源:智能立方

当前文章:Search » 论文引介:Iterative Alternating NeuralAttention for Machine Reading