论文引介:Multi-Source Neural Translation

48

作者:Barret Zoph and Kevin Knight

单位:南加州大学

链接:http://arxiv.org/pdf/1601.00710.pdf

Martin Kay曾在他关于多语言翻译的文章中提到过,如果一篇文章被翻译成了另一种语言,那么就更加倾向于被翻译成其他语言。这样的观点给人以启发,在机器翻译任务中,将原本的单一源语言替换为多种源语言,可以取得更好的效果。譬如英语中的“bank”一词是翻译为河岸或是银行,如果源语言中有德语词汇“Flussufer”(河岸)作为帮助,则自然可以精确得到“河岸”这样的翻译结果。

这个想法并不算很新,此前有不少的论文都围绕多源语言这个想法进行了探究,并且明确将这样的思路称作“multi-source”,但是现在看起来之前的做法都多少显得还不够深入,还没能够抓住“多源语言”的优势。譬如有源语言F、G和目标语言E,一类做法是分别训练F->E和G->E的两个模型,并且从生成得到的结果中选择最好的,另一类则是在单词的层次上对语言信息进行整合,从而完成翻译任务。

但是在这篇文章之前的研究,虽然都明确提到了多源语言的想法,并且利用了三语言的文本进行探索,但是究其本质都只是简单将两个单源语言模型进行了合并,在模型层次上并没有能够建立一个三语言的模型。而建立一个三语言模型,则是这篇文章的一个贡献。此外这篇文章提出的模型相较于单源语言模型,在BLEU评分上获得了一定的提升,并且发现了对于多源语言模型而言,源语言之间的距离越远,则模型的表现越好。

基础模型

基础模型

多源语言encoder-decoder机器翻译模型

多源语言encoder-decoder机器翻译模型

这篇文章的基础模型是一个4层的RNN encoder-decoder模型,并且使用了LSTM单元。单源语言模型有两个,第一个便是直接使用基础模型,第二个则是在基础模型上实现了local Attention。而对于多源语言模型,文章提出了两个办法来解决如何将两种源语言得到的隐状态(hidden state)和细胞状态(cell state)结合起来,生成得到唯一的隐状态和细胞状态。第一个办法较为基础,如下:

c=c1+c2

细胞状态进行了简单的加和,而隐状态则是进行线性变换后送入tanh函数。

第二种方法则是由Child-Sum Tree-LSTMs启发得到,使用了一个LSTM的变体来将隐状态和细胞状态结合在一起。

此外文章还在多源语言模型上实现了多源的Attention。

法语和德语翻译到英语的结果

法语和德语翻译到英语的结果

从文章展示的由法语和德语翻译得到英语的结果来看,单语言模型的BLEU分值要低于双语言,但是Attention模型在翻译任务上的提升是显然的——单语言模型加上Attention之后得到的BLEU分值要高于多语言模型,无论多语言模型使用Basic method还是Child-Sum method进行结合。而多语言模型再加上Attention后,相较于单语言模型的得分25.2,获得了4.8的提升。而在由法语和英语翻译到德语的任务上,多语言模型虽然优于单语言模型,但是提升不如法语和德语翻译到英语的任务,也即源语言的距离越远,多语言模型的提升越大。

来源:智能立方

当前文章:Search » 论文引介:Multi-Source Neural Translation