基于深度学习的机器翻译研究进展

552

刘洋/清华大学

简介

机器翻译研究如何利用计算机实现自然语言的自动转换,是人工智能和自然语言处理的重要研究领域之一。机器翻译大致可分为理性主义和经验主义两类方法。

基于理性主义的机器翻译方法,主张由人类专家通过编纂规则的方式,将自然语言之间的转换规律“传授”给计算机。这种方法的主要优点是能够显式描述深层次的语言转换规律。然而,理性主义方法对于人类专家的要求非常高,不仅能够通晓源语言和目标语言,而且需具备一定的语言学和翻译学理论功底,同时熟悉待翻译文本所涉及领域背景知识,还需熟练掌握相关计算机操作技能。这使得

研制系统的人工成本高、开发周期长,面向小语种开发垂直领域的机器翻译因人才稀缺而变得极其困难。此外,当翻译规则库达到一定的规模后,如何确保新增的规则与已有规则不冲突也是非常大的挑战。因此,翻译知识获取成为基于理性主义的机器翻译方法所面临的主要挑战。

基于经验主义的机器翻译方法,主张计算机自动从大规模数据中“学习”自然语言之间的转换规律。随着互联网文本数据的持续增长和计算机运算能力的不断增强,数据驱动的统计方法从上世纪90 年代起开始逐渐成为机器翻译的主流技术。统计机器翻译为自然语言翻译过程建立概率模型并利用大规模平行语料库训练模型参数,具有人工成本低、开发周期短的优点,克服了传理性主义方法所面临的翻译知识获取瓶颈问题,因而成为Google、微软、百度、有道等国内外公司在线机器翻译系统的核心技术。尽管如此,统计机器翻译仍然在以下六个方面面临严峻挑战。

  • 线性不可分:统计机器翻译主要采用线性模型,处理高维复杂语言数据时线性不可分的情况非常严重,导致训练和搜索算法难以逼近译文空间的理论上界。
  • 缺乏合适的语义表示:统计机器翻译主要在词汇、短语和句法层面实现源语言文本到目标语言文本的转换,缺乏表达能力强、可计算性高的语义表示支持机器翻译实现语义层面的等价转换。
  • 难以设计特征:统计机器翻译依賴人类专家通过特征来表示各种翻译知识源。由于语言之间的结构转换非常复杂,人工设计特征难以保证覆盖所有的语言现象。
  • 难以充分利用非局部上下文:统计机器翻译主要利用上下文无关的特性设计高效的动态规划搜索算法,导致难以有效将非局部上下文信息容纳在模型中。
  • 数据稀疏:统计机器翻译中的翻译规则(双语短语或同步文法规则)结构复秦,即便是使用大规模训练数据,仍然面临着严重的数据稀疏问题。
  • 错误传播:统计机器翻译系统通常采用流水线架构,即先进行词法分析和句法分析,再进行词语对齐,最后抽取规则。每一个环节出现的错误都会放大传播到后续环节,严重影响了翻译性能。

由于深度学习能够较好地缓解统计机器翻译所面临的上述挑战,基于深度学习的方法自201 3年之后获得迅速发展,成为当前机器翻译领域的研究热点。基于深度学习的机器翻译汰致可以分为两类方法。

  • 利用深度学习改进统计机器翻译:仍以统计机器翻译为主体框架,利用深度学习改进其中的关键模块。
  • 端到端神经机器翻译:一种全新的方法体系,直接利用神经网络实现源语言文本到目标语言文本的映射。

下面对这两类基于深度学习的机器翻译方法进行简要介绍。

利用深度学习改进统计机器翻译

利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型、翻译模型、调序模型、词语对齐等。

深度学习能够帮助机器翻译缓解数据稀疏问题。以语言模型为例。语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响、是机器翻译中的核心模块。传统的语言模型采用n-gram方法,通过极大似然估计训练模型参数。由于这种方法采用离散表示(即每个词都是独立的符号) , 极大似然估计面临着严重的数据稀疏问题:大多数 “n-gram在语料库上只出现一次,无法准确估计模型参数。因此,传统方法不得不使用平滑和回退等策略来缓解数据稀疏间题。但即使采用平滑和回退策略,统计机器翻译系统还是因为数据过于稀疏而无法捕获更多的历史信息,通常仅能使用4一gram 或者5—gram语言模型。

深度学习著名学者、加拿大蒙特利尔大学Yoshua Bengio教授在2003年率先提出基于神经网络的语言模型,通过分布式表示(即每个词都是连续、稠密的实数向量)有效缓解了数据稀疏问题。美国BBN公司的Jacob Devlin等人于2014 年进一步提出神经网络联合模型(Neural Network Joint Models)川。传统的语言模型往往只考虑目标语言端的前”n-1个词。以图1为例,假设当前词是 “the”,一个4-gram语言模型只考虑之前的三个词:”get” ‘will ”和”i”。Jacob Devlin等人认为,不仅仅是目标语言端的历史信息对于决定当前词十分重要,源语言端的相关部分也起着关键作用。因此,其神经网络联合模型额外考虑五个源语言词,即“就”、“取”、“钱”、“给”和“了” 由于使用分布式表示能够缓解数据稀疏问题,神经网络联合模型能够使用丰富的上下文信息(图1共使用了8个词作为历史信息) ,从而相对于传统的统计机器翻译方法获得了显著的提升BLEU值提高约6个百分点) ,因此获得了自然语言处理领蜮重要国际会议ACL 2014的最佳论文奖。

神经网络联合模型

图1 神经网络联合模型

对机器翻译而言,使用神經网络的另一个优点是能够解决特征难以设计的问题。以调序模型为例。基于反向转录文法的调序模型是基于短语的统计机器翻译的重要调序方法之一,其基本思想是将调序视作二元分类问题:将两个相邻源语言词串的译文(们顺序拼接或(2,逆序拼接。传统方法通常使用最大熵分类器,但是如何设计能够捕获调序规律的特征成为难点。由于词串的长度往往非常长,如何从众多的词语集合中选出能够对调序决策起到关键作用的词语是非常困难的。因此,基于反向转录文法的调序模型不得不仅基于词串的边界词设计特征无法充分利用整个词串的信息。利用神经网络能够缓解特征设计的问题,首先利用递归自动编码器{ Recursive Autoencoders,生成讠司串的分布式表示;然后基于四个词串的分布式表示建立神经网络分类器国。因此,基于神网络的调序模型不需要人工设计特征就能够利用整个词串的信息,显著提高了调序分类冫隹确率和翻译质量。实际上,深度学习不仅能够为机器翻译生成新的特征,还能够将现有的特征集合转化生成新的特征集合,显著提升了翻译模型的表达能力。

然而,尽管利用深度学习改进统计机器翻译取得了显著的效果,但仍然面临以下难题。

  • 线性不可分:整体框架仍是线性模型,高维数据线性不可分的情况侬然存在。虽然可以在保持特征不变的情况下将线性模型替换为非线性模型但目前尚未获得大幅度的提升。
  • 非局部特征:通过深度学习引入的新特征往往是非局部的,导致无法设计高效的动态规划算法,从而不得不采用在后处理阶段进行超图重排序等近似技术凹。

能不能直接利用神经网络进行机器翻译呢?

端到端神经机器翻译

端到端神经机器翻译(End-to-End Neural Machine Translation)是从201 3年兴起的一种全新机器翻译方法,其基本思想是使用神经网络直接将源浯言文本映射成目标语言文本。与统计机器翻译不同,不再有人工设计的词语对齐、短语切分、句法树等隐结构( latent structure ) ,不再需要人工设计特征,端到端神经机器翻译仅使用一个非线性的神经网络便能直接实现自然语言文本的转换。

英国牛津学的Nal Kalchbrenner和Phil Blunsom于201 3年首先提出了端到端神经机器翻译卩010他们为机器翻译提出一个“编码.解鸸” 的新框架:给定一个源语言句子,首先使用一个编码器将其映射为一个连续、稠密的向量,然后再使用一个解码器将该向量转化为一个目标语言句子Kalchbrenner和Blunsom在论文中所使用的编码器是卷积神经网络(Convolutional Neural Network ) ,解码器是递归神经网络(Recurrent Neural Network)。使用递归神经网络具有能够捕获全部历史信息和处理变长字符串的优点。这是一个非常大胆的新架构,用非线性模型取代统计机器翻译的线性模型;用单个复杂的神经网络取代隐结构流水线;用连接编码器和解码器的向量来描述语义等价性;用递归神经网络捕获无限长的历史信息。然而,端到端神经机器翻译最初并没有获得理想的翻译性能,一个重要原因是训练递归神经网络时面临着“梯度消失”和“梯度爆炸”问题。因此,虽然递归神经网络理论上能捕获无限长的历史信息,但实际上难以真正处理长距离的侬敕关系。

为此,美国Google公司的Ilya Sutskever等人于2m4年将长短期记忆(Long Short-Term Memory卩川引入端到端神经机器翻译卩2]。长短期记忆通过采用设置门开关( gate)的方法解决了训练递归神经网络时的“梯度消失”和“梯度爆炸” 问题,能够较好地捕获长距离侬赖。图2给出了 Sutskever等人提出的架构。与Kalchbrenner和 Blunsom的工作不同,无论是编码器还是解码器, Sutskever等人都采用了递归神经网络。给定一个源语言句子”A B C”,该模型在尾部增加了一个表示句子结東的符号“〈EOS} ”。当编鸸器为整个句子生成向量表示后,解码器便开始生成目标语言句子,整个解码过程直到生成“〈EOS〉”时结東。需要注意的是,当生成目标语言词”X”时,解码器不但考虑整个源语言句子的信息,还考虑已经生成的部分译文(即”W” ) 0由于引入了长短期记忆,端到端神经机器翻译的性能获得了大幅度提升,取得了与传统统计机器翻译相当甚至更好的准确率。然而,这种新的框架仍面临一个重要的挑战,即不管是较长的源语言句子,还是较短的源语言句子,编码器都需将其映射成一个维度固定的向量,这对实现准确的编鸸提出了极大的挑战。

端到端神经机器翻译

图2 端到端神经机器翻译

针对编码器生成定长向量的问题,Yoshua Bengio研究组提出了基于注意力(attention)的端到端神经网络翻译卩引。所谓注意力,是指当解码器在生成单个目标语言词时,仅有小部分的源语言词是相关的,绝大多数源语言词都是无关的。例如,在图2中,当生成目标语言词”money”时,实际上只有“钱”是与之密切相关的,其余的源语言词都不相关。因此,Bengio研究组主张为每个目标语言词动态生成源语言端的上下文向量,而不是采用表示整个源语言句子的定长向量。为此,他们提出了一套基于内容(content-based》的注意力计算方法。实验表明,注意力的引入能够更好地处理长距离依赖,显著提升端到端神经机器翻译的牲能。

虽然端到端神经机器翻译近年来获得了迅速的发展,但仍存在许多重要问题有待解决。

  • 可解释性差:传统的统计机器翻译在设计模型时,往往会侬据语言学理论设讠十隐结构和特征。端到端神经网络翻译重在设计神经网络架构。但是由于神经网络内部全部是向量,从语言学的角度来看可解释性很差,如何根据语言学知识设计新架构成为挑战,系统调试也困难重重。
  • 训练复杂度高:端到端神经机器翻译的训练复杂度与传统统计机器翻译相比具有数量级上的提升,必须使用较大规模的GPU集群才能获得较理想的实验周期。因此,计算资源成为开展端到端神经机器翻译研究的最大门槛。

未来展望

综上所述,机器翻译研究60多年来的发展趋势是不断降低人在翻译过程中的主导作用:基于规则的方法完全靠人编纂翻译规则;给予统计的方法能够从数据中自动学习翻译知识,但仍需要人来设计翻译过程的隐结构和特征;基于深度学习的方法则可以直接用神经网络描述整个翻译过程。近年来,端到端神经机器翻译成为最热门的研究领域,未来的研究方向可能集中在以下五个方面。

架构:如何设计表达能力更强的新架构?近期提出的神经网络图灵机和记忆网络可能成为下一个关键技术。

训练:如何降低训练复杂度?如何更有效地提高翻译质量?近期的工作表明优化评价指标能够显著提升翻译性能。

先验知识:目前的方法完全从数据中自动学习翻译知识,能否利用先验知识指导翻译过程?能否与现有的知识库相结合?近期在基于注意力的翻译模型上的研究工作已经有一些初步进展。

多语言:目前的方法主要处理中文和英文等资源丰富语言,能否处理更多的语言对?Bengio研究组提出的基于共享注意力机制的多语言翻译方法值得关注。

多模态:目前的方法主要关注文本翻译,能不能利用向量表示贯通文本、语音和图像,实现多模态翻译?最近在图像标题翻译上的研究工作是很好的尝试。

相信未来几年,基于深度学习的机器翻译方法尤其是端到端神经机器翻译会取得更大突破,发展成为新时期机器翻译的主流技术,造福于社会大众。

参考文献

【1】Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwartz, and John Makhoul. 2014. Fast and Robust Neural Network Joint Models for Statistical Machine Translation. In Proceedings of ACL 2014.

【2】Jianfeng Gao, Xiaodong He, Wen-tau Ylh, and Li Deng. 2014. Learning Continuous Phrase Representations for Translation Modeling. In Proceedings of ACL 2014.

【3】Peng Li, Yang Liu, and Maosong Sun. 2013. Recursive Autoencoders for ITG-based Translation. In Proceedings of EMNLP 2013.

【4】Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. 2013. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of ACL 2013.

【5】Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. 2003. A Neural Probabilistic Language Model. Journal of Machine Learning Research.

【6】Deyi Xiong, Qun Liu, and Shouxun Lin. 2006. Maximum Entropy based Phrase Reordering Model for Statistical Machine Translation. In Proceedings of ACL 2006.

【7】Shixiang Lu, Zhenbiao Chen, and Bo Xu. 2014. Learning New Semi-Supervised Deep Auto-encoder Features for Statistical Machine Translation. In Proceedings of ACL 2014.

【8】Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun Chen. 2015. Non-Linear Learning for Statistical Machine Translation. In Proceedings of ACL 2015.

【9】Liang Huang. 2008. Forest Reranking: Discriminative Parsing with Non-Local Features. In Proceedings of ACL 2008.

【10】Nal Kalchbrenner and Phil Blunsom. 2013. Recurrent Continuous Translation Models. In Proceedings of EMNLP 2013.

【11】Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation.

【12】llya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence-to-Sequence Learning with Neural Networks. In Proceedings of NIPS 2014.

【13】Dzmitry Bahdanau, KyungHyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015.

【14】Minh-Thang Luong, Hieu Pham, and Christopher Manning. 2015. Effective Approaches to Attention-based Neural Machine Translation. In Proceedings of EMNLP 2015.

【15】Alex Graves, Greg Wayne, and Ivo Danihelka. 2014. Neural Turing Machines. arXiv:1410.5401

【16】Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. 2015. End-to-End Memory Networks. In Proceedings of NIPS 2015.

【17】Shiqi Shen, Yong Cheng, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2015. Minimum Risk Training for Neural Machine Translation. arXiv:1512.02433.

【18】MarcAurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. 2015. Sequence Level Training with Recurrent Neural Networks. arXiv:1511.06732.

【19】Trevor Cohn, Cong Duy Vu Hoang, and Ekaterina Vymolova. 2016. Incorporating Structural Alignment Biases into an Attentional Neural Translation Model. arXiv:1601.01085.

【20】Orhan Firat, Kyunghyun Cho, and Yoshua Bengio. 2016. Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism. arXiv: 1601.01073.

【21】Julian Hitschler and Stefan Riezler. 2016. Multimodal Pivots for Image Caption Translation. arXiv:1601.03916.

Pdf版:基于深度学习的机器翻译研究进展.pdf

当前文章:Search » 基于深度学习的机器翻译研究进展