词嵌入的类比特性有实用意义吗?

757

词嵌入(Word Embedding)是自然语言处理(NLP)领域里的一股强劲的潮流。当你查看近两年ACL、EMNLP等NLP大型会议的会刊,你会发现大量论文专注于词嵌入各式各样的组织方法、应用以及评价方式。有人戏称,EMNLP(Empirical Methods in NLP)应该更名为『Embedding Methods in NLP』。我们要从这股热潮的源头说起。
 
词嵌入及其类比特性

NLP相关任务中最常见的第一步是创建一个词表库,并为每个词编码。最原始的方法是One-hot representation,在这种词表示方法中每个词是一个很长的向量,向量的维度等于词表大小(可能是几万到几十万),只有对应位置上的数字为1,其余为0。相当于把每个词顺序编号。这种表示方法无法捕捉词与词之间的相似度,在实际应用中还容易发生维数灾难。
 
另一大类方法便是词嵌入。词嵌入是一种词语的分布式表示(Distributedrepresentation)。其基本思想是通过训练将每个词映射成低维实数向量空间中的一个向量(维度可能为几十到几百),通过实数向量之间的距离(比如余弦相似度、欧氏距离等)来判断他们之间的语义相似度。词嵌入除了可以研究词语之间的相关性,还能作为下游自然语言处理任务的表示基础,为文本分类、文本聚类、词性标注、情感分析等任务提供『原料』。
 
词嵌入的构造方式相比于早期的分布式表示,区别仅是多了一步——为文本中为每个单词构造一组特征(feature)。2003年Bengio[1]提出的神经网络语言模型(Neural Network Language Model)就采用了词嵌入的表示方式。更早,分布式表示法由Hinton[2]于1986年引入人工智能相关领域。其背后的思想可以追溯至Zellig Harris,John Firth和Ludwig Wittgenstein等结构主义语言学(StructualistLinguistics)先驱,与大名鼎鼎的乔姆斯基所倡导的形式语言学(Formal Linguistics)截然不同不同的是,结构主义语言学认为词、句等语言学单元的含义存在于上下文中。
 
所以词嵌入并不是什么新东西,可它近两年为什么突然火起来呢?是因为TomasMikolov 2013年的几篇论文[3][4][5]。文章中提出了一个word2vec的工具包,里面包含了几种新的构造词嵌入的模型和方法。这些方法有个显著的特点:训练得到的词嵌入向量具备很好的『类比』(word analogy)性质。可以形象地解释类比特性,V[i]表示得到的单词i的向量,最经典的例子是V[King] – V[Queen] ≈ V[Man] –V[Women],这是语义上的类比特性,还有V[Kings] – V[King] ≈ V[Queens] – V[Queen],这是语法上的的类比特性。
 

类比特性的局限
 
词嵌入向量的类比特性非常符合直观,在一定程度上成功模拟了词语的语义和语法性质,间接地支持在自然语言处理任务中使用词嵌入。虽然并不是Mikolov的方法所独有,但他的工作把类比特性做到了空前的高度。对于语法的类比特性,他设置了一个包含8000个测例的测试集,每个测例为类似『good is to better asrough is to ___』的语法问题,Mikolov得到的词嵌入向量能正确回答其中近40%的问题[5]。再加之工具包速度快、内存占用小,Mikolov的工作很快风靡于全世界的自然语言处理研究者中,推动了词嵌入的研究热潮。关于词嵌入的研究不断涌现,其中很多研究者将类比特性作为评判词嵌入质量的标准,对词嵌入的生成方法进行不断改进。
 
但是渐渐地,研究者们发现,专注于提升类比特性得到的词嵌入向量应用于更具体的自然语言处理问题时,并不会得到实质性的改变。人们很快意识到,大家都是基于如前所述的小型人造测试集对词嵌入做改进,语法尚有普适的标准答案可言,可是词义的答案是人为确定的,确定标准答案的方式没有严肃地讨论,直接将回答的正确率作为类比特性的评价标准,这种做法看似直接,却也欠考虑。另外,类似的评价方式,如类比性、相关性(relatedness)、相似性(similarity)等,对训练数据大小、领域、来源以及词表的选择非常敏感。数据集太小,往往也不能充分说明问题。
 
研究者开始转向任务相关的词嵌入学习。基于某个具体的任务训练相应的词嵌入向量,拘泥于单调的评价方式是没有意义的。我们可以看到,去年关于词嵌入向量类比性的论文少了许多。有人甚至认为,词嵌入所具有的类比特性不过是一个玩具而已。
 
类比特性的应用
 

实际上这种特性有很多用武之地的。如果我们单纯只关注词语本身,类比性可以用来探究词语之间的相关性[6]。例如利用该特性自动检测词语之间的上下位关系,这对构建WordNet、HowNet等词汇知识库具有重要意义。更重要的是,而面向知识图谱的表示学习算法TransE[7],正是受到这种类比现象的启发而提出来的。未来如何有效融合无结构文本库和有结构知识库,实现对人类知识的表示和利用,这种现象会是重要的思想来源和依据。
 
另一方面,获得了具有类比特性的词嵌入向量,一定程度上成功模拟了词语的语义,相当于将词义进行了分解,例如通过King、Queen、Uncle、Aunt等词语的类比我们分解出了词向量空间中关于『性别』的维度。当今自然语言处理中复合语义学(Compositional semantics)的一些工作深受这种思想启发。
 

类比性最近在多模态表示和图像表示的研究中流行起来了,Radford等人[8]发现他们获得的图像的Z表示(Z Representation)也具有类比特性:

Salakhutdinov等人[9]用多模态神经语言模型(Multimodal Neural Language Model)得到的视觉-语义模型嵌入(Unifying Visual-Semantic Embedding)也有类比特性:

 
结语
 
一如深度学习领域的许多突破,人们惊叹于Mikolov的词嵌入的效率和直观性,却并未曾完全了解其中的理论根据。有些研究者通过建立词嵌入与传统语言学特征所构成的词向量之间的关系,试图破解词嵌入向量每个维度的含义[10]。有的研究在实证和理论上揭示了基于神经网络的词嵌入和传统的分布式表示没有质的区别,他们只不过是通过不同的计算手段得到的相同的语言模型[11][12][13]。
 
在词嵌入向量中发现的类比特性一定程度上推动了词嵌入的研究热潮,也成了学者们争议的焦点。也许类比特性这样表层的直观现象也是通往更深邃奥秘的钥匙。
 
参考文献
[1] Y. Bengio, R. Ducharme, Vincent, P., C.Jauvin. 2003. A neural probabilistic language model. Journal of MachineLearning Research, 3(6).
[2] G.E. Hinton. 1986. Learning distributedrepresentations of concepts. In Proceedings of the eighth annual conference ofthe cognitive science society, pages 1–12. Amherst, MA.
[3] T. Mikolov, K. Chen, G.S. Corrado, J.Dean. 2013a. Efficient estimation of word representations in vector space. InProceedings of the International Conference on Learning Representations (ICLR).
[4] T. Mikolov, I. Sutskever, K. Chen, G.S.Corrado, Jeffrey Dean. 2013b. Distributed representations of words and phrasesand their compo- sitionality. In Advances in Neural Information ProcessingSystems, pages 3111–3119.
[5] T. Mikolov, W. Yih, G. Zweig. 2013c.Linguistic regularities in continuous space word representations. InProceedings of the 2013 Conference of the North American Chapter of theAssociation for Computational Linguistics: Human Language Technologies, pages746–751.
[6] R. Fu, J. Guo, B. Qin, W. Che, H. Wang,T. Liu. 2014. Learning semantic hierarchies via word embeddings. In Proceedingsof the 52nd Annual Meeting of the Association for Computational Linguistics,pages 1199–1209.
[7] A. Bordes, N. Usunier, A. Garcia-Duran,J. Weston, O. Yakhnenko. 2013a. Translating embeddings for modeling multi-relationaldata. In Advances in Neural Information Processing Systems 26.
[8] A. Radford, L. Metz, S. Chintala. 2016.Unsupervised representation learning with deep convolutional generativeadversarial networks, In Proceedings of the International Conference onLearning Representations (ICLR).
[9] R. Kiros, R. Salakhutdinov, R.S. Zemel.2014. Unifying visual-semantic embeddings with multimodal neural lan- guagemodels. In arXiv:1411.2539.
[10] Y. Tsvetkov, M. Faruqui, W. Ling, G.Lample, C. Dyer. 2015. Evaluation of Word Vector Representations by SubspaceAlignment. In Proceedings of the 2015 Conference on Empirical Methods inNatural Language Processing (EMNLP).
[11] O. Levy, Y. Goldberg. 2014. Neuralword embedding as implicit matrix factorization. In Proceedings of NIPS, pages2177–2185.
[12] O. Levy, Y. Goldberg, I. Dagan. 2015.Improving distributional similarity with lessons learned from word embeddings.In Transactions of the Association for Computational Linguistics, 3:211–225.
[13] J. Pennington, R. Socher, C.D.Manning. 2014. Glove: Global vectors for word representation. In Proceedings ofthe Empiricial Methods in Natural Language Processing (EMNLP), 12, 1532-1543.
 
作者简介:周先达,清华大学本科生。zhou-xd13@mails.tsinghua.edu.cn
来源:智能立方

当前文章:Search » 词嵌入的类比特性有实用意义吗?