如何评价智能问答系统？

长期以来，人工智能界乃至计算机界梦寐以求，希望让计算机拥有人类的智能，能够像人类一样进行高度自主的认知、学习、推理。这一梦想推动了过去五六十年来人工智能研究和开发的巨大进步。

如何验证计算机已经具有了“人类”的智能？图灵在1950年写了一篇论文《计算机器与智能》，提出了如下的判断原则：测试者在与被试（包括人和机器）隔开的情况下，通过键盘等装置向被试随意提问。经过一段时间，如果测试者不能确认所收到的答复来自人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。类似地，美国认知心理学家G. M. Ulson 认为，判别计算机理解自然语言的四个标准是：问答系统、文摘、复述和机器翻译。计算机只要达到以上标准之一，就认为它理解了自然语言。总而言之，问答是衡量人工智能水平的重要手段，问答系统的性能反映了人工智能系统的水平，因此问答技术的研究开发对于人工智能的发展有重要意义。

另一方面，人们自然而然就能想到，如何衡量智能问答的技术水平？哪些测试指标常用来评价问答系统？如今的智能回答能达到怎样的技术水准？接下来，本文将主要从评测和答题两个角度，对智能问答的评价方法加以介绍。需要说明的是，由于篇幅有限，本文所介绍的评价方法和评测手段将既不覆盖聊天机器人、语音助手和社区问答等系统，也不考虑问答的答题策略、人机交互和情感需求，而是聚焦于问题求解能力，要求对于给定的问题，不管来自开放域还是限定域，都能够直接给出问题的准确答案。

国际评测

自动问答的研究历史可以上溯到五十时代，图灵首次提出用人机对话来检验机器智能。在六十年代，问答技术主要服务于数据库的自然语言界面，七十年代则聚焦于交互式对话系统，七十年代末开始转向阅读理解。自动问答系统的应用领域也从初期的实验领域拓展到开放领域，研究对象从当初的小规模语料库拓展到互联网。不过，受限于信息检索和自然语言处理的技术水平，以及标准问答语料库的匮乏，智能问答的进展不尽如人意。这一状况直到文本检索会议（TREC）开展问答评测之后才得以根本扭转。

TREC是文本检索领域最权威的国际评测会议，由美国国家标准技术局（NIST）主持。这是一个一年一次的会议系列，开始于1992年，迄今已举办了20多次。其宗旨主要包括：通过提供规范的大规模语料和客观、公正的评测，来促进技术的交流、发展和产业化；发展对文本检索系统的评测技术等[1]。正因如此，TREC吸引了全世界信息检索研究机构的注意力。

TREC会议的评测项目一开始只有随机检索（Ad Hoc）和分流（Routing）两项，之后随着文本检索技术的不断发展，逐渐转向更新颖更热门的项目。1999年，TREC首次开展了自动问答评测（TREC/QA）[2]。通常意义下的文本检索输入的查询是关键词，返回的是相关文本。而对于自动问答，输入的查询是问题，希望返回的不是整篇文本，而是在给定的语料库中检索并返回问题的直接答案。自此以后，众多研究者开始对问答系统产生了浓厚的兴趣，直到2007年的最后一次评测，QA一直都是最受关注、参加机构最多的TREC评测项目之一。

TREC/QA 任务考察三类不同的问题：事实性（factoid）、列表类（list）和定义类（definition），然后用这三类问题的平均得分作为总体得分，对参评系统进行评价。事实性问题只有一个答案，而且答案一般都比较简短，往往用词语或词组即可回答，例如“珠穆朗玛峰有多高？”。列表类问题可能会有多个分布在不同文档的答案，例如“联合国安理会有哪些常任理事国？”。除了答案之外，TREC/QA也要求给出证据，即答案所在的文档编号。定义类问题则要求系统返回一段描述文字作为答案, 例如对于“南丁格尔是谁？”这样的问题，仅用几个词语无法完整回答，提出这类问题的用户往往希望系统能够提供更加详细的信息。

TREC/QA每年都会提供 500 道左右的测试问题，经过将近10年的评测，建立了含有数千道问题的题库，这些问题，以及对应的答案、答案模板和证据，成为了此后自动问答研究的标准语料库。研究人员在该语料库上训练和测试各种问答模型，先后提出了基于逻辑推理的方法[3]，基于模板匹配的方法[4]，基于机器学习的方法[5]和基于数据冗余性的方法[6]等许多领先方法，极大促进了自动问答的研究水平。

除了对各种方法的性能加以比较之外，TREC/QA评测的另一项贡献是提出了适用于QA的评价指标。第一种指标是查准率（precision），指的是回答正确的问题占问题总数的百分比。在系统仅为每个问题提供一个答案时，可用这一指标进行评测，例如2003、2004的QA评测都使用了该指标。而2007年的QA评测则采用了查准率的一种变体，即将答案是否正确进一步细化为全局正确、局部正确（文档集中存在该答案，但该答案并非是整个文档集中的最佳答案）、不确切（与正确答案有交集）、不正确、不支持（答案正确，但给出的证据不支持）5种结果，并为每种结果设置不同的权重[7]。

但在多数情况下，要求系统只能返回一个答案并不合理。就如搜索引擎，为一个查询返回多个结果是用户普遍接受的一种方式，因此也应允许问答系统为每道问题返回多个答案。根据经验，用户一般比较关注前 10 个答案。另一方面，第一个正确答案出现在哪个位置也在某种程度上反应了系统的性能。它出现在第 1 位还是第 10 位，或者在前 10 个答案中都没出现，对于用户来说是截然不同的体验。因此TREC除了查准率之外又提出了 MRR指标（Mean Reciprocal Rank）[2]。

查准率和MRR是针对事实类问题的评价指标。对于列表类问题，TREC提出了实例查准率（instance precision）、实例查全率（instance recall）和F值等指标。对于某个列表类问题，实例查准率指的是问答系统给出的正确答案占给出的全部答案的比例，实例查全率指的是问答系统给出的正确答案的数量占所有正确答案的比例，F值则是实例查准率和查全率的调和平均值。

定义类问题存在某种程度的“主观性”，为此TREC提出了“两步走”的评价策略。在第一步，所有参赛系统提交答案，由评价员浏览所有的潜在答案，从中构建答案的“片段”。片段指的是问题正确答案的某个方面，例如，对于问题“南丁格尔是谁？”，可能的片段包括南丁格尔的生卒年月、国籍、教育水平、主要事迹等，这些片段彼此不相交也不能再进一步细分；在第二步，每个系统给出的答案也被人工细分为片段，从而可以计算出片段查准率和片段查全率。多名评价员独立构建答案的片段，这样还可以计算出片段的重要程度，被多名评价员认可的片段能得到更高的权重。

不同于检索、过滤等其他任务，TREC/QA的评测需要更多的人力资源。除了给出答案之外，问答系统还必须给出答案的证据；评价员不仅要判断答案是否正确，还需要判定答案所在的文档是否能真正支持答案，避免投机取巧的系统从百科或知识库中直接查找答案，而非通过自动问答技术从文档库中提取。定义类问题所需要的人力就更多了。这种耗费巨大的评测，在TREC引入QA任务之前几乎是不可能实现的。

国内的复旦大学、哈尔滨工业大学，中科院计算所、清华大学和北京大学等单位先后参加了TREC/QA评测，都取得了不错的成绩。表1给出了在TREC/QA评测的最后一年，也就是2007年排名前十位的系统，其中复旦大学取得了第三名。

表1：TREC2007排名前十位的QA系统，摘自[7]

除此之外，其他评测会议如NTCIR和CLEF也设置了问答评测项目，这些评测会议同样极大地推动了自动问答系统的相关研究，并在TREC之后接过了QA评测的大旗。其中，NTCIR是由日本学术振兴会和日本国立情报学研究所组织的评测，其特色是既关注日文和其它亚洲语言的检索和跨语言检索，也重视从文本检索到“信息”检索的转化，例如自动问答、自动文摘等[8]。

CLEF是由欧盟资助的一个评测会议系列，多语言、跨语言评测是它的主要特色[9]。QA4MRE（Question answering for machine reading）是CLEF所开展的一个评测项目[10]。不同于从海量文档中查找问题的答案，QA4MRE的主要目的就是提供一个通过问答和阅读理解测试来评测机器阅读系统的方法。该任务要求参评系统通过阅读文档然后从可选答案中选择正确的答案。由于答案的来源只有单篇文档，无法利用语料库中可能存在的冗余信息，选择正确的答案可能需要复杂的文本推理过程，因而其难度超过了TREC/QA。

智能答题

通过评测，我们可以了解问答系统的准确程度，也能对各种问答系统的相对水平加以比较。不过，人们还想知道，这样的智能程度和人类相比，处于什么样的水平。这就要求问答系统和人类同场竞技。

2011年2 月，IBM 的超级电脑Watson 在美国最受欢迎的智力竞猜电视节目《Jeopardy！》中，以绝对优势击败两名人类冠军级对手, 继IBM的深蓝电脑在“人机大战”中战胜国际象棋冠军卡斯帕罗夫之后，再一次引起了全球轰动[11]。《Jeopardy！》的问题类型基本上都是事实性问题，例如“奥利奥饼干是在哪个年代上市的？”，要求答题者有很好的记忆能力和一定的分析能力。Watson能以80%的准确率回答80%的竞猜题，这是非常了不起的。

Watson的轰动吸引了许多国家的研究机构开始进行智能答题的研究。2013年，微软联合创始人Paul Allen投资成立了一家致力于完整解决人工智能问题的公司“Allen Institute for Artificial Intelligence”，简称AI2。在华盛顿大学教授Oren Etzioni的带领下，AI2计划制造出一台能够通过高中生物课程的电脑。AI2将向这台电脑输入教科书上的内容，之后对它进行考试。AI2认为，假如他们的电脑可以通过高中生物考试的话，就会被认为在某种程度上“理解”了生物学，至少达到高中生水平[12]。

在日本，国立情报学研究所的新井纪子组织了一个项目，研究在不远的未来，人工智能和机器学习能发展到什么程度。该项目的目标就是制造一个“Todai机器人”（日语把东京大学称作Todai）。希望Todai机器人在2016年能够通过相对简单的大学入学考试，到2021年能和报考东京大学的考生一较高低[13]。要知道东京大学的入学考试难度很高：每年都有大约50万考生参加由全日本的大学考试委员会命题的选择题考试，达到60%的正确率就能通过考试。而要参加东京大学的入学考试，学生们在这份试卷中至少需要达到80%的正确率，且与日本一般的入学考试不同，东京大学的考试非常严格，除了选择题之外，还包含大量的主观题。

Todai机器人需要参加高考的各种科目，包括语言、数学、物理、历史等。以Todai的数学答题为例，为了用计算机求解入学考试的数学问题，研究人员需要首先将用自然语言和公式等人类容易理解的形式表达的数学问题文本转化成计算机可执行的程序形式，之后调用数学问题求解工具来加以解答。目前他们已经可以尝试求解约50-60％的数学高考题[14]。

智能答题甚至已经成为了NTCIR的评测项目之一。在2013年的NTCIR11开始，NTCIR会议设置了针对复杂问答的预研（pilot）项目[15]，目前已经进行了两轮评测。为了便于全世界研究人员参加，组织者将日本高考的世界历史科目试题翻译为英文。参赛系统除了选择题之外，还必须回答判断题、填空题、简答题、简述题等各种题型。参赛系统可自由使用教科书、本体、百科等各种知识源，除了文本检索和信息提取之外，还必须实现上下文理解、文本推理、知识推理、短文写作等功能。在NTCIR的数据支持下，CLEF继QA4MRE之后也开展了高考答题评测。这些评测将智能答题的研究向全世界加以推广。

智能答题也是国内人工智能领域近年的热点研究方向。2015年，国家科技部设立了“基于大数据的类人智能关键技术与系统”重点项目，科大讯飞作为项目牵头单位，联合三十多家科研院校和企业共同负责项目的研发与实施，主要针对大数据所带来的新的技术与挑战，研究类脑计算关键技术和类人答题系统，目标是研制出能够参加中国高考并考取大学的智能机器人[16]。这里的“类人”答题，不仅要求给出的答案是中学生可以理解的，并且问题求解过程必须“类人”，这就对智能答题给出了更高的要求。

小结

本文从国际评测和智能答题角度，介绍了智能问答的评价方法和评测指标。虽然已经有许多研究机构和企业在开展智能问答研究，但其技术水平还有待进一步提高。目前开放领域问答系统的研究主要针对单一的、孤立的、事实性的问题，在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度。例如，如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题，Watson 就无法做出满意的回答；AI2到目前为止，也只能达到小学四年级学生的生物学水平。

在深度学习、知识图谱等技术的支持下，问答系统在算法、知识和数据上都存在着出现巨大突破的可能。我们有理由相信，在不久的将来，计算机将实现高度智能的自动问答，所研发的技术会带来人工智能的科技革新，从而对信息社会造成深远的影响。

作者简介：黄萱菁，复旦大学计算机学院教授，博士生导师，中国人工智能学会高级会员、自然语言理解专委会委员，主要研究方向为自然语言处理与信息检索。

参考文献

[1] http://trec.nist.gov/

[2] Voorhees & Tice (2000): Building a Question Answering Test Collection. In: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval， Athens， Greece， July 2000， pp. 200-207.

[3] Moldovan， D. & Rus， V. Logic form transformation of WordNet and its applicability to question answering， in Proceedings of the 39th Annual Meeting on Association for Computational Linguistics， 2001.

[4] M. M. Soubbotin， S. M. Soubbotin. Patterns of Potential Answer Expressions as Clues to the Right Answers. Tenth Text REtrieval Conference (TREC-10). Gaithersburg， MD. November 13-16，2001.

[5] H. Yang， T.-S. Chua. The Integration of Lexical Knowledge and External Resources for Question Answering. Eleventh Text REtrieval Conference (TREC-2002). Gaithersburg， MD. November 2002.

[6] Kwok， Etzioni， Weld: Scaling Question Answering to the Web. Proc. WWW10， Hong Kong.

[7] H.T. Dang, D. Kelly, J. Lin, Overview of the TREC 2007 Question Answering Track, Proceeding of TREC 2007

[8] http://ntcir.nii.ac.jp/

[9] http://www.clef-initiative.eu/

[10] Anselmo Peñas, Eduard H. Hovy, Pamela Forner, et. al., QA4MRE 2011-2013: Overview of Question Answering for Machine Reading Evaluation. CLEF 2013: 303-320

[11] David A. Ferrucci, Anthony Levas, Sugato Bagchi, David Gondek, Erik T. Mueller: Watson: Beyond Jeopardy! Artif. Intell. 199: 93-105 (2013)

[12] http://allenai.org/index.html

[13] http://21robot.org/

[14] http://21robot.org/research_activities/math/

[15] http://research.nii.ac.jp/qalab/

[16] http://network.chinabyte.com/12/13482012.shtml

来源：

当前文章：Search » 如何评价智能问答系统？