揭秘IBM AI辩手:AlphaGo之后新的里程碑?( 二 )


2
演讲、听力理解、模拟困境
Debater首席研究员Noam Slonim博士在采访中回顾了辩论过程 。
拿到辩题后 , Debater首先会分析单个辩论问题 , 然后扫描庞大的语料库文档 , 通过算法找出与辩题相关性最高的观点性内容 , 同时通过算法减少重复信息 。 在此基础上 , Debater会挑选出最有说服力、最具多样性和支持最完善的论点 , 并对这些论点进行编排 , 从而形成一段完整且有说服力的叙述 。
也就是说 , 辩论虽然是实时辩论 , 但是机器辩手和人类辩手在拿到选题后都会有30分钟的准备时间 。 30分钟之内 , Debater会通过自己的算法 , 在自己的语料库中去进行搜索 , 形成有利于自己方面论点的论证 。
既然辩论过程是完全即兴 , Project Debater如何应对完全即兴、无法预期的情况?Noam表示 , 这要靠知识图谱去模拟人类的困境 , 形成辩驳的能力 。 比如说涉及到是否要禁止器官的贩运、器官贸易 , 是否要禁止酒精的贸易 。 类似于这种类型的辩题 , 我们可以自然而然期待如果禁止了器官交易、酒精交易 , 有一种风险是会有黑市的蓬勃发展 。 理论上来讲 , Project Debater的系统可以理解与这种类型相关的一些辩论 , 但凡是针对这种类型的观点进行辩论 , 后续就会有可能出现与黑市相关的问题 , 于是可以在模拟好中的图谱等待着与黑市相关话题的出现 。 但辩论并不总是这样 , 比如美国最近讨论比较多的是否要禁止在公共场合母乳喂养 , 但这跟黑市一点都没有关系 , 所以我们依然是在这个方面不断地去建模、扩大语料库 , 包括人类丰富的语言中各种细微和微妙的地方 。 “这样Project Debater在已经建模的知识图谱中 , 才能够更加精准地为自己导航 , 找到与支持自己论点相关的观点 。 ”Noam说到 。
那么 , Debater的论点是怎么形成的?Noam表示 , 对于给定的主题 , Project Debater的系统会在巨大的知识库内进行搜索 , 寻找最相关的观点和证据 , 然后在其中选择最吸引人、最多样化、支持度最高的论点 , 然后把这些构建成一个完整的观点加以叙述 。 与关键词搜索不同 , Debater能对话题即时产生更深理解 , 并基于它的搜索结果等构建自己的观点 。
强大的语料库是Debater展开辩论的基础 。 据悉 , 训练Debater的语料库拥有3亿多个可靠信息来源 , 包含2011年以来全球商业、法律、学术和政府机构等领域的专业人士所使用的主流报纸和杂志中的文章 , 以及维基百科中的内容 。
IBM研究院团队为Debater的系统赋予了三大核心能力:
第一 , 驱动的演讲稿撰写与表达 。 Debater第一次证实了 , 计算机能够理解大量语料库 , 若给定一个有争议的主题的简短描述 , 它能够撰写结构良好的演讲内容 , 并清晰且有针对性地表达出来 , 甚至还会适时地展现幽默风趣 。
第二 , 实时听力理解 。 当对方辩手开始讲的时候 , Project Debater要能听长达4分钟的内容 , 对方人类辩手在讲的过程中语速可能是快的 , 情感可能是充满激情的 , 同时还会有一些道德性、伦理性的问题 , Project Debater要能够识别人类辩手口述的长篇大论中隐含的重要概念及观点主张 , 能够识别长段连续口语中隐含的重要概念观点 。
第三 , 模拟人类困境 。 通过独特的知识表达方式来模拟人类争议和困境 , 使系统能够根据需要提出有原则的论点 。 研发团队总结了人类专家辩手的一些共同性 , 对他进行模拟、建模 , 并且把这个注入到系统中去 , 就形成了一个知识图谱给到Project Debater来用 。 所以一旦开始去进行辩论的时候 , Project Debater就可以在已经形成的图谱中去做自己的向导和索引 , 找到可以支撑他的证据 。

推荐阅读