靠这个“谱”能让机器人大脑运转起来


靠这个“谱”能让机器人大脑运转起来



视觉中国
如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨, 那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑 。
“目前, 还不能做到让机器理解人的语言 。 ”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说 。 无论是能逗你一乐的Siri, 还是会做诗的小冰, 亦或是会“悬丝诊脉”的沃森, 它们并不真正明白自己在做什么、为什么这么做 。
让机器学会思考, 要靠“谱” 。 这个“谱”被称为知识图谱, 意在将人类世界中产生的知识, 构建在机器世界中, 进而形成能够支撑类脑推理的知识库 。
【靠这个“谱”能让机器人大脑运转起来】为了在国内构建一个关于知识图谱的全新产学合作模式, 知识图谱研讨会日前召开, 来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系, 建立世界领先的人工智能基础设施的开拓性工作 。
技术原理:把文本转化成知识
“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符 。 而这串字符在人脑中却是‘活’起来的 。 ”孙乐举例说 。 比如说到“姚明”, 人会想到他是前美职篮球员、“小巨人”、中锋等, 而“上海”会让人想到东方明珠、繁华都市等含义 。 但对于机器来说, 仅仅说“姚明是上海人”, 它不能和人类一样明白其背后的含义 。 机器理解文本, 首先就需要了解背景知识 。
那如何将文本转化成知识呢?
“借助信息抽取技术, 人们可以从文本中抽取知识, 这也正是知识图谱构建的核心技术 。 ”孙乐说, 目前比较流行的是使用“三元组”的存储方式 。 三元组由两个点、一条边构成, 点代表实体或者概念, 边代表实体与概念之间的各种语义关系 。 一个点可以延伸出多个边, 构成很多关系 。 例如姚明这个点, 可以和上海构成出生地的关系, 可以和美职篮构成效力关系, 还可以和2.26米构成身高关系 。
“如果这些关系足够完善, 机器就具备了理解语言的基础 。 ”孙乐说 。 那么如何让机器拥有这样的“理解力”呢?
“上世纪六十年代, 人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中, 使用了实体间语义关系来表示问句和答案的语义, 剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识, 这些都可被看作是知识图谱的前身 。 ”孙乐说 。
随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作 。
“这里包括主观知识, 比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识, 比如在某个特定场景中应该怎么做;语言知识, 例如各种语言语法;常识知识, 例如水、猫、狗, 教人认的时候可以直接指着教, 却很难让计算机明白 。 ”孙乐解释, 从这些初步的分类中就能感受到知识的海量, 更别说那些高层次的科学知识了 。
构建方式:从手工劳动到自动抽取
“2010年之后, 维基百科开始尝试‘众包’的方式, 每个人都能够贡献知识 。 ”孙乐说, 这让知识图谱的积累速度大大增加, 后续百度百科、互动百科等也采取了类似的知识搜集方式, 发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加, 无数的知识从四面八方赶来, 迅速集聚, 只待“成塔” 。
面对如此大量的数据, 或者说“文本”, 知识图谱的构建工作自然不能再手工劳动, “让机器自动抽取结构化的知识, 自动生成‘三元组’ 。 ”孙乐说, 学术界和产业界开发出了不同的构架、体系, 能够自动或半自动地从文本中生成机器可识别的知识 。

推荐阅读