靠这个“谱”能让机器人大脑运转起来( 二 )


孙乐的演示课件中, 有一张生动的图画, 一大摞文件纸吃进去, 电脑马上转化为“知识”, 但事实远没有那么简单 。 自动抽取结构化数据在不同行业还没有统一的方案 。 在“百度知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象, 并进行统一的数据清洗、对齐、融合、关联等知识计算, 完成图谱的构建 。 “但是大家发现, 基于维基百科, 结构化半结构化数据挖掘出来的知识图谱还是不够, 因此目前所有的工作都集中在研究如何从海量文本中抽取知识 。 ”孙乐说, 例如谷歌的Knowledge Vault, 以及美国国家标准与技术研究院主办的TAC-KBP评测, 也都在推进从文本中抽取知识的技术 。
在权威的“知识库自动构建国际评测”中, 从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分 。 在美国NIST组织的TAC-KBP中文评测中, 中科院软件所—搜狗联合团队获得综合性能指标第3名, 事件抽取单项指标第1名的好成绩 。
“我国在这一领域可以和国际水平比肩 。 ”孙乐介绍, 中科院软件所提出了基于Co-Bootstrapping的实体获取算法, 基于多源知识监督的关系抽取算法等, 大幅度降低了文本知识抽取工具构建模型的成本, 并提升了性能 。
终极目标:将人类知识全部结构化
《圣经·旧约》记载, 人类联合起来兴建希望能通往天堂的高塔——“巴别塔”, 而今, 创造AI的人类正在建造这样一座“巴别塔”, 帮助人工智能企及人类智能 。
自动的做法让知识量开始形成规模, 达到了能够支持实际应用的量级 。 “但是这种转化, 还远远未达到人类的知识水平 。 ”孙乐说, 何况人类的知识一直在增加、更新, 一直在动态变化, 理解也应该与时俱进地体现在机器“脑”中 。
“因此知识图谱不会是一个静止的状态, 而是要形成一个循环, 这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念 。 ”孙乐说 。
资料显示, 目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体, 上万个属性关系, 24亿多个事实;百度百科记录词条数1000万个, 百度搜索中应用了联想搜索功能 。
“在医学领域、人物关系等特定领域, 也有专门的知识图谱 。 ”孙乐介绍, Kinships描述人物之间的亲属关系, 104个实体, 26种关系, 10800个事实;UMLS在医学领域描述了医学概念之间的联系, 135个实体, 49种关系, 6800个事实 。
“这是一幅充满美好前景的宏伟蓝图 。 ”孙乐说, 知识图谱的最终目标是将人类的知识全部形式化、结构化, 并用于构建基于知识的自然语言理解系统 。
尽管令业内满意的“真正理解语言的系统”还远未出现, 目前的“巴别塔”还只是在基础层面, 但相关的应用已经显示出广阔的前景 。 例如, 在百度百科输入“冷冻电镜”, 右竖条的关联将出现“施一公”, 输入“撒币”, 将直接在搜索项中出现“王思聪”等相关项 。 其中蕴含着机器对人类意图的理解 。
“知识图谱的应用涉及到众多行业, 尤其是知识密集型行业, 目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等 。 ”孙乐介绍, 基于信息、知识和智能形成的闭环, 从信息中获取知识, 基于知识开发智能应用, 智能应用产生新的信息, 从新的信息中再获取新的知识, 不断迭代, 就可以不断产生更加丰富的知识图谱, 更加智能的应用 。

推荐阅读