靠这个“谱”能让机器人大脑运转起来( 二 ) _孙乐

孙乐的演示课件中，有一张生动的图画，一大摞文件纸吃进去，电脑马上转化为“知识”，但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道：对提交至知识图谱的数据转换为遵循Schema的实体对象，并进行统一的数据清洗、对齐、融合、关联等知识计算，完成图谱的构建。 “但是大家发现，基于维基百科，结构化半结构化数据挖掘出来的知识图谱还是不够，因此目前所有的工作都集中在研究如何从海量文本中抽取知识。 ”孙乐说，例如谷歌的Knowledge Vault，以及美国国家标准与技术研究院主办的TAC-KBP评测，也都在推进从文本中抽取知识的技术。
在权威的“知识库自动构建国际评测”中，从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中，中科院软件所—搜狗联合团队获得综合性能指标第3名，事件抽取单项指标第1名的好成绩。
“我国在这一领域可以和国际水平比肩。 ”孙乐介绍，中科院软件所提出了基于Co-Bootstrapping的实体获取算法，基于多源知识监督的关系抽取算法等，大幅度降低了文本知识抽取工具构建模型的成本，并提升了性能。
终极目标：将人类知识全部结构化
《圣经·旧约》记载，人类联合起来兴建希望能通往天堂的高塔——“巴别塔”，而今，创造AI的人类正在建造这样一座“巴别塔”，帮助人工智能企及人类智能。
自动的做法让知识量开始形成规模，达到了能够支持实际应用的量级。 “但是这种转化，还远远未达到人类的知识水平。 ”孙乐说，何况人类的知识一直在增加、更新，一直在动态变化，理解也应该与时俱进地体现在机器“脑”中。
“因此知识图谱不会是一个静止的状态，而是要形成一个循环，这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning（学无止境）的概念。 ”孙乐说。
资料显示，目前谷歌知识图谱中记载了超过35亿事实；Freebase中记载了4000多万实体，上万个属性关系， 24亿多个事实；百度百科记录词条数1000万个，百度搜索中应用了联想搜索功能。
“在医学领域、人物关系等特定领域，也有专门的知识图谱。 ”孙乐介绍， Kinships描述人物之间的亲属关系， 104个实体， 26种关系， 10800个事实；UMLS在医学领域描述了医学概念之间的联系， 135个实体， 49种关系， 6800个事实。
“这是一幅充满美好前景的宏伟蓝图。 ”孙乐说，知识图谱的最终目标是将人类的知识全部形式化、结构化，并用于构建基于知识的自然语言理解系统。
尽管令业内满意的“真正理解语言的系统”还远未出现，目前的“巴别塔”还只是在基础层面，但相关的应用已经显示出广阔的前景。例如，在百度百科输入“冷冻电镜”，右竖条的关联将出现“施一公”，输入“撒币”，将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。
“知识图谱的应用涉及到众多行业，尤其是知识密集型行业，目前关注度比较高的领域：医疗、金融、法律、电商、智能家电等。 ”孙乐介绍，基于信息、知识和智能形成的闭环，从信息中获取知识，基于知识开发智能应用，智能应用产生新的信息，从新的信息中再获取新的知识，不断迭代，就可以不断产生更加丰富的知识图谱，更加智能的应用。

靠这个“谱”能让机器人大脑运转起来( 二 )

推荐阅读

运城美林湾是大暖吗

绵阳失业保险稳岗返还的申领条件是什么？

戈普的80级天赋是哪个航海王燃烧意志2.1每日一题答案

如何瘦腿瘦腿的方法有哪些

百度竞价选词有什么技巧

p是什么元素

鱼油跟鱼肝油有什么区别

承重墙应该怎么分辨

好听的布偶猫高端名字适合布偶猫的名字

比熊300一只正常吗

班级文化由哪些方面构成,.班级文化的构成因素是什么

我来教你mate30pro 5G版变焦是多少倍

业主不收房对开发商有什么影响

九宫格火锅有什么讲究,楠火锅九宫格有什么菜

苹果录屏功能在哪苹果手机怎么录屏

我的火焰龟为什么不喜欢吃虾干,您的漫画宝藏库