识谣言、辨假货 人工智能已活跃在打假一线


识谣言、辨假货 人工智能已活跃在打假一线



“当真相在穿鞋的时候 , 谎言已经跑遍全城 。 ”现代社会 , 虚假新闻、图片、视频 , 甚至商品等借助网络渠道迅速传播 。 近日公布的《中老年人上网状况及风险网络调查报告》显示 , 近六成中老年曾遭受过网络谣言的危害 。
人们常说“流言止于智者” , 要想不被网上的流言和谣言盅惑、伤害 , 首先需要对其进行科学甄别 , 而时下人工智能正在尝试担任这一角色 。 那么 , 在打假一线AI技术如何做到去伪存真?这样的“本领”可应用在哪些领域?
海量资讯发布 , 传统识谣模式受限
“虚假信息的产生主要有两类动机:一类是利益驱动 , 2018年发表于《科学》的研究发现 , 要达到相同的传播深度 , 虚假信息的速度是正常信息的20倍;另一类是政治驱动 , 在现有互联网经济中 , 高效传播代表着高额经济价值 , 人工智能技术会被不法分子用来左右公众对于政治的认知和判断 , 从而控制舆论 , 威胁政治安全 。 研究显示 , 2016年美国总统大选期间 , 受访选民平均每人每天接触到4篇虚假新闻 。 虚假新闻被认为影响了2016年美国大选和英国脱欧的投票结果 。 ”中科院计算所副研究员、博士生导师曹娟在日前北京举办的Women Who Code讲座上介绍 。
为了减少虚假信息 , 有必要对网络新闻进行认证 。 但大型资讯聚合类平台每天的新闻发布量一般在50万条以上 , 显然完全依靠人工认证是不现实的 , 面向公众 , 亟待建立高效的AI识谣平台 。
杜克大学新闻研究中心的调查显示:截至2018年2月 , 全球共有149个正在活跃运营的事实核查类新闻创业项目 , 其中北美和欧洲74个、亚洲7个 。 而在一些国外社交平台上 , 已有自动化可信度评估插件来显示信息的可信度 。
据了解 , 目前国内已有的主要识谣、辟谣平台基本还是依靠专家识别模式 , 其存在一定的问题:发现线索主要依赖用户举报 , 数量有限 , 时效性不强 , 往往是事件已造成负面影响才“后知后觉”;此外 , 新闻认证速度有待提高 。 Facebook统计 , 依靠专家辟谣的认证模式平均滞后3天 , 错失辟谣最佳时期;覆盖类别受限 , 专家只能在自身擅长的领域辟谣 , 领域专家库的多样性决定了人工辟谣平台的能力上限 。
为提高识谣效率 , 目前中科院计算机研究所、阿里、腾讯等多家企业和机构已经开展了人工智能识谣工作 。 曹娟带领团队从2013年开始致力于开展基于人工智能技术的虚假信息检测研究 , 她介绍 , AI识谣公众平台可自动及时发现可疑线索并进行认证 , 大大降低谣言可能带来的危害;通过机器学习算法辅助人工审核 , 仅需1分钟即能对疑似谣言事件发出预警;基于数据驱动的方法 , 平台还可不断挖掘出不同类别谣言的特性 , 实现对各种谣言地自动识别 。
不过 , 需要指出的是 , “虚假信息识别是一个高度复杂的问题 , 一方面是虚假的定义并不明确 , 需要不确定性建模;另一方面是标注很困难 , 需要小样本学习方法 。 目前 , 机器学习算法的准确率尚不足以完全取代人类 , 但已能够辅助人类更快更好地审核新闻 。 ”曹娟表示 。 正如扎克伯格所说 , “想要完全依靠AI审核内容 , 可能尚需5—10年时间” 。
多模态、多层次、多角度揪出假新闻
“虚假新闻往往从选题、文字表述 , 到配图都呈现出较强煽动性:一般选题集中于社会热点或争议点;文字描述中情感激烈;配图具有视觉冲击力等 。 ”曹娟剖析道 。
曹娟介绍 , 目前 , 中科院计算所开发的辟谣平台已积累数万条假新闻信息 , 累计认证数十万次 。 通过平台积累的数据 , 目前可从新闻质量的角度把杜撰的新闻文本大致分为三类:一完全杜撰 , 往往是在真实存在的实体上编造情节;二半真半假 , 可能描述的前半段是真 , 后半段就展开不可靠的想像 , 或者一部分是真 , 但在关键情节上添油加醋;三旧闻新传、移花接木 , 事件本身可能存在 , 但发布者故意模糊化甚至篡改原事件中的时间、地点 , 让人误以为事情刚刚发生在当地被 。

推荐阅读