知乎李大海:如何用AI技术打造智能社区( 二 )


我们要解决的问题都是自然语言领域处理的问题 , 也就是NLP的问题 。 其实AI在NLP领域是不如像图片等等这样一些领域的成果这么出色的 , 但是很幸运的是知乎积累了一个非常高质量的中文语料库 。 我们拥有大量的优质的提问跟回答的文本 。 同时用户的行为本身在我们这儿也是非常重要的数据 。 这个怎么理解呢?用户来知乎去生产和消费内容的时候 , 他们同时也在建设这个社区 , 他们的行为本身就是社区体系的一部分 。 举个例子 , 用户对一个回答的赞同或者反对 , 他们对任何内容的举报 , 他们对一个问题发起一个话题 , 或者对问题或者话题进行公共编辑 , 在某种程度上我们都可以把它认为是对相应文本语料进行标注 。 有了这样标注数据以后 , 我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示 , 从而能让我们对语言的理解能够达到一个更高的层次 。
另外这还是形成一个正向的闭环 。 因为我们的良好的社区氛围 , 所以我们的用户在知乎的行为大部分都是高质量的 。 有了这些高质量行为我们就会有高质量的标注数据 , 这就更有利于我们用AI算法维持或者提升我们的讨论氛围 。
另一方面 , 经过七年多的运营 , 知乎团队已经培养了非常丰富的社区管理的经验 。 我们已经认识到一个社区的规范 , 它不是制定出来的 , 它一定是平台和用户相互之间和摸索出来的 。 我们在这个过程中理解了不同用户不同诉求 , 然后能让我们规范去匹配复杂多变的各种场景 。 这样一些丰富的经验对于我们去把AI落地是非常有帮助的 。 因为它能够把氛围这个很虚无的大问题分解为很多小的目标明确的 , 可以解决的问题 , 降低这个问题的难度 。
给大家展示一些有伤害社区氛围的例子 , 这些例子都是比较不好 , 我就不念了 。 第一种是答非所问 。 所谓的答非所问就是没有答到点子里 , 离题万里的回答 。 这些回答往往是没有什么价值的信息 , 有些甚至只有情绪 。 所以读者看到这样不能获得有效的信息 , 是在浪费的他们的时间 。 第二 , 不有效的评论 。 大家看到这些有效评论后 , 自己换位思考一下 , 如果自己是一位作者花了半天辛辛苦苦写了一个回答 , 评论区都是这样调调的回答 , 你们是什么感受 。 不是作者也没关系 , 作为读者看到每一个精彩的答案下面的讨论区域都是这种乌烟瘴气的氛围 , 其实也不是一个良好的体验 。 还有一种是阴阳怪气 , 阴阳怪气不算什么 , 但是根据我们的经验它对于创作者的创作热情 , 还有创作体验的伤害更大 。 这个大家看看就可以了 。 当然损害社区氛围的例子不仅仅是这些 , 我提这些只是给大家一个之滚的感性的认识 。 经过两年多的工作 , 我们建设了一个算法机器人 , 叫瓦力 , 目前瓦力已经在线上能够快速适时去响应去处理像答非所问和不友善的内容 , 像歧视 , 恶意贴标签 , 辱骂等等低质内容 , 全力帮助我们知乎小管家团队去减少低质内容和无关内容对用户的干扰 。 给用户提供人文关怀 。 我们这个机器人最好的遵守率能做到99.13% 。 我们在这个工作有两个方向 , 第一 , 在不同的领域再进一步提高它的准确率和召回 , 第二 , 不断提高瓦力机器人的适用范围 。
瓦力机器人能力提升后面是离不开我们的用户的 。 举个例子 , 我们最近上线了一个理由反对的功能么测 , 这个功能有五万名用户参加了内测 。 所谓有理由反对就是用户点击反对的时候 , 同时选择一下反对的理由 。 用户每次选择都是瓦力去学习的一些新的机会 。 我们在内测期间通过用户选择和瓦力结合一共梳理了超过两万条答非所问的回答 。

推荐阅读