business,optimizing( 二 )


我们可以看作是基于用户的行为 , 对内容做出的后验投票 。在一个大体量的视频上传体系里 , 我们基本放弃了依赖人工打标签的方式 , 而转而利用用户的播放行为来试图猜测内容属于哪一类 。一个典型的Case:死神来了 。看标题的文本信息 , 最大概率就是一部电影 , 但事实上观看这个视频的大面积是喜欢猎奇类视频的用户 , 深挖内容才会知道 , 这其实是一个车祸视频集锦 。
二、协同过滤 , 应用群体智慧如前所述 , 标签是我们对事物的抽象理解 , 那有没有一种方式能够让我们放弃标签呢?以人的行为来标记内容 , 这就是协同过滤的基础思想 。举一个生活中的场景:初次为人父母 , “无证上岗”的新手爸妈们内心是激动而又惶恐的 。打听 , 成了他们育儿的重要法宝之一 。“你家宝宝用的是什么沐浴液啊、你们有没有上什么早教班啊…”亲子群中 , 无时无刻不在发生这样的讨论 , 这样的讨论也构成大家后续消费决策的主要因素之一 。
这种基于人和人之间的相互推荐固然是弱社交关系分发的一种形态 , 但是促成大家有价值信息交换和购买转化的 , 其实是人和人之间的相似点:为人父母、拥有相似的价值观和消费观 。把用户的消费行为作为特征 , 以此进行用户相似性或物品相似性的计算 , 进行信息的匹配 , 这就是协同过滤(Collaborative Filtering)的基础思想 。
协同推荐可以分为三个子类:基于物品(Item-based)的协同基于用户(User-based )的协同基于模型(Model-based)的协同1.基于用户的协同即切合了上面的例子 , 其基础思路分为两步:找到那些与你在某一方面口味相似的人群(比如你们都是新手爸妈 , 倾向于同一种教育理念) , 将这一人群喜欢的新东西推荐给你 。
2.基于物品的协同其推荐的基础思路是:先确定你喜欢物品 , 再找到与之相似的物品推荐给你 。只是物品与物品间的相似度不是从内容属性的角度衡量的 , 而是从用户反馈的角度来衡量的 。使用大规模人群的喜好进行内容的推荐 , 这就是在实际工程环境里 , 各家公司应用的主流分发方式 。3.基于模型的协同是应用用户的喜好信息来训练算法模型 , 实时预测用户可能的点击率 。
比如 , 在Netflix的系统中就将受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)神经网络应用于协同过滤 。将深度学习应用于基于模型的协同 , 也成为了业界广泛使用的方式 。以协同的方式 , 通过用户行为的聚类发现许多隐层的连接 。以读书会的场景为例 , 我们邀请不同的名家来领读书籍 。
从领读人的角度 , 更容易直观的将同一领读人的作品视作一个聚类 , 比如马家辉老师领读的《对照记》、《老人与海》两本书 , 通过人工预判的前置规则 , 我们很容易将这两本领读书音频推荐给同一类用户 。但是 , 通过协同的方式 , 我们会发现喜欢马家辉老师领读作品的用户 , 同时也会喜欢杨照老师领读的《刺杀骑士团长》一书 。这种联系 , 是很难通过标签信息发现的 , 只有通过用户的行为选择 , 才会建立联系 , 提升内容和用户之间连接与匹配的效率 。
三、从冷到热:内容和用户在分发中的生命周期作为连接内容与人的推荐系统 , 无时无刻不在面对着增量的问题:增量的用户 , 增量的内容 。新的用户、新的内容对于推荐系统来说都是没有过往信息量积累的、是陌生的 , 需要累积一定的曝光量和互动量(阅读、分享等)来收集基础数据 。这个从0到1积累基础数据的过程就是冷启动 , 其效果的好坏直接关系到用户端、作者端的满意度和留存率 。

推荐阅读