business,optimizing( 三 )


如果我们假设一篇新内容要经过100次阅读才能够得到相对可信的内容画像 , 新用户同样需要完成100次阅读之后才能够建立起可用的用户画像 。那么一个最直观的问题就是:怎么样达成这100次有效的阅读?这就是冷启动面临的问题 。下面我们从内容和用户两个维度来分别论述 。在推荐系统中 , 通过分析一篇内容的标题、关键字来确定要向哪个目标人群进行探索性展示 , 借由探索性展示完成了从0到1的用户反馈积累过程 。
在这个冷启动过程中 , 如果没能得到足够正面的用户反馈(点击行为和阅读体验) , 系统就会认为这篇内容是不受欢迎的 , 为了控制负面影响 , 就会逐步降低这篇内容的推荐量 。反之 , 如果内容在冷启动过程中顺利找到了自己的目标人群 , 收获了很高的点击率 , 就有可能被推荐系统快速放大 , 具有了成为爆款的可能 。因此 , 冷启动决定一篇内容命运的说法 , 可以说丝毫不为过 。
而对于用户冷启动 , 推荐服务的是一个大目标:用户的留存率 。只有保证了用户留存的前提下 , 才会考量推荐的兴趣探索效果如何 , 是否在有限的展示里全面探索出了用户的偏好 。对于慢热型的用户 , 我们并不急于获悉他的方方面面 , 而是以“留住用户”作为第一目的 。时下 , 最火热的莫过于快手、抖音类的PUGC视频应用了 。那么 , 这些短视频内容的推荐方式是什么样的呢?回归到丰富先验信息、依赖后验信息的角度来阐述整个通用的流程 。
一个短视频应用里面 , 大体上会有三类人:半职业或职业的生产者、工具的使用者、短视频的消费者 。从消费性的角度来看 , 大概率是第一类人生产 , 第三类人消费 。先验信息就是尽可能挖掘出第一类人生产内容的固有特征 , 比如作者是谁、配的音乐是什么、是否有参与活动话题等等 , 对于足够的头部生产者还可能会以运营介入的方式人工标注 , 去完善先验信息 。
客观上说 , 小视频的先验信息是远小于文本内容的 。从信息量的角度来看 , 我们将其类比微博类的短文本内容或者全图片内容可能会更合适 。先验信息的缺乏 , 就会更依赖协同算法支撑下 , 用户参与行为的后验信息的补充 。将一则小视频冷启动推荐给特定类别的用户来查看 , 从用户角度去统计不同特征、不同聚类用户的有效播放 , 从而以用户的行为去刻画小视频的特征 。
比如 , 时下很热的海草舞 , 不同的生产者都会上传类似主题的视频 , 哪个更好?在业务场景里 , 真正值得依赖的一定是普通用户观看行为的投票 , 才能选择出更值得扩散内容 , 优化全局的效率 。四、三分天下?编辑、算法与社交不夸张的说 , 算法分发将是未来信息分发行业的标准配置 。为什么这么说?因为算法是个筐 , 什么都能往里装 。在内容展现和推荐的过程当中 , 可以参考下述公式:算法分发权重=编辑分发权重社交分发权重各种算法产出权重将任意一个权重设置为1 , 其他部分设置为0 , 算法分发系统就会变成一个标准的编辑分发系统或者是社交分发系统 。
也就是说 , 算法分发的基线就是编辑分发或社交分发 。从这个角度来看 , 只要算法应用的不太差 , 基本上引入算法分发一定是正向 。因为它在有限的货架里 , 围绕用户展示了无限的货品 。在业务层面 , 我们通常会复合型使用三种分发 , 在不同的环节应用不同的因素 , 才达到最好的效果 。以知乎读书会为例 , 我们将其划分为:内容生产、用户触达和反馈改进三个部分 。

推荐阅读