business,optimizing

内容算法时代 , 如何引爆用户流量?

business,optimizing


对于算法分发很多人会有所误解 , 这或许源自远观而缺乏了解 , 才会觉得算法猛如虎 。而当你走近了算法分发 , 有了一定的了解之后 , 可能会有重新的认知:算法如虎 , 细嗅蔷薇 。一、算法分发知多少?尽管算法分发中应用了各种高深的算法 , 但其基础原理却是朴素的:更好地了解待推荐的内容 , 更好地了解要推荐给的人 , 才能更高效的完成内容与人之间的对接 。
从这个角度来看:断物识人 , 是一切推荐行为的起点 。对于断物识人 , 我们可以将它理解为打标签的过程 。标签是对高维事物的降维理解 , 抽象出了事物更具有表意性、更为显著的特点 。在不同的业务场景下 , 我们会选择不同的标签进行使用 , 来对内容和用户进行标注 。在内容画像层面 , 以音乐为例 , 最典型的有两种标签产出的方式:专家系统:潘多拉(Pandora)的音乐基因工程(Music Genome Project) 。
在这项工程中 , 歌曲体系被抽离出450个标签 , 细化到如主唱性别、电吉他失真程度、背景和声类型等等 。每一首歌曲都会被经由工作人员耗时30分钟左右 , 有选择性标注一些标签 , 并以从0到5的分值代表这一标签的表征程度 。UGC产出:在豆瓣 , 给音乐打标签的活则从专家产出 , 转为了普通网友贡献 。群体的力量为豆瓣积累了大量具有语义表意性的标签 。
当然 , 由于用户的多样性和编辑的开放性 , 用户标签系统需要经过特定的清洗和归一化才能投入使用 。在用户画像层面 , 可以分为静态和动态两部分 。用户画像中静态的部分比较好理解 , 即你的设备信息、地理位置、注册信息等等 , 这些可以被理解为是业务无关的信息 。具体到业务场景中 , 用户产生了更多的行为 , 就生成了业务相关的动态信息 , 即利用人的各种显式和隐式行为来对用户的偏好性进行的猜测 。
以知乎读书会为例 , 你的显式行为是点击、收听、评分、评论等等;隐形行为则是收听完成度、是否有拖拽快进、页面停留时长等等 。通常 , 由于显式行为不够丰富 , 我们往往需要使用隐式行为来扩充我们对于用户的理解 。完播率、是否快进、详情页停留时长等指标 , 都会被系统统计 , 用来判断你是否真的喜欢某个人的讲解、喜欢某本书的内容 。
在内容画像的部分 , 可以看到一篇文章通过文本分析进行了一级和二级分类 , 并抽取出文章内的关键字、实体词 , 进一步的还会通过聚类的方式 , 将这篇文章与其相似的内容聚成一个簇类 。之所以会有聚类 , 是因为专家系统的分类体系一定是对于变化不敏感的 , 响应不及时的 , 而聚类能够挖掘出更多内容的隐含信息 。在用户画像的部分:(摘录自今日头条推荐算法原理全文详解——曹欢欢博士)内容画像和用户画像 , 是一个相互影响的循环系统 。
内容画像决定人的画像 , 自然是最容易理解的 。在音乐场景下 , 你收听、收藏、评分了很多爵士类的音乐 , 那么系统就会判定为你是一个喜欢爵士音乐的用户 。在读书的场景下 , 你阅读、收听了哪些书籍 , 哪些书籍听完了、哪些书籍重复收听了很多遍 , 都会影响系统中 , 你的用户画像 。因此 , “你的选择决定你的画像”可以说丝毫不为过 。而反过来 , 人的画像也会影响内容的画像 。

推荐阅读