基于用户画像进行人群定向是一种广泛的业务场景,在广告、增长等领域有普遍的应用 。如何能够高效分析、规则筛选,特别是在超大规模的互联网业务场景,是一个有挑战性的技术问题 。在这个分享里面,我们会介绍一种基于Doris来实现海量用户tag下分析与圈选的高性能实现 。
讲座分为三部分内容:
用户画像群体服务的业务场景
技术问题、思路与相关业界方案实现情况
基于Doris的技术实现
1 用户画像群体服务的业务场景
1.1 画像业务分析场景
百度的用户画像是面向百度全产品线的基础数据和服务平台 。
我们会为包括百度凤巢、搜索、Feed等百度各条产品线提供服务,每天有着千亿级的离/在线的数据调用规模 。
随着业务的发展,我们逐步形成了用户理解全流程的数据和服务,覆盖从多元数据的采集、大规模的数据挖掘、高性能的数据服务以及面向业务场景的解决方案 。
在我们的工作中,用户群体分析和人群圈选是比较常见的需求,包括群体分析、业务报表、Geo检索、圈选等具体的场景 。由于整个数据的规模比较大,同时业务对于时效性的要求比较高,在不少的业务中我们采用基于Doris的方法来支持和实现 。群体分析大家可能会比较熟悉,也就是对一个给定人群做人群报告和多维分析 。业务报表也是常见的OLAP场景,对很多业务数据进行统计计算,Doris的基础能力能够很好的满足这些业务场景 。
Geo检索大家可能不是那么熟悉,Doris在2019年前后集成了Google Geo的索引,使得对于基于地理位置的数据能够快速地进行查询、聚合操作 。在一部分对于区域位置相关检索的领域,Doris能够发挥它分布式的优势,达到不错的应用效果 。
我们自己的应用测试是通过构建覆盖全北京的400万细粒度多层网格数据,去完成一个具体的随机的 0.1km2 以上的区域的群体计算 。Doris处理 1 平方公里区域的群体数据的耗时在1.5秒左右,这对于很多的区域报表,像城市大屏、城市综治管理等场景,它是有非常大的应用空间的 。
1.2 超大数据规模下的标签索引问题
基于用户标签的索引,是各大互联网公司应用最广泛的业务,也是我们今天重点讨论的一个场景 。
无论是基础数据团队还是业务团队都会通过标签 tag 的挖掘来更好表达对用户的理解 。我们画像团队系统地构建了用户标签体系,但我们的数据规模相对来说更大一些 。
这里有几个原因:一个是整个产品线覆盖和流量规模,此外还有一些特殊情况,比如我们的 id 规模远大于自然人的 id 规模,是一个数百亿级别的数据 。
另外一个方面,我们从数据挖掘的层面建立了一个比较强、比较全面的画像标签体系,它的整个规模会比较大,人均的标签覆盖比较广 。它的好处是可以灵活支撑应用,但是问题是在应用过程中会产生一些规模上的问题 。
基于这些标签,可以条件筛选的去构建人群,进而在用户推荐、广告定向、消息推送、用户增长等领域应用 。
一般来说这种业务有两个特点,一个是客户对标签的选择范围非常广,条件组合很复杂,业务灵活度非常高;另一个是对计算效率,特别是对于人群圈选的数量,人群分析计算的时效要求非常高 。计算越快,使用越灵活,越能够帮助客户找到他的目标人群 。
2 技术问题、思路
2.1 早期基于离线计算的方法
早期我们采用的是基于离线的计算方法,也就是用MapReduce来解决问题 。这个方法的问题非常显而易见,灵活性差、计算成本非常高、时效是业务团队几乎不能忍受的,早期基本上是天级,最少也是小时级才能产出结果 。
推荐阅读
- 敬业是什么意思 敬业是什么意思
- yes or no是什么意思
- 套路是什么意思网络用语 套路是什么意思
- 日志是什么意思啊 日志是什么意思
- 信用卡余额是什么意思啊 信用卡余额是什么意思
- sin是什么意思啊 sin是什么意思
- 拓客是什么意思网络用语 拓客是什么意思
- 移动中间号服务是什么意思
- 国产变频空调哪个牌子好
- 腾讯pcg是什么意思