狠狠撸

腾讯广点通

大数据之上的实时精准推荐
腾讯
数据平台部
精准推荐中心
薛伟
2013.12

目录
?
?
?
?

介绍
数据
算法
系统

广点通介绍(e.)
? 广点通是基于腾讯大社交平
台的效果广告营销产物，在
腾讯大社交平台的海量用户
积累的基础上，运用大数据
技术，进行以人为核心的数
据挖掘，实现精准的广告推
荐。
? 腾讯精准推荐平台是广点通
背后的支撑系统之一
– 数据海量
– 系统实时
– 算法精准

数据的基本特点
? 典型的大数据
– 大量(Volume): 腾讯QQ月活跃用户超过8亿,在线人际关系链超
1000亿；Qzone空间月活跃用户数超6亿
– 高速(Velocity): Qzone空间日均相册上传超过4亿，日写操作总数
过10亿
– 多样(Varity): 数据种类多（日志、视频、图片、LBS信息等），非
标准化数据比例高
– 价值(Value):价值密度低，商业价值高

从推荐的视角看数据
交叉效应: 用户-物品, 用户-推荐位, 物品-推荐位,
用户-物品－推荐位的相似度

物品
自身属性：
素材特征、文本Tag
类别、价格、成交量
定向规则、投放预算
生命周期等
派生属性：
归属的行业分类等

用户

推荐引擎

基础数据：年龄、地域、性别
内容： UGC内容：博客、微博内容等
行为：浏览 /收藏/ 喜欢/ 消费/分享等
场景：时间、地点
关系链：好友/朊友/微博关系链

推荐上下文

推荐上下文

属性：
推荐位：首页，IM，详情页…
对应页面内容，页面位置排序…
时间、地点、环境变量等…

用户数据

用户画像
基础属性

兴趣爱好

用户TAG

用户状态

年龄

游戏

iPhone

新婚

性别

APP

Nike

育儿

地域

电商

DNF

学历

汽车

BMW

付费人群
…

职业

600余类目
…

百万TAG
…

…

? 基于社会关系的基础属性校准；基于tag统一化和语义分类的兴趣计
算；定向人群挖掘体系；…

用户数据

QQID用户画像

移动设备用户画像

离线

实时

离线

实时

用户Tag
用户长期兴趣
用户基础属性
…

用户实时Tag
用户实时兴趣
…

LBS定位数据
移动app行为
用户长期兴趣
…

LBS实时定位数据
移动app实时行为
用户实时兴趣
…

用户画像的移动化和实时化

物品(广告)数据
? 广告主提供的特征：
– 类目，文字描述，价格，
定向规则等

? 爬取和计算的特征
– 广告素材图片基本特征
（亮度，饱和度，色彩度，
对比度，尖锐度等）
– 图像相似度
– 订单类目预测
– DNN发现深度特征

? 广告特征的实时化

亮度标准差=3

亮度标准差=8

亮度标准差=16

对于同一人群，相似图片CTR接近

上下文数据
?
?
?
?
?

推荐位置变量：PC页面、PC客户端、无线侧
环境变量：雾霾、下雨、紫外线
时间变量：早中晚、周末、假日
空间变量：LBS数据
其他变量：实时行为、状态 …

算法-概述
? 推荐本质上是一种个性化排序
Ranking＝ scoring+sorting+filtering
? 特定场景如广点通，排序准确＋预测值精准
AD Ranking = scoring+PCTR+filtering
ECPM=CTR*CPC

? 指导思想：针对丌同的推荐场景，采用丌同的数据和丌同
的算法策略

算法-谱系
? 用户实时行为

规则算法

– 关联，重定向

(重定向，关联规则，热度，…)

? 老用户－老广告
– 经典模型效果好

基于内容的算法
协同过滤算法

(基于邻域，各种矩阵分解，…)

图算法

(最近邻，各类图挖掘，…)

分类算法

(LR，RDT，GBDT，NN，…)

? 老用户－新广告
混合算法

– 借助广告相关的标签，文
本，类目，以及提取的广
告特征等

? 新用户－老广告
– 借助用户分群，转移学习
等

? 新用户－新广告
– 寻找相关信息量

大数据对算法的挑战
? 挑战－精准投放
–
–
–
–
–
–

1‰
用户－广告的评价/行为矩阵过于稀疏，密度千分位，甚至更低
1-3
用户看到广告的曝光机会仅有1-3次/天
3-9
大部分广告的生命周期仅有3-9天左右
50
单次推荐请求控制时间50ms以内
10,000 + 通常单个推荐位可投广告在10万级别以上
10 bn+
日均推荐请求量可达100亿次+

? 应对
– 高性能的学习算法：分布式幵行的LR，邻域CF，MF等算法
– 场景定制化的用户画像和广告特征提取

算法示例 – Logistic Regression
? 算法模型

? P ?
logit P= ln ?
? ? [??, ??]
? 1? P ?

logit P ? f ( x1 , x2 , ???xk )

logit P=b0 ? b1 x1 ? b2 x2 ? ??? ? bk xk

算法示例 – Logistic Regression
? 特征构成
用户

＋

用户基本属性，行为属性、
兴趣标签..

广告
Tag、图像特征、
类目、行业..

＋

推荐位
位置特征信息...

? 模型训练
– Spark上的分布式幵行的高维LR算法
– 支持高维特征+大训练数据集
– 15分钟增量更新线上模型

＋

其他
＝是否点击
上下文
LBS,时间，
节假日，天气...

1,0

大数据对系统的挑战
?
?
?
?
?
?
?
?
?

高效率
高吞吐率
低延迟
弹性
灵活性
容错/容灾
朋务质量保证
低运维成本
……

系统-腾讯分布式数据仓库(TDW)
IDE
集成开发

任务统一调度

查询引擎

TDBANK

数
据
采
集

计算引擎

Lhotse

Hive&Pig

MapReduce
HADOOP

存储引擎

HDFS

?基于开源hadoop，hive等进行了大量优化和改造
?单集群4400台，存储容量100PB
?下一代TDW集成YARN,支持多种幵行计算框架(MapReduce，
Spark等)，同时提供更高效的存储结构

系统-腾讯实时计算平台(TRC)
?

TDBank
广告投放系统

– 日接入消息1000+亿
– 平均采集延迟1-2秒

?

TDProcess
– 日计算量10000+亿
– 秒级延迟

?

TDE
– 日读写4000+亿
– 存储量3T
– 毫秒级延迟

?

实时推荐引擎
–
–
–
–

日请求100+亿
日推荐10000+亿
推荐延迟50ms以内
模型推送延迟分钟级

TDBank
数据采集

TDProcess
流式计算

实时推荐
实时查询
引擎

TDEngine
分布式存储引擎
分布式计算平台
算法模型+用户画像

实时系统助力精准推荐
? 原始数据实时化
– 用户画像数据实时接入和计算
– 广告信息的实时接入和计算
– 上下文信息的实时采集和计算

? 训练数据流式生成
– 点击/曝光数据实时接入，流式关联特征数据，生成训练数据

? 流式模型更新
– 直接用流式生成的训练数据来增量更新模型

? 实时推荐
– 实时访问实时更新的用户，广告，上下文数据
– 实时完成推荐的计算

薛伟：腾讯广点通——大数据之上的实时精准推荐

狠狠撸

薛伟：腾讯广点通——大数据之上的实时精准推荐

Recommended

More Related Content

What's hot (20)

Similar to 薛伟：腾讯广点通——大数据之上的实时精准推荐 (20)

More from hdhappy001 (20)

薛伟：腾讯广点通——大数据之上的实时精准推荐

狠狠撸

薛伟：腾讯广点通——大数据之上的实时精准推荐

Recommended

More Related Content

What's hot (20)

Similar to 薛伟：腾讯广点通——大数据之上的实时精准推荐 (20)

More from hdhappy001 (20)

薛伟：腾讯广点通——大数据之上的实时精准推荐

薛伟：腾讯广点通——大数据之上的实时精准推荐

Similar to 薛伟：腾讯广点通——大数据之上的实时精准推荐 (20)

薛伟：腾讯广点通——大数据之上的实时精准推荐