狠狠撸

狠狠撸Share a Scribd company logo
周黄玲
huangling.zhou@husor.com.cn
特卖场景下的大数据平台
和机器学习实践
About me
—? 2009 北京邮电大学
—? 2012 搜狗
—? 2014 天猫
—? now 贝贝网
母婴特卖特点
商品
周期短
需求
变化快
移动化
>80%
大纲
? 定位与架构
? 数据流程
大数据平台
? 推荐产物
? 技术方案
机器学习实践
大数据平台定位
数据化
运营
个性化
推荐
大数据平台架构
特征
模型
相似
专场
相似
商品
协同过滤、分类、聚类、关联规则、基于内容
Hadoop、Mahout、ElasticSearch、Storm、Hbase、Redis、 MySQL
个性化
排序
关联
推荐
个性化
推荐
消息
推送
算法层
搜索
引擎
运营规则
召回 排序
Sqoop、 Scribe、 Kafka
应用层
业务层
存储计算
数据收集
调
度
系
统
管理层报表层
商家
报表
营销
报表
运营
报表
技术
报表 监
控
系
统
数据处理流程
数据源
Log
Server
MySQL
增量同步
Kafka
离线计算
HDFS
实时计算
Storm
全量同步
sqoop
数据存储
Hbase
MySQL
Redisbinlog
分布式调度系统
调度
系统
任务
管理
依赖
管理
任务
监控
任务
日志
zookeeper
master master master
worker worker worker
大纲
? 定位与架构
? 数据流程
大数据平台
? 推荐产物
? 技术方案
机器学习实践
推荐产物
个性化排序
5 2 1
8 6 3
9 4 7
1 2 3
4 5 6
7 8 9
关联推荐 个性化推荐
全路径覆盖
流量导入
?个性化短信
?个性化APP推送
浏览
? 频道页:个性化专场列表
? 列表页:个性化商品列表
? 详情页:相似商品推荐
交易
? 购物车、订单:搭配商品推荐
? 风险控制
交易后
? 周期购买预测
? 客户流失预警
推荐的价值
推荐
用户
提升体验
商家
增加销售
平台
持续发展
用户画像
性别
年龄
宝宝
性别
宝宝
年龄
终端
偏好
时间
偏好
类目
偏好
活跃
度
品牌
偏好
地域
宝宝性别年龄预测
用户
特征:类目上的行为次数
宝宝
性别
宝宝
年龄
浏览次数 搜索次数 收藏次数 购买次数
u1 5 3 2 1 公主 0-?1岁
u2 2 0 1 0 王子 3-?6岁
机器学习模型
购物偏好
—? 启发式
—? 行为权重
—? 浏览、点击、收藏、
购物车、购买
—? 行为次数
—? 行为间隔
—? 指数衰减
—? 机器学习
—? 特征
—? 用户前一时间段内行为
—? 目标
—? 预估当前偏好程度
个性化专场排序
规则 机器学习
首页到列表
页转化率提
升6%
专场排序
个性化专场排序
训练集
排序请求 预估结果
uid bid Y
101 211 0
101 212 1
……
102 211 0
特征提取 模型训练
模型
X Y
[0,0.32,…,1.0] 0
[1,0.42,…,0.3] 1
……
[0.3,0.82,…,0] 0
uid bid
101 211
101 212
……
102 211
X
[0,0.32,…,1.0]
[1,0.42,…,0.3]
……
[0.3,0.82,…,0]
特征提取
uid bid P
101 211 0.17
101 212 0.22
……
102 211 0.13
离
线
在
线
个性化专场排序
属性特征
? seller
? brand
? category
? 价格
? 折扣
? 上新率
? ……
统计特征
? CTR
? CVR
? 销售额
? 客单价
? 退货率
? 评分
? ……
偏好特征
? 宝宝性别
? 宝宝年龄
? 价格段
? 类目
? 品牌
? 地域
? 终端
? ……
个性化专场排序
目标
点击率
转化率
算法
分类
排序
模型
线性
非线性
相似商品
i1 i2 i3 i4 i5 i6 i1 i4 i7
u1 1 1 1 1 1
u2 1 1 1 1 1
u3 1 1 1 1
u4 1 1 1 1 1
u5 1 1 1 1
week ?1 week ?2 week ?3
特卖场景下的user-?item矩阵 —? 商品在线时间短
—? 相似商品不在线售卖
—? 在线商品数量少
—? 数据比较不稀疏
—? 领域知识
—? 宝宝性别、年龄
—? 时序性
—? 0-1岁->1-3岁 √ √ √
—? 1-3岁->0-1岁 × × ×
相似商品
协同过滤
? 时间衰减
? 热门打压
基于内容
? 属性相似
? 文本相似
运营规则
? 宝宝性别
? 宝宝年龄
? 同品牌
? 跨品牌
相似商品
浏览CF
Content
based
多模型融合
个性化
重排序
购买CF
关联推荐效果
资源位 提升
相似专场-?品牌特卖 +96.83%
相似专场-?海外购 +27.94%
相似商品-?品牌特卖 +83.70%
相似商品-?海外购 +541.4%
相似商品-?限量购 +32.30%
猜你喜欢(PC)-?品牌特卖 +98.98%
猜你喜欢(APP)-?品牌特卖 +68.23%
购物车商品推荐 +52.61%
类目搭配
买了 又买 比例
奶嘴 奶瓶 39%
奶粉 湿巾 25%
纸尿片 湿巾 30%
孕妇帽 纸尿裤 37%
文胸 内裤 20%
烫衣板 毛球修剪器 40%
多项式分布,极大似然估计
P ?2 ?1 =
#???(?1, ?2)
∑ #???(?1, ??)/
个性化推送
运营痛点:营销活动,如何找到目标用户
用户痛点:大量不感兴趣短信、推送消息
精准化营销,提升转化率
个性化推送
用户标签
投放系统
运营活动
商品标签
选用户 选商品
动态文案
动态生成hive sql查询
JDBC提交到hive 蝉别谤惫别谤执行
运营拉新
注册 首购
提升10+%
用户画像
未来方向
—? 数据
—? 精准用户画像
—? 实时偏好
—? 模型
—? 特征工程
—? online learning
—? 应用
—? 个性化大促
—? 商家端
贝贝
母婴特卖
2014.4
C轮 10亿$
beibei.com
杭州
Thanks!
huangling.zhou@husor.com.cn

More Related Content

特卖场景下的大数据平台和机器学习实践