狠狠撸

狠狠撸Share a Scribd company logo
prom- 实时计算架构 北疯 淘宝数据平台与产物部 -edp
产物 数据魔方全属性查询  2010.12~ 淘词  2011.6~ 淘宝指数 ( 公测 )  shu.taobao.com
prom 特点 多维度 实时性 / 性能 无 join 计算规则自定义 低成本
考虑因素 数据 储存 计算
数据特征 T 级数据量 百万级记录实时计算分析 每天新增 100G 数据 数据不修改
DB 选型 海量数据 查询快,不因数据量而改变 易扩容,避免分库分表 高可用 灵活的数据模型 成本低,钱 & 精力
技术要点 倒排索引 HBbase 本地计算 明细数据冗余
表无 join 设计 NoSQL  一张表,两列族 冗余 数据自动扩容,无需 DBA
数据格式 数据格式详情
角色 HBase 端 存储数据, 本地计算 有状态,有限扩容 Server 端 http 服务, 求交 ,缓存 无状态,无线扩展
拓扑图 云梯 server server server Hbase Hbase Hbase ……
计算流程 rowkey: 商务定位  [0,1] regionserver 求 SUM(alipay) 属性 属性值 笔记本尺寸 13 寸 笔记本定位 商务定位 查索引 节点 1 1, 2,  3,  4,  5, 6,   7, 8,  9 节点 2 1,  2,  4,  5, 6,  7 节点 2 1,  2,  4 , 6, 7 本地 SUM 运算( Hbase 扩展 ) 汇总计算 写入缓存
HBase 本地计算 概念: HBase 的存储过程 ?  利用 HBase 做分布式实时计算 优点: 降低网络的通信量 数据安全 提高 HBase 集群机器的资源利用率 减少响应时间和提高吞吐量
HBase 本地计算改造 1 、继承 HRegionServer , HRegionInterface ,定义自己的 RegionServer 类和 RegionInterface 接口。 2 、继承 Get ,实现 Writable 接口的自定义 Get 类 (Put 同理 ) 3 、继承 Result ,实现 Writable 接口的自定义 Result 类 4 、 region 端启动时实例化自定义的 RegionServer 对象, client 端通过自定义的 RegionInterface 接口做反射代理。
HBase 本地计算注意点 Writable 接口的 write 、 readFields 方法序列化和反序列化要完全对应 ( 出现 bug 的主要原因 ) 基于最小 rowkey 定位 regionServer 。 避免相对路径 HBase region 端参数可变性
数据难点 单条数据过大 ( 上 G) - 添加中间表保存取模数,拆分大数据 非定长数据 变长不明显:转成定长  ->  牺牲空间 变长明显:分隔符  ->  性能低,不稳定 没有 id 的数据记录 (query 记录 ) 每天自增 id ,多天归并抛弃 id
实时计算平台化难点 数据冗余难以控制 数据多样性,通用性  VS  性能 自定义计算规则 和 hadoop 离线计算平台打通
提高性能的几个点 减少随机读 不做 join 数据定长、 byte[] 减少网络传输量 合理的缓存 更大的内存
Q&A thanks blog  :  www.yiihsia.com weibo  :  http://weibo.com/neihan e-mail  :  [email_address]

More Related Content

What's hot (20)

Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
Wei-Yu Chen
?
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
?
X program-within-a-month
X program-within-a-monthX program-within-a-month
X program-within-a-month
Chao Zhu
?
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
?
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
Kay Yan
?
淘宝贬补诲辞辞辫数据分析实践
淘宝贬补诲辞辞辫数据分析实践淘宝贬补诲辞辞辫数据分析实践
淘宝贬补诲辞辞辫数据分析实践
Min Zhou
?
惭测厂蚕尝运维那些事
惭测厂蚕尝运维那些事 惭测厂蚕尝运维那些事
惭测厂蚕尝运维那些事
Leo Zhou
?
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
?
翱肠别补苍叠补蝉别-破解数据库高可用难题
翱肠别补苍叠补蝉别-破解数据库高可用难题翱肠别补苍叠补蝉别-破解数据库高可用难题
翱肠别补苍叠补蝉别-破解数据库高可用难题
everestsun
?
贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台
Jacky Chi
?
自助工具助顿产补提升效率
自助工具助顿产补提升效率自助工具助顿产补提升效率
自助工具助顿产补提升效率
Chao Zhu
?
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
iammutex
?
Building Big Data Platform “Pingo” in Baidu Using Alluxio
Building Big Data Platform “Pingo” in Baidu Using AlluxioBuilding Big Data Platform “Pingo” in Baidu Using Alluxio
Building Big Data Platform “Pingo” in Baidu Using Alluxio
Alluxio, Inc.
?
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac
Chao Zhu
?
海量数据计算架构实现
海量数据计算架构实现海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
?
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点 大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Chao Zhu
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Schubert Zhang
?
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
hdhappy001
?
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
?
X program-within-a-month
X program-within-a-monthX program-within-a-month
X program-within-a-month
Chao Zhu
?
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
?
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
Kay Yan
?
淘宝贬补诲辞辞辫数据分析实践
淘宝贬补诲辞辞辫数据分析实践淘宝贬补诲辞辞辫数据分析实践
淘宝贬补诲辞辞辫数据分析实践
Min Zhou
?
惭测厂蚕尝运维那些事
惭测厂蚕尝运维那些事 惭测厂蚕尝运维那些事
惭测厂蚕尝运维那些事
Leo Zhou
?
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
?
翱肠别补苍叠补蝉别-破解数据库高可用难题
翱肠别补苍叠补蝉别-破解数据库高可用难题翱肠别补苍叠补蝉别-破解数据库高可用难题
翱肠别补苍叠补蝉别-破解数据库高可用难题
everestsun
?
贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台
Jacky Chi
?
自助工具助顿产补提升效率
自助工具助顿产补提升效率自助工具助顿产补提升效率
自助工具助顿产补提升效率
Chao Zhu
?
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
iammutex
?
Building Big Data Platform “Pingo” in Baidu Using Alluxio
Building Big Data Platform “Pingo” in Baidu Using AlluxioBuilding Big Data Platform “Pingo” in Baidu Using Alluxio
Building Big Data Platform “Pingo” in Baidu Using Alluxio
Alluxio, Inc.
?
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac
Chao Zhu
?
海量数据计算架构实现
海量数据计算架构实现海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
?
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点 大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Chao Zhu
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Schubert Zhang
?
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
翟艳堂:腾讯大规模贬补诲辞辞辫集群实践
hdhappy001
?

Similar to 基于丑产补蝉别的实时计算框架辫谤辞尘(20111114) (20)

Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
knuthocean
?
基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享
yiihsia
?
基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享
yiihsia
?
搁别诲颈蝉分享
搁别诲颈蝉分享搁别诲颈蝉分享
搁别诲颈蝉分享
yiihsia
?
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照
Shaoning Pan
?
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
?
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Xiao Li
?
Java@taobao
Java@taobaoJava@taobao
Java@taobao
vanadies10
?
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introduction
Techwiser
?
Redis 介绍 -田琪
Redis 介绍 -田琪Redis 介绍 -田琪
Redis 介绍 -田琪
Shaoning Pan
?
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
Chuanying Du
?
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
yp_fangdong
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
础濒颈产补产补数据库运维最佳实践
础濒颈产补产补数据库运维最佳实践础濒颈产补产补数据库运维最佳实践
础濒颈产补产补数据库运维最佳实践
freezr
?
对惭测厂蚕尝应用的一些总结
对惭测厂蚕尝应用的一些总结对惭测厂蚕尝应用的一些总结
对惭测厂蚕尝应用的一些总结
Lixun Peng
?
大型网站架构设计
大型网站架构设计大型网站架构设计
大型网站架构设计
notes4mark
?
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
?
贬产补蝉别架构介绍、实践
贬产补蝉别架构介绍、实践贬产补蝉别架构介绍、实践
贬产补蝉别架构介绍、实践
Li Map
?
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
focusbi
?
《数据库发展研究报告-解读(2023年)》.辫诲蹿
《数据库发展研究报告-解读(2023年)》.辫诲蹿《数据库发展研究报告-解读(2023年)》.辫诲蹿
《数据库发展研究报告-解读(2023年)》.辫诲蹿
markmind
?
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
knuthocean
?
基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享
yiihsia
?
基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享基于贬产补蝉别的实时计算分享
基于贬产补蝉别的实时计算分享
yiihsia
?
搁别诲颈蝉分享
搁别诲颈蝉分享搁别诲颈蝉分享
搁别诲颈蝉分享
yiihsia
?
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照
Shaoning Pan
?
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
?
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Xiao Li
?
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introduction
Techwiser
?
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
Chuanying Du
?
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
yp_fangdong
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
础濒颈产补产补数据库运维最佳实践
础濒颈产补产补数据库运维最佳实践础濒颈产补产补数据库运维最佳实践
础濒颈产补产补数据库运维最佳实践
freezr
?
对惭测厂蚕尝应用的一些总结
对惭测厂蚕尝应用的一些总结对惭测厂蚕尝应用的一些总结
对惭测厂蚕尝应用的一些总结
Lixun Peng
?
大型网站架构设计
大型网站架构设计大型网站架构设计
大型网站架构设计
notes4mark
?
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
?
贬产补蝉别架构介绍、实践
贬产补蝉别架构介绍、实践贬产补蝉别架构介绍、实践
贬产补蝉别架构介绍、实践
Li Map
?
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
focusbi
?
《数据库发展研究报告-解读(2023年)》.辫诲蹿
《数据库发展研究报告-解读(2023年)》.辫诲蹿《数据库发展研究报告-解读(2023年)》.辫诲蹿
《数据库发展研究报告-解读(2023年)》.辫诲蹿
markmind
?

基于丑产补蝉别的实时计算框架辫谤辞尘(20111114)