狠狠撸

prom- 实时计算架构北疯淘宝数据平台与产物部 -edp

产物数据魔方全属性查询 2010.12~ 淘词 2011.6~ 淘宝指数 ( 公测 ) shu.taobao.com

prom 特点多维度实时性 / 性能无 join 计算规则自定义低成本

考虑因素数据储存计算

数据特征 T 级数据量百万级记录实时计算分析每天新增 100G 数据数据不修改

DB 选型海量数据查询快，不因数据量而改变易扩容，避免分库分表高可用灵活的数据模型成本低，钱 & 精力

技术要点倒排索引 HBbase 本地计算明细数据冗余

表无 join 设计 NoSQL 一张表，两列族冗余数据自动扩容，无需 DBA

数据格式数据格式详情

角色 HBase 端存储数据，本地计算有状态，有限扩容 Server 端 http 服务，求交，缓存无状态，无线扩展

拓扑图云梯 server server server Hbase Hbase Hbase ……

计算流程 rowkey: 商务定位 [0,1] regionserver 求 SUM(alipay) 属性属性值笔记本尺寸 13 寸笔记本定位商务定位查索引节点 1 1, 2, 3, 4, 5, 6, 7, 8, 9 节点 2 1, 2, 4, 5, 6, 7 节点 2 1, 2, 4 , 6, 7 本地 SUM 运算（ Hbase 扩展）汇总计算写入缓存

HBase 本地计算概念： HBase 的存储过程 ? 利用 HBase 做分布式实时计算优点：降低网络的通信量数据安全提高 HBase 集群机器的资源利用率减少响应时间和提高吞吐量

HBase 本地计算改造 1 、继承 HRegionServer ， HRegionInterface ，定义自己的 RegionServer 类和 RegionInterface 接口。 2 、继承 Get ，实现 Writable 接口的自定义 Get 类 (Put 同理 ) 3 、继承 Result ，实现 Writable 接口的自定义 Result 类 4 、 region 端启动时实例化自定义的 RegionServer 对象， client 端通过自定义的 RegionInterface 接口做反射代理。

HBase 本地计算注意点 Writable 接口的 write 、 readFields 方法序列化和反序列化要完全对应 ( 出现 bug 的主要原因 ) 基于最小 rowkey 定位 regionServer 。避免相对路径 HBase region 端参数可变性

数据难点单条数据过大 ( 上 G) - 添加中间表保存取模数，拆分大数据非定长数据变长不明显：转成定长 -> 牺牲空间变长明显：分隔符 -> 性能低，不稳定没有 id 的数据记录 (query 记录 ) 每天自增 id ，多天归并抛弃 id

实时计算平台化难点数据冗余难以控制数据多样性，通用性 VS 性能自定义计算规则和 hadoop 离线计算平台打通

提高性能的几个点减少随机读不做 join 数据定长、 byte[] 减少网络传输量合理的缓存更大的内存

Q&A thanks blog : www.yiihsia.com weibo : http://weibo.com/neihan e-mail : [email_address]

狠狠撸

基于丑产补蝉别的实时计算框架辫谤辞尘(20111114)

Recommended

More Related Content

What's hot (20)

Similar to 基于丑产补蝉别的实时计算框架辫谤辞尘(20111114) (20)

基于丑产补蝉别的实时计算框架辫谤辞尘(20111114)