狠狠撸

狠狠撸Share a Scribd company logo
淘宝海量数据产物技术


                  数据产物 赵昆




11年11月26日星期六
WHO ?AM ?I

      ?    赵昆 ?(淘宝花名:空无)
      ?    淘宝网 ?- ?数据平台与产物部 ?- ?数据产物
      ?    热爱技术、热爱数据、热爱生活
      ?    果粉、G粉
      ?    微博:




                            @此处空无?一人


11年11月26日星期六
误区

      ? 淘宝是一家电子商务公司
      ? 数据越多越值钱
      ? 海量只是数据量更大
      ? 云计算只是一个概念




11年11月26日星期六
传统海量数据产物误区

      ?    只关注分析处理性能,不关注数据查询性能
      ?    大型商业产物更好
          ? Oracle/GreenPlum可以解决大多数问题
          ? IBM/EMC
      ?    开源产物更好
          ? Hadoop可以解决一切问题
          ? Hadoop成本更低
      ?    数据展现不重要




11年11月26日星期六
大纲

      ?    大数据在淘宝的挑战
      ?    分布式存储计算
      ?    实时计算
      ?    实时流处理
      ?    数据可视化
      ?    数据产物实践




11年11月26日星期六
大数据在淘宝的挑战




11年11月26日星期六
淘宝规模

               PV    20亿
         商品数         8亿+
         用户数         4.4亿
         品牌数         8万+
               SPU   334万
      每分钟销售商品
         件数          4.8万件
      高峰日成交金额        52亿元



11年11月26日星期六
淘宝数据特点

      ?    数据量大
      ?    内容多样
          ? 日志型数据
          ? 文本数据
          ? 关系型数据
      ?    维度丰富
          ? 涵盖近100个不同行业的商品维度,五级商品类目体系
          ? 近80000个品牌
          ? 商品维度+卖家维度+买家维度
      ?    源数据质量不高
          ? 非法交易
          ? 恶意评价
          ? 用于自定义属性



11年11月26日星期六
挑战

      ?    20PB ?总量
      ?    900TB ?每天计算扫描数据量
      ?    月增1.5P
      ?    日增0.06P
      ?    高峰处理数据量:30G/s
      ?    ...




11年11月26日星期六
挑战

      ?    数据的商业模式不清楚,缺乏足够的业务支撑
      ?    海量数据处理的基础技术需要大量的研发投入
      ?    数据安全机制非常复杂,还要兼顾效率
      ?    开放的同时,需要防止数据被恶意爬取
      ?    基础设施的建设周期较长,可能赶不上业务的变化
      ?    数据自身变化演进,数据更新非常困难




11年11月26日星期六
传统的数据平台

                            展现     API




                            高性能
                             DB



               数据同步   大容量         离线计算
                       存储




11年11月26日星期六
有没有完美的数据平台?




11年11月26日星期六
我心中的完美

                             展现     API



                            实时计算



               实时传输         高速访
                            问存储



               数据同步   大容量          离线计算
                       存储




11年11月26日星期六
? ? ?业务系统                                    淘宝数据应用




                                Open ?Hosting                                 数据工场
                                                    TOP ?API



                               Open ?DB                                              Open ?DB
                                                        数据API          服务API


                                                                                       数据同步
                                                 在线计算
                   TOP ?API

                                   实时
                                                                       离线计算
                                   处理

                                                  在线存储                 数据挖掘

                  数据写入API




                                                                  底层存储
                安全过滤层

               缓冲区存储                                            淘宝DB
                                           实时同步

11年11月26日星期六
分布式存储计算




11年11月26日星期六
分布式存储计算

      ?    M/R: ?
          ?  文本数据
          ?  数据挖掘
                               RPT          RPT

          ?  复杂计算
      ?    HQL: ?
          ?
                            Automa'c
             中间层建设
                     Hive      Code

          ?  维度转换           Framework	
 ?


          ?  指标加工




                     M/R




11年11月26日星期六
使用状况

      ?    分布式存储和计算
          ? 1800+ ?Hadoop集群
          ? 24G+2T*12T
          ? 离线 ? ? ? ?
               ?
              7:00 ?前必须处理完昨日增量计算
               ?
              (目前每天3半点前处理完成)
          ? 在线
               ?
              实时的交易跟踪,秒级别的延迟
               ?
              实时千万级交易维度交叉计算
      ?    分布式数据挖掘
          ? 30个节点的Mahout集群
          ? 淘宝母婴频道推荐月底上线



11年11月26日星期六
?    多维数据立方体构造 ?
          ? 满足业务对数据分析灵活性要求
          ? 压缩数据处理中间过程
          ? 减少表间关联



      ?    计算时对维度抽象转换:
          ? 一次过程进行多粒度进行指标汇总
          ? 支持用户自定义




11年11月26日星期六
Myfox ?- ?分布式Mysql集群

      ?    基于Mysql ?Myisam存储引擎
      ?    海量数据分布式存储、非实时写入
      ?    提供全镜像、路由字段、记录条数、组合等数据分片规则
      ?    32个节点




11年11月26日星期六
Myfox ?- ?分布式Mysq集群




                                                                            路由信息库
                                                                        M


                         MyFOX(虚拟机)
                                                                        S




                热节点(MySQL)                          冷节点(MySQL)


               15k SAS硬盘,300G * 12,8节点            7.2k SATA硬盘,1T * 12,8节点
                 MySQL




                              MySQL




                                          MySQL




                                                    MySQL




                                                                MySQL
                          =           =                     =
                                                                                    14




11年11月26日星期六
Myfox ?- ?数据查询



               路             APC           SQL解析
               由
               层   缓存                  语义理解

                               查询路由            字段改写

                                   分片SQL           计算规则


               查
               询        缓存             取分片数据
               层

               计
               算                       结果合并
               层




11年11月26日星期六
挑战

    ?   淘宝涵盖100个行业的商品
    ?   属性值的条数2000W



               如何获取任意多个商品属性值组
               合产生的交易 ??




11年11月26日星期六
实时计算




11年11月26日星期六
Prom

      ?    T级数据量(7天总量hbase)
      ?    千万级记录实时计算分析
      ?    以byte[]方式存储于hbase




11年11月26日星期六
ClientApp

                            SharesMerge

                         Shard1             Shard2

               Cache         Calc

                       DataFetch    Index


               DataStorage IndexStorage
11年11月26日星期六
Glider

      ?    高性能异构数据中间层
      ?    统一restful数据输出接口
      ?    使用SQL ?Like作为配置语法
      ?    整合多种数据源,不同数据源之间数据可以进行SQL关联操作
          ? Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP ?API
      ?    简单的数据二次加工
      ?    内置二级缓存
      ?    单虚拟机 ?8000qps ?(4CPU/7G内存)
      ?    请求分优先级




11年11月26日星期六
挑战

      ?    如何获取店铺实时数据? ?
      ?    不能直接主库上计算啊,主库表示压力很大。




11年11月26日星期六
实时流处理




11年11月26日星期六
银河 ?- ?实时流处理平台

      ?    基于Actor模型的分布式流数据实时处理和计算框架
      ?    底层基于开源软件AKKA实现
      ?    消息既数据
      ?    客户端3台(1.5万/s),Hbase ?5台
      ?    日处理3亿数据量


                                       前端应用
               数据源               实时流
                       实时流处理
                                  计算
                                       实时计算系统
                          数据缓存



                          数据反馈




11年11月26日星期六
银河 ?- ?技术框架




                    Other&PNs                      ZK
                         &




                                                   &
                       Data API       Control & Management API
                         Data
                                                        Configurati
                        Event     Status       Stage                          ZK
               PN                                           on
                      Dispatche   Monitor     Manager
                    &                                     Manager
                          r                                           &   Config file
                                     Stage Container                          DB
                                                                      &

                                            AKKA




11年11月26日星期六
银河 ?- ?数据流




11年11月26日星期六
应用

      ?    实时行业总体数据
      ?    分类目实时商品成交排行
      ?    实时店铺汇总数据
      ?    实时店铺浏览、交易明细
      ?    实时用户成交排行




11年11月26日星期六
数据可视化




11年11月26日星期六
数据可视化

      ?    为什么要研究数据可视化?


                          数据大爆炸


                    、难懂
               数据太枯燥        数据
                              关系
                                 太复
                                   杂

                数据背后隐藏什么?




11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
浪淘金

      ?    社会化电子商务数据可视化分析工具
      ?    淘宝数据平台与新浪微博合作项目




11年11月26日星期六
可视化应用开发流程




11年11月26日星期六
总结

                             展现     API



                            实时计算



               实时传输         高速访
                            问存储



               数据同步   大容量          离线计算
                       存储




11年11月26日星期六
数据产物实践




11年11月26日星期六
数据魔方
               data.taobao.com




11年11月26日星期六
挑战

      ?    数据量巨大
      ?    商品更新
      ?    类目变化频繁
      ?    大单、走账
      ?    作弊、刷信用
      ?    数据安全
      ?    马太效应




11年11月26日星期六
数据魔方

      ?    淘宝第一个基于全量数据的数据产物
      ?    底层基于云计算
      ?    第一个成熟的、基于海量数据的商业数据产物
      ?    明年计划开放数据给第三方应用




11年11月26日星期六
数据魔方 ?- ?数据模型




11年11月26日星期六
淘宝数据产物架构
                           Cubex	
 ?         Index	
 ?       Mytaobao	
 ?        LisLng	
 ?

                                        Glider	
 ?                     API	
 ?


               Myfox	
 ?        Prom	
 ?              Andes	
 ?    SearchEngine	
 ? 3rd	
 ?

                                        KVProxy	
 ?
           MySQL	
 ?           TC	
 ?      Redis	
 ? HBase	
 ?



                                  Cloud	
 ?
                                                                                              47

11年11月26日星期六
维度和指标

                     维度                                指标


        基本维度        买家维度    卖家维度       交易指标     成交店铺    行为指标       规模指标


               时间     年龄      地区    GMV成交   Alipay成交        搜索人数    上架店铺


                                      金额       金额           搜索次数    上架商品
               类目     性别     卖家信用

                                      笔数       笔数           浏览人数    活跃店铺
               品牌     地区     卖家类型

                                      人数       人数           浏览次数    活跃商品
               产物    买家信用    促销方式
                                     商品数      商品数           收藏人数
               属性    购买频次
                                                            收藏次数

                     价格区间



11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
淘宝指数

      ?    淘宝下一个重要的数据产物
      ?    完全免费
      ?    2011正式发布
      ?    流行趋势、消费者研究




11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
其他数据产物

      ?    淘宝魔镜
      ?    TCIF
      ?    母婴推荐
      ?    淘宝情报
      ?    卖家经营报告
      ?    商品评论分析系统
      ?    淘宝数据门户 ?*
      ?    LabsEngine ?*




11年11月26日星期六
未来

      ?    开放
          ? 数据开放
          ? 平台开放
          ? 系统开源


      ?    实时 ?
          ? 实时计算
          ? 流处理




11年11月26日星期六
Thanks

               微博: ?@此处空无一人

               kongwu@taobao.com



11年11月26日星期六
Ad

Recommended

用笔测迟丑辞苍实现丑补诲辞辞辫任务调度管理
用笔测迟丑辞苍实现丑补诲辞辞辫任务调度管理
Leo Zhou
?
X program-within-a-month
X program-within-a-month
Chao Zhu
?
Selling sybase hds solution for banking
Selling sybase hds solution for banking
focusbi
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Schubert Zhang
?
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Xiao Li
?
罗李:构建一个跨机房的贬补诲辞辞辫集群
罗李:构建一个跨机房的贬补诲辞辞辫集群
hdhappy001
?
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
?
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
?
搁别诲颈蝉中文入门手册
搁别诲颈蝉中文入门手册
锐 张
?
Advanced guide to develop ajax applications using dojo
Advanced guide to develop ajax applications using dojo
Fu Cheng
?
础箩补虫应用开发最佳实践
础箩补虫应用开发最佳实践
Fu Cheng
?
<img src="../i/r_14.png" />
<img src="../i/r_14.png" />
tutorialsruby
?
The lottery
The lottery
mariaecasas
?
07 丛磊
07 丛磊
锐 张
?
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
?
网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维
锐 张
?
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
锐 张
?
搁别诲颈蝉介绍
搁别诲颈蝉介绍
锐 张
?
搁别诲颈蝉学习笔记
搁别诲颈蝉学习笔记
锐 张
?
Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄
锐 张
?
亚马逊云计算础飞蝉
亚马逊云计算础飞蝉
锐 张
?
服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt
锐 张
?
骋谤别别苍辫濒耻尘技术
骋谤别别苍辫濒耻尘技术
锐 张
?
Open the Eyes of My Heart Lyrics
Open the Eyes of My Heart Lyrics
mariaecasas
?
D-Day: June 6, 1944
D-Day: June 6, 1944
mariaecasas
?
Introduction to Web Components
Introduction to Web Components
Fu Cheng
?
The Evolution of Java
The Evolution of Java
Fu Cheng
?
The lottery
The lottery
mariaecasas
?
05 杨志丰
05 杨志丰
锐 张
?
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
Shaoning Pan
?

More Related Content

Viewers also liked (20)

搁别诲颈蝉中文入门手册
搁别诲颈蝉中文入门手册
锐 张
?
Advanced guide to develop ajax applications using dojo
Advanced guide to develop ajax applications using dojo
Fu Cheng
?
础箩补虫应用开发最佳实践
础箩补虫应用开发最佳实践
Fu Cheng
?
<img src="../i/r_14.png" />
<img src="../i/r_14.png" />
tutorialsruby
?
The lottery
The lottery
mariaecasas
?
07 丛磊
07 丛磊
锐 张
?
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
?
网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维
锐 张
?
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
锐 张
?
搁别诲颈蝉介绍
搁别诲颈蝉介绍
锐 张
?
搁别诲颈蝉学习笔记
搁别诲颈蝉学习笔记
锐 张
?
Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄
锐 张
?
亚马逊云计算础飞蝉
亚马逊云计算础飞蝉
锐 张
?
服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt
锐 张
?
骋谤别别苍辫濒耻尘技术
骋谤别别苍辫濒耻尘技术
锐 张
?
Open the Eyes of My Heart Lyrics
Open the Eyes of My Heart Lyrics
mariaecasas
?
D-Day: June 6, 1944
D-Day: June 6, 1944
mariaecasas
?
Introduction to Web Components
Introduction to Web Components
Fu Cheng
?
The Evolution of Java
The Evolution of Java
Fu Cheng
?
The lottery
The lottery
mariaecasas
?
搁别诲颈蝉中文入门手册
搁别诲颈蝉中文入门手册
锐 张
?
Advanced guide to develop ajax applications using dojo
Advanced guide to develop ajax applications using dojo
Fu Cheng
?
础箩补虫应用开发最佳实践
础箩补虫应用开发最佳实践
Fu Cheng
?
<img src="../i/r_14.png" />
<img src="../i/r_14.png" />
tutorialsruby
?
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
锐 张
?
网易海量数据存储平台的构建和运维
网易海量数据存储平台的构建和运维
锐 张
?
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
锐 张
?
搁别诲颈蝉介绍
搁别诲颈蝉介绍
锐 张
?
搁别诲颈蝉学习笔记
搁别诲颈蝉学习笔记
锐 张
?
Sun jdk 1.6内存管理 -使用篇-毕玄
Sun jdk 1.6内存管理 -使用篇-毕玄
锐 张
?
亚马逊云计算础飞蝉
亚马逊云计算础飞蝉
锐 张
?
服务器端性能优化 提升Qps、rt
服务器端性能优化 提升Qps、rt
锐 张
?
骋谤别别苍辫濒耻尘技术
骋谤别别苍辫濒耻尘技术
锐 张
?
Open the Eyes of My Heart Lyrics
Open the Eyes of My Heart Lyrics
mariaecasas
?
D-Day: June 6, 1944
D-Day: June 6, 1944
mariaecasas
?
Introduction to Web Components
Introduction to Web Components
Fu Cheng
?
The Evolution of Java
The Evolution of Java
Fu Cheng
?

Similar to 09 赵昆 (20)

05 杨志丰
05 杨志丰
锐 张
?
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
Shaoning Pan
?
Hadoop的典型应用与公司化之路 for HBTC 2012
Hadoop的典型应用与公司化之路 for HBTC 2012
James Chen
?
海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
?
Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
?
Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
?
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
KennyZ
?
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
drewz lin
?
准实时海量数据分析系统架构探究
准实时海量数据分析系统架构探究
Min Zhou
?
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
knuthocean
?
Java@taobao
Java@taobao
vanadies10
?
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
Xu Wang
?
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zheng
bigdatawf
?
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
yp_fangdong
?
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照
Shaoning Pan
?
Baidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log Analysis
Xiaoming Chen
?
基于 MySQL 的B2C电商系统前端数据层架构
基于 MySQL 的B2C电商系统前端数据层架构
Sky Jian
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Hanborq Inc.
?
适应业务需求的甲骨文存储解决方案及产物演示
适应业务需求的甲骨文存储解决方案及产物演示
ITband
?
分布式存储与罢顿顿尝
分布式存储与罢顿顿尝
mysqlops
?
05 杨志丰
05 杨志丰
锐 张
?
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
Shaoning Pan
?
Hadoop的典型应用与公司化之路 for HBTC 2012
Hadoop的典型应用与公司化之路 for HBTC 2012
James Chen
?
海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
?
Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
?
Big data, big deal ms it168文库
Big data, big deal ms it168文库
Accenture
?
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
KennyZ
?
#Lamp人#淘宝数据魔方的系统架构 -长林
#Lamp人#淘宝数据魔方的系统架构 -长林
drewz lin
?
准实时海量数据分析系统架构探究
准实时海量数据分析系统架构探究
Min Zhou
?
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
knuthocean
?
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
Xu Wang
?
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zheng
bigdatawf
?
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
yp_fangdong
?
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照
Shaoning Pan
?
Baidu LSP and DISQL for Log Analysis
Baidu LSP and DISQL for Log Analysis
Xiaoming Chen
?
基于 MySQL 的B2C电商系统前端数据层架构
基于 MySQL 的B2C电商系统前端数据层架构
Sky Jian
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Hanborq Inc.
?
适应业务需求的甲骨文存储解决方案及产物演示
适应业务需求的甲骨文存储解决方案及产物演示
ITband
?
分布式存储与罢顿顿尝
分布式存储与罢顿顿尝
mysqlops
?
Ad

More from 锐 张 (17)

长尾理论(The longtail)版
长尾理论(The longtail)版
锐 张
?
Openstack starter-guide-diablo
Openstack starter-guide-diablo
锐 张
?
基于My sql的分布式数据库实践
基于My sql的分布式数据库实践
锐 张
?
搁别诲颈蝉内存存储结构分析
搁别诲颈蝉内存存储结构分析
锐 张
?
淘宝前端优化
淘宝前端优化
锐 张
?
Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄
锐 张
?
Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄
锐 张
?
Sun jdk-1.6-gc
Sun jdk-1.6-gc
锐 张
?
搁别诲颈蝉深入浅出
搁别诲颈蝉深入浅出
锐 张
?
Green plum培训材料
Green plum培训材料
锐 张
?
新浪云计算公开课第二期:厂补别平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:厂补别平台的灵活应用(吕毅、魏世江)
锐 张
?
尝补尘辫高性能设计
尝补尘辫高性能设计
锐 张
?
20110625.【打造高效能的肠诲苍系统】.易统
20110625.【打造高效能的肠诲苍系统】.易统
锐 张
?
人人网互联网产物易用性、鲍别设计培训
人人网互联网产物易用性、鲍别设计培训
锐 张
?
颁2肠网站运营辫辫迟
颁2肠网站运营辫辫迟
锐 张
?
Big pipe backend2
Big pipe backend2
锐 张
?
数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶
锐 张
?
长尾理论(The longtail)版
长尾理论(The longtail)版
锐 张
?
Openstack starter-guide-diablo
Openstack starter-guide-diablo
锐 张
?
基于My sql的分布式数据库实践
基于My sql的分布式数据库实践
锐 张
?
搁别诲颈蝉内存存储结构分析
搁别诲颈蝉内存存储结构分析
锐 张
?
淘宝前端优化
淘宝前端优化
锐 张
?
Sun jdk 1.6内存管理 -实现篇 -毕玄
Sun jdk 1.6内存管理 -实现篇 -毕玄
锐 张
?
Sun jdk 1.6内存管理 -调优篇-毕玄
Sun jdk 1.6内存管理 -调优篇-毕玄
锐 张
?
Sun jdk-1.6-gc
Sun jdk-1.6-gc
锐 张
?
搁别诲颈蝉深入浅出
搁别诲颈蝉深入浅出
锐 张
?
Green plum培训材料
Green plum培训材料
锐 张
?
新浪云计算公开课第二期:厂补别平台的灵活应用(吕毅、魏世江)
新浪云计算公开课第二期:厂补别平台的灵活应用(吕毅、魏世江)
锐 张
?
尝补尘辫高性能设计
尝补尘辫高性能设计
锐 张
?
20110625.【打造高效能的肠诲苍系统】.易统
20110625.【打造高效能的肠诲苍系统】.易统
锐 张
?
人人网互联网产物易用性、鲍别设计培训
人人网互联网产物易用性、鲍别设计培训
锐 张
?
颁2肠网站运营辫辫迟
颁2肠网站运营辫辫迟
锐 张
?
Big pipe backend2
Big pipe backend2
锐 张
?
数据成就互联网的可能 用技术撬动Roi-好耶
数据成就互联网的可能 用技术撬动Roi-好耶
锐 张
?
Ad

09 赵昆

  • 1. 淘宝海量数据产物技术 数据产物 赵昆 11年11月26日星期六
  • 2. WHO ?AM ?I ? 赵昆 ?(淘宝花名:空无) ? 淘宝网 ?- ?数据平台与产物部 ?- ?数据产物 ? 热爱技术、热爱数据、热爱生活 ? 果粉、G粉 ? 微博: @此处空无?一人 11年11月26日星期六
  • 3. 误区 ? 淘宝是一家电子商务公司 ? 数据越多越值钱 ? 海量只是数据量更大 ? 云计算只是一个概念 11年11月26日星期六
  • 4. 传统海量数据产物误区 ? 只关注分析处理性能,不关注数据查询性能 ? 大型商业产物更好 ? Oracle/GreenPlum可以解决大多数问题 ? IBM/EMC ? 开源产物更好 ? Hadoop可以解决一切问题 ? Hadoop成本更低 ? 数据展现不重要 11年11月26日星期六
  • 5. 大纲 ? 大数据在淘宝的挑战 ? 分布式存储计算 ? 实时计算 ? 实时流处理 ? 数据可视化 ? 数据产物实践 11年11月26日星期六
  • 7. 淘宝规模 PV 20亿 商品数 8亿+ 用户数 4.4亿 品牌数 8万+ SPU 334万 每分钟销售商品 件数 4.8万件 高峰日成交金额 52亿元 11年11月26日星期六
  • 8. 淘宝数据特点 ? 数据量大 ? 内容多样 ? 日志型数据 ? 文本数据 ? 关系型数据 ? 维度丰富 ? 涵盖近100个不同行业的商品维度,五级商品类目体系 ? 近80000个品牌 ? 商品维度+卖家维度+买家维度 ? 源数据质量不高 ? 非法交易 ? 恶意评价 ? 用于自定义属性 11年11月26日星期六
  • 9. 挑战 ? 20PB ?总量 ? 900TB ?每天计算扫描数据量 ? 月增1.5P ? 日增0.06P ? 高峰处理数据量:30G/s ? ... 11年11月26日星期六
  • 10. 挑战 ? 数据的商业模式不清楚,缺乏足够的业务支撑 ? 海量数据处理的基础技术需要大量的研发投入 ? 数据安全机制非常复杂,还要兼顾效率 ? 开放的同时,需要防止数据被恶意爬取 ? 基础设施的建设周期较长,可能赶不上业务的变化 ? 数据自身变化演进,数据更新非常困难 11年11月26日星期六
  • 11. 传统的数据平台 展现 API 高性能 DB 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 13. 我心中的完美 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 14. ? ? ?业务系统 淘宝数据应用 Open ?Hosting 数据工场 TOP ?API Open ?DB Open ?DB 数据API 服务API 数据同步 在线计算 TOP ?API 实时 离线计算 处理 在线存储 数据挖掘 数据写入API 底层存储 安全过滤层 缓冲区存储 淘宝DB 实时同步 11年11月26日星期六
  • 16. 分布式存储计算 ? M/R: ? ? 文本数据 ? 数据挖掘 RPT RPT ? 复杂计算 ? HQL: ? ? Automa'c 中间层建设 Hive Code ? 维度转换 Framework ? ? 指标加工 M/R 11年11月26日星期六
  • 17. 使用状况 ? 分布式存储和计算 ? 1800+ ?Hadoop集群 ? 24G+2T*12T ? 离线 ? ? ? ? ? 7:00 ?前必须处理完昨日增量计算 ? (目前每天3半点前处理完成) ? 在线 ? 实时的交易跟踪,秒级别的延迟 ? 实时千万级交易维度交叉计算 ? 分布式数据挖掘 ? 30个节点的Mahout集群 ? 淘宝母婴频道推荐月底上线 11年11月26日星期六
  • 18. ? 多维数据立方体构造 ? ? 满足业务对数据分析灵活性要求 ? 压缩数据处理中间过程 ? 减少表间关联 ? 计算时对维度抽象转换: ? 一次过程进行多粒度进行指标汇总 ? 支持用户自定义 11年11月26日星期六
  • 19. Myfox ?- ?分布式Mysql集群 ? 基于Mysql ?Myisam存储引擎 ? 海量数据分布式存储、非实时写入 ? 提供全镜像、路由字段、记录条数、组合等数据分片规则 ? 32个节点 11年11月26日星期六
  • 20. Myfox ?- ?分布式Mysq集群 路由信息库 M MyFOX(虚拟机) S 热节点(MySQL) 冷节点(MySQL) 15k SAS硬盘,300G * 12,8节点 7.2k SATA硬盘,1T * 12,8节点 MySQL MySQL MySQL MySQL MySQL = = = 14 11年11月26日星期六
  • 21. Myfox ?- ?数据查询 路 APC SQL解析 由 层 缓存 语义理解 查询路由 字段改写 分片SQL 计算规则 查 询 缓存 取分片数据 层 计 算 结果合并 层 11年11月26日星期六
  • 22. 挑战 ? 淘宝涵盖100个行业的商品 ? 属性值的条数2000W 如何获取任意多个商品属性值组 合产生的交易 ?? 11年11月26日星期六
  • 24. Prom ? T级数据量(7天总量hbase) ? 千万级记录实时计算分析 ? 以byte[]方式存储于hbase 11年11月26日星期六
  • 25. ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage 11年11月26日星期六
  • 26. Glider ? 高性能异构数据中间层 ? 统一restful数据输出接口 ? 使用SQL ?Like作为配置语法 ? 整合多种数据源,不同数据源之间数据可以进行SQL关联操作 ? Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP ?API ? 简单的数据二次加工 ? 内置二级缓存 ? 单虚拟机 ?8000qps ?(4CPU/7G内存) ? 请求分优先级 11年11月26日星期六
  • 27. 挑战 ? 如何获取店铺实时数据? ? ? 不能直接主库上计算啊,主库表示压力很大。 11年11月26日星期六
  • 29. 银河 ?- ?实时流处理平台 ? 基于Actor模型的分布式流数据实时处理和计算框架 ? 底层基于开源软件AKKA实现 ? 消息既数据 ? 客户端3台(1.5万/s),Hbase ?5台 ? 日处理3亿数据量 前端应用 数据源 实时流 实时流处理 计算 实时计算系统 数据缓存 数据反馈 11年11月26日星期六
  • 30. 银河 ?- ?技术框架 Other&PNs ZK & & Data API Control & Management API Data Configurati Event Status Stage ZK PN on Dispatche Monitor Manager & Manager r & Config file Stage Container DB & AKKA 11年11月26日星期六
  • 32. 应用 ? 实时行业总体数据 ? 分类目实时商品成交排行 ? 实时店铺汇总数据 ? 实时店铺浏览、交易明细 ? 实时用户成交排行 11年11月26日星期六
  • 34. 数据可视化 ? 为什么要研究数据可视化? 数据大爆炸 、难懂 数据太枯燥 数据 关系 太复 杂 数据背后隐藏什么? 11年11月26日星期六
  • 39. 浪淘金 ? 社会化电子商务数据可视化分析工具 ? 淘宝数据平台与新浪微博合作项目 11年11月26日星期六
  • 41. 总结 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储 11年11月26日星期六
  • 43. 数据魔方 data.taobao.com 11年11月26日星期六
  • 44. 挑战 ? 数据量巨大 ? 商品更新 ? 类目变化频繁 ? 大单、走账 ? 作弊、刷信用 ? 数据安全 ? 马太效应 11年11月26日星期六
  • 45. 数据魔方 ? 淘宝第一个基于全量数据的数据产物 ? 底层基于云计算 ? 第一个成熟的、基于海量数据的商业数据产物 ? 明年计划开放数据给第三方应用 11年11月26日星期六
  • 47. 淘宝数据产物架构 Cubex ? Index ? Mytaobao ? LisLng ? Glider ? API ? Myfox ? Prom ? Andes ? SearchEngine ? 3rd ? KVProxy ? MySQL ? TC ? Redis ? HBase ? Cloud ? 47 11年11月26日星期六
  • 48. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 交易指标 成交店铺 行为指标 规模指标 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 上架店铺 金额 金额 搜索次数 上架商品 类目 性别 卖家信用 笔数 笔数 浏览人数 活跃店铺 品牌 地区 卖家类型 人数 人数 浏览次数 活跃商品 产物 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间 11年11月26日星期六
  • 51. 淘宝指数 ? 淘宝下一个重要的数据产物 ? 完全免费 ? 2011正式发布 ? 流行趋势、消费者研究 11年11月26日星期六
  • 55. 其他数据产物 ? 淘宝魔镜 ? TCIF ? 母婴推荐 ? 淘宝情报 ? 卖家经营报告 ? 商品评论分析系统 ? 淘宝数据门户 ?* ? LabsEngine ?* 11年11月26日星期六
  • 56. 未来 ? 开放 ? 数据开放 ? 平台开放 ? 系统开源 ? 实时 ? ? 实时计算 ? 流处理 11年11月26日星期六
  • 57. Thanks 微博: ?@此处空无一人 kongwu@taobao.com 11年11月26日星期六