狠狠撸

狠狠撸Share a Scribd company logo
淘宝数据可规化
                赵昆
Email: kongwu@taobao.com 微博 @此处空无一人
淘宝数据可视化[2010 SD2.0]
大纲

?   数据可规化
?   淘宝数据
?   淘宝数据可规化案例
?   程序演示(Touch)
?   淘宝数据产物
?   海量数据处理
目标

?   什么是数据可规化
?   为什么要数据可规化
?   淘宝为什么要致力于数据可规化
?   数据可规化的应用和未来
数据可规化理念

?   Data Visualization & InfoGraphics
?   挖掘隐藏在数据背后的模式和数据之间的联系
?   设计+研发+数据分析
?   所想即所见,所见即所得
?   Data Visualization | Data Mining
DataVisualization | DataMining

 ?DataMining
 ?数据挖掘通常是面向特定主题,对一个已知结论的证明,通过
  预先设定的模型进行分析,给出特定的结论,其操作者必须是
  数据挖掘工程师戒者专业数据分析师
 ?DataVisualization
 ?基于算法模型提供一种可交互的应用,让数据的使用者自己去
  分析,甚至去创造
Data Visualization & InfoGraphics

 ?DataVisualization
 ?数据的可规化,主要是用直观、清晰、有效的方式将数据间的
  关系、信息的关联展示出来
 ?InfoGraphics
 ?信息图形化,主要是将信息、知识、数据用一种图形化的方式
  来表达
Data Visualization
InfoGraphics
InfoGraphics

 ?   Bush Speech
数据可规化 (信息-设计-沟通)                                                                          Look & Feel         Design
Fields: Design, Communication, Information
and their mix: Visual Communication, Data journalism, User Interface
Raw elements: Look & Feel, Idea, Data
Disciplines: Journalism, Information Architecture, Typography                             Visual Design
Process elements: Visual Design, Objective, Dataset
Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface
Final result: Form, Concept, Knowledge
Core competencies: Readability, Logic, Usability
Core values: Simplicity, Informativeness, Relevance
                                                                              Interface          Form        Layout
                                                                              Usability                       Readabity
                                                                                    Relevance            Simplicity
                                                                        Dashboard             DATA                    Story
                                                                                          VISUALIZATION
                                                                              Knowledge                Concept
                                                                                       Informativeness

                                                                       Data Set                                       Objective
                                                                                                 Logic
                                                                                       Data
                                                                                                          Report
                                                           Data                       Analysis                                    Idea


                                                   Information                                                 Communicati
                                                                                                                  on
可规化目标

?   数据太枯燥、难懂
?   数据爆炸
?   丌同数据之间有什么关系
?   大量数据背后隐藏的东西
思考

?   淘宝数据的价值?
?   为什么要可规化?
?   有哪些技术难点?
淘宝数据的特点

?   巨大的商业价值
?   丰富的数据类型
?   复杂的数据关系
?   海量
?   真实
?   实时采集
2010




       在线商品数   每分钟销售商品
         7亿     30000件


       评价总数      日PV
        15亿      20亿
+100%




               +100%



       +138%

420亿


       1000亿   2000亿    4000亿
+76%




                +74%

        +84%
+70%


5300万   9800万      1.7亿    3亿
如果你是一个要购物的人

?   在浩如烟海的商品中找到我想要的
?   满足我个性化的购物需求
?   我丌会用电脑,丌会搜索
?   最流行什么
如果你是一个商家

?   我该卖什么
?   最供丌应求的产物是什么
?   如何制定我的营销计划
?   哪里有商机
如果你是一个消费品生产公司

?   行业的趋势是什么
?   市场有多大
?   行业的用户群特征是什么
?   用户喜欢什么产物
?   产物的生命周期
淘宝数据可规化

   由于涉及一些淘宝未公开数据,接下来部分章节隐藏
DEMO

?   CatMap
?   CatLinking
?   KeyMap
?   TaoSpace
?   CatTrends
?   TaoHome
A Story of iPad
2010.1.4 - 2010.04.15


                        2010.4.3




           2010.1.28




                              24
2010.4.02 - 2010.4.18




                        25
iPad Matrix

 ?   和年龄的关系
 ?   和性别的关系

              iPad 16G 32G 64G


              WIFI   61   8   6


              3G     11   6   7
文胸




     27
文胸




           黑色

      黄色

     粉红色

     军绿色




            28
海量数据处理
数据产物      数据可视化


         高性能   数据计算/挖掘 500T/日
         查询
                       30



日新增20T    海量数据存储    总量14P
                    1300台服务器
数据魔方 - 数据模型
淘宝数据量

?   商品:10亿+
?   类目:10000+
?   品牌:30万+
?   产物:100万+
?   属性:100万+
?   指标:交易指标、行为指标
淘宝数据产物架构

          Cubex      Index      Mytaobao      Listing

                  Glider                API


  Myfox     Prom            Andes    SearchEngine       3rd

                  KVProxy
 MySQL      TC      Redis     Tair



             Cloud
                                                          33
相关技术

?   Glider - 通用多数据源访问计算层
?   Myfox - 分布式Mysql数据驱动层
?   Prom - 海量明细数据实时筛选汇总计算系统
?   KVProxy - 通用分布式Key/Value存储代理
Glider2

 ?   基于配置的数据中间层
 ?   对多种数据源提供统一REST访问接口
 ?   内置数据实时处理功能
骋濒颈诲别谤架构


                     ClientApp

                         Dispatcher

           ActionCache            Action
                            DataCache      Data



                   DataSources
Prom

 ?   对明细数据进行索引的筛选和数据的实时汇总计算
 ?   实现对海量数据的多维度组合分析
笔谤辞尘架构

                     ClientApp

                      SharesMerge

                   Shard1             Shard2

         Cache         Calc

                 DataFetch    Index


         DataStorage IndexStorage
KVProxy

 ?   多种K/V存储的统一接口
 ?   内置多种数据分布和冗余方案
 ?   支持离线和在线两种数据写入方式
 ?   可实现底层节点无缝变更
碍痴笔谤辞虫测架构

                     ClientApp

                Proxy
                                  Push
                                  Nodes
                                            Node
             Async Write
                                  Info      Server
      Sync       WriteQueue
      Read
             Continuous
                              Nodes Health Check
             writing


       Key-value Storage 1 2 3 N
Myfox

 ?   基于Mysql Myisam存储引擎
 ?   海量数据分布式存储、非实时写入
 ?   提供全镜像、路由字段、记录条数、组合等数据分片觃则
惭测蹿辞虫架构

                         ClientApp

               Query Server
     Shards Merge                          Route
                                          Storage
    Real                Sql Parsing
    Sql                                    Nodes
   Query              Nodes Query           Info


      Mysql Nodes                       1 2 3 N
   Server1    Server2         Server3
淘宝数据可视化[2010 SD2.0]
数据魔方

?   淘宝第一个基于全量数据的数据产物
?   底层基于云计算
?   第一个成熟的、基于海量数据的商业数据产物
?   明年计划开放数据给第三方应用
维度和指标

         维度                                指标


 基本维度   买家维度    卖家维度                成交庖铺
                           交易指标             行为指标       觃模指标
                                      数

                                                        上架庖铺
   时间     年龄      地区    GMV成交   Alipay成交        搜索人数
                                                          数

                                                        上架商品
                          金额       金额           搜索次数
   类目     性别     卖家信用                                     数

                                                        活跃庖铺
                          笔数       笔数           浏觅人数
   品牌     地区     卖家类型                                     数

                                                        活跃商品
                          人数       人数           浏觅次数
                                                          数
   产物    买家信用    促销方式
                         商品数      商品数           收藏人数
   属性    购买频次
                                                收藏次数

         价格区间
淘宝数据可视化[2010 SD2.0]
淘宝指数

?   下一个重要的消费者数据产物
?   完全免费
?   2011正式发布
?   改变人们购物的习惯
Thanks
新浪微博: @此处空无一人
kongwu@taobao.com

More Related Content

淘宝数据可视化[2010 SD2.0]

  • 1. 淘宝数据可规化 赵昆 Email: kongwu@taobao.com 微博 @此处空无一人
  • 3. 大纲 ? 数据可规化 ? 淘宝数据 ? 淘宝数据可规化案例 ? 程序演示(Touch) ? 淘宝数据产物 ? 海量数据处理
  • 4. 目标 ? 什么是数据可规化 ? 为什么要数据可规化 ? 淘宝为什么要致力于数据可规化 ? 数据可规化的应用和未来
  • 5. 数据可规化理念 ? Data Visualization & InfoGraphics ? 挖掘隐藏在数据背后的模式和数据之间的联系 ? 设计+研发+数据分析 ? 所想即所见,所见即所得 ? Data Visualization | Data Mining
  • 6. DataVisualization | DataMining ?DataMining ?数据挖掘通常是面向特定主题,对一个已知结论的证明,通过 预先设定的模型进行分析,给出特定的结论,其操作者必须是 数据挖掘工程师戒者专业数据分析师 ?DataVisualization ?基于算法模型提供一种可交互的应用,让数据的使用者自己去 分析,甚至去创造
  • 7. Data Visualization & InfoGraphics ?DataVisualization ?数据的可规化,主要是用直观、清晰、有效的方式将数据间的 关系、信息的关联展示出来 ?InfoGraphics ?信息图形化,主要是将信息、知识、数据用一种图形化的方式 来表达
  • 10. InfoGraphics ? Bush Speech
  • 11. 数据可规化 (信息-设计-沟通) Look & Feel Design Fields: Design, Communication, Information and their mix: Visual Communication, Data journalism, User Interface Raw elements: Look & Feel, Idea, Data Disciplines: Journalism, Information Architecture, Typography Visual Design Process elements: Visual Design, Objective, Dataset Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface Final result: Form, Concept, Knowledge Core competencies: Readability, Logic, Usability Core values: Simplicity, Informativeness, Relevance Interface Form Layout Usability Readabity Relevance Simplicity Dashboard DATA Story VISUALIZATION Knowledge Concept Informativeness Data Set Objective Logic Data Report Data Analysis Idea Information Communicati on
  • 12. 可规化目标 ? 数据太枯燥、难懂 ? 数据爆炸 ? 丌同数据之间有什么关系 ? 大量数据背后隐藏的东西
  • 13. 思考 ? 淘宝数据的价值? ? 为什么要可规化? ? 有哪些技术难点?
  • 14. 淘宝数据的特点 ? 巨大的商业价值 ? 丰富的数据类型 ? 复杂的数据关系 ? 海量 ? 真实 ? 实时采集
  • 15. 2010 在线商品数 每分钟销售商品 7亿 30000件 评价总数 日PV 15亿 20亿
  • 16. +100% +100% +138% 420亿 1000亿 2000亿 4000亿
  • 17. +76% +74% +84% +70% 5300万 9800万 1.7亿 3亿
  • 18. 如果你是一个要购物的人 ? 在浩如烟海的商品中找到我想要的 ? 满足我个性化的购物需求 ? 我丌会用电脑,丌会搜索 ? 最流行什么
  • 19. 如果你是一个商家 ? 我该卖什么 ? 最供丌应求的产物是什么 ? 如何制定我的营销计划 ? 哪里有商机
  • 20. 如果你是一个消费品生产公司 ? 行业的趋势是什么 ? 市场有多大 ? 行业的用户群特征是什么 ? 用户喜欢什么产物 ? 产物的生命周期
  • 21. 淘宝数据可规化 由于涉及一些淘宝未公开数据,接下来部分章节隐藏
  • 22. DEMO ? CatMap ? CatLinking ? KeyMap ? TaoSpace ? CatTrends ? TaoHome
  • 23. A Story of iPad
  • 24. 2010.1.4 - 2010.04.15 2010.4.3 2010.1.28 24
  • 26. iPad Matrix ? 和年龄的关系 ? 和性别的关系 iPad 16G 32G 64G WIFI 61 8 6 3G 11 6 7
  • 27. 文胸 27
  • 28. 文胸 黑色 黄色 粉红色 军绿色 28
  • 30. 数据产物 数据可视化 高性能 数据计算/挖掘 500T/日 查询 30 日新增20T 海量数据存储 总量14P 1300台服务器
  • 32. 淘宝数据量 ? 商品:10亿+ ? 类目:10000+ ? 品牌:30万+ ? 产物:100万+ ? 属性:100万+ ? 指标:交易指标、行为指标
  • 33. 淘宝数据产物架构 Cubex Index Mytaobao Listing Glider API Myfox Prom Andes SearchEngine 3rd KVProxy MySQL TC Redis Tair Cloud 33
  • 34. 相关技术 ? Glider - 通用多数据源访问计算层 ? Myfox - 分布式Mysql数据驱动层 ? Prom - 海量明细数据实时筛选汇总计算系统 ? KVProxy - 通用分布式Key/Value存储代理
  • 35. Glider2 ? 基于配置的数据中间层 ? 对多种数据源提供统一REST访问接口 ? 内置数据实时处理功能
  • 36. 骋濒颈诲别谤架构 ClientApp Dispatcher ActionCache Action DataCache Data DataSources
  • 37. Prom ? 对明细数据进行索引的筛选和数据的实时汇总计算 ? 实现对海量数据的多维度组合分析
  • 38. 笔谤辞尘架构 ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage
  • 39. KVProxy ? 多种K/V存储的统一接口 ? 内置多种数据分布和冗余方案 ? 支持离线和在线两种数据写入方式 ? 可实现底层节点无缝变更
  • 40. 碍痴笔谤辞虫测架构 ClientApp Proxy Push Nodes Node Async Write Info Server Sync WriteQueue Read Continuous Nodes Health Check writing Key-value Storage 1 2 3 N
  • 41. Myfox ? 基于Mysql Myisam存储引擎 ? 海量数据分布式存储、非实时写入 ? 提供全镜像、路由字段、记录条数、组合等数据分片觃则
  • 42. 惭测蹿辞虫架构 ClientApp Query Server Shards Merge Route Storage Real Sql Parsing Sql Nodes Query Nodes Query Info Mysql Nodes 1 2 3 N Server1 Server2 Server3
  • 44. 数据魔方 ? 淘宝第一个基于全量数据的数据产物 ? 底层基于云计算 ? 第一个成熟的、基于海量数据的商业数据产物 ? 明年计划开放数据给第三方应用
  • 45. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 成交庖铺 交易指标 行为指标 觃模指标 数 上架庖铺 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 数 上架商品 金额 金额 搜索次数 类目 性别 卖家信用 数 活跃庖铺 笔数 笔数 浏觅人数 品牌 地区 卖家类型 数 活跃商品 人数 人数 浏觅次数 数 产物 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间
  • 47. 淘宝指数 ? 下一个重要的消费者数据产物 ? 完全免费 ? 2011正式发布 ? 改变人们购物的习惯