狠狠撸

狠狠撸Share a Scribd company logo
IBM Big Data Platform




 王云
 IBM院士
 中国研究院首席技术官
                        DTCC2012
信息是新一轮机遇中的核心…                          公司需要更深入的
                                       远见卓识
未来的10


           44倍
                    2020
年里,数
据和内容
将增长
                    35 zettabytes
                                    1 in 3   商界领袖经常需要以不信任的
                                             或不存在信息为基础进行决策




                                    1 in 2   商界领袖无法获取做好本职
                                             工作所需要的信息




                                             CIO们提到的“商业智能和分析”
                                    83%
2009
800,000 petabytes
                     80%
                     的数据是非结构化的
                                             作为有远见计划的一部分来提高
                                             竞争力



                                             CEO们需要更迅速捕获和了解信息,
                                    60%      以便迅速作出业务决策来做取得更
                                             好的工作成绩




                                                DTCC2012
2
群体和个体之间交互沟通的方式发生了
翻天覆地的变换由此带来的信息量的巨增

    +         + =          A brand new game


       Consumers become increasingly instrumented




    Consumers become increasingly interconnected




      Consumers become increasingly intelligent
                                                                        DTCC2012
                           IBM Institute for Business Value CMO Study
3                          2011
Big Data 的机遇
       从巨大、以无与伦比的速度增长和多样化的数据中
         提取远见卓识,而这些是以前无法做到的




                              DTCC2012
 4
The IBM Big Data Platform




                            DTCC2012
 5
Big Data 平台能够做什么事情?
                  分析多样化的信息
                  基于大范围混合信息的上下文分析,而这种分析
                  此前根本不能执行



                  分析流动中的信息
                  流数据分析
                  针对数据爆炸和ad-hoc模式的分析


                  分析极端大量的数据
                  成本最优化地处理和分析PB量级的信息
                  管理、分析大容量的结构化和关系型数据



                  发掘和探索
                  Ad-hoc模式的分析、数据发现和验证




                  计划和管控
                                   DTCC2012
                  加强数据结构的完整性和控制,以确保可重复查询的
                  一致性
 6
Big Data 丰富了整个信息管理生态系统
                           优化归档成本     通过生活事件、爱好和角色等等使主
                                          数据变得更加丰富




    建立信息即服务                                                审计路线图精减
                                                           了工作和任务




                   优化OLTP                      谁?在什么时候?什
              (SAP, checkout, +++)             么地方?动用了什么
                                                 样的数据?

                                     管理治理过程
                                                         DTCC2012
7
互为补充的分析能力
                        传统的做法                   新的路径
                  结构化,可分析,逻辑性               创造性, 整体思维, 知觉




                                            Hadoop
                             数据仓库           Streams
     事务数据                                                           Web 日志


    来自内部应用的数据      结构化
            Structured                      非结构化         社交网络中的数据
                                               Unstructured
           Repeatable                          Exploratory
    来自主机的数据
                   可重复
                Linear               公司集成    探索性
                                               Iterative   文本数据: emails

                             线性的
           Monthly sales reports
            Profitability analysis           迭代的 strategy
                                                  Brand sentiment
                                               Product
     OLTP 系统中的数据 surveys
             Customer                             Maximum asset utilization 影像
                                                        来自传感器的数据:


        来自ERP的数据
                            传统数据源                                   RFID
                                            新数据源



                                                              DTCC2012
8
Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成


                                      可视化的实时和历史
                                      的见解




                                               数据集成,数据挖
                                               掘,机器学习,统
                                               计建模
            InfoSphere
            Streams
                         1. 数据注入
     Data
                                         InfoSphere
                         2. 数据反馈         BigInsights,
                                         Database &
                           Control       Warehouse
     数据采集,? 备,
          准
          ?                flow
     在线分析,模型
     验证

                         3. 自适应分析模型



                                           DTCC2012
 9
InfoSphere BigInsights
  Platform for volume, variety,
    velocity -- V3
  ? 增强的Hadoop方案
  Analytics for V3
  ? 文本分析的工具箱
  ? 机器学习与预测分析
  Usability
  ? Web console
  ? 集成安装
  ? 可视化工具
  ? 大数据分析的apps,如apps
    Store
  Enterprise Class
  ? 公司存储,安全,集群管理
  Integration
  ? 与DB2,Netezza, JDBC数
    据的互联互通                        DTCC2012
 10
流数据分析
        分析和关联500万市场消息/秒,                以500K/秒的速度,每天分析
        以30微秒的平均延迟执行算法期权                6B+ IPDRs,每年分析 4 PBs.
        交易。                             sustaining 1GBps.



Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量
             的节省存储等资源消耗




                           height:   height:   height:
                             640       1280      640
                           width:    width:    width:
                             480       1024      480
                           data:     data:
                                                  DTCC2012
                                               data:



11
IBM Watson
IBM Watson 是在分析创新
方面的一项重大突破,但它之
所以取得成功,完全得益于它
 处理的信息的速度和质量。

       InfoSphere Streams
 Massively parallel analysis




           InfoSphere BigInsights
      12   “Big Data” analysis (Hadoop)   DTCC2012
 12
基于BigData 平台的预测分析
                                            tokens




                                documents
                                             topics




                    documents
                                                                  words




                                                         topics
                                    V       ≈ W      x              H




                                while (i < max iteration) {
                                  H = H ? (WT V / WTWH);
                                  W = W ? (V HT / WHHT );

                                }
                                  i = i + 1;DTCC2012
13
各个行业BigData 应用的适用范围和场景
Smarter Healthcare     Multi-channel        Finance         Log Analysis
                           sales




Homeland Security      Traffic Control      Telecom         Search Quality




  Manufacturing      Trading Analytics   Fraud and Risk   Retail: Churn, NBO




                                                          DTCC2012
  14
IBM Big Data Solutions                客户和合作伙伴方案                                                规则 / 业务流程管理

                                                                                                        iLog & Lombardi



                                                                                                          数据仓库

                          Big Data 加速器                                                                  InfoSphere
                                                                                                        Warehouse


       文本        统计数据            财经                地理信息              音频信息                              数据仓库一体机


       影像/视频             挖掘            时间序列                 数学信息                                        IBM & non-IBM



          连接器                          应用                        蓝图                                      主数据管理




                                                                              INTEGRATION
                                                                                                        InfoSphere MDM



                         Big Data 公司引擎                                                                     数据库


                                                                                                        DB2 & non-IBM


                                                                                                          内容分析

          InfoSphere Streams                InfoSphere BigInsights                                         ECM


                                                                                                          业务分析

                           提升和优化生产效率




                                                                                  Information Server
                                                                                                        Cognos & SPSS

     工作负载管理和优化   配置            工作流      工作时间表           作业跟踪         数据摄入                                   营销

                                                                                                        Unica

        管理        管理工具         配置管理器        事件监控      身份和访问管理        数据保护

                                                                            DTCC2012                   数据增长管理


                                                                                                        InfoSphere Optim
15
IBM big data
                 IBM big data   ? IBM big data ? IBM big data




                       THINK


                                                                      ? IBM big data
? IBM big data
IBM big data




                 IBM big data   ? IBM big data ? IBM big data
                                                                DTCC2012

More Related Content

Dtcc ibm big data platform 2012-final_cn

  • 1. IBM Big Data Platform 王云 IBM院士 中国研究院首席技术官 DTCC2012
  • 2. 信息是新一轮机遇中的核心… 公司需要更深入的 远见卓识 未来的10 44倍 2020 年里,数 据和内容 将增长 35 zettabytes 1 in 3 商界领袖经常需要以不信任的 或不存在信息为基础进行决策 1 in 2 商界领袖无法获取做好本职 工作所需要的信息 CIO们提到的“商业智能和分析” 83% 2009 800,000 petabytes 80% 的数据是非结构化的 作为有远见计划的一部分来提高 竞争力 CEO们需要更迅速捕获和了解信息, 60% 以便迅速作出业务决策来做取得更 好的工作成绩 DTCC2012 2
  • 3. 群体和个体之间交互沟通的方式发生了 翻天覆地的变换由此带来的信息量的巨增 + + = A brand new game Consumers become increasingly instrumented Consumers become increasingly interconnected Consumers become increasingly intelligent DTCC2012 IBM Institute for Business Value CMO Study 3 2011
  • 4. Big Data 的机遇 从巨大、以无与伦比的速度增长和多样化的数据中 提取远见卓识,而这些是以前无法做到的 DTCC2012 4
  • 5. The IBM Big Data Platform DTCC2012 5
  • 6. Big Data 平台能够做什么事情? 分析多样化的信息 基于大范围混合信息的上下文分析,而这种分析 此前根本不能执行 分析流动中的信息 流数据分析 针对数据爆炸和ad-hoc模式的分析 分析极端大量的数据 成本最优化地处理和分析PB量级的信息 管理、分析大容量的结构化和关系型数据 发掘和探索 Ad-hoc模式的分析、数据发现和验证 计划和管控 DTCC2012 加强数据结构的完整性和控制,以确保可重复查询的 一致性 6
  • 7. Big Data 丰富了整个信息管理生态系统 优化归档成本 通过生活事件、爱好和角色等等使主 数据变得更加丰富 建立信息即服务 审计路线图精减 了工作和任务 优化OLTP 谁?在什么时候?什 (SAP, checkout, +++) 么地方?动用了什么 样的数据? 管理治理过程 DTCC2012 7
  • 8. 互为补充的分析能力 传统的做法 新的路径 结构化,可分析,逻辑性 创造性, 整体思维, 知觉 Hadoop 数据仓库 Streams 事务数据 Web 日志 来自内部应用的数据 结构化 Structured 非结构化 社交网络中的数据 Unstructured Repeatable Exploratory 来自主机的数据 可重复 Linear 公司集成 探索性 Iterative 文本数据: emails 线性的 Monthly sales reports Profitability analysis 迭代的 strategy Brand sentiment Product OLTP 系统中的数据 surveys Customer Maximum asset utilization 影像 来自传感器的数据: 来自ERP的数据 传统数据源 RFID 新数据源 DTCC2012 8
  • 9. Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成 可视化的实时和历史 的见解 数据集成,数据挖 掘,机器学习,统 计建模 InfoSphere Streams 1. 数据注入 Data InfoSphere 2. 数据反馈 BigInsights, Database & Control Warehouse 数据采集,? 备, 准 ? flow 在线分析,模型 验证 3. 自适应分析模型 DTCC2012 9
  • 10. InfoSphere BigInsights Platform for volume, variety, velocity -- V3 ? 增强的Hadoop方案 Analytics for V3 ? 文本分析的工具箱 ? 机器学习与预测分析 Usability ? Web console ? 集成安装 ? 可视化工具 ? 大数据分析的apps,如apps Store Enterprise Class ? 公司存储,安全,集群管理 Integration ? 与DB2,Netezza, JDBC数 据的互联互通 DTCC2012 10
  • 11. 流数据分析 分析和关联500万市场消息/秒, 以500K/秒的速度,每天分析 以30微秒的平均延迟执行算法期权 6B+ IPDRs,每年分析 4 PBs. 交易。 sustaining 1GBps. Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量 的节省存储等资源消耗 height: height: height: 640 1280 640 width: width: width: 480 1024 480 data: data: DTCC2012 data: 11
  • 12. IBM Watson IBM Watson 是在分析创新 方面的一项重大突破,但它之 所以取得成功,完全得益于它 处理的信息的速度和质量。 InfoSphere Streams Massively parallel analysis InfoSphere BigInsights 12 “Big Data” analysis (Hadoop) DTCC2012 12
  • 13. 基于BigData 平台的预测分析 tokens documents topics documents words topics V ≈ W x H while (i < max iteration) { H = H ? (WT V / WTWH); W = W ? (V HT / WHHT ); } i = i + 1;DTCC2012 13
  • 14. 各个行业BigData 应用的适用范围和场景 Smarter Healthcare Multi-channel Finance Log Analysis sales Homeland Security Traffic Control Telecom Search Quality Manufacturing Trading Analytics Fraud and Risk Retail: Churn, NBO DTCC2012 14
  • 15. IBM Big Data Solutions 客户和合作伙伴方案 规则 / 业务流程管理 iLog & Lombardi 数据仓库 Big Data 加速器 InfoSphere Warehouse 文本 统计数据 财经 地理信息 音频信息 数据仓库一体机 影像/视频 挖掘 时间序列 数学信息 IBM & non-IBM 连接器 应用 蓝图 主数据管理 INTEGRATION InfoSphere MDM Big Data 公司引擎 数据库 DB2 & non-IBM 内容分析 InfoSphere Streams InfoSphere BigInsights ECM 业务分析 提升和优化生产效率 Information Server Cognos & SPSS 工作负载管理和优化 配置 工作流 工作时间表 作业跟踪 数据摄入 营销 Unica 管理 管理工具 配置管理器 事件监控 身份和访问管理 数据保护 DTCC2012 数据增长管理 InfoSphere Optim 15
  • 16. IBM big data IBM big data ? IBM big data ? IBM big data THINK ? IBM big data ? IBM big data IBM big data IBM big data ? IBM big data ? IBM big data DTCC2012