狠狠撸

狠狠撸Share a Scribd company logo
大规模数据处理
大规模数据存储

主要内容   大规模数据分析

       大规模数据索引 in here
        Add Your Text
大规模数据存储

 Lustre :
 设计前提: 硬件是不容易坏的。
 特     点: 随机访问性能好,没有容错,规模低于 1PB ,节点失效
            后部分数据不能访问。


 HDFS :

 设计前提: 硬件是容易坏的,坏了也可以自动恢复。
 特     点: 容错,不需要人工干预,节点失效后系统任然可持续提
            供服务,规模可以扩展到 EB 。
系统结构
       主从架构 :1 台 Namenode ,多台 Datanodes
                                                             Metadata
                   Where is                            (Name, replicas, …)
                   f?                                  (/foo/data, 3, …)
     Client                       Namenode
              R1D1, R1D2,
              R2D1


 f             f                         Replication
                                                            f

Datanode      Datanode        Datanode                    Datanode       Datanode



              Rack 1                                               Rack 2
                   yahoo 最大的 Hadoop 集群包含节点 4000 台
                   ;所有 Hadoop 集群节点总共一万台
HDFS 优势
?   支持海量存储;
?   全局命名空间;
?   数据高可用性;
?   服务高可靠性;
?   系统扩展性好;
?   数据安全性;
?   易用性( vfs 兼容层);
?   支持 MapReduce 编程框架;
?   支持 Hbase 、 Hypertable 等分布式索引系统。
HDFS 不足
? 随机读性能较差;

? 只支持单一追加 ( 已满足应用需要);

? 文件写入不立即可读,不支持“ tail –f” ;

? 不支持 sync 、 mmap 和软硬链接操作;

? Namenode 是单点 ( 双机备份策略基本解决问题);

? 大量小文件会面临 Namenode 内存不足等问题;
百度应用实践 - 问题

?   存储超过 20PB 数据
?   每日新增数据超过 10TB
?   NameNode 瓶颈问题(容量和性能)
?   数据安全性
?   每周近百块故障硬盘
百度应用实践 - 对策
? 2000+ NODES

? NODES : 2*4 core , 12*1 TB disk

? 分布式 NameNode

? 访问权限控制

? 故障硬盘自动发现并淘汰
大规模数据分析

 MPI :
 设计前提: 输入数据一般不会多于 10TB ,计算很密集,计算相
         关性很强,硬件不容易坏。
 特    点: 适用于数据相关性强,迭代次数多的计算,不适合处理
         过大规模数据,节点数不超过百台,节点失效会影响全
         局。

 MapReduce :

 设计前提: 输入数据会超过 100TB ,数据全局相关性弱,硬件是
         容易坏的。
 特    点: 适用于大规模数据处理,节点规模可以达到数千台,节
         点失效对系统无影响。
MapReduce 概念模型
MapReduce 实现模型
MapReduce-Hadoop 实现
? Master-JobTracker
   – 作业与任务调度
   – 负责将中间文件信息通知给 reducer 所在的 worker
   – Master 周期性检查 Worker 的存活

? Worker-TaskTracker
   – TaskTracker 空闲 , 向 Master 要任务
   – 执行 mapper 或者 reducer 任务

? 框架所做的处理
   – 作业任务调度
   – 错误处理,失败任务自动重算
   – 防止慢作业,任务的预测执行
百度应用实践 - 问题
? 每天处理 1PB 以上数据

? 每天提交 10000+JOBs

? 多用户共享机群

? 实时 JOB 和优先级问题

? JobTracker 压力

? JAVA 语言效率

? Hadoop map-reduce 效率

? 复杂机器学习算法应用
百度应用实践 - 对策
? 可伸缩的计算资源调度系统

? 计算资源和 IO 资源的平衡

? 提高硬盘吞吐降低 IOPS

? 计算层重构 (Hadoop C++ 扩展 )

? Shuffle 和 Sort 重构 ( Hadoop C++ 扩展)
                                 扩展

? MapReduce 与 MPI 配合使用
大规模数据索引

 Mysql :
 设计前提: 数据规模不超过 100GB ,数据相关性比较强,不考虑
         服务器失效。
 特    点: 能提供复杂的 SQL 语义和事务处理,数据规模不能动态
         扩展,服务器死了,服务就会受影响。


 HBase :

 设计前提: 数据规模可能超过 PB ,数据相关性比较弱,必须实现
         分布式容错。
 特    点: 语义比较简单,事务支持有限,数据规模能动态扩展,
         节点失效,自动冗余。
Hbase
百度应用实践 - 问题和对策

? 随机访问效率偏低

? 节点故障时超时时间长

? API 易用性问题

? 与 HDFS 耦合时的稳定性问题
总结 : 正在重点解决的

? HDFS namenode 的分布式改进

? HDFS datanode 的读写异步化

? MapReduce 的 jobtracker 的分布式改进

? MapReduce 的新的作业和任务调度器

? MapReduce 的 hadoop c++ 扩展框架
总结 : 原则
? 大规模数据处理要求系统容错性好

? 规模可以通过机器数量扩展

? 为了满足容错性和扩展性,放弃兼容性

? 成熟的系统同时使用传统的方案和新方案
问题解答
Ad

More Related Content

What's hot (20)

Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
家雋 莊
?
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
?
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
Billy Yang
?
Hic2011
Hic2011Hic2011
Hic2011
baggioss
?
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
Wei-Yu Chen
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Hanborq Inc.
?
Hdfs
HdfsHdfs
Hdfs
baggioss
?
Hdfs
HdfsHdfs
Hdfs
baggioss
?
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
Chuanying Du
?
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
iammutex
?
搁别诲颈蝉介绍
搁别诲颈蝉介绍搁别诲颈蝉介绍
搁别诲颈蝉介绍
zhaolinjnu
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
Simon Hsu
?
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
?
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
家雋 莊
?
分布式系统日志处理调研
分布式系统日志处理调研分布式系统日志处理调研
分布式系统日志处理调研
klandor
?
贬补诲辞辞辫系统及其关键技术
贬补诲辞辞辫系统及其关键技术贬补诲辞辞辫系统及其关键技术
贬补诲辞辞辫系统及其关键技术
冬 陈
?
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
家雋 莊
?
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
?
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
贬顿贵厂与惭补辫搁别诲耻肠别架构研讨
Billy Yang
?
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
Wei-Yu Chen
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Hanborq Inc.
?
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
Chuanying Du
?
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
iammutex
?
搁别诲颈蝉介绍
搁别诲颈蝉介绍搁别诲颈蝉介绍
搁别诲颈蝉介绍
zhaolinjnu
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
Simon Hsu
?
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
hdhappy001
?
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
家雋 莊
?
分布式系统日志处理调研
分布式系统日志处理调研分布式系统日志处理调研
分布式系统日志处理调研
klandor
?
贬补诲辞辞辫系统及其关键技术
贬补诲辞辞辫系统及其关键技术贬补诲辞辞辫系统及其关键技术
贬补诲辞辞辫系统及其关键技术
冬 陈
?

Viewers also liked (18)

贬产补蝉别介绍
贬产补蝉别介绍贬产补蝉别介绍
贬产补蝉别介绍
Kay Yan
?
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
Kay Yan
?
骋补别蝉项目展示
骋补别蝉项目展示骋补别蝉项目展示
骋补别蝉项目展示
Kay Yan
?
奥别补惫颈苍驳作品演示
奥别补惫颈苍驳作品演示奥别补惫颈苍驳作品演示
奥别补惫颈苍驳作品演示
Kay Yan
?
百度分布式数据库平台
百度分布式数据库平台百度分布式数据库平台
百度分布式数据库平台
Wyatt Fang
?
百度分布式数据库 刘斌 Sacc2010
百度分布式数据库 刘斌 Sacc2010百度分布式数据库 刘斌 Sacc2010
百度分布式数据库 刘斌 Sacc2010
Chuanying Du
?
几种狈辞蝉辩濒介绍
几种狈辞蝉辩濒介绍几种狈辞蝉辩濒介绍
几种狈辞蝉辩濒介绍
taotao1240
?
人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析
isnull
?
雪球大数据体系实践
雪球大数据体系实践雪球大数据体系实践
雪球大数据体系实践
fulin tang
?
高性能队列贵辩耻别耻别的设计和使用实践
高性能队列贵辩耻别耻别的设计和使用实践高性能队列贵辩耻别耻别的设计和使用实践
高性能队列贵辩耻别耻别的设计和使用实践
孙立
?
?MongoDB 在盛大大数据量下的应用
?MongoDB 在盛大大数据量下的应用?MongoDB 在盛大大数据量下的应用
?MongoDB 在盛大大数据量下的应用
iammutex
?
大数据时代feed架构 (ArchSummit Beijing 2014)
大数据时代feed架构 (ArchSummit Beijing 2014)大数据时代feed架构 (ArchSummit Beijing 2014)
大数据时代feed架构 (ArchSummit Beijing 2014)
Tim Y
?
新浪微博贵别别诲服务架构
新浪微博贵别别诲服务架构新浪微博贵别别诲服务架构
新浪微博贵别别诲服务架构
XiaoJun Hong
?
深入了解搁别诲颈蝉
深入了解搁别诲颈蝉深入了解搁别诲颈蝉
深入了解搁别诲颈蝉
iammutex
?
大鱼架构演进
大鱼架构演进大鱼架构演进
大鱼架构演进
Jun Liu
?
Hype vs. Reality: The AI Explainer
Hype vs. Reality: The AI ExplainerHype vs. Reality: The AI Explainer
Hype vs. Reality: The AI Explainer
Luminary Labs
?
Study: The Future of VR, AR and Self-Driving Cars
Study: The Future of VR, AR and Self-Driving CarsStudy: The Future of VR, AR and Self-Driving Cars
Study: The Future of VR, AR and Self-Driving Cars
LinkedIn
?
贬产补蝉别介绍
贬产补蝉别介绍贬产补蝉别介绍
贬产补蝉别介绍
Kay Yan
?
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
Kay Yan
?
骋补别蝉项目展示
骋补别蝉项目展示骋补别蝉项目展示
骋补别蝉项目展示
Kay Yan
?
奥别补惫颈苍驳作品演示
奥别补惫颈苍驳作品演示奥别补惫颈苍驳作品演示
奥别补惫颈苍驳作品演示
Kay Yan
?
百度分布式数据库平台
百度分布式数据库平台百度分布式数据库平台
百度分布式数据库平台
Wyatt Fang
?
百度分布式数据库 刘斌 Sacc2010
百度分布式数据库 刘斌 Sacc2010百度分布式数据库 刘斌 Sacc2010
百度分布式数据库 刘斌 Sacc2010
Chuanying Du
?
几种狈辞蝉辩濒介绍
几种狈辞蝉辩濒介绍几种狈辞蝉辩濒介绍
几种狈辞蝉辩濒介绍
taotao1240
?
人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析
isnull
?
雪球大数据体系实践
雪球大数据体系实践雪球大数据体系实践
雪球大数据体系实践
fulin tang
?
高性能队列贵辩耻别耻别的设计和使用实践
高性能队列贵辩耻别耻别的设计和使用实践高性能队列贵辩耻别耻别的设计和使用实践
高性能队列贵辩耻别耻别的设计和使用实践
孙立
?
?MongoDB 在盛大大数据量下的应用
?MongoDB 在盛大大数据量下的应用?MongoDB 在盛大大数据量下的应用
?MongoDB 在盛大大数据量下的应用
iammutex
?
大数据时代feed架构 (ArchSummit Beijing 2014)
大数据时代feed架构 (ArchSummit Beijing 2014)大数据时代feed架构 (ArchSummit Beijing 2014)
大数据时代feed架构 (ArchSummit Beijing 2014)
Tim Y
?
新浪微博贵别别诲服务架构
新浪微博贵别别诲服务架构新浪微博贵别别诲服务架构
新浪微博贵别别诲服务架构
XiaoJun Hong
?
深入了解搁别诲颈蝉
深入了解搁别诲颈蝉深入了解搁别诲颈蝉
深入了解搁别诲颈蝉
iammutex
?
大鱼架构演进
大鱼架构演进大鱼架构演进
大鱼架构演进
Jun Liu
?
Hype vs. Reality: The AI Explainer
Hype vs. Reality: The AI ExplainerHype vs. Reality: The AI Explainer
Hype vs. Reality: The AI Explainer
Luminary Labs
?
Study: The Future of VR, AR and Self-Driving Cars
Study: The Future of VR, AR and Self-Driving CarsStudy: The Future of VR, AR and Self-Driving Cars
Study: The Future of VR, AR and Self-Driving Cars
LinkedIn
?
Ad

Similar to 大规模数据处理 (20)

Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
?
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
?
Hdfs raid migration to hadoop 1.x
Hdfs raid migration to hadoop 1.x Hdfs raid migration to hadoop 1.x
Hdfs raid migration to hadoop 1.x
Jiang Yu
?
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
TrendProgContest13
?
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
liu sheng
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Schubert Zhang
?
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
?
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
SuperheroY
?
Introduction of Spark by Wang Haihua
Introduction of Spark by Wang HaihuaIntroduction of Spark by Wang Haihua
Introduction of Spark by Wang Haihua
Wang Haihua
?
贬补诲辞辞辫与数据分析
贬补诲辞辞辫与数据分析贬补诲辞辞辫与数据分析
贬补诲辞辞辫与数据分析
George Ang
?
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
?
Voldemort Intro Tangfl
Voldemort Intro TangflVoldemort Intro Tangfl
Voldemort Intro Tangfl
fulin tang
?
贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台
Jacky Chi
?
Track1dongsiying4
Track1dongsiying4Track1dongsiying4
Track1dongsiying4
drewz lin
?
Big Java, Big Data
Big Java, Big DataBig Java, Big Data
Big Java, Big Data
Kuo-Chun Su
?
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
?
搁别诲颈蝉分享
搁别诲颈蝉分享搁别诲颈蝉分享
搁别诲颈蝉分享
yiihsia
?
贬产补蝉别使用丑补诲辞辞辫分析
贬产补蝉别使用丑补诲辞辞辫分析贬产补蝉别使用丑补诲辞辞辫分析
贬产补蝉别使用丑补诲辞辞辫分析
baggioss
?
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
?
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
?
Hdfs raid migration to hadoop 1.x
Hdfs raid migration to hadoop 1.x Hdfs raid migration to hadoop 1.x
Hdfs raid migration to hadoop 1.x
Jiang Yu
?
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
TrendProgContest13
?
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层顿础尝架构和实践5(刘胜)数据分片和分页
liu sheng
?
贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验贬补诲辞辞辫大数据实践经验
贬补诲辞辞辫大数据实践经验
Schubert Zhang
?
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
?
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
第8章-贬补诲辞辞辫架构再探讨.辫辫迟贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫贬补诲诲辞辞辫
SuperheroY
?
Introduction of Spark by Wang Haihua
Introduction of Spark by Wang HaihuaIntroduction of Spark by Wang Haihua
Introduction of Spark by Wang Haihua
Wang Haihua
?
贬补诲辞辞辫与数据分析
贬补诲辞辞辫与数据分析贬补诲辞辞辫与数据分析
贬补诲辞辞辫与数据分析
George Ang
?
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
?
Voldemort Intro Tangfl
Voldemort Intro TangflVoldemort Intro Tangfl
Voldemort Intro Tangfl
fulin tang
?
贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台贬补诲辞辞辫-分布式数据平台
贬补诲辞辞辫-分布式数据平台
Jacky Chi
?
Track1dongsiying4
Track1dongsiying4Track1dongsiying4
Track1dongsiying4
drewz lin
?
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
?
搁别诲颈蝉分享
搁别诲颈蝉分享搁别诲颈蝉分享
搁别诲颈蝉分享
yiihsia
?
贬产补蝉别使用丑补诲辞辞辫分析
贬产补蝉别使用丑补诲辞辞辫分析贬产补蝉别使用丑补诲辞辞辫分析
贬产补蝉别使用丑补诲辞辞辫分析
baggioss
?
Ad

大规模数据处理

  • 2. 大规模数据存储 主要内容 大规模数据分析 大规模数据索引 in here Add Your Text
  • 3. 大规模数据存储 Lustre : 设计前提: 硬件是不容易坏的。 特 点: 随机访问性能好,没有容错,规模低于 1PB ,节点失效 后部分数据不能访问。 HDFS : 设计前提: 硬件是容易坏的,坏了也可以自动恢复。 特 点: 容错,不需要人工干预,节点失效后系统任然可持续提 供服务,规模可以扩展到 EB 。
  • 4. 系统结构 主从架构 :1 台 Namenode ,多台 Datanodes Metadata Where is (Name, replicas, …) f? (/foo/data, 3, …) Client Namenode R1D1, R1D2, R2D1 f f Replication f Datanode Datanode Datanode Datanode Datanode Rack 1 Rack 2 yahoo 最大的 Hadoop 集群包含节点 4000 台 ;所有 Hadoop 集群节点总共一万台
  • 5. HDFS 优势 ? 支持海量存储; ? 全局命名空间; ? 数据高可用性; ? 服务高可靠性; ? 系统扩展性好; ? 数据安全性; ? 易用性( vfs 兼容层); ? 支持 MapReduce 编程框架; ? 支持 Hbase 、 Hypertable 等分布式索引系统。
  • 6. HDFS 不足 ? 随机读性能较差; ? 只支持单一追加 ( 已满足应用需要); ? 文件写入不立即可读,不支持“ tail –f” ; ? 不支持 sync 、 mmap 和软硬链接操作; ? Namenode 是单点 ( 双机备份策略基本解决问题); ? 大量小文件会面临 Namenode 内存不足等问题;
  • 7. 百度应用实践 - 问题 ? 存储超过 20PB 数据 ? 每日新增数据超过 10TB ? NameNode 瓶颈问题(容量和性能) ? 数据安全性 ? 每周近百块故障硬盘
  • 8. 百度应用实践 - 对策 ? 2000+ NODES ? NODES : 2*4 core , 12*1 TB disk ? 分布式 NameNode ? 访问权限控制 ? 故障硬盘自动发现并淘汰
  • 9. 大规模数据分析 MPI : 设计前提: 输入数据一般不会多于 10TB ,计算很密集,计算相 关性很强,硬件不容易坏。 特 点: 适用于数据相关性强,迭代次数多的计算,不适合处理 过大规模数据,节点数不超过百台,节点失效会影响全 局。 MapReduce : 设计前提: 输入数据会超过 100TB ,数据全局相关性弱,硬件是 容易坏的。 特 点: 适用于大规模数据处理,节点规模可以达到数千台,节 点失效对系统无影响。
  • 12. MapReduce-Hadoop 实现 ? Master-JobTracker – 作业与任务调度 – 负责将中间文件信息通知给 reducer 所在的 worker – Master 周期性检查 Worker 的存活 ? Worker-TaskTracker – TaskTracker 空闲 , 向 Master 要任务 – 执行 mapper 或者 reducer 任务 ? 框架所做的处理 – 作业任务调度 – 错误处理,失败任务自动重算 – 防止慢作业,任务的预测执行
  • 13. 百度应用实践 - 问题 ? 每天处理 1PB 以上数据 ? 每天提交 10000+JOBs ? 多用户共享机群 ? 实时 JOB 和优先级问题 ? JobTracker 压力 ? JAVA 语言效率 ? Hadoop map-reduce 效率 ? 复杂机器学习算法应用
  • 14. 百度应用实践 - 对策 ? 可伸缩的计算资源调度系统 ? 计算资源和 IO 资源的平衡 ? 提高硬盘吞吐降低 IOPS ? 计算层重构 (Hadoop C++ 扩展 ) ? Shuffle 和 Sort 重构 ( Hadoop C++ 扩展) 扩展 ? MapReduce 与 MPI 配合使用
  • 15. 大规模数据索引 Mysql : 设计前提: 数据规模不超过 100GB ,数据相关性比较强,不考虑 服务器失效。 特 点: 能提供复杂的 SQL 语义和事务处理,数据规模不能动态 扩展,服务器死了,服务就会受影响。 HBase : 设计前提: 数据规模可能超过 PB ,数据相关性比较弱,必须实现 分布式容错。 特 点: 语义比较简单,事务支持有限,数据规模能动态扩展, 节点失效,自动冗余。
  • 16. Hbase
  • 17. 百度应用实践 - 问题和对策 ? 随机访问效率偏低 ? 节点故障时超时时间长 ? API 易用性问题 ? 与 HDFS 耦合时的稳定性问题
  • 18. 总结 : 正在重点解决的 ? HDFS namenode 的分布式改进 ? HDFS datanode 的读写异步化 ? MapReduce 的 jobtracker 的分布式改进 ? MapReduce 的新的作业和任务调度器 ? MapReduce 的 hadoop c++ 扩展框架
  • 19. 总结 : 原则 ? 大规模数据处理要求系统容错性好 ? 规模可以通过机器数量扩展 ? 为了满足容错性和扩展性,放弃兼容性 ? 成熟的系统同时使用传统的方案和新方案