狠狠撸

狠狠撸Share a Scribd company logo
Hadoop在云上的最佳实践
阿里云技术专家封神
自我介绍
曹龙/封神
专注在大数据领域,6年分布式引擎研发经验;
先后维护上万台Hadoop、ODPS集群;
先后负责阿里YARN、spark及自主研发内存计算引擎;
目前为广大公共云用户提供专业的Hadoop服务,即:E-mapreduce产物
微博:阿里封神
微信:fengshenwukong
博客:云栖社区封神
提纲
? 阿里巴巴Hadoop发展历程
? 云上Hadoop的部署架构
? 云上Hadoop的优势
? 云上Hadoop的挑战
? 云上Hadoop的最佳实践
阿里巴巴Hadoop发展历程
09年
开始研究
Hadoop
13年
双机房国内
最大的
Hadoop集
群之一
14年
登月计划
内部迁移
到ODPS
15年
对外提供
Hadoop能
力
Hadoop生态
ECS
EMR Agent Layer
HDFS
YARN
MapReduce/TEZ
pig Hive
HUE Zeppelin notebook
Spark Core
Tachyon
Spark
SQL
Spark
Graphx
Spark
Mllib
Spark
Streaming
Hbase
Other Engine
eg:storm
impala、
flink等其它开源
软件
EMR Web User Admin
云上Hadoop的部署架构-经典部署
NM
DN
NM
DN
NM
DN
NM
DN
NM
DN
NM NM
RM
NN
RM
NN
Master NodeCore Node Task Node
云上Hadoop的部署架构-存储计算分离
NM NM NM
RM OSS
NM
DN
NM
DN
NM
DN
RM
NN
OSS
workerworker
HDFS DataNode作为Proxy来访问数据,提供HDFS语义
计算直接访问OSS
Incorporate Aliyun OSS file system implementation
Patch:HADOOP-12756
云上Hadoop的部署架构-元数据共享
OSSRDS
Hive元数据
Spark/TEZ/MR
hive
访问元数据
Spark/TEZ/MR
hive
访问元数据
HDFS HDFS
临时集群 永久集群
数据存储
数据存储
pig
云上Hadoop的部署架构-VPC模式
ECS
ECS
ECS
E-mapreduce
E-mapreduce
VPC
ECS
公网构建虚拟子网,与外部隔离
云上Hadoop的部署架构-混合云模式
Oracle ERP CRM
E-mapreduce ECS
线下系统
线上系统
专线
OSS
VPC
云上Hadoop的优势-易用
易于部署,分钟开启 任务编排,监控,报警
云上Hadoop的优势-低成本
EMR成本 自建成本
包年包月
动态扩容
节约成本
按时付费
存储计算分离
计算想用才付费
云上Hadoop的优势-深度整合
E-mapreduce
跟阿里云其它产物深度整合
ECS
OSS
RDS
MongoDB
Redis
ONS
MNS
Log Service
ODPS
云上Hadoop的优势-可靠、安全、专业
RAM: 主子账号整合阿里云RAM资源权限管理系统
VPC:构建出一个隔离的网络环境,可以云上云下互动
监控您集群的状态
Hadoop针对云进行一系列优化
专业的Hadoop生态专家团队
云上Hadoop的挑战-Shuffle
ECS
Local disk
? 添加本地磁盘,加速Shuffle
? push shuffle占用磁盘IO低,如:flink dataflow等,
checkpoint采取异步做法
? 机器学习等场景瓶颈往往是CPU
? 往往ETL一天只需要跑几个小时,可以按需运行
? SSD与SATA混合,加速写
ECS
Local disk
ECS ECS
W SSDR STAT
云上Hadoop的挑战-本地化
? 机器学习场景往往会缓存较大的数据
? ETL一天只需要跑几个小时,可以按需运行
? 数据压缩可以减少带宽的压力
? 目前带宽逐渐不是稀缺资源
iops
Latency
ECS ECS
OSS
Network
10~20 Gbps
2009 2016
memory
network
disk 800Mbps 1200Mbps
12g 96g~192g
1Gbps 10Gbps~20Gbps 10~100倍
8~16倍
1~2倍
云上Hadoop的挑战-自动化运维
虚拟化
Hadoop运维自动化
作业管理,任务编排
监控、报警
用户的业务
集群数多了,啥事情都有了
? Master HA高可用
? Master NN的元数据高可用
? Hive元数据高可用
? 各种日志清理等
? 节点挂掉,自动补回
? Datanode掉线处理
? NodeManager掉线处理
? Job运行监控报警
? 负载过高监控报警
? 节点数据均衡
? 单节点扩容
? 版本自动升级
? 重要数据备份
? Hbase等指标监控报警
? Storm等指标监控报警
……
云上Hadoop的挑战-专家建议
? 是否需要扩容
? Hive SQL,可以给SQL评分,给出最优写法
? 分析存储,比如:指明是否需要压缩;小文
件是否过多,是否需要合并;访问记录分析,
是否可以把冷数据归档处理
? 分析运行时各种JOB统计信息,如:Job的map
时间是否过小,运行时reduce是否数据倾斜,
单个job是否有一些参数调整
……
最佳实践-混合使用节约成本
OSS
线下数据可以直接上OSS
按需成本
EMR按需
每天晚上0:00~2:00
选择CPU/高效存储的机器
共享Hive元数据
? OSS存储,降低成本
? 按需执行离线分析,降低成本
? 根据作业类型(IO/CPU/Memory bound)选择机器规格
? 选择节点少大规格的集群
? 测试环境小规格/生产环境高规格
一部分数据
需要处理
EMR包年
运营查询
选择内存大的机器
最佳实践-离线处理-用户行为分析
业务场景:
直播会产生很多的用户行为数据,包括页
面的浏览,按钮的点击情况。直播服务端会把
这些信息存储在OSS中。
再启动EMR中的hive脚本分析这些数据,如:
统计pv、uv,再把每个链接的访问情况存储在
RDS中,最后通过报表系统展示给运营同学。
RDS
EMR
Hive脚本
OSS
ECS
Server
报表展示系统运营/开发
最佳实践-离线处理+在线服务-多维度统计信息
EMR
Spark API
Hbase/OTS
ECS
Server
Hbase/OTS查询服务用户
业务场景:
车载APP会实时上传汽车的物理指标包括
(电池电量电压、车速,发动机功耗等),通
过EMR进行引擎进行离线分析,按照城市的粒
度,即分析出来某个城市某个时段的车辆出行
率、出行里程平均值、车速平均值、平均油耗、
出行车辆数、平均怠速时间、某个局域激烈驾
驶的次数等统计信息。这些信息会给政府部门
使用。
最佳实践-在线离线混合
RDS
LogService
ECS
Server
RDS运营/开发
包年 EMR
Spark Streaming
Spark Mllib
按需 EMR
Spark SQL/Mllib
展示系统
OSS
节约成本
业务场景:
需要统计小时以内的各种维度的UV数据,
从A页面进入B页面的数据。方便运营同学做更
好的营销方案。
另外,一些主题小组内的页面排序,希望
根据用户的浏览情况自动排序。
最佳实践-Hadoop相关
? 避免小文件,OSS存储文件大小大约为1-2G
? 每个task 60s,速度大约20-30MB/s
? 数据压缩
? 减少存储空间
? 减少成本
? 减少数据传输时间
? 降低磁盘IO
? hive on tez
? 尝试使用spark等新的计算引擎
压缩算法 压缩后空间 压缩速率 解压速率
GZIP 14% 20MB/s 118MB/s
LZO 20% 140MB/s 410MB/s
snappy 22% 170MB/s 409MB/s
最佳实践-通过监控指标找瓶颈
运行作业 发现瓶颈 解决问题
从CPU、磁盘、网络、内存
作业本身
欢迎使用阿里云E-Mapreduce! 我们正在招聘!
QA
Ad

Recommended

Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
Hubert Fan Chiang
?
Mapreduce
Mapreduce
瑤瑤 吳
?
How We Prepared Etu Hadoop Competition 2014
How We Prepared Etu Hadoop Competition 2014
Yuen-Kuei Hsueh
?
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
?
Track A-1: Cloudera 大数据產品和技術最前沿資訊報告
Track A-1: Cloudera 大数据產品和技術最前沿資訊報告
Etu Solution
?
When R meet Hadoop
When R meet Hadoop
Jazz Yao-Tsung Wang
?
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
?
The practice of enjoying apache
The practice of enjoying apache
jixuan1989
?
大数据
大数据
brian401777
?
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
Hadoop 介紹 20141024
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
?
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
?
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
?
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
Jazz Yao-Tsung Wang
?
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
?

More Related Content

What's hot (8)

大数据
大数据
brian401777
?
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
Hadoop 介紹 20141024
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
?
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
?
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
?
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
Jazz Yao-Tsung Wang
?
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
?
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
?
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
?
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
?
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
?

阿里云贬补诲辞辞辫在云上的最佳实践