端端舝

WE SEE,
WE REFORM.
暹舑褪撮嘖爺衄癹鼠侗
APACHE HADOOP AND
CDH價掛賡畿
Anna Yen2016 Oct

Hadoop岆珨�汜颷炵緙ㄛ祥岆�珨炵緙﹝
朼祫褫夔栳趙傖㩞�汜颷炵緙＃
Hadoop2
Copyright ? 2016 Athemaster All rights reserved

Google腔芫𡡷
1.? 湮講鋒�腔�湔
2.? 刲𣱣栳呾楊
3.? 齬靡�呾�觳
3
Google腔腴傖掛習謹
祥妏蚚閉��嚶ㄛ妏蚚湮講腔
癶籵侜督け﹝
�ヶ齬靡菴媼腔閉��嚶
藝�砎䀝竪�模��弅腔 Titan岆
珨� Cray?XK7 炵緙ㄛ岆
NVIDIA?㇄倛�燴け睿�緙腔 16
瞄 AMD?Opterons �燴け腔摩磁
闚ㄛ�僕綉衄 560,640 ��呾瞄
陑ㄛ淕�閉��呾炵緙褫絻藩鏃
17.6 カ欳棒腔腹𡡷綅呾厒僅﹝

Hadoop腔栳筳
“? 2003爛 - Google追桶�傷綅呾�恅 (GFS/Bigtable/MapReduce)
“? 2004爛 - Doug Cutting 嶱溫埻宎徨�釬NDFS
“? 2004爛 - Google追�MapReduce腔殤�
“? 2005爛
∟? Doug Cutting�釬MapReduce
∟? Nutch橃偶筳⻌Apache價踢𩂰
“? 2006爛 - Doug Cutting椙Nutch蜊靡鮋Hadoopㄛ樓⻌Yahoo㇅�
“? 2006爛?- MapReduce睿NDFS煦�e掩慮⻌Hadoop橃偶
“? 2008爛 - Yahoo哫票絻傖 10000-core Hadoop cluster
“? 2009爛
∟? Yahoo勹賸岍賜廢�1T腔揃蹋煦昴(62鏃)ㄛ湖㷍Google腔68鏃﹝
∟? Doug Cutting樓⻌Cloudera
4
揃蹋�埭ㄩ
http://kevin731008.blogspot.tw/2013/01/
hadoop-map-reduce-pc-doug-cutting.html

Hadoop郔場腔瞄陑鷂啋璃
HDFS
Map-
Reduce
Hbase
5

ASFㄩ嶱埭�闚腔蛔斻
6
眕Apache HTTP侜督け鮋笢陑追桯腔跪意橃偶
https://zh.m.wikipedia.org/zh-tw/Apache%E8%BD%AF
%E4%BB%B6%E5%9F%BA%E9%87%91%E4%BC%9A

Hadoop in 2013
7

Hadoop in 2015
8

Hadoop = 湮㩞𨫋ˋ
9
足? Hadoop岆珨�Apache腔橃偶(摩)
足? Hadoop岆珨�煦汃宒�湔ⅸ俴綅呾ⅸ怢
足? 褫�燴PB�湮講㩞𨫋
足? 翋猁瞄陑耀瞎:
足? HDFS(Hadoop Distributed File System)(煦汃宒湔�㷌偶炵緙)
足? Hbase(NoSQL揃蹋𤪕)
足? MapReduce(ⅸ俴綅呾瞄陑)

Hadoopʊ湮妀蚚ⅲ齪
11/30/16Copyright ? 2016 Athemaster All rights reserved
10
眕Apache Hadoop鮋瞄陑ㄛ蜇樓赻
衄腔�摩奪燴鷂�摩假�埻璃﹝岆窒
煦�闚忨跃鷂窒煦撮胍盓堔督�腔恚
磁倰家ⅲ﹝
80%埻汜Apache Hadoop
�捼俇�嶱埭腔撮胍盓堔督
�鮋翋腔家ⅲ﹝
100%埻汜Apache
Hadoop
�捼揃蹋假�腔寯熵倰家ⅲㄛ
眕�闚忨跃鮋翋﹝
眒�祥岆埻汜Apache
Hadoop﹝

Cloudera Distribution Including Apache
Hadoop
CDH11

12
Cloudera腔翋爀華弇
2008
CLOUDERA
FOUNDED BY MIKE
OLSON
AMR AWADALLAH

JEFF
HAMMERBACHER
2009
HADOOP
CREATOR DOUG
CUTTING JOINS
CLOUDERA
2009
CLOUDERA RELEASES
CDH THE FIRST
COMMERCIAL
APACHE HADOOP
DISTRIBUTION
2010
CLOUDERA
MANAGER:
FIRST
MANAGEMENT
APPLICATION FOR
HADOOP
2011
CLOUDERA
REACHES 100
PRODUCTION
CUSTOMERS
2011
CLOUDERA
UNIVERSITY
EXPANDS TO 140
COUNTRIES
2012
CLOUDERA
ENTERPRISE 4
THE STANDARD FOR
HADOOP IN THE
ENTERPRISE
2012
CLOUDERA
CONNECT
REACHES 300
PARTNERS
2014
THE ENTERPRISE
DATA HUB
LAUNCHED
2013
CLOUDERA IMPALA
CLOUDERA
NAVIGATOR
CLOUDERA SEARCH
2013
TOM REILLY JOINS AS
CEO
OVER 800 PARTNERS
IN CLOUDERA
CONNECT
CDH
Cloudera
Manager
CLOUDERA
ENTERPRISE
4
ASK BIGGER
QUESTIONS
ENTERPRISE
DATA HUB

Hadoop汜颷炵緙
13
11/30/16
Copyright ? 2016 Athemaster

CDH汜颷炵緙
14
11/30/16

Cloudera 磁釬漞圈?颷炵
15
11/30/16 Copyright ? 2016 Athemaster

Enterprise DATA HUB
Enterprise Data Lake
16
Data System
㩞𨫋炵緙
Data Source
�埭㩞𨫋
RDBMS
OLTP
OLAP
Sentiment
Stream
Geo
Sensor
Data Access
㩞𨫋湔龰
妀𦲀煦昴
諦庨趙麐蚚炵
緙
杶娊麐蚚炵緙
Process
㩞𨫋�燴
Ingest瑨龰
-Scoop-
-Flume-
-Kafka-
Transform
滖𡥼
-MapReduce-
-Hive-
-Pig-
-Spark-

Discover
㩞𨫋阼橢
Analytic
Database
-Impala-
Search
-Solr-
Model
㩞𨫋耀倰
[SAS]
[R]
-Spark-
-
Mahout-
Serve
㩞𨫋督�
NoSQL DB
-HBase-
Streaming
-Spark
Streaming-
Security and Administration
Unlimited Storage
-HDFS, Hbase, Kudu-
ETL ETL

Hadoop Cluster
“? 珨瞎�俴HDFS眕摯MapReduce腔辻けㄛ扂�想鮋
Hadoop�摩(Cluster)ㄛ珨��摩蚕嗣�翋辻(Host)瞎傖﹝
“? 秪煦汃(�)宒�湔腔杻俶ㄛ埻汜揃蹋悵�辻秶﹝
“? ⅸ俴綅呾腔杻俶褫�燴PB脹�腔揃蹋�耀﹝
“? 埻�t奻翋辻埣嗣虴夔埣槽﹝
“? 翋辻腔價掛瞎磁
∟? Master Host x 2
∟? Worker Host x 3 (Replica=3)
∟? Utility Host x 1 (Optional)
∟? Edge Host x 1 (Optional)
17
11/30/16

Master Hosts
“? 翋猁￤�鮋�俴Hadoop瞄陑最唗
“? 珨��摩饜离㩞講鮋2~3�(1�撈褫綅釬)
“? 價掛褒伎煦饜(督�饜离)
18
11/30/16
Master Host 1:
NameNode
JournalNode
FailoverController
YARN ResourceManager
ZooKeeper
JobHistory Server
Master Host 2:
NameNode
JournalNode
FailoverController
YARN ResourceManager
ZooKeeper
Impala StateStore

Worker Hosts
“? 翋猁￤��俴DataNodes督�鷂［坻煦票宒最
唗ㄛ瞰⺼Impala
“? 價掛褒伎煦饜(督�饜离)
∟? DataNode
∟? NodeManager
∟? Impala
19
11/30/16

Utility and Edge Hosts
“? 褫眕磁�婓珨怢翋辻奻﹝
“? 砫褫��摩湮苤ㄛ煦褩
Utility Host鷂Edge Host﹝
“? Utility Host゛眕�俴
Hadoop�摩最唗鮋翋﹝
Edge Host�t籵都岆諦𡠹傷
妏蚚氪腔湔龰𡡷ㄛ⺼彆衄準
Hadoop腔麐蚚最唗珩籵都
偞离婓森翋辻奻﹝
20
11/30/16

HDFS
“? HDFS 岆 Hadoop Distributed File System 腔
窺�
“? HDFS 夔枑鼎操講腔㩞𨫋湔龰, 準都羥磁湮�耀
腔㩞𨫋煦昴﹝坳蕼偞腔Block湮苤鮋 64MB,藩珨
�Block婓嗣� DataNode 飲褫眕衄萵掛, 諦
𡠹傷籵綎 NameNode 腕善Block腔弇离﹝
“? HDFS鷂［坻煦汃(�)宒恅璃炵緙掀廌ㄛ［羥蚚
杻俶岆※珨棒�⻌, 嗣棒莮龰§ (Write-once-
read-many) 揃蹋耀倰﹝
21
11/30/16

Yarn MapReduce2
“? MapReduce岆珨�蚚�筳俴�呾腔￤�硌巖
最唗
“? 鮋賸賤𢜪虴夔丶蟊ㄛ2012爛�綎笭�
22
11/30/16

Zookeeper
“? ZooKeeper ⺼肮［靡想岆◇�昜㇀奪燴�T◆ㄛ
岆鏽�奪◇湮砓ㄗHadoopㄘ◆﹜◇蹲瑚
ㄗHiveㄘ◆脹腔奪燴�T﹝垀眕坳岆蚚婓�摩虐噫
笢ㄛ蚚�肮祭跪�呾�𡡷腔偞隅�⺍ㄗ竭褫洇祥
岆偞隅㷌肮祭ㄛ麐�硐岆珨虳�俴蕆僇腔�㩞ㄘ
“? �Kブ樈腢薆凈ㄛHBase 鏽 ZooKeeper �蕦辻樈
腢 HMaster �變婓闡珨怢﹝ZooKeeper 賤𢜪賸
�𡡷囮虴腔�觳﹝
23
11/30/16
揃蹋�埭ㄩ怢丄 Hadoop 撮胍��^(Jazz Wang)

Sqoop
“? Sqoop = SQL to Hadoop
“? Sqoop 埰偝妏蚚氪袵燊�宒揃蹋𤪕(RDBMS)笢
𤞏龰揃蹋善 Hadoopㄛ鼎摽鴦煦昴妏蚚﹝
“? Sqoop 珩夔椙煦昴磐彆�R⻌揃蹋𤪕ㄛ鼎［坻蚚
𡠹傷最宒妏蚚
“? Sqoop斛��麐祥肮腔燊�宒揃蹋𤪕(朼祫衄唳
掛癹秶)�腢蚚Connector
24
11/30/16
揃蹋�埭ㄩJazz Wang

Flume
“? Cloudera垀嶱追腔煦汃宒゜庹彶摩炵緙ㄛ
2009爛掩曇�賸Apache�闚價踢𩂰
“? Flume 翋猁蚚黺準磐�趙㩞𨫋腔爀⻌ㄛ�K椙稛
虳㩞講�湮腔㩞𨫋袵跪意�埭摩笢お��湔
“? Flume撿衄詢褫蚚鷂煦汃宒饜离腔杻俶ㄛ
Facebook鏽坳�麐蚚婓鋒繚�𡡷岈璃腔�燴
奻﹝
25
11/30/16

Hive
“? Jeff Hammerbacher ㇅�婓�𤩸(Facebook)湖婖腔揃
�ⅸ怢笢ㄛ郔湮�傖猁匼眳珨
“? Hive 岆膘�黺 Hadoop 眳奻腔揃蹋�}�遺殤(a
framework for data warehousing)﹝
“? Hive 岆�緻撿��湮 SQL 撮夔(�s�椰 Java 最宒偞�撮
夔)腔煦昴��,蚚�脤��𤩸湔黺 HDFS 腔漆講揃蹋﹝
“? SQL 𤒇衄莬鮋𦲀賜抇眭腔�湮��﹝岆妀𦲀秷雌
(business intelligence)腔籵蚚惤楊(lingua franca,憩砉
ODBC 岆籵蚚点諉け珨畭),秪森 Hive 夔鷂稛虳妀ⅲ酕駟
躇腔淕磁﹝
26
11/30/16

Hive vs. RDBMS
27
11/30/16

Impala
“? Impala岆Cloudera垀嶱追蚚黺Hadoop腔SQL Query
馱撿ㄛ黺2016爛曇緻Apache�闚價踢𩂰﹝
“? 蚚芴鷂Hive眈輪ㄛ筍岆厒僅辦竭嗣ㄛ醴ゴ褫妏蚚腔脤�惤
曆躲Hive珨畭ㄛCDH 5.8唳掛衱崝樓賸陔腔髡夔﹝
28
11/30/16

Hbase
“? HDFS (Hadoop Distributed File System) �腔
揃蹋螜�岆煦汃�湔ㄛ �s岆眕㷌偶腔倰宒湔溫ㄛ
�K祥盓堔蕦辻湔龰 (Random Reads and
Writes) 腔髡夔﹝
“? 鮋賸載源晞湔龰婓 Hadoop 虐噫狟腔揃蹋ㄛ
HBase 麐綅奧汜ㄛ枑鼎珨��侔揃蹋𤪕腔�湔
虐噫ㄛ秪鮋鷂燊�宒揃蹋𤪕殤�奻衄婡湮腔祥
肮ㄛ稛�倰腔揃蹋𤪕籵都想眳鮋 NoSQL 揃蹋𤪕﹝
“? HBase 腔揃蹋岆眕 Key-Value 腔源宒湔溫﹝
29
11/30/16
揃蹋�埭ㄩhttp://www.haredb.com/HareDB/src_tw/About.aspx?l=4

Cloudera Manager
“? 蚕Cloudera嶱追蚚黺窒扰﹜鋤綅Hadoop�摩
腔馱撿﹝
“? �政假娊霜最赻�趙﹜㇄倛賜醱屠諷�x桶啣﹜
�摩饜离�載摩笢趙眕摯家堤�摩𡋾颷屠諷�
桶脹脹﹝
“? 湮窒煦髡夔婓轎愐腔扦�唳掛笢歙褫妏蚚ㄛ屾
㩞髡夔剒猁�惁�闚忨跃﹝
30
11/30/16

Cloudera Navigator
“? 蚕Cloudera嶱追蚚黺屠燴Hadoop�摩腔馱撿﹝
“? �政Hadoop�摩假�俶
∟? 儉瞄㩞𨫋湔龰�K枑鼎�聃辻秶
∟? 枑鼎儉瞄��
n? �HDFS﹜Hive﹜HBase﹜Cloudera Impala督�湔龰
HDFS奻㩞𨫋腔妏蚚��
n? HBase 睿 Impala 腔紱釬
n? Hive腔Metadata
n? Sentry 湔龰��
31
11/30/16

Cloudera Navigator Auditing
Architecture
32
11/30/16

Hue
“? Hue 岆cdh橃嬡腔珨杶web奪燴けㄛ坳婦
嬤3�窒煦hue uiㄛhue serverㄛhue db﹝
“? Hue枑鼎垀衄腔cdh瞎璃腔shell賡醱腔諉
諳﹝褫眕婓hue��MapReduceㄛ脤艘
党蜊hdfs腔恅璃ㄛ奪燴hive腔metadataㄛ
綅俴Sqoop脹﹝
33
11/30/16
揃蹋�埭ㄩhttps://read01.com/Ax3xR.html

Hue Architecture
34
11/30/16

Sentry
“? 埻�岆Cloudera垀嶱追腔Sentryㄛ醴腔岆鮋賸
婓Hive/Impala眳奻�蕾腔珨𦵴橃嬡酕庲聃忨
跃腔炵緙﹝2013爛曇緻賸Apache�闚價踢𩂰﹝
“? �晟眳ㄛSentry岆蚚�酕Authorizationㄛ忨跃
妏蚚氪�杻隅㩞𨫋腔湔龰ㄛ褫蚕Server𦵴��
濃善Database鷂Table﹝
35
11/30/16

11/30/16Copyright ? 2016 Athemaster
36

Apache Spark
“? Spark岆珨��摩綅呾遺殤
“? Spark腔堤政岆鮋賸蜊囡MapReduce腔虴夔
�觳
“? Spark腔虴夔岆眕��闚妏蚚鮋價渙
37

Apache Kudu
38
“? Cloudera翋爀腔2016爛陔�湔殤�
“? 枑汔Data scan鷂Random access腔虴夔
“? 盓堔㩞𨫋腔埻華載陔ㄛ吽謹㩞𨫋�燴祭豷

端端舝

Apache hadoop and cdh(cloudera distribution) introduction 價掛賡畿

More Related Content

Apache hadoop and cdh(cloudera distribution) introduction 價掛賡畿