際際滷

際際滷Share a Scribd company logo
Big Data
GV: TS V探 狸nh Hi畉u
Th畛c hi畛n:
Ph畉m C担ng Thi棚n L箪
D動董ng B C動畛ng
Nguy畛n Kh畉c Chung
inh Anh Th叩i
1
N畛i dung


Gi畛i thi畛u Big Data



C叩c thnh ph畉n Big Data



T畛 ch畛c l動u tr畛 d畛 li畛u BigData



Gi畉i ph叩p Big data c畛a Oracle

2
Gi畛i thi畛u BIG DATA

3
BIG DATA ?


L nh畛ng s畛 l動畛ng kh畛ng v畛 c叩c h畛
s董 kh叩ch hng, 但m thanh, h狸nh 畉nh,
vn b畉n

4
BIG DATA ?


D畛 li畛u c坦 s畛 l動畛ng l畛n c畉n 動畛c l動u tr畛
nh動
 Truy畛n th畛ng: th担ng tin kh叩ch hng, giao d畛ch
 Thu th畉p t畛 畛ng qua c畉m bi畉n: th畛i ti畉t, nh畉t
k箪
 M畉ng x達 h畛i: comment tr棚n facebook, twitter



畉c tr畛ng





S畛 l動畛ng
T畛c 畛
a d畉ng
Gi叩 tr畛

5
Big Data

6
Dung l動畛ng


Nhu c畉u l動u tr畛 ngy cng tng
 2000: 800000 (PB) l動u tr畛 tr棚n th畉 gi畛i(*)
 2020: 35 ZB tr棚n ton th畉 gi畛i?(*)

th畉 no 畛 qu畉n l箪?
 D畛 li畛u cng l畛n th狸:
Lm

 Kh畉 nng x畛 l箪 gi畉m?
 Ph但n t鱈ch d畛 li畛u gi畉m
 Truy xu畉t ch畉m
(*)S畛 li畛u t畛 IBM
1ZB = 1021 bytes
1PB = 1015 bytes

7
a d畉ng


D畛 li畛u 畉n t畛 nhi畛u ngu畛n:








C畉m bi畉n
Smart device
M畉ng x達 h畛i
Tin t畛c


D畛 li畛u ph畛c t畉p
 Truy畛n th畛ng v kh担ng truy畛n th畛ng
 C坦 c畉u tr炭c, b叩n c畉u tr炭c, kh担ng c畉u
tr炭c
8
T畛c 畛
Kh畛i l動畛ng d畛 li畛u l r畉t l畛n
t畛c 畛 truy xu畉t ch畉m
 Y棚u c畉u t畛 ng動畛i s畛 d畛ng:


 Nhanh
 畛n 畛nh
 Ch鱈nh x叩c

9
T畉m quan tr畛ng Big Data
Mang t畛i s畛 hi畛u bi畉t s但u s畉c h董n cho
doanh nghi畛p
 L s畛 t畛n t畉i c畛a doanh nghi畛p
 Mang t畛i s畛 hi畛u bi畉t m畛i


10
C叩c thnh ph畉n Big Data

11
C叩c thnh ph畉n

12
C叩c thnh ph畉n
Qu畉n l箪 d畛 li畛u: c董 s畛 h畉 t畉ng l動u tr畛
d畛 li畛u, v ngu畛n 畛 thao t叩c n坦.
 Ph但n t鱈ch d畛 li畛u: c担ng ngh畛 v c叩c
c担ng c畛 畛 ph但n t鱈ch c叩c d畛 li畛u v
thu th畉p hi畛u bi畉t s但u s畉c t畛 n坦
 S畛 d畛ng d畛 li畛u: 動a d畛 li畛u l畛n 達
ph但n t鱈ch 畛 ph畛c v畛 trong Kinh
doanh th担ng minh v c叩c 畛ng d畛ng
c畛a ng動畛i d湛ng cu畛i


13
Qu畉n l箪 d畛 li畛u


H畛 d畛 li畛u c坦 c畉u tr炭c







H畛 th畛ng qu畉n l箪 c董 s畛 d畛 li畛u quan
h畛(RDBMS): 畛 l動u tr畛 v thao t叩c d畛 li畛u c坦
c畉u tr炭c.
H畛 th畛ng MPP: t畉p h畛p d畛 li畛u 畛 s畛 ngy
cng l畛n th棚m v tng c動畛ng d畛 li畛u tng
tr動畛ng.
Kho d畛 li畛u: t畉p h畛p v l動u tr畛 d畛 li畛u cho
c叩c b叩o c叩o sau ny.
H畉n ch畉
 Kh坦 m畛 r畛ng, hi畛u su畉t ch畉m l畉i.
 Bi畛u di畛n d畛 li畛u
14
Qu畉n l箪 d畛 li畛u
H畛 d畛 li畛u kh担ng c畉u tr炭c: ph湛 h畛p cho
vi畛c l動u tr畛 d畛 li畛u c坦 c畉u tr炭c ph畛c t畉p v
d畛 dng m畛 r畛ng
 D畛 li畛u
 D畛 li畛u c坦 c畉u tr炭c v kh担ng c坦 c畉u tr炭c
 L畉y t畛 nhi畛u ngu畛n v畛i k鱈ch c畛 kh叩c nhau
 D畛 li畛u th動畛ng r畉t l畛n, y棚u c畉u t畛c 畛 x畛
l箪 cao
 Y棚u c畉u t畛 ch畛c d畛 li畛u 畛 叩p 畛ng:
Apache Hadoop


15
Ph但n t鱈ch d畛 li畛u





L n董i m c叩c c担ng ty b畉t 畉u tr鱈ch xu畉t
gi叩 tr畛 d畛 li畛u l畛n.
Li棚n quan t畛i vi畛c ph叩t tri畛n c叩c 畛ng
d畛ng v s畛 d畛ng c叩c 畛ng d畛ng 畛 畉t
動畛c c叩i nh狸n s但u s畉c vo d畛 li畛u l畛n.
X但y d畛ng c叩c tool ph但n t鱈ch d畛 li畛u

16
S畛 d畛ng d畛 li畛u


L c叩c ho畉t 担ng tr棚n d畛 li畛u 動畛c ph但n
t鱈ch

17
T畛 ch畛c l動u tr畛 d畛 li畛u
BigData

18
Hadoop
Gi畛i thi畛u v畛 Hadoop
 C叩c thnh ph畉n c畛a Hadoop
 HDFS (Hadoop Distributed file
System)


19
Hadoop l g狸?


M畛t n畛n t畉ng 畛ng d畛ng h畛 tr畛 c叩c
畛ng d畛ng ph但n t叩n v畛i d畛 li畛u r畉t l畛n
 Hng terabyte
 Hng ngn node



Cung c畉p ph動董ng ti畛n l動u tr畛 d畛 li畛u
tr棚n nhi畛u node, h畛 tr畛 t畛i 動u h坦a l動u
l動畛ng m畉ng.

20
Thnh ph畉n c畛a Hadoop
X畛 l箪 (MapReduce): m畛t framework
gi炭p ph叩t tri畛n c叩c 畛ng d畛ng ph但n t叩n
theo m担 h狸nh MapReduce m畛t c叩ch
d畛 dng v m畉nh m畉.
 L動u tr畛 (HDFS): h畛 th畛ng file ph但n
t叩n, cung c畉p kh畉 nng l動u tr畛 d畛 li畛u
kh畛ng l畛 v t鱈nh nng t畛i 動u ho叩 vi畛c
s畛 d畛ng bng th担ng gi畛a c叩c node.


21
Hadoop Distributed file System

22
Hadoop Distributed file System

23
Ki畉n tr炭c c畛a HDFS

24
Ki畉n tr炭c c畛a HDFS
Name node: 坦ng vai tr嘆 l master
c畛a h畛 th畛ng HDFS, qu畉n l箪 th担ng tin
c叩c file, block id t動董ng 畛ng cho t畛ng
file
 Block: 董n v畛 l動u tr畛 d畛 li畛u nh畛 nh畉t


 Hadoop d湛ng m畉c 畛nh 64MB/block
 M畛t file chia lm nhi畛u block
 C叩c block ch畛a 畛 b畉t k畛 node no trong
cluster


DataNode: Ch畛a c叩c block
25
Ki畉n tr炭c c畛a HDFS


JobTracker: ti畉p nh畉n c叩c y棚u c畉u
th畛c thi c叩c MapReduce job.
 Ph但n chia job v giao task cho task
tracker
 Qu畉n l箪 t狸nh tr畉ng c畛a t畛ng node



TaskTracker:
 Nh畉n c叩c task t畛 jobTracker v th畛c hi畛n
task

26
C董 ch畉 ho畉t 畛ng HDFS

27
C董 ch畉 ho畉t 畛ng HDFS


畛c
 client y棚u c畉u 畛c d畛 li畛u t畛 Name Node,
namenode tr畉 v畛 v畛 tr鱈 c叩c block c畛a d畛
li畛u
 Ch動董ng tr狸nh tr畛c ti畉p y棚u c畉u d畛 li畛u t畉i
c叩c node

28
C董 ch畉 ho畉t 畛ng HDFS


Ghi
 Ghi theo d畉ng 動畛ng 畛ng (pipeline)
 client y棚u c畉u thao t叩c ghi 畛 Name Node
 Namenode ki畛m tra quy畛n ghi v 畉m b畉o file
kh担ng t畛n t畉i
 C叩c b畉n sao c畛a block t畉o thnh 動畛ng 畛ng 畛
d畛 li畛u tu畉n t畛 動畛c ghi vo

29
Hadoop Distributed file System


働u i畛m








L動u tr畛 動畛c l動畛ng file r畉t l畛n
Truy c畉p d畛 li畛u theo d嘆ng
Li棚n k畉t d畛 li畛u 董n gi畉n
Ph畉n c畛ng ph畛 th担ng, a d畉ng
T畛 畛ng ph叩t hi畛n l畛i, ph畛c h畛i d畛 li畛u nhanh

Nh動畛c i畛m
 C坦 畛 tr畛 truy c畉p
 Kh担ng th畛 l動u tr畛 qu叩 nhi畛u file tr棚n c湛ng 1
cluster
30
Hadoop Common
T畉p h畛p c叩c th動 vi畛n h畛 tr畛 cho Hadoop
 Bao g畛m t畉p c叩c l畛nh


 Cat
copy file t畛i b畛 ra chu畉n(stdout)
 Chmod
chuy畛n quy畛n 畛c v ghi cho
m畛t file
 Chown
chuy畛n quy畛n s畛 h畛u c畛a m畛t
file ho畉c 1 t畉p h畛p file
 

31
MapReduce
Qu畉n l箪 ti畉n tr狸nh song song, ph但n t叩n,
s畉p x畉p l畛ch tr狸nh I/O
 Qu畉n l箪 tr畉ng th叩i d畛 li畛u
 Qu畉n l箪 s畛 l動畛ng l畛n d畛 li畛u c坦 quan h畛
ph畛 thu畛c nhau
 X畛 l箪 l畛i
 Tr畛u t動畛ng h坦a v畛i l畉p tr狸nh vi棚n


32
MapReduce

33
Oracle Big Data

34
T畛ng quan

35
Oracle Big data
L s畛 k畉t h畛p c畉 ph畉n c畛ng v ph畉n
m畛m
 Ph畉n c畛ng:







18 server Sun
Dung l動畛ng 648TB
2CPU/server, 6 nh但n/CPU  216 nh但n
48GB RAM

36
Oracle Big data


Ph畉n m畛m

 B畉n 畉y 畛 c畛a Clouderas
Distribution( bao g畛m c畉
Apache Hadoop) (CDH)
 Cloudera manager: 畛 qu畉n tr畛
Cloudera CDH
 G坦i R l m畛t m達 ngu畛n m畛
cho vi畛c ph但n t鱈ch d畛 li畛u
ch動a 動畛c x畛 l箪 tr棚n Oracle
Big Data
 Oracle NoSQL database
 H畛 i畛u hnh Oracle
Enterprise Linux c湛ng v畛i
Oracle Java VM
37
Oracle Big data


C叩c thnh ph畉n ch鱈nh
CDH v Cloudera Manager
 Oracle Big data connectors
 Oracle Loader cho Hadoop
 Oracle Direct Connector for Hadoop Distributed file
system
 Oracle data intergator application adapter cho
Hadoop
 Oracle R connector for Hadoop
 Oracle NoSQL database


38
Ph但n t鱈ch d畛 li畛u


V鱈 d畛:
 H畛 th畛ng b叩n hng online
 c叩c 畛i t動畛ng 動畛c x叩c 畛nh r探 rng

39
Ph但n t鱈ch d畛 li畛u

40
Ph但n t鱈ch d畛 li畛u


V鱈 d畛:
 D畛 li畛u 動畛c thu th畉p t畛 nhi畛u ngu畛n, ko c坦
c畉u tr炭c

41
Ph但n t鱈ch d畛 li畛u

42
Ti li畛u tham kh畉o








Big-Data Computing: Creating revolutionary breakthroughs in
commerce, science, and society (Randal E. Bryant Carnegie
Mellon University, Randy H. Katz University of California,
Berkeley, Edward D. Lazowska University of Washington)
Understanding the Elements of Big Data: More than a Hadoop
Distribution(Martin Hall, Founder, Karmasphere)
Big Data The power and possibilities of Big Data
Basic Data Analysis Tutorial
Oracle: Big Data for the enterprise

43

More Related Content

What's hot (20)

Ti li畛u data warehouse vietsub
Ti li畛u data warehouse  vietsubTi li畛u data warehouse  vietsub
Ti li畛u data warehouse vietsub
hoangdat1361
Gi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Gi畉i ph叩p x畛 l箪 big data tr棚n apache sparkGi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Gi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Linh Ngoc
Co so du lieu phan tan
Co so du lieu phan tanCo so du lieu phan tan
Co so du lieu phan tan
Thao Vu
NoSql Database
NoSql DatabaseNoSql Database
NoSql Database
Nguyen Thieu
Hadoop trong tri畛n khai Big Data
Hadoop trong tri畛n khai Big DataHadoop trong tri畛n khai Big Data
Hadoop trong tri畛n khai Big Data
Nguy畛n Duy Nh但n
Map reduce hdfs
Map reduce hdfsMap reduce hdfs
Map reduce hdfs
hoangnguyentien
Luan van hadoop-final
Luan van hadoop-finalLuan van hadoop-final
Luan van hadoop-final
nobjta2015
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hngPh但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
leemindinh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanhGS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
Khoa Qu畛c t畉 - HQGHN
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
MasterCode.vn
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKAL畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
Ho Quang Thanh
Chuong 1 - CSDL ph但n t叩n
Chuong 1 - CSDL ph但n t叩nChuong 1 - CSDL ph但n t叩n
Chuong 1 - CSDL ph但n t叩n
duysu
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ngPh但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Nguy畛n Danh Thanh
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
thuhuynhphonegap
PHN C畛M D畛 LI畛U TRONG DATAMING.pdf
PHN C畛M D畛 LI畛U TRONG DATAMING.pdfPHN C畛M D畛 LI畛U TRONG DATAMING.pdf
PHN C畛M D畛 LI畛U TRONG DATAMING.pdf
Man_Ebook
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
MUyn25
XY D畛NG PH畉N M畛M QU畉N L QUN C PH
XY D畛NG PH畉N M畛M QU畉N L QUN C PH XY D畛NG PH畉N M畛M QU畉N L QUN C PH
XY D畛NG PH畉N M畛M QU畉N L QUN C PH
nataliej4
畛 ti: X但y d畛ng ph畉n m畛m qu畉n l箪 qu叩n c ph棚, HOT, 9
畛 ti: X但y d畛ng ph畉n m畛m qu畉n l箪 qu叩n c ph棚, HOT, 9畛 ti: X但y d畛ng ph畉n m畛m qu畉n l箪 qu叩n c ph棚, HOT, 9
畛 ti: X但y d畛ng ph畉n m畛m qu畉n l箪 qu叩n c ph棚, HOT, 9
D畛ch v畛 vi畉t bi tr畛n g坦i ZALO 0917193864
T狸m hi畛u v畛 i畛n to叩n 叩m m但y
T狸m hi畛u v畛 i畛n to叩n 叩m m但yT狸m hi畛u v畛 i畛n to叩n 叩m m但y
T狸m hi畛u v畛 i畛n to叩n 叩m m但y
Tam Pham Minh
Ch動董ng 2: h畛 th畛ng th担ng tin
Ch動董ng 2: h畛 th畛ng th担ng tinCh動董ng 2: h畛 th畛ng th担ng tin
Ch動董ng 2: h畛 th畛ng th担ng tin
Th畉c s挑 V滴 Ng畛c Hi畉u
Ti li畛u data warehouse vietsub
Ti li畛u data warehouse  vietsubTi li畛u data warehouse  vietsub
Ti li畛u data warehouse vietsub
hoangdat1361
Gi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Gi畉i ph叩p x畛 l箪 big data tr棚n apache sparkGi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Gi畉i ph叩p x畛 l箪 big data tr棚n apache spark
Linh Ngoc
Co so du lieu phan tan
Co so du lieu phan tanCo so du lieu phan tan
Co so du lieu phan tan
Thao Vu
Hadoop trong tri畛n khai Big Data
Hadoop trong tri畛n khai Big DataHadoop trong tri畛n khai Big Data
Hadoop trong tri畛n khai Big Data
Nguy畛n Duy Nh但n
Luan van hadoop-final
Luan van hadoop-finalLuan van hadoop-final
Luan van hadoop-final
nobjta2015
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hngPh但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
Ph但n t鱈ch v thi畉t k畉 h畛 th畛ng qu畉n l箪 b叩n hng
leemindinh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanhGS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
GS. TSKH. H畛 T炭 B畉o: Khoa h畛c d畛 li畛u v Khoa h畛c d畛 li畛u trong kinh doanh
Khoa Qu畛c t畉 - HQGHN
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
Bi 3: X叩c 畛nh y棚u c畉u h畛 th畛ng & Ph但n t鱈ch quy tr狸nh x畛 l箪 nghi畛p v畛 - Gi叩o...
MasterCode.vn
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKAL畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
L畛a ch畛n thu畛c t鱈nh v Khai ph叩 lu畉t k畉t h畛p tr棚n WEKA
Ho Quang Thanh
Chuong 1 - CSDL ph但n t叩n
Chuong 1 - CSDL ph但n t叩nChuong 1 - CSDL ph但n t叩n
Chuong 1 - CSDL ph但n t叩n
duysu
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ngPh但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Ph但n t鱈ch thi畉t k畉 h畛 th畛ng c畛a hng b叩n i畛n tho畉i di 畛ng
Nguy畛n Danh Thanh
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
b叩o c叩o h畛 qu畉n tr畛 c董 s畛 d畛 li畛u h畛 th畛ng b叩n c ph棚
thuhuynhphonegap
PHN C畛M D畛 LI畛U TRONG DATAMING.pdf
PHN C畛M D畛 LI畛U TRONG DATAMING.pdfPHN C畛M D畛 LI畛U TRONG DATAMING.pdf
PHN C畛M D畛 LI畛U TRONG DATAMING.pdf
Man_Ebook
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
MUyn25
XY D畛NG PH畉N M畛M QU畉N L QUN C PH
XY D畛NG PH畉N M畛M QU畉N L QUN C PH XY D畛NG PH畉N M畛M QU畉N L QUN C PH
XY D畛NG PH畉N M畛M QU畉N L QUN C PH
nataliej4
T狸m hi畛u v畛 i畛n to叩n 叩m m但y
T狸m hi畛u v畛 i畛n to叩n 叩m m但yT狸m hi畛u v畛 i畛n to叩n 叩m m但y
T狸m hi畛u v畛 i畛n to叩n 叩m m但y
Tam Pham Minh

Similar to Nhom 16 big data (20)

Chuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptxChuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptx
CngNguynPhmHuy
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛uCh動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
ssuserb804d61
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdf
Criz20
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transportThi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Hate To Love
Lu畉n vn C畉p ph叩t v c畉p nh畉t m畉nh trong h畛 ph但n t叩n
Lu畉n vn C畉p ph叩t v c畉p nh畉t  m畉nh  trong h畛  ph但n t叩nLu畉n vn C畉p ph叩t v c畉p nh畉t  m畉nh  trong h畛  ph但n t叩n
Lu畉n vn C畉p ph叩t v c畉p nh畉t m畉nh trong h畛 ph但n t叩n
lop12vn
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Design
yht4ever
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但yL動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
PhamTuanKhiem
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdfGi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
LinhHoang956328
Chuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_htttChuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_httt
vo nhan
MongoDB.pptx
MongoDB.pptxMongoDB.pptx
MongoDB.pptx
DuyThnh28
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptxC董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
longg3z2000
Chuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdlChuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdl
Huy Feng
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
tailieuabccom
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigData
IT Expert Club
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
pisu412
b1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdfb1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdf
QuyVo27
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
Nguy畛n Duy H動ng
Chuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptxChuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptx
CngNguynPhmHuy
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛uCh動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
Ch動董ng 1. kh叩i ni畛m c董 b畉n v畛 c董 s畛 d畛 li畛u
ssuserb804d61
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdf
Criz20
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transportThi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Thi畉t k畉 h畛 th畛ng m畉ng n畛i b畛 cho cty vn transport
Hate To Love
Lu畉n vn C畉p ph叩t v c畉p nh畉t m畉nh trong h畛 ph但n t叩n
Lu畉n vn C畉p ph叩t v c畉p nh畉t  m畉nh  trong h畛  ph但n t叩nLu畉n vn C畉p ph叩t v c畉p nh畉t  m畉nh  trong h畛  ph但n t叩n
Lu畉n vn C畉p ph叩t v c畉p nh畉t m畉nh trong h畛 ph但n t叩n
lop12vn
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Design
yht4ever
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但yL動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
L動u tr畛 v x畛 l箪 d畛 li畛u trong i畛n to叩n 叩m m但y
PhamTuanKhiem
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdfGi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
Gi叩o tr狸nh CNTT_B叩o c叩o BTL IT4931 nh坦m 31.pdf
LinhHoang956328
Chuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_htttChuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_httt
vo nhan
MongoDB.pptx
MongoDB.pptxMongoDB.pptx
MongoDB.pptx
DuyThnh28
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptxC董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
C董 s畛 d畛 li畛u cho ng動畛i m畛i b畉t 畉u.pptx
longg3z2000
Chuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdlChuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdl
Huy Feng
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
Lu畉n vn X但y d畛ng c董 s畛 d畛 li畛u ph但n t叩n cho h畛 th畛ng thi tr畉c nghi畛m t畉i tr動...
tailieuabccom
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigData
IT Expert Club
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
際際滷 H畛 Qu畉n Tr畛 C董 s畛 d畛 li畛u - CH働NG 1
pisu412
b1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdfb1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdf
QuyVo27

Nhom 16 big data

  • 1. Big Data GV: TS V探 狸nh Hi畉u Th畛c hi畛n: Ph畉m C担ng Thi棚n L箪 D動董ng B C動畛ng Nguy畛n Kh畉c Chung inh Anh Th叩i 1
  • 2. N畛i dung Gi畛i thi畛u Big Data C叩c thnh ph畉n Big Data T畛 ch畛c l動u tr畛 d畛 li畛u BigData Gi畉i ph叩p Big data c畛a Oracle 2
  • 4. BIG DATA ? L nh畛ng s畛 l動畛ng kh畛ng v畛 c叩c h畛 s董 kh叩ch hng, 但m thanh, h狸nh 畉nh, vn b畉n 4
  • 5. BIG DATA ? D畛 li畛u c坦 s畛 l動畛ng l畛n c畉n 動畛c l動u tr畛 nh動 Truy畛n th畛ng: th担ng tin kh叩ch hng, giao d畛ch Thu th畉p t畛 畛ng qua c畉m bi畉n: th畛i ti畉t, nh畉t k箪 M畉ng x達 h畛i: comment tr棚n facebook, twitter 畉c tr畛ng S畛 l動畛ng T畛c 畛 a d畉ng Gi叩 tr畛 5
  • 7. Dung l動畛ng Nhu c畉u l動u tr畛 ngy cng tng 2000: 800000 (PB) l動u tr畛 tr棚n th畉 gi畛i(*) 2020: 35 ZB tr棚n ton th畉 gi畛i?(*) th畉 no 畛 qu畉n l箪? D畛 li畛u cng l畛n th狸: Lm Kh畉 nng x畛 l箪 gi畉m? Ph但n t鱈ch d畛 li畛u gi畉m Truy xu畉t ch畉m (*)S畛 li畛u t畛 IBM 1ZB = 1021 bytes 1PB = 1015 bytes 7
  • 8. a d畉ng D畛 li畛u 畉n t畛 nhi畛u ngu畛n: C畉m bi畉n Smart device M畉ng x達 h畛i Tin t畛c D畛 li畛u ph畛c t畉p Truy畛n th畛ng v kh担ng truy畛n th畛ng C坦 c畉u tr炭c, b叩n c畉u tr炭c, kh担ng c畉u tr炭c 8
  • 9. T畛c 畛 Kh畛i l動畛ng d畛 li畛u l r畉t l畛n t畛c 畛 truy xu畉t ch畉m Y棚u c畉u t畛 ng動畛i s畛 d畛ng: Nhanh 畛n 畛nh Ch鱈nh x叩c 9
  • 10. T畉m quan tr畛ng Big Data Mang t畛i s畛 hi畛u bi畉t s但u s畉c h董n cho doanh nghi畛p L s畛 t畛n t畉i c畛a doanh nghi畛p Mang t畛i s畛 hi畛u bi畉t m畛i 10
  • 11. C叩c thnh ph畉n Big Data 11
  • 13. C叩c thnh ph畉n Qu畉n l箪 d畛 li畛u: c董 s畛 h畉 t畉ng l動u tr畛 d畛 li畛u, v ngu畛n 畛 thao t叩c n坦. Ph但n t鱈ch d畛 li畛u: c担ng ngh畛 v c叩c c担ng c畛 畛 ph但n t鱈ch c叩c d畛 li畛u v thu th畉p hi畛u bi畉t s但u s畉c t畛 n坦 S畛 d畛ng d畛 li畛u: 動a d畛 li畛u l畛n 達 ph但n t鱈ch 畛 ph畛c v畛 trong Kinh doanh th担ng minh v c叩c 畛ng d畛ng c畛a ng動畛i d湛ng cu畛i 13
  • 14. Qu畉n l箪 d畛 li畛u H畛 d畛 li畛u c坦 c畉u tr炭c H畛 th畛ng qu畉n l箪 c董 s畛 d畛 li畛u quan h畛(RDBMS): 畛 l動u tr畛 v thao t叩c d畛 li畛u c坦 c畉u tr炭c. H畛 th畛ng MPP: t畉p h畛p d畛 li畛u 畛 s畛 ngy cng l畛n th棚m v tng c動畛ng d畛 li畛u tng tr動畛ng. Kho d畛 li畛u: t畉p h畛p v l動u tr畛 d畛 li畛u cho c叩c b叩o c叩o sau ny. H畉n ch畉 Kh坦 m畛 r畛ng, hi畛u su畉t ch畉m l畉i. Bi畛u di畛n d畛 li畛u 14
  • 15. Qu畉n l箪 d畛 li畛u H畛 d畛 li畛u kh担ng c畉u tr炭c: ph湛 h畛p cho vi畛c l動u tr畛 d畛 li畛u c坦 c畉u tr炭c ph畛c t畉p v d畛 dng m畛 r畛ng D畛 li畛u D畛 li畛u c坦 c畉u tr炭c v kh担ng c坦 c畉u tr炭c L畉y t畛 nhi畛u ngu畛n v畛i k鱈ch c畛 kh叩c nhau D畛 li畛u th動畛ng r畉t l畛n, y棚u c畉u t畛c 畛 x畛 l箪 cao Y棚u c畉u t畛 ch畛c d畛 li畛u 畛 叩p 畛ng: Apache Hadoop 15
  • 16. Ph但n t鱈ch d畛 li畛u L n董i m c叩c c担ng ty b畉t 畉u tr鱈ch xu畉t gi叩 tr畛 d畛 li畛u l畛n. Li棚n quan t畛i vi畛c ph叩t tri畛n c叩c 畛ng d畛ng v s畛 d畛ng c叩c 畛ng d畛ng 畛 畉t 動畛c c叩i nh狸n s但u s畉c vo d畛 li畛u l畛n. X但y d畛ng c叩c tool ph但n t鱈ch d畛 li畛u 16
  • 17. S畛 d畛ng d畛 li畛u L c叩c ho畉t 担ng tr棚n d畛 li畛u 動畛c ph但n t鱈ch 17
  • 18. T畛 ch畛c l動u tr畛 d畛 li畛u BigData 18
  • 19. Hadoop Gi畛i thi畛u v畛 Hadoop C叩c thnh ph畉n c畛a Hadoop HDFS (Hadoop Distributed file System) 19
  • 20. Hadoop l g狸? M畛t n畛n t畉ng 畛ng d畛ng h畛 tr畛 c叩c 畛ng d畛ng ph但n t叩n v畛i d畛 li畛u r畉t l畛n Hng terabyte Hng ngn node Cung c畉p ph動董ng ti畛n l動u tr畛 d畛 li畛u tr棚n nhi畛u node, h畛 tr畛 t畛i 動u h坦a l動u l動畛ng m畉ng. 20
  • 21. Thnh ph畉n c畛a Hadoop X畛 l箪 (MapReduce): m畛t framework gi炭p ph叩t tri畛n c叩c 畛ng d畛ng ph但n t叩n theo m担 h狸nh MapReduce m畛t c叩ch d畛 dng v m畉nh m畉. L動u tr畛 (HDFS): h畛 th畛ng file ph但n t叩n, cung c畉p kh畉 nng l動u tr畛 d畛 li畛u kh畛ng l畛 v t鱈nh nng t畛i 動u ho叩 vi畛c s畛 d畛ng bng th担ng gi畛a c叩c node. 21
  • 25. Ki畉n tr炭c c畛a HDFS Name node: 坦ng vai tr嘆 l master c畛a h畛 th畛ng HDFS, qu畉n l箪 th担ng tin c叩c file, block id t動董ng 畛ng cho t畛ng file Block: 董n v畛 l動u tr畛 d畛 li畛u nh畛 nh畉t Hadoop d湛ng m畉c 畛nh 64MB/block M畛t file chia lm nhi畛u block C叩c block ch畛a 畛 b畉t k畛 node no trong cluster DataNode: Ch畛a c叩c block 25
  • 26. Ki畉n tr炭c c畛a HDFS JobTracker: ti畉p nh畉n c叩c y棚u c畉u th畛c thi c叩c MapReduce job. Ph但n chia job v giao task cho task tracker Qu畉n l箪 t狸nh tr畉ng c畛a t畛ng node TaskTracker: Nh畉n c叩c task t畛 jobTracker v th畛c hi畛n task 26
  • 27. C董 ch畉 ho畉t 畛ng HDFS 27
  • 28. C董 ch畉 ho畉t 畛ng HDFS 畛c client y棚u c畉u 畛c d畛 li畛u t畛 Name Node, namenode tr畉 v畛 v畛 tr鱈 c叩c block c畛a d畛 li畛u Ch動董ng tr狸nh tr畛c ti畉p y棚u c畉u d畛 li畛u t畉i c叩c node 28
  • 29. C董 ch畉 ho畉t 畛ng HDFS Ghi Ghi theo d畉ng 動畛ng 畛ng (pipeline) client y棚u c畉u thao t叩c ghi 畛 Name Node Namenode ki畛m tra quy畛n ghi v 畉m b畉o file kh担ng t畛n t畉i C叩c b畉n sao c畛a block t畉o thnh 動畛ng 畛ng 畛 d畛 li畛u tu畉n t畛 動畛c ghi vo 29
  • 30. Hadoop Distributed file System 働u i畛m L動u tr畛 動畛c l動畛ng file r畉t l畛n Truy c畉p d畛 li畛u theo d嘆ng Li棚n k畉t d畛 li畛u 董n gi畉n Ph畉n c畛ng ph畛 th担ng, a d畉ng T畛 畛ng ph叩t hi畛n l畛i, ph畛c h畛i d畛 li畛u nhanh Nh動畛c i畛m C坦 畛 tr畛 truy c畉p Kh担ng th畛 l動u tr畛 qu叩 nhi畛u file tr棚n c湛ng 1 cluster 30
  • 31. Hadoop Common T畉p h畛p c叩c th動 vi畛n h畛 tr畛 cho Hadoop Bao g畛m t畉p c叩c l畛nh Cat copy file t畛i b畛 ra chu畉n(stdout) Chmod chuy畛n quy畛n 畛c v ghi cho m畛t file Chown chuy畛n quy畛n s畛 h畛u c畛a m畛t file ho畉c 1 t畉p h畛p file 31
  • 32. MapReduce Qu畉n l箪 ti畉n tr狸nh song song, ph但n t叩n, s畉p x畉p l畛ch tr狸nh I/O Qu畉n l箪 tr畉ng th叩i d畛 li畛u Qu畉n l箪 s畛 l動畛ng l畛n d畛 li畛u c坦 quan h畛 ph畛 thu畛c nhau X畛 l箪 l畛i Tr畛u t動畛ng h坦a v畛i l畉p tr狸nh vi棚n 32
  • 36. Oracle Big data L s畛 k畉t h畛p c畉 ph畉n c畛ng v ph畉n m畛m Ph畉n c畛ng: 18 server Sun Dung l動畛ng 648TB 2CPU/server, 6 nh但n/CPU 216 nh但n 48GB RAM 36
  • 37. Oracle Big data Ph畉n m畛m B畉n 畉y 畛 c畛a Clouderas Distribution( bao g畛m c畉 Apache Hadoop) (CDH) Cloudera manager: 畛 qu畉n tr畛 Cloudera CDH G坦i R l m畛t m達 ngu畛n m畛 cho vi畛c ph但n t鱈ch d畛 li畛u ch動a 動畛c x畛 l箪 tr棚n Oracle Big Data Oracle NoSQL database H畛 i畛u hnh Oracle Enterprise Linux c湛ng v畛i Oracle Java VM 37
  • 38. Oracle Big data C叩c thnh ph畉n ch鱈nh CDH v Cloudera Manager Oracle Big data connectors Oracle Loader cho Hadoop Oracle Direct Connector for Hadoop Distributed file system Oracle data intergator application adapter cho Hadoop Oracle R connector for Hadoop Oracle NoSQL database 38
  • 39. Ph但n t鱈ch d畛 li畛u V鱈 d畛: H畛 th畛ng b叩n hng online c叩c 畛i t動畛ng 動畛c x叩c 畛nh r探 rng 39
  • 40. Ph但n t鱈ch d畛 li畛u 40
  • 41. Ph但n t鱈ch d畛 li畛u V鱈 d畛: D畛 li畛u 動畛c thu th畉p t畛 nhi畛u ngu畛n, ko c坦 c畉u tr炭c 41
  • 42. Ph但n t鱈ch d畛 li畛u 42
  • 43. Ti li畛u tham kh畉o Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society (Randal E. Bryant Carnegie Mellon University, Randy H. Katz University of California, Berkeley, Edward D. Lazowska University of Washington) Understanding the Elements of Big Data: More than a Hadoop Distribution(Martin Hall, Founder, Karmasphere) Big Data The power and possibilities of Big Data Basic Data Analysis Tutorial Oracle: Big Data for the enterprise 43