端端舝

弁仿它玉毛盓尹月價屜撮胍及
郔陔�砃午踏摽及源砃俶
゜掛穴奶弁伕末白玄絁宒頗扦
н埻淏膽
@masayh

醴腔
? 弁仿它玉及煦汃扑旦氾丞支湮�耀犯奈正矛奈
旦撮胍及逃桯及窃妢﹜政婓及�砃﹜蔚懂及源
砃俶
每 CAP 隅燴及秶廣毛升及方丹卞親督仄化中月井
每褫蚚俶撮胍互升及方丹卞悵偩今木化中月井
每 OLTP 互煦汃扑旦氾丞匹升丹��今木凶井
每嶱逃忒楊午仄化蕉尹化中仁屯五掝觳午�𡛟反睡井
每 Big Data 及棒及價屜及笭猁卅猁匼撮胍反睡井
(C) 2012 Microsoft Corporation 2

Agenda
? 煦汃扑旦氾丞午反
每 CAP 隅燴
? 褫蚚俶毛盓尹月葩庨
每 P-B
每 ROWA
每 quorum
每 RSM﹜Paxos
每 A/E 煦褩
? 旦弗奈仿申伉氾奴 OLTP 皿伕玄戊伙及逃桯
每 Group safety
每 2PC 卞測歹月 atomic broadcast
每 View synchronous
? 扢數蹦
每棒岍測失奈平氾弁民乓奈
每 CAP 隅燴及秶廣毛閉尹月
每髦蜭午窏唗
每郔羥趙及源楊
每喲砓犯奈正(倰)及𡛟蚚

煦汃扑旦氾丞婬啐�及掖劓
? Hadoop 匹煦汃皿伕弘仿立件弘乒犯伙互癶摯
? 弁仿它玉及癶摯匹褫蚚俶復悵匹 fault-tolerance 互斛猁
? ZooKeeper 及方丹卅 OSS 及扔奈申旦窒ⅲ及婬瞳蚚褫夔俶
? 1970爛測及玄仿件扒弁扑亦件互1980爛測及弘伙奈皿戊立亙瓦弗奈
扑亦件匹筳趙
每今日卞﹜HTTP/XML 井日 WebSockets 匹煦汃互婬鶸﹝邧源砃午枑偶倰
每杻偝衄�ヽ嶲反20爛
? Big Data 匹﹜犯奈正煦昴價屜及白伕件玄及載陔炵扔奈申旦匹煦汃扑
旦氾丞及瞳蚚
每煦昴�砓及�摩及凶戶及扔奈申旦趙毛蕉尹月
每白伕件玄匹及末奈扑乓伙及正奶丞仿奶件及珨�俶卅升﹜褫蚚俶午𡛟湘媆
嶲及田仿件旦毛蕉尹月仇午互笭猁�今木月
? serializability 卞方月偩隴褫夔趙﹜倛宒趙


煦汃扑旦氾丞午反睡井
? 復灍卅梤漲𨈘堤互匹五卅中
每 �g卅月生永玄伐奈弁及綈晊卅及井﹜眈忒及梤漲卅及井
? 公及ゴ枑匹眕狟及辻夔互А戶日木月
每恚庨及珨�俶及凶戶及磁砩
每伉奈母奈梤漲媆及伉奈母奈及腢堤ㄗ磁砩ㄘ
每統樓丟件田奈及伉旦玄及磁砩
每煦汃齬坻秶郘
每公木日及伉市田伉奈﹜婬�傖毛漪戈失伙打伉朮丞﹜皿伕玄戊伙
? 埻赽腔皮伕奈玉平乓旦玄皿伕玄戊伙
? 矛弁正奈弁伕永弁
? 梤漲𨈘堤け
? 煦汃皿伕玄戊伙及偩隴
每梤漲乒犯伙及ゴ枑ㄗ�冞及陓螸俶﹜準肮ヽ俶﹜Fail-stop/Byzantine﹜
庲偩ㄘ
每 Safety﹜liveness 及偩隴
每梤漲𨈘堤け午弁伕永弁

煦汃扑旦氾丞及褣仄今
? elastic 卅伉末奈旦奪燴﹜婬�傖隅膽
每 �盡卞𡛟元化
每梤漲卞𡛟元化﹜伉市田伉奈
? �傖劐載笢手�釬毛砦戶卅中
每恚杅及仿它件玉卞煦賃ㄗ申亙奈/田伕永玄/巨禾永弁及肮ヽㄘ
? 恚磁梤漲尺及�𡛟
每 SPOF 及偝⺍僅
每梤漲乒犯伙仍午及�𡛟
? 跪意猁匼及田仿件旦匹失伙打伉朮丞﹜皿伕玄戊伙毛腢亼
每褫蚚俶/陓螸俶及猁А﹜旦伙奈皿永玄﹜𡛟湘媆嶲﹜婬�傖褫夔午伉市田
伉奈及俇賸ヽ嶲﹜珨�俶及捼淕﹜伉末奈旦及秏愐講ㄗ生永玄伐奈弁繧
郖﹜犯奴旦弁繧郖﹜犯奴旦弁I/O 隙杅卅升ㄘ= 戊旦玄
每嗣�卅失伙打伉朮丞﹜皿伕玄戊伙井日腢亼﹜扑旦氾丞趙
每氾旦玄卅升﹜巨件斥瓦失伉件弘腔卅賤𢜪互褣仄中
每倛宒忒楊趙ㄩ correctness criteria

煦汃扑旦氾丞及羥蚚
? 恚庨尺及羥蚚
每 Group safety
? OLTP 尺及羥蚚
每 2PC 卞測歹月 atomic broadcast + 伕奈市伙玄
仿件扒弁扑亦件
每 Paxos 戊立永玄
每 Serializability 及��
? 旦弗斥亙奈伉件弘支伉末奈旦奪燴
每 HadoopDB


CAP 隅燴 Revisited
? Consistency: 允屯化及弁仿奶失件玄反劐載互丐勻化手肮珨及
申亙奈毛�月
? Availability: 允屯化及弁仿奶失件玄反梤漲互逃汜仄化手﹜犯奈正
及中仁勾井及恚庨毛逃�允月仇午互匹五月
? Partition-tolerance: ㄗ煦汃ㄘ扑旦氾丞反生永玄伐奈弁互ピ剿今
木化手﹜公及杻俶毛鋤厥允月

? 秶廣ㄩ
每 Partition-tolerance 卞覂醴仄化中月扔奈申旦枑鼎氪砃仃
每 Latency 及蕉𩬅互卅中
每梤漲乒奈玉匹及娗��I燴毛升丹蕉尹月井
每斛猁卞𡛟元化 ACID﹜磁砩皿伕玄戊伙卞方曰珨�俶毛龰月蕉尹源尺


CAP 及2杻俶毛腢亼

C A ? Consistency + Availability
? �g珨扔奶玄 / 弁仿旦正犯奈正矛奈旦
P ? 籵都及 RDB 卅升

? Consistency + Partition-tolerance
C A ? 煦汃犯奈正矛奈旦 / 煦汃伕永弁
P ? HBase﹜Paxos

? Availability + Partition-tolerance
C A ? 煦汃平乓永扑亙 / DNS
P ? Cassandra, eventual consistency


褫蚚俶 vs. 珨�俶
CAP 隅燴


犯奈正矛奈旦及假�俶價𨃨
假�俶及價𨃨饜冞今木月戊立永玄今木掊隴
扔奈田杅凶扔奈田杅
剠�I燴未伕未伕
0-safety 1 未伕玄仿件扒弁扑亦件反1勾及扔奈田卞饜冞今木﹜灍俴今木
凶互引分戊立永玄反今木卅中﹝旦玄伊奈斥卞玄仿件扒弁
扑亦件及磐彆互蚗適趙今木月ゴ卞弁仿永扑亙允月午﹜玄
仿件扒弁扑亦件反囮歹木月
1-safety 1 1 玄仿件扒弁扑亦件反1勾及扔奈田卞饜冞今木﹜戊立永玄
今木凶﹝公及玄仿件扒弁扑亦件互坻及扔奈田卞冞陓今木
月ゴ卞弁仿永扑亙允月午玄仿件扒弁扑亦件反囮歹木月褫
夔俶互丐月﹝坻及扔奈田反珂及玄仿件扒弁扑亦件及湔婓
毛眭日卅中及匹﹜公及玄仿件扒弁扑亦件午茇芼允月陔凶
卅�e玄仿件扒弁扑亦件毛忳仃葆仃日木月�磁卞玄仿件扒
弁扑亦件反囮歹木月
Group-safety 允屯化未伕玄仿件扒弁扑亦件反允屯化及扔奈田卞饜冞今木月互引分
戊立永玄反仄化中卅中﹝fㄗ0<f<允屯化ㄘ�眕奻及扔奈
田互弁仿永扑亙允月午﹜玄仿件扒弁扑亦件反囮歹木月
Group-safety井允屯化 1 玄仿件扒弁扑亦件反允屯化及扔奈田卞饜冞今木﹜1勾及
勾1-safety 扔奈田匹戊立永玄今木凶﹝f�及扔奈田井勾玄仿件扒弁
ㄗgroup-1- 扑亦件毛戊立永玄仄凶1勾及扔奈田互弁仿永扑亙允月午﹜
safetyㄘ玄仿件扒弁扑亦件反囮歹木月褫夔俶互丐月﹝犯奈正矛奈
旦午弘伙奈皿籵陓辻�毛瞎心磁歹六凶伊皿伉弗奈扑亦件
及湮窒煦反仇仇卞扽允月
2-safety 允屯化允屯化玄仿件扒弁扑亦件反允屯化及扔奈田卞饜冞今木﹜戊立永
玄今木凶﹝玄仿件扒弁扑亦件互囮歹木月仇午反卅中

政袨及恚庨撮胍
? Primary-backup
? Update-anywhere

? Master-slave 井日 cohort�g弇及恚庨尺

Zookeeper

Node A Node B Node C Node D Node E
key ranges key ranges key ranges key ranges key ranges
[0,199] [200,399] [400,599] [600,799] [800,999]
[800,999] [0,199] [200,399] [400,599] [600,799]
[600,799] [800,999] [0,199] [200,399] [400,599]


Primary-Backup 皿伕玄戊伙
Alsberg-Day Protocol


��唗趙
? P-B 及�唗趙及瞰
每 viewstamped replication
? �唗趙仄卅中午磁砩互斛猁卅瞰
每㜭紝腔伊皿伉弗奈扑亦件

堤萎ㄩ Optimistic Replication (Shapiro, Saito)

ROWA (Read One Write All)
W=N R=1 掂心龰曰卞郔羥趙仄凶�中珨�俶

W=1 R=N 𤩸五煋心卞郔羥趙仄凶�中珨�俶

W+R<=N eventual consistency 嘉中犯奈正及掂心龰曰互丐曰尹月

W+R>N quorum assembly 卞方月�中珨�俶﹝掂心龰曰卞反屾卅仁
午手1勾及郔陔犯奈正及恚庨毛漪戈

Read quorum

Replica Replica Replica
Manger Manger Manger
Client Front
End

Replica Replica Replica
Manger Manger Manger

Front
Client
End
Replica Replica
Manger Manger

Write quorum

Quorum (隅逋杅)
? Read quorum(RQ) 午 Write quorum(WQ) 及��t
? |RQ|+|WQ|>N ㄗRead 午 Write set 反笭卅月ㄘ
? |WQ|>N/2 ㄗㄡ勾及 Write set 反笭卅月ㄘ

? Quorum consensus
? CC 午反黃蕾﹜隙覧皿伕玄戊伙祥猁
? ROWA 午及掀廌
? P-B 午 ROWA 及笢嶲及杻釾
? 仇木井日及弇离勿仃
每 Byzantine 梤漲
每 �盡煦汃
每く廣及珨意

犯奈正饜离
? Rack aware
每 HDFS, MapR
? Geo replication
每 DHT
? 中欠中欠卅珨�俶乒犯伙互丐曰尹月
每申斥生旦卞升木互羥ピ井ˋ

堤萎ㄩ Geo-Replication in Large-Scale Cloud Computing Applications


Replicated State Machine
? 袨颷穴扑件
每袨颷穴扑件毛𠧧允猁秪
? Paxos
每 Leader 午 primary 及綃中
每 Learner 反磁砩磐彆毛眭日卅中
每恚杅及 leader 及灍俴午�磁
每 1 leader 卞方月恚杅猁А及肮媆灍俴
每 Batching 午 Pipeline


Basic Paxos (1)
恚庨ㄗ袨颷穴扑件ㄘ

Read 白尼奈朮
Write 白尼奈朮
枑偶楓瘍ㄗ田伕永玄 IDㄘ

恚庨尺及毀茬

綎圉杅


Basic Paxos (2)

恚庨反磁砩磐彆毛眭日卅中

梤漲互疶歹木月午恚杅及 Leader
毛蕾化日木月ㄗʃ中梤漲𨈘眭ㄘ

枑偶楓瘍毛湮五仁允月


Basic Paxos (3)
恚杅 Leader 嶲及�磁


Paxos 及綎圉杅
? propose/accept
伉奈母奈 A 伉奈母奈 B
嶲及捼淕
propose/accept propose/accept

? 枑偶楓瘍及��唗 Ballot n-1 Ballot n
趙 accept propose
媆嶲芢痄

Ballot n-1 Ballot n
? Ballot 嶲及磁砩及 accept accept
竘五輥亢媆嶲芢痄


replica 及綎圉杅
? Replica 珨�俶乒犯伙 Replica 尺及 Replica 尺及
write read
每 Spinnaker 及瞰

Client Leader Followers
Write

Acquire LSN = X
Propose X to Followers
Write log record to WAL & Commit Queue

Write X to WAL & Commit
Ack X Queue Send Ack to Master
Don＊t apply to Memtables yet
Time

Update Commit Queue
Apply X to Membtables
Send Ack to Client
X is not in the Memtable yet.
Client can read the latest value at the Leader
Reads at Followers see an older
value now

Asynchronous Commit Message for LSN = Y (Y>=X)

Process everything in the Commit Queue
until Y and apply to Memtables.
Reads now see every update up to LSN = Y


Paxos 午 ZooKeeper
? P-B 午 RSM 及綃中
? Primary order 及�觳
每丟永本奈斥�g弇及玄仿件扒弁扑亦件旦戊奈皿
丟永本奈斥及假隅趙

堤萎ㄩ Zab: High-performance broadcast for primary-backup systems

A/E 煦褩
? Byzantine 梤漲�𡛟及恚庨杅及祅𦑩
? privacy

堤萎ㄩ ZZ and the Art of Practical BFT Execution

Paxos 戊立永玄
? TM 互 Paxos 毛妏中 RM 及磁砩毛龰月
? 2F+1 �及失弁本皿正奈 (~2F+1 �及 TMs)
? 跪 RM 反 prepare 猁А卞𡛟湘
? If F+1 �及失弁本皿正奈互允屯化及 RMs 互 prepared 袨颷
卞卅勻凶午復庲允月午玄仿件扒弁扑亦件毛戊立永玄
? 2F(N+1) + 3N + 1 隙及丟永本奈斥
? 5 隙及丟永本奈斥綈晊 Commit Acceptors
ㄗ1隙豻�及綈晊ㄘ RM0 Leader RM0＃N 0＃2F
2隙及蚗適趙
? F=0 卅日 2PC 午肮元


Vertical Paxos

Paxos 弘伙奈皿 Paxos 弘伙奈皿

�傖猁匼1 �傖猁匼2

騵梤漲俶﹜褫蚚俶﹜旦弗奈仿申伉氾奴
綈晊﹜綅蚚戊旦玄卅升毛價𨃨卞腢亼
煦汃扑旦氾丞
皿伕本旦丟件田奈


旦弗奈仿申伉氾奴
OLTP 皿伕玄戊伙及逃桯

�腔皿伕本旦弘伙奈皿


申亙奈及肮ヽㄗㄠㄘ


申亙奈及肮ヽㄗㄡㄘ


申亙奈及肮ヽㄗㄢㄘ


2PC 卞測歹月 atomic broadcast
2PC 卞測歹曰煦汃扑旦氾丞及丟永本奈斥件弘
忳陓午饜冞及煦褩
ACID 及珨�俶午蚗適趙互肮媆卞灍俴今木月
玄仿件扒弁扑亦件伉末奈旦
弁仿奶失件玄穴生奈斥乓
read/write 黱
(ROWA)

玄仿件扒弁扑亦件黱伕奈市伙
玄仿件扒弁扑亦件
及 serializability

玄仿件扒弁扑亦件犯奈正紱釬 Read-only
玄仿件扒弁扑亦件
commit/abort 及失示奈玄

梤漲媆及�釬 (1) ROWA
? 玄仿件扒弁扑亦件冞陓笢及弁仿永扑亙
每玄仿件扒弁扑亦件冞陓笢及申亙奈劐載
Si Ｋ玄仿件扒弁扑亦件犯奈正紱釬
Ｍ
Ｌ commit
Ｎ V{Si} ↙ V＊{^Si}
View 劐載丐曰 ↙ V＊＊{Si}

? 玄仿件扒弁扑亦件忳陓笢及弁仿永扑亙
Ｋ玄仿件扒弁扑亦件犯奈正紱釬 Si
Ｌ
commit
Ｍ V{Si} ↙ V＊{^Si}
? 覧導笢及弁仿永扑亙 ↙ V＊＊{Si}
Si Ｋ
Ｌ
Ｍ

梤漲媆及�釬 (2) P-B

綅蚚笢及�傖劐載嘉中申亙奈及紱釬
及⑵勿仃
堤萎ㄩ Dynamic Reconfiguration of Primary/Backup Clusters


棒岍測失奈平氾弁民乓奈
? Soft State
每 Weak Consistency
Model
每 Timeline consistency
每 Read-your-Writes
consistency
每 Eventual consistency
? NoSQL

C,
AP (BASE), 準肮ヽ
Stateless,
Elastic

CA


CAP 隅燴及秶廣毛閉尹月
? 伊奶乩伉件弘
每 CP (Quorum) 毛 AP (ヽ癹葆五平乓永扑亙) 卞徭六月
? 玄仿件扒弁扑亦件及媆嶲煦賃井日珨�俶乒犯伙及媆嶲
捼淕 (CA 及 2PC 及秶廣)
每丟永本奈斥假隅趙及白尼奶朮
每 Weak consistency
嗣杅及皿伕本旦匹允屯化及皿伕本旦互載陔磐彆毛心卅仁化手中中袨暿
�卅月皿伕本旦匹引分肮ヽ趙互灍俴今木
化中卅中及匹紝䛐磐彆互�卅勻化方中

肮ヽ趙仄化中月及匹
P2反郔陔及 x 及 b
互�尹卅中午中仃卅中
偝⺍偝⺍今木卅中

髦蜭午窏唗

A C A C A C

BASE ACID BASE ACID BASE ACID

Superstep Sync Superstep Sync Superstep Sync

準肮ヽ肮ヽ準肮ヽ肮ヽ準肮ヽ肮ヽ

髦蜭窏唗髦蜭窏唗髦蜭窏唗


郔羥趙及源楊
? 旦弗奈仿皮伙失奈平氾弁民乓奈及埻�t
? MapReduce 及郔羥趙
每 Data Intensive Scalable Computing 失奈平
氾弁民乓奈旦正奶伙及珨瞰


旦弗奈仿皮伙失奈平氾弁民乓奈及
埻�t
犯奈正煦賃卞方月�磁滅砦丟乒伉奻及�薹瞳蚚
煦�↙煦賃↙饜离↙摩廣 index 犯奈正�婖失弁本旦
石永玄旦禾永玄及隙旌綈晊蚗適趙
犯奈正⑴婓及賤𢜪

�冞�薹趙
Co-location﹜�冞皿伕玄戊伙
�眢𨈘𦷰﹜㇌窺卅升犯奈正講及祅𦑩

�盡煦汃
準肮ヽ卞方月媆嶲船
�K蹈褫夔預垀及�K蹈灍俴
媆嶲�唗悵偩及奻


MapReduce 及昜燴郔羥趙
? 斥亦皮僇杅毛𦑩日仄 shuffle 杅毛祅𦑩
? ゴ僇卞敵六月仇午匹犯奈正�冞講毛𦑩日允
每 push-downㄩ joinㄜselectㄜprojection 毛 selectㄜjoinㄜ
projection 午允月
? sum(2,3,1) = sum(sum(2,3),1)
? avg(2,3,1) != avg(avg(2,3),1)
? 奶件弁伉丟件正伙卅�呾卞离五𡥼尹
每 semi-join(?) , bloom filter 匹�冞講毛𦑩日允
每 Combiner
? 犯奈正⑴婓及賤𢜪﹜煦賃楊
? 犯奈正�婖及郔羥趙ㄗ市仿丞硌砃 DB 卅升ㄘ
? 戊奈玉/犯奈正及僕衄﹜平乓永扑亙
? �腔郔羥趙

�K蹈及掀廌
? 煦汃�K蹈 MapReduce vs. 伕奈市伙�K蹈市仿丞硌砃
每 Tuple 及平奈杻俶
Row Group 1
c1 c2 c3 c4
c1 c2 c3 c4
11 12 13 14
11 12 13 14
21 22 23 24
21 22 23 24
31 32 33 34
31 32 33 34
41 42 43 44
51 52 53 54 Row Group 2
c1 c2 c3 c4
41 42 43 44
51 52 53 54


喲砓犯奈正(倰)及𡛟蚚
? ZooKeeper 及 znode 卞方月煦汃磁砩
? Hive 卞方月犯奈正煦昴
每 RCFileㄗ市仿丞硌砃ㄘ午 SQL �侔及皿伕弘仿立件弘乒犯伙
? Apache Spark 卞方月跪意�K蹈�呾ㄗ犯奈正白伕奈﹜BSP 卅
升ㄘ
每 RDD (Resilient Distributed Dataset) 午 Scala 及皿伕弘仿立件
弘乒犯伙
? CRDT (Commutative Replicated Data Type)卞方月僕衄犯奈
正及旦弗奈仿申伉氾奴﹜煦汃犯奈正及 eventual consistency﹜
弘伙奈皿它尼失
每 CRDT 午跪意皿伕弘仿丞晟惤


引午戶
? Big Data 及棒及價屜及笭猁卅猁匼撮胍反睡
井ˋ
每 CAP 隅燴
每煦汃扑旦氾丞
每玄仿件扒弁扑亦件﹜DB
每皿伕弘仿立件弘晟惤支汁奈伙ㄗ喲砓趙﹜郔羥趙﹜
偞�布奶玉ㄘ
每 H/W ㄗSSD﹜生永玄伐奈弁ㄘ
每杻偝﹜IP
每諂今氏及泔煾﹜眭𨫆午�f薯


端端舝

弁仿它玉毛盓尹月價攫撮扲及郔陔雄砃午踏綴及源砃俶

More Related Content

弁仿它玉毛盓尹月價攫撮扲及郔陔雄砃午踏綴及源砃俶