端端舝

Checkpoint Algorithms
on In-memory Databases
nikezono, 11/25, 2022, system-readings

Checkpoint 101
? 民尼永弁禾奶件玄: 犯奈正矛奈旦及伉市田伉及凶戶及辻夔
? 綅蚚笢及丐月媆萸及奶丟奈斥毛汜傖允月
? 公及媆萸引匹卞皺歹勻凶玄仿件扒弁扑亦件及ロ�毛�化毀茬允月
? ☆丐月媆萸★互中勾卅及井甩永平伉晟尹卅中(珨�俶互卅中)午NG
? `Point of consistency [1]` 午方壬木化中月
Thread 1
?1, ??
OK NG
Thread 2
?1 ?2 ?3 ?4
?? ?? ??
?2 ?? ??????????
Checkpoint Image: ?1, ??, ?2, ??
Depends
?? ?? ??????? ?? ?4

Checkpoint 及砩膽
1. 伕弘(WAL)及扔奶朮毛衄賜卞允月
? 𤩸五煋心毛允月�玄仿件扒弁扑亦件互伕弘 (WAL) 毛𤩸仁凶戶
2. 伉市田伉媆嶲毛詢厒卞允月
? WAL毛郔場井日伉皿伊奶仄化中月午墿中堎゜毛猁允月凶戶
? Compaction今木凶奶丟奈斥卞卞郔輪及WAL毛羥蚚允月ㄛ午中丹及互謎中
3. 民尼永弁禾奶件玄矛奈旦及蚗適俶毛枑鼎允月
? FASTER-CPR [2] 午井 Redis 及 RDB 蚗適俶午井ㄝ
? 珨隅媆嶲云五卞珨�俶及丐月旦瓜永皿扑亦永玄毛龰月分仃ㄛ午中丹伊矛伙
? 郔輪及手及反𨩇逃仄化手偝仄化仁木月友

Checkpointing on Disk-based DBMS
? 犯奴旦弁矛奈旦及犯奈正矛奈旦
? 犯奴旦弁奻卞犯奈正互手丹徭勻化中月
? Committed手Aborted手Dirty手犯奴旦弁卞𤩸五仇引木化中月
? 犯奴旦弁奻及犯奈正互 point of consistency 毛㦤凶六壬OK
? Aborted/Dirty毛羥ピ卞�I燴匹五木壬Committed分仃紹月及匹ㄛOK
? Fuzzy Checkpointing 午中丹失伙打伉朮丞互衄靡
? Active transactions及伉旦玄午 Dirty Page Table毛釬勻化悵湔仄化云五ㄛ綅蚚笢卞
奪燴允月
? Recovery媆卞仇及伉旦玄毛妏勻化dirty/abort毛羥ピ卞�I燴允月
? ��反 ARIES [3] 匹ㄝ踏゜反惤曰引六氏

Checkpointing on In-Memory DBMS
? 奶件丟乒伉犯奈正矛奈旦
? 犯奴旦弁奻卞犯奈正互卅中
? 犯奴旦弁卞反伕弘ㄗWALㄘ仄井卅中
? 失皿伕奈民反中欠中欠
? WAL毛戊件由弁扑亦件允月
? 隅ヽ腔卞�犯奈正毛flush允月
? 踏゜反仇及失皿伕奈民及�毛仄引允

�犯奈正毛flush允月
? 升丹支月氏分
? Full-scan 及read-only txn 毛軗日六月? 笭允亢＃＃
? 2PL 分午�犯奈正卞伕永弁井仃月仇午卞卅月
? 匹手∣及NG由正奈件反お仇日卅中
Thread 1
?1, ??
Thread 2
?1 ?2 ?3 ?4
?? ?? ??
?2 ?? ??????????
Checkpoint Image: ?1, ??, ?2, ??
?? ?? ??????? ?? ?4
手勻午幏講卞 consistent 卅�毛竘仁源楊卅中井卅???

Making Virtual Point of Consistency
? Physical Point of Consistency (PPoC): 昜燴腔卅�礿砦袨颷
? Logical Point of Consistency (LPoC): �燴腔卅PoC
1. Copy-On-Update
? Checkpoint蚚及田永白央毛蚚砩仄化ㄛ跪玄仿件扒弁扑亦件卞羥皊豖旌今六化中仁
2. Zig-Zag, Ping-Pong [4]
? Wait-free卅LPoC汜傖忒楊ㄝ嘐隅墿犯奈正 & 凶引卞PPoC互斛猁
3. CALC [5]
? 褫劐墿犯奈正OK&PPoC祥猁卅LPoC汜傖忒楊ㄝ笢栝犯奈正�婖互丐月
4. CPR [6]
? 笢栝犯奈正�婖及卅中ㄛ井勾�K蹈趙今木凶LPoC汜傖忒楊
5. Hyper
? 皿伕本旦毛fork仄化戊疋奈毛龰曰ㄛcheckpoint毛仄化中仁

Zig-Zag [4]
? 犯奈正矛奈旦互跪犯奈正卞勾五媼勾田永白央 (AS) 毛奪燴允月
? 玄仿件扒弁扑亦件卞𤩸井六月手及午ㄛ民尼永弁禾奶件玄卞妏丹手及
? 煦仃月仇午卞方勻化伕永弁匹齬坻仄丐丹斛猁互卅仁卅月
? 猁廣
? 媼勾及田永白央 ??[2]午媼勾及申永玄穴永皿??, ??毛蚚砩允月
? 申永玄穴永皿互ㄛ☆升切日及田永白央毛妏丹屯五井★毛尨允
? MR 反郔陔及犯奈正互郗仄中午五掂戈屯五手及毛ㄛ MW 反𤩸仁屯五手及毛尨仄化中
月
? 玄仿件扒弁扑亦件反犯奈正 i 毛掂戈午五 AS[MR[i]] [i]毛妏丹
? 民尼永弁禾奶件玄反 AS[?MW[i]][i] 毛妏丹
? 隅ヽ腔卞switch允月ㄝPPoC卞善絻仄凶午五卞俴丹

? 犯奈正矛奈旦互跪犯奈正卞勾五媼勾田永白央 (AS) 毛奪燴允月
? 玄仿件扒弁扑亦件卞𤩸井六月手及午ㄛ民尼永弁禾奶件玄卞妏丹手及
? 煦仃月仇午卞方勻化伕永弁匹齬坻仄丐丹斛猁互卅仁卅月
? 猁廣
? 媼勾及田永白央 ??[2]午媼勾及申永玄穴永皿??, ??毛蚚砩允月
? 申永玄穴永皿互ㄛ☆升切日及田永白央毛妏丹屯五井★毛尨允
? MR 反郔陔及犯奈正互郗仄中午五掂戈屯五手及毛ㄛ MW 反𤩸仁屯五手及毛尨仄化中
月
? 玄仿件扒弁扑亦件反犯奈正 i 毛掂戈午五 AS[MR[i]] [i]毛妏丹
? 民尼永弁禾奶件玄反 AS[?MW[i]][i] 毛妏丹
? 隅ヽ腔卞switch允月ㄝPPoC卞善絻仄凶午五卞俴丹
Zig-Zag [4]

(Interleaved) Ping-Pong [4]
? Zig-Zag卞反セ萸互丐月
? PPoC毛釬日卅中午棒及民尼永弁禾奶件玄卞痄俴匹五卅中
? 民尼永弁禾奶件玄笢反用件皮伕永平件弘分仃升ㄛ引分逋曰卅中
? Ping-Pong毛枑偶
? PPoC卅仄ㄝ測歹曰卞今日卞諾嶲秏愐講毛�支允
? AS, Odd, Even 及ㄢ勾及薆郖毛釬勻化跪犯奈正毛戊疋奈允月
? 玄仿件扒弁扑亦件
? AS午Odd or Even及升勻切井ㄛ硌隅今木化中月幻丹卞𤩸五煋戈
? 民尼永弁禾奶件玄
? Odd or Even 及升勻切井ㄛ玄仿件扒弁扑亦件卞揖日木卅中源井日掂心煋戈
? 旦奶永民件弘
? Odd or Even 及硌隅毛俴丹申永玄毛失玄立永弁卞𤩸五𡥼尹月

CALC [1]
? Zig-Zag/Ping-Pong及蜊囡
? 嘐隅墿饜蹈午仄化仄井 AS 毛蚚砩匹五卅井勻凶萸毛蜊囡
? Switching卞PPoC互斛猁分勻凶萸毛蜊囡 (Zig-Zag及心)
? 民尼永弁禾奶件玄毛5-phases卞煦賃
1. REST: 民尼永弁禾奶件玄仄化中卅中袨颷
2. PREPARE: VPoC毛釬月𨃨�毛允月袨颷
3. RESOLVE: VPoC及摽卞弇离允月袨颷ㄝ
仇仇匹俴歹木月劐載反民尼永弁禾奶件玄卞反⻌日卅中ㄝ
��T互PREPARE 袨颷卞腛痄仄凶仇午毛復庲仄凶日跪赻 RESOLVE 卞⻌勻化中仁
4. CAPTURE: 田永弁弘仿它件玉匹民尼永弁禾奶件玄毛𤩸仁袨颷
��T互RESOLVE袨颷卞腛痄仄凶仇午毛復庲仄凶日跪赻 CAPTURE卞⻌勻化中仁
��T互CAPTURE卞⻌勻凶日田永弁弘仿它件玉及checkpointer互お�允月
5. COMPLETE: 民尼永弁禾奶件玄互俇賸仄凶仇午毛尨允袨颷

CALC [1] Cont＊d
? CALC及蕉尹源
? 民尼永弁禾奶件玄反 VPoC (PREPARE午 RESOLVE及嶲) 及摽卞灍俴今木月
REST PREPARE RESOLVE CAPTURE COMPLETE
VPoC
Checkpointer
works
? Checkpointer互VPoC媆萸匹及跪犯奈正毛掂心龰木月方丹卞仄凶中

CALC [1] Cont＊d
? CALC及蕉尹源
? 民尼永弁禾奶件玄反 VPoC (PREPARE午 RESOLVE及嶲) 及摽卞灍俴今木月
REST PREPARE RESOLVE CAPTURE COMPLETE
VPoC
Checkpointer
works
Stable versions
(delta)
? Checkpointer互VPoC媆萸匹及跪犯奈正毛掂心龰木月方丹卞仄凶中
? CALC匹反ㄛ stable versions 毛掂戶壬龰木月方丹卞允月
? PREPARE 袨颷匹郔摽卞犯奈正毛載陔仄凶�反 stable versions手載陔允月
? RESOLVE 袨颷匹郔場卞犯奈正毛掂氏分�反 stable versions卞手戊疋奈允月

CALC [1] Cont＊d
? 跪平奈卞田永白央毛媼勾 (live, stable) 蚚砩允月
? `stable_status` 午中丹申永玄饜蹈毛蚚砩允月
? Checkpointer井日�化ㄛdb[key].stable 反 stable_status[key] is true 及午五VPoC及手及
? 公丹匹卅中�磁反ㄛlive version 互載陔今木化中卅中午中丹仇午卅及匹ㄛ公及引引掂戶月

CALC [1] Cont＊d
? 瓜奶奈皮卅旦瓜永皿扑亦永玄午Fuzzy checkpoint分午旦伙奈皿永玄互未伕卞卅月互ㄛヽ嶲反傻中
? Zig-Zag / Ping-Pong 反民尼永弁禾奶件玄笢及旦伙奈皿永玄互邈切月ㄝ
? Ping-Pong 反犯奈正1勾卞勾五3勾及田永白央 (AS, Odd, Even) 毛蚚砩允月凶戶ㄛ丟乒伉/平乓永扑亙�薹互�中
? 磐擁 Long Tx互蝠元月 (b) 分午 PPoC 毛釬月凶戶卞心氏卅俶夔互�仁卅月互ㄛ CALC 反方仁支勻化中月ㄝ

CPR [2]
? CALC及蜊囡
? CALC反笢栝犯奈正�婖 commit_log 互斛猁匹ㄛ仇木毛椛仄凶
? commit_log 卞反跪旦伊永玉及中月袨颷/仇木井日宎引月袨颷互𤩸中化丐勻凶
? LineairDB匹仇木毛灍蚾 & 蜊囡仄引仄凶

CPR [2] Cont＊d
? 袨颷腛痄毛 Epoch Framework [5] 匹支勻化中月及互novelty
? atomic<int> epoch 午 atomic<int>[] thread_local_epoch 匹袨颷腛痄允月
? thread_local_epoch 互�化肮元杅�卞卅勻凶午五 epoch 毛奶件弁伉丟件玄允月

CPR [2] Cont＊d
? CPR 反 4-phases 井日卅月
? VPoC及ゴ摽及袨颷毛釬勻化ㄛ公仇匹跪玄仿件扒弁扑亦件互方仄卅卞 stable versions毛紱釬仄化中
仁???午中丹及反CALC午 �仁肮元
? 袨颷腛痄毛 Epoch Framework [5] 匹支勻化中月及互novelty
? atomic<State> state 午 atomic<State>[] thread_local_state 匹袨颷腛痄允月
? thread_local_State 互�化肮元卞卅勻凶午五棒及 phase 卞俴仁ㄝ皮伕永平件弘仄卅中及互仫曰
? PREPARE 互 IN-PROGRESS 及犯奈正毛掂氏匹仄引丹午五反ㄛ失示奈玄允月
? 仇及失示奈玄反 CALC 匹手斛猁卅甩朮分互ㄛ�恅笢卞珨ピ�扴互卅中
IN-
PROGRESS
WAIT
FLUSH
REST
PREPARE ? (? + 1)
?
?
?
Aborts some
transactions

LineairDB
? 犯奈正矛奈旦�极卞緙磁今木凶Epoch Manager毛蚚砩
? IN-PROGRESS phase 及午五ㄛ玄仿件扒弁扑亦件互跪犯奈正毛 stable 卞戊疋奈允月
? PREPARE 白尼奈朮毛祅壺
? 仇木反失示奈玄及凶戶及袨颷分互ㄛ LineairDB匹反 e+1 及Tx互 e 及犯奈正毛掂戈仇午
反卅中
IN-
PROGRESS
WAIT
FLUSH
REST
PREPARE ? (? + 1)
?
?
?
Aborts some
transactions
IN-
PROGRESS
WAIT
FLUSH
REST
? (? + 1)
Epoch Manager

Unknowns
? WAL毛戊件由弁扑亦件仄化民尼永弁禾奶件玄允月忒楊ㄛ屾卅允
亢
? 卅兮ˋ
? 白央奶伙毛揖月午�K俴俶互腴中ㄗe.g., lock) 井日ˋ

References
1. Kun Ren, Thaddeus Diamond, Daniel J. Abadi, and Alexander Thomson. 2016. Low-Overhead Asynchronous
Checkpointing in Main-Memory Database Systems. In Proceedings of the 2016 International Conference
on Management of Data (SIGMOD '16). Association for Computing Machinery, New York, NY, USA, 1539每1551.
https://doi.org/10.1145/2882903.2915966
2. Guna Prasaad, Badrish Chandramouli, and Donald Kossmann. 2020. Concurrent Prefix Recovery:
Performing CPR on a Database. SIGMOD Rec. 49, 1 (March 2020), 16每23.
https://doi.org/10.1145/3422648.3422653
3. C. Mohan, Don Haderle, Bruce Lindsay, Hamid Pirahesh, and Peter Schwarz. 1992. ARIES: a transaction
recovery method supporting fine-granularity locking and partial rollbacks using write-ahead logging.
ACM Trans. Database Syst. 17, 1 (March 1992), 94每162. https://doi.org/10.1145/128765.128770
4. Tuan Cao, Marcos Vaz Salles, Benjamin Sowell, Yao Yue, Alan Demers, Johannes Gehrke, and Walker White.
2011. Fast checkpoint recovery algorithms for frequently consistent applications. In Proceedings of the 2011
ACM SIGMOD International Conference on Management of data (SIGMOD '11). Association for Computing
Machinery, New York, NY, USA, 265每276. https://doi.org/10.1145/1989323.1989352
5. Stephen Tu, Wenting Zheng, Eddie Kohler, Barbara Liskov, and Samuel Madden. 2013. Speedy transactions in
multicore in-memory databases. In Proceedings of the Twenty-Fourth ACM Symposium on Operating
Systems Principles (SOSP '13). Association for Computing Machinery, New York, NY, USA, 18每32.
https://doi.org/10.1145/2517349.2522713

端端舝

Checkpointing Algorithms on In-memory DBMS

More Related Content

Checkpointing Algorithms on In-memory DBMS