狠狠撸

狠狠撸Share a Scribd company logo
分割と整合性をがんばる話 
ソーシャルゲームの整合性対策
自己紹介 
清水 佑吾 
@yamionp 
株式会社 gumi 勤務 
Python歴約2年半 
サーバーさわりはじめて約10年 
前職はISP
水平分割がやりたくて転职
関わったもの 
HTML + FlashLite 
Cocos2d-x
使用環境 
Python 2.7 
Django 
MySQL 5.5/5.6 (RDS) 
Redis 
RabbitMQ
アジェンダ 
2012年前期 負荷対策 
2012年中期 トランザクション 
2012年後期 デッドロック
负荷対策期
サービスがヒット 
更新処理が限界に 
当時最強のインスタンスを用意 
もう大丈夫! 
???が、ダメっっ!
というわけで
Player 
RDB 
Master Trade Guild Friend 
KVS 
Memcache 
TokyoTryant
垂直分割 
機能単位で格納先DBを変える 
性能問題に突き当たる度に分割対象を選定 
外部キーを外して別DBに移すだけの簡単なお仕事 
1機能に負荷が集中すると対処不能 
KVSにもじゃんじゃん逃す
機能をまたがる処理 
Friend フレンドが増えたので Player 
ポイントUP 
Friend ++ 
Point +10 
save 
フレンドが増えたのに save 
rollback 
ポイントが増えないい… 
失敗!
同時に使う機能は分割できない 
負荷の多いPlayer/Card/Quest/Itemの分割が難しい 
たとえ分割しても負荷は変わらないことも
そこで
Player 
RDB 
Master Guild 
Trade Friend 
KVS 
Memcache Redis 
カード等のCache 体力等
性能问题には一定の解决をみた
が…
多発する不整合 
消えた更新 
なぜか消えるカード 
なぜか増えるカード
増えるカード
プレイヤーをまたがる処理 
Player A Player B 
Trade 
Card Delete 
Card Add 
save 
save 
失敗! 
rollback 
こちらは残ったまま
消えるカード
ユーザー「合成したらカードが消えたんですが!
プレイヤーをまたがる処理 
Shard1 
ID:1 PlayerA 
Shard2 
- ID:1 PlayerC
プレイヤーをまたがる処理 
Shard1 
ID:1 PlayerA 
Shard2 
ID:1 P la y e r C - 
上書き!
分割キーを消してはいけない
機能をまたぐ場合の問題も 
残ったまま
ただし負荷は下がった 
高負荷状態にならないのでエラーも少ない 
ログだけ丁寧に仕込んで個別ケース対応 
KVSに大事なデータを置かない 
ゲームに致命的にならない範囲でエラー時はユーザー 
が得になる方に倒す 
バグは直す
そして新プロジェクトへ
アジェンダ 
2012年前期 負荷対策 
2012年中期 トランザクション 
2012年後期 デッドロック
不整合と戦う
伟い人「100万人きても大丈夫なようにしといて!」
1から抜本的に見直し 
負荷は水平分割で対処する 
XA Transactionによる一貫性担保 
ロックによる排他制御
水平分割を前提とした构成
全部DBにいれる 
Guild 
RDB Player
マスターデータはjson化 
変更がないのでデプロイ時にAppサーバーに配布 
メモリ上に展開するので非常に高速 
ますますキャッシュレスに
DBのみで実装する 
プレイヤーに紐づくデータはすべてDBに 
自动回復系ステータス(体力、BPなど)もDB 
トランザクションに収められる! 
正规化を徹底
自动回復系ステータス
RDB 
いままではKVSに格納 
Master Guild 
Player 
Trade Friend 
KVS 
Memcache Redis
よくおきる不整合 
お金追加 
体力減算 
失敗! 
begin 
commit 
rollback
自动回復系ステータス
今まではKVSに格納していた 
DBだけ更新、KVSだけ更新がおきていた 
ユーザーに得になる場合は裏技として2chで祭り 
ユーザーの損になる場合はCSが爆発する 
KVSだけ更新というパターンは0 
ほとんどの場合お金かアイテムかカードが一緒に増える 
KVSに居るメリットが実は無い
実装 
現在値、最大値、最終更新時刻を持つ 
最終更新時間と現在値から自動回復済の値を計算し 
て使う 
減算時のみUPDATE
正规化
正规化 
意味の重複する値を保存しない 
レベルの値は無く、合計経験値のみ保存 
参照時に経験値からレベルを計算 
レベルからパラメータを計算。
Before 
id int 
card_id int 
hp int 
attack int 
defense int 
magic_attack int 
magic_defense int 
exp int 
level int
After 
id int 
驚きのダイエット 
card_id int 
効果! 
exp int
齿础トランザクション
普通のトランザクション 
begin; 
SELECT…; 
INSERT INTO…; 
commit; 反映
齿础トランザクション 
DB1 DB2 
xa begin 
SELECT…; 
INSERT INTO…; 
xa end 
反映 
xa prepare 
xa commit 
xa begin 
SELECT…; 
INSERT INTO…; 
xa end 
xa prepare 
xa commit 
commit 
成功を保証
prepare 
prepare 
prepare 
prepare 
prepare 
prepare 
App
commit 
commit 
commit 
prepare 
prepare 
prepare 
App 
commit 
commit 
commit
もし途中でエラーになったら
prepare 
prepare 
prepare 
prepare 
App prepare 
失敗! 
rollback
rollback 
rollback 
rollback 
prepare 
App prepare 
rollback
无事に処理前の状态に!
複数のDBを跨ったtrxが可能 
XAに参加するいずれかの段階でエラーが起これば 
ロールバックが可能 
複数DBの状態が 処理成功 or 処理なし のいずれかの 
みを保証できるようになった 
中途半端な状態がなくなる 
体力のみ減る、カードだけ増えるなどがなくなる
が、 
DjangoはXA Transactionに非対応 
水平分割にも非対応 
自社開発!
これらを簡単に使うために 
エラーハンドリングを毎回書くのは無駄 
スキル的にもきびしい 
トランザクションに何を含めるかだけ书けるように
エンジニアが書くべきこと 
トランザクションに何を含めるか 
範囲はモデルの機能ではなくリクエストごとに決 
まる 
最適なロック順番は個別の処理ごとに異なる 
ロック?トランザクションを要求する
# player1とplayer2のDBにトランザクション開始 
with commit_on_success([player1_id, 
player2_id]): 
# ロック付きで取得 
player1 = Player.get_for_update(player1_id) 
player2 = Player.get_for_update(player2_id) 
# 減算を実行 
player1.decrement_ap(5) 
player1.increment_money(10) 
player2.decrement_money(10)
def increment_ap(self, quantity): 
# 自身がロック済みであることを要求 
self.require_for_update() 
# 減算 
self.ap -= quantity 
# UPDATE 
self.save()
入れ子のトランザクションを扱えない 
トランザクションに何を含めるかはモデルにはわか 
らない
ちなみに
肠辞尘尘颈迟途中で死んだら?
commit 
commit 
commit 
prepare 
prepare 
prepare 
App 
commit 
突然の死!! commit
commit 
commit 
commit 
XA Recover 
pcorempmariet 
cron
処理を完遂!
というのが理想 
innodbのxaは切断時にpreparedだと勝手にrollbackし 
てしまう 
2005年ぐらいから指摘されていて、patchも送られた 
が、patchの取り込みに失敗 
どうしようもない
ログベースの个别対応辞谤锄
ある日の夜 
イベントリリース! 
しばらくは問題なく動作していたが… 
ページが开けない!と苦情が
CloudWatch 
AppサーバーCPU使用 
率もリクエスト数も問 
題ないが... 
DBのCPU使用率が張り 
付いていた
即JetProfilerを起動 
?
テキスト 
クリック一つて即Eplain 
グラフィカル&レーティングしてくれる。 
顿叠にくわしくなくてもいかにもダメそうな感じ
インデックスがなかった 
特定クエリが処理時間の9割以上を占めていた 
緊急メンテに入りインデックスを追加 
インデックスをはったら5%以下に
ほとんど同じ状況で 
別パターン
無駄インデックス問題 
特定クエリが処理時間の3割以上を占めていた 
スローではないが一クエリ当たりの時間が多い 
Explainしたら index merge 
インデックスを削除したら100倍高速化
アジェンダ 
2012年前期 負荷対策 
2012年中期 トランザクション 
2012年後期 デッドロック
排他制御 
ロック 
CAS
颁础厂の话はしません
ロック 
innodbはレコードロックが可能 
ロックの実現にはインデックスが使われる 
存在するインデックスより狭い範囲のロックはでき 
ない
ロック範囲 
PrimaryKey Index 
ID player_id value 
1 401 A 
2 401 B 
3 402 B 
4 403 C
SELECT * 
FROM player 
WHERE player_id = 401 
FOR UPDATE
ロック範囲 
PrimaryKey Index 
ID player_id value 
1 401 A 
ロック範囲 
2 401 B 
3 402 B 
4 403 C
SELECT * 
FROM player 
WHERE value = “B” 
FOR UPDATE
ロック範囲 
PrimaryKey Index 
ID player_id value 
1 401 A 
2 401 B 
期実待際すのるロロッックク範範囲囲 
3 402 B 
4 403 C
実際のロック範囲はオプティマイザーの気分次第 
必要なインデックスが無いと不必要に大きな範囲の 
ロックをとってしまう 
インデックスが無駄にあると意図しないインデック 
スを使われてロックをとられてしまう
何が起きるか
ある日 
ゲームが重い 
画面が開けない 
レイドボスを攻撃したのに重くて叩けなかった 
イベントが動かない!
生涯発生中に自分がプレイしても得に問題なかった 
だがエラー報告が大量発生 
サーバー負荷は大したことなかった 
CPU/RAM/Disk/Networkすべて低レベル 
ロードバランサーのレスポンスタイムがどんどん劣化
JetProfiler
ロック状态
何が起きていたか 
デッドロックによってロック待ちとタイムアウトが 
発生
ロック 
ID player_id value 
1 401 A 
2 401 B 
3 402 B 
4 403 C 
App 
1 
2
デッドロック 
ID player_id value 
1 401 A 
2 401 B 
3 402 B 
4 403 C 
App 
1 
デッドロック 
App 2
MySQLさんは親切 
同じDB内のデッドロックは検知して解除してくれる 
分割しているとMySQLは検知できない 
XAでトランザクションをまとめているので複数DBに 
またがって止まる
回避するには 
ロック順番を統一する 
ロックする前にソート(id, Player_id,) 
DBをソート 
テーブルをソート 
レコードをソート 
大きくロックを取る player単位、レイドボス単位
参照処理に更新を混ぜない
負荷も跳ね上がる。更新にはほとんどの場合ロック 
が必要 
参照がロックをとる 
ロック機会の圧倒的増大 
デッドロック祭り 
止まってしまうサービス 
まってくれない終電
MySQL「XAはSERIALIZABLE」 
どのみち更新に必要なデータはFOR UPDATEで取得 
する必要がある 
じつはいらなくね???? 
REPEATABLE READにしたら速度もあがって問題なく 
なりました
まとめ 
単にKVSに移すのは問題の先延ばしにしかならない 
きちんと使えばRDBだけで十分さばける 
マスターオンリー障害対策用のSlaveはいるがクエリは裁かない 
デッドロック対策の前に適切なインデックスを 
インデックスショットガン。だめ、絶対。 
NewRelicとJetProfilerは神超オススメです
ご清聴ありがとうございました
质疑応答

More Related Content

What's hot (20)

PDF
マイクロにしすぎた结果がこれだよ!
mosa siru
?
PDF
分散システムの限界について知ろう
Shingo Omura
?
PDF
顿测苍补尘辞顿叠の初心者に伝えたい初めて触るときの勘所
Ryo Sasaki
?
PPTX
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
?
PDF
笔贬笔から驳辞への移行で分かったこと
gree_tech
?
PPTX
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
NTT DATA Technology & Innovation
?
PDF
顿辞肠办别谤と笔辞诲尘补苍の比较
Akihiro Suda
?
PPTX
エンジニアライクにドキュメントを作成してみた件
Mass310
?
PDF
フロー効率性とリソース効率性について #xpjug
Itsuki Kuroda
?
PPTX
Apache Avro vs Protocol Buffers
Seiya Mizuno
?
PPTX
本当は恐ろしい分散システムの话
Kumazaki Hiroki
?
PDF
Test Yourself - テストを書くと何がどう変わるか
Takuto Wada
?
PDF
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes ?PFN、ヤフー?
Preferred Networks
?
PPTX
イベント駆动プログラミングと滨/翱多重化
Gosuke Miyashita
?
PDF
DroidKaigi 2019 Chrome Custom Tabsの仕組みから学ぶプロセス間通信
ryo_mm2d
?
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
?
PDF
础奥厂の狈辞厂蚕尝入门
Akihiro Kuwano
?
PPTX
これが颁补蝉蝉补苍诲谤补
Takehiro Torigaki
?
PPTX
厂濒耻谤尘のジョブスケジューリングと実装
Ryuichi Sakamoto
?
マイクロにしすぎた结果がこれだよ!
mosa siru
?
分散システムの限界について知ろう
Shingo Omura
?
顿测苍补尘辞顿叠の初心者に伝えたい初めて触るときの勘所
Ryo Sasaki
?
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
?
笔贬笔から驳辞への移行で分かったこと
gree_tech
?
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
NTT DATA Technology & Innovation
?
顿辞肠办别谤と笔辞诲尘补苍の比较
Akihiro Suda
?
エンジニアライクにドキュメントを作成してみた件
Mass310
?
フロー効率性とリソース効率性について #xpjug
Itsuki Kuroda
?
Apache Avro vs Protocol Buffers
Seiya Mizuno
?
本当は恐ろしい分散システムの话
Kumazaki Hiroki
?
Test Yourself - テストを書くと何がどう変わるか
Takuto Wada
?
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes ?PFN、ヤフー?
Preferred Networks
?
イベント駆动プログラミングと滨/翱多重化
Gosuke Miyashita
?
DroidKaigi 2019 Chrome Custom Tabsの仕組みから学ぶプロセス間通信
ryo_mm2d
?
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
?
础奥厂の狈辞厂蚕尝入门
Akihiro Kuwano
?
これが颁补蝉蝉补苍诲谤补
Takehiro Torigaki
?
厂濒耻谤尘のジョブスケジューリングと実装
Ryuichi Sakamoto
?

Viewers also liked (12)

PPTX
MMOのサーバについて 剣と魔法のログレス ~いにしえの女神~ での実装例
Satoshi Yamafuji
?
PPTX
Imprementation of realtime_networkgame
Satoshi Yamafuji
?
PDF
负荷がたかいいんだから~?(仮)
Yohei Hamada
?
PDF
サーバーのおしごと
Yugo Shimizu
?
PDF
Fluentd and Embulk Game Server 4
N Masahiro
?
PDF
Halo2 におけるHFSM(階層型有限状態マシン) 【ビヘイビアツリー解説】
Youichiro Miyake
?
PPTX
リアルタイムサーバー ?Erlang/OTPで作るPubSubサーバー?
Yugo Shimizu
?
PDF
负荷対策しておもったことまとめ词闯惭别迟别谤で厂辞肠办别迟.滨翱もいけるでよ词
johgus johgus
?
PPTX
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
PDF
自宅て?出来る!ケ?ームサーハ?の作り方
光晶 上原
?
PDF
ケ?ームサーハ?开発现场の考え方
Daisaku Mochizuki
?
PDF
サーハ?ー未経験者か?ソーシャルケ?ームを通して知ったサーハ?ーの事
Manabu Koga
?
MMOのサーバについて 剣と魔法のログレス ~いにしえの女神~ での実装例
Satoshi Yamafuji
?
Imprementation of realtime_networkgame
Satoshi Yamafuji
?
负荷がたかいいんだから~?(仮)
Yohei Hamada
?
サーバーのおしごと
Yugo Shimizu
?
Fluentd and Embulk Game Server 4
N Masahiro
?
Halo2 におけるHFSM(階層型有限状態マシン) 【ビヘイビアツリー解説】
Youichiro Miyake
?
リアルタイムサーバー ?Erlang/OTPで作るPubSubサーバー?
Yugo Shimizu
?
负荷対策しておもったことまとめ词闯惭别迟别谤で厂辞肠办别迟.滨翱もいけるでよ词
johgus johgus
?
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
自宅て?出来る!ケ?ームサーハ?の作り方
光晶 上原
?
ケ?ームサーハ?开発现场の考え方
Daisaku Mochizuki
?
サーハ?ー未経験者か?ソーシャルケ?ームを通して知ったサーハ?ーの事
Manabu Koga
?
Ad

Similar to 分割と整合性と戦う (20)

PDF
新入社員のための大規模ゲーム開発入門 サーバサイド編
infinite_loop
?
PDF
新入社員のための大規模ゲーム開発入門 サーバサイド編 2015
infinite_loop
?
PDF
大规模ソーシャルゲーム开発から学んだ笔贬笔&惭测厂蚕尝実践テクニック
infinite_loop
?
PDF
Databasedesignforsocialgames 110115195940-phpapp02
hideki hasegawa
?
PDF
ソーシャルゲームのためのデータベース设计
Yoshinori Matsunobu
?
PDF
ソーシャルゲームの為のデータベース设计
kaminashi
?
PPTX
DynamoDBによるソーシャルゲーム実装 How To
伊藤 祐策
?
PDF
大规模ソーシャルゲームを支える技术~笔贬笔+惭测厂蚕尝を使った高负荷対策~
infinite_loop
?
PPTX
顿测苍补尘辞顿叠だけでソシャゲを作ってみた
伊藤 祐策
?
PDF
笔贬笔+惭测厂蚕尝を使ったスケーラブルなソーシャルゲーム开発
infinite_loop
?
PDF
滨苍苍辞顿叠のすゝめ(仮)
Takanori Sejima
?
PDF
地方公司がソーシャルゲーム开発を成功させるための10のポイント
Kentaro Matsui
?
KEY
実録!搁补颈濒蝉のはまりポイント10选
Drecom Co., Ltd.
?
PDF
ソーシャルアプリを分析してみた
Drecom Co., Ltd.
?
PPTX
ソーシャルゲームにレコメンドエンジンを导入した话
Tokoroten Nakayama
?
PPTX
2016/12/15 SQLチューニングと対戦格闘ゲームの類似性について語る。 JPOUG Advent Calendar 2016 Day 15
歩 柴田
?
PDF
0730 bp study#35発表資料
Yasuhiro Horiuchi
?
PPTX
DB Tech Showcase 大阪: Amazon DynamoDB Deep Dive
Kenta Yasukawa
?
PDF
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
Amazon Web Services Japan
?
PPTX
AWS Dev Day Tokyo 2018 | Amazon DynamoDB Backed な テレコムコアシステムを構築?運用してる話
SORACOM,INC
?
新入社員のための大規模ゲーム開発入門 サーバサイド編
infinite_loop
?
新入社員のための大規模ゲーム開発入門 サーバサイド編 2015
infinite_loop
?
大规模ソーシャルゲーム开発から学んだ笔贬笔&惭测厂蚕尝実践テクニック
infinite_loop
?
Databasedesignforsocialgames 110115195940-phpapp02
hideki hasegawa
?
ソーシャルゲームのためのデータベース设计
Yoshinori Matsunobu
?
ソーシャルゲームの為のデータベース设计
kaminashi
?
DynamoDBによるソーシャルゲーム実装 How To
伊藤 祐策
?
大规模ソーシャルゲームを支える技术~笔贬笔+惭测厂蚕尝を使った高负荷対策~
infinite_loop
?
顿测苍补尘辞顿叠だけでソシャゲを作ってみた
伊藤 祐策
?
笔贬笔+惭测厂蚕尝を使ったスケーラブルなソーシャルゲーム开発
infinite_loop
?
滨苍苍辞顿叠のすゝめ(仮)
Takanori Sejima
?
地方公司がソーシャルゲーム开発を成功させるための10のポイント
Kentaro Matsui
?
実録!搁补颈濒蝉のはまりポイント10选
Drecom Co., Ltd.
?
ソーシャルアプリを分析してみた
Drecom Co., Ltd.
?
ソーシャルゲームにレコメンドエンジンを导入した话
Tokoroten Nakayama
?
2016/12/15 SQLチューニングと対戦格闘ゲームの類似性について語る。 JPOUG Advent Calendar 2016 Day 15
歩 柴田
?
0730 bp study#35発表資料
Yasuhiro Horiuchi
?
DB Tech Showcase 大阪: Amazon DynamoDB Deep Dive
Kenta Yasukawa
?
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
Amazon Web Services Japan
?
AWS Dev Day Tokyo 2018 | Amazon DynamoDB Backed な テレコムコアシステムを構築?運用してる話
SORACOM,INC
?
Ad

分割と整合性と戦う