狠狠撸

狠狠撸Share a Scribd company logo
Azure VM の可用性を見直そう
~今更聞けない障害 / SLA / メンテナンスの仕組み~
Interact x Cloud Samurai 2016 Summer
2016/06/25
宇田 周平
(うだ しゅうへい)
? 日本マイクロソフト株式会社
カスタマー サービス&サポート
サポート エンジニア
? Windows (Hyper-V, Remote Desktop, Performance)
? Azure (IaaS / Network)
Twitter: syuheiuda
Facebook: syuhei.uda
Blog: http://www.syuheiuda.com/
Raspberry Pi 2とWindows 10ではじめる
IoTプログラミング (マイナビ出版刊)
余談ですが...
? プライベート コンテナ データセンターが
欲しいので、海上コンテナを見てきました
本セッション
のゴール
? Azure のインフラについてご理解いただく
? 可用性セットやメンテナンスなどの Azure 独自の
概念や仕組みを正しくご理解をいただく
? “芯” 機能を理解できれば、Azure は怖くない
アジェンダ
? Azure のサポート契約
? サービス レベル (SLA)
? データセンタの里侧
? 障害?メンテナンス時の挙動
いつものお願い
? コミュニティにおけるマイクロソフト社員による
発言やコメントは、マイクロソフトの正式な見解
またはコメントではありません。
? 本セッションの内容は、本日 (2016/06) 時点での
ものであり、今後予告なく変更される場合があり
ます。
サポート契約について
サービス レベル / 重大度
Azure の
サポート契約
https://azure.microsoft.com/ja-jp/support/plans/
中の人からの
お願い
? お問い合わせ時の重大度 A はサービス ダウンなど
の即時対応が必要な場合にのみご利用ください
(原則、重大度は B / C でお願いします)
? 重大度 A の場合…
? Microsoft 側は 24 時間対応の特別体制となり、一方で
お客様側にも 24 時間ご連絡がつく体制をとっていただ
きます
? 復旧が最優先のため、原因追及は緊急度 A の範囲外
(復旧後、営業時間内にて緊急度 B での対応は可能)
Azure の SLA について
SLA を正しくご存知ですか?
SLA とは
? 機能毎に定められた稼働率の目標
? 稼働率は月単位で計算されます
? 99.99 % (約 4 分)
? 99.95 % (約 21 分)
? 99.9 % (約 43 分)
? 99 % (約 7.2 時間)
VM の SLA
? インターネットに接続するすべての仮想マ
シンに、同じ可用性セットにデプロイした
2 つ以上のインスタンスがある場合、マイ
クロソフトは、99.95% 以上の時間にお
いて外部接続が確保されることを保証しま
す。
https://azure.microsoft.com/ja-jp/support/legal/sla/virtual-machines/v1_1/
Storageの
SLA
? マイクロソフトは、99.99% (クール アク
セス レベルについては 99.9%) 以上の時
間において、読み取りアクセス地理冗長ス
トレージ (RA-GRS) アカウントからの
データの読み取り要求が正しく処理される
ことを保証します。
? ただし、プライマリ リージョンからのデー
タの読み取りに失敗した場合は、セカンダ
リ リージョンで読み取りを再試行します。
https://azure.microsoft.com/ja-jp/support/legal/sla/storage/v1_1/
ExpressRoute
/ VPN の SLA
? マイクロソフトは、ExpressRoute の専用
回線について 99.9% 以上の可用性を保証
します。
? マイクロソフトは、各 VPN Gateway につ
いて 99.9% の可用性を保証します。
https://azure.microsoft.com/ja-jp/support/legal/sla/expressroute/v1_0/
https://azure.microsoft.com/ja-jp/support/legal/sla/vpn-gateway/v1_0/
ここからが本题
可用性を確保
するには…
? まずは「可用性セット」を組みましょう
(残念ながら、そもそも可用性セットを組んでいない
or 正しく使っていただけていないお客様が多いです)
? Azure の裏側の仕組みがどうなっているか
正しく理解しましょう
? クラスタ
? 更新ドメイン (Update Domain)
? 障害ドメイン (Fault Domain)
? 個々のサービス?アプリでの可用性担保に関しては、また別の機会に...
可用性セット
とは
? 仮想マシンを分散配置させるための仕組み
(各仮想マシンを異なるラックや物理サーバに配置
するためのパラメータ)
? 同じ役割を持つサーバ群を可用性セットで
グループ化しましょう
? Web サーバ (x2 台以上) の可用性セット
? DB サーバ (x2 台以上) の可用性セット
? (Web サーバと DB サーバを一緒しないこと)
データセンタの里侧
Azure リージョン 場所
東アジア 香港
東南アジア シンガポール
東日本 東京、埼玉
西日本 大阪
Azure の
データセンタ
? Azure のデータセンタは実は 1 リージョン
あたり複数ある
https://azure.microsoft.com/ja-jp/regions/
データセンタ
の中身
http://www.wired.com/2013/02/boydton/
Azure の
クラスタ
(≠ MSFC)
? 先の写真のような、サーバーのグループを
クラスタという単位で読んでいます
? クラスタ内は原則として同一の筐体ですが
VM サイズごとにハードは異なります
? A シリーズ: 様々なサーバー下で稼働可
? D シリーズ: ローカル SSD
? Dv2 シリーズ: Xeon E5-2673 v3
参考: https://channel9.msdn.com/Events/de-code/2016/INF-001
整理すると
東日本
東京
第一クラスタ
(A 専用)
約 20 ラック
第二クラスタ
(A / D 専用)
約 20 ラック
第三クラスタ
(A / D 専用)
約 20 ラック
第四クラスタ
(A / Dv2 専用)
約 20 ラック
第五クラスタ
(A / DS 専用)
約 20 ラック
埼玉
第一クラスタ
(A 専用)
約 20 ラック
※ あくまでもイメージです
障害ドメイン
更新ドメイン
障害ドメイン
更新ドメイン
の確認方法
障害ドメイン
とは何か…
? 電源とネットワーク スイッチを共有する仮
想マシンのグループ
? 要は Azure のインフラにおける障害発生時
の影響範囲 (あるラックが死んでも、隣の
ラックは影響を受けない)
VM 配置の
イメージ
Windows Azure Internals
https://channel9.msdn.com/Events/TechEd/NorthAmerica/2013/WAD-B402
ラック # 1 ラック # 2 ラック # 3 ラック # 4
物理サーバが
故障したら…
可用性セットを組んだ VM 群
Azure VM
故障等で使えない物理サーバー
1. 物理サーバーで何らか
ハードウェア障害が発生
2. 障害を検知後、正常な
物理サーバー自動で移動
(Kernel-Power 41)
3. 故障したサーバとして
マークし、運用から隔離
ラック # 1 ラック # 2 ラック # 3 ラック # 4ラック # 1 ラック # 2 ラック # 3 ラック # 4
電源障害が
発生すると…
3. 故障したサーバーとしてマーク
(これが障害ドメイン)
1. シャーシ全体がダウン
2. それぞれ、空いている
正常な物理サーバに移動
可用性セットを組んだ VM 群
Azure VM
故障等で使えない物理サーバー
更新ドメイン
とは何か…
? メンテナンス時に、作業タイミングが重複
してダウンタイムが発生しないようにする
ための仕組み
メンテナンス
にも色々ある
?計画内メンテナンス
? 通知のないもの (≒再起動が発生しない)
? 通知のあるもの (≒再起動が発生する)
? シングル インスタンス対象
? マルチ インスタンス対象
?計画外メンテナンス(≒障害)
? 前述の自動復旧とか
メンテナンス
通知メールは
二種類ある
シングル インスタンス
(12 時間中 15 分)
マルチ インスタンス
(3 日間中 15 分、可用性を考
慮)
Demo
マルチ インスタンスを対象としたメンテナンスの流れ
最後に ? まずは正しく可用性セットを組みましょう
Q & A
ご清聴ありがとうございまいた。
個別のご相談もお気軽にどうぞ!
Appendix
? 可用性関連資料
? 仮想マシンの可用性管理
? Azure での仮想マシンに対する計画的なメンテナンス
? Azure VM のメンテナンス FAQ
? Azure での高可用な基幹業務アプリケーションのデプロイ
Appendix
? その他、目を通していただきたい情報
? Azure 仮想マシンにおける不要な NIC を削除する方法
? Azure VM のストレージ パフォーマンスに関する留意点と対
処策
? VPN ゲートウェイのリセットについて
? IP アドレス 168.63.129.16 について
Appendix
? おまけ
? Azure Subscription のサマリーを生成するスクリプトを公開
しました
? Get-SubscriptionDetails

More Related Content

Azure vm の可用性を見直そう