狠狠撸

狠狠撸Share a Scribd company logo
CyberAgentでの
サーバ选定手法の紹介
Server selection Method for CyberAgent
株式会社サイバーエージェント
CyberAgent group Infrastructure Unit 知念洋樹
1.自己紹介
2.サイバーエージェントとは
3.サイバーエージェントのPrivateCloudを紹介
4.サーバ选定手法
- 要件定義
- 判断
- 検証
3
知念 洋樹 Hiroki Chinen
? 株式会社サイバーエージェント
CyberAgent group Infrastructure Unit (CIU)
Private Cloud HWチーム
? 2017年7月 サイバーエージェント入社
HW選定やStorage製品の選定、構築、運用と手広く従事
? 趣味
アマチュア無線(Call sign: JJ1PZY) モールス聞き取り練習中
ドライブ 1,000km/24h走破することもあったなー
-.-. --.- -.. . .--- .--- .---- .--. --.. -.--
サイバーエージェントとは
5 新規投資家向け資料
https://www.cyberagent.co.jp/ir/library/ataglance/
サイバーエージェントの
プライベートクラウド
7
サイバーエージェントのプライベートクラウド
ARK01 TKY01 TKY02
8
サイバーエージェントのプライベートクラウド
ARK01
vCPU: 10kCore
Storage: 100TB
Rack: 40
TKY01
vCPU: 20kCore
Storage: 600TB
Rack: 30
TKY02
vCPU: 30kCore
Storage: 1PB
Rack: 16
vCPU: 60,000core
Storage: 1.7PB
9
サイバーエージェントのプライベートクラウド
データセンターの
選定
サーバ選定?
設置
OpenStack
の構築
サーバの保守
運用
OpenStack
の運用
データセンターの
クローズ
10
サイバーエージェントのプライベートクラウド
? TKY02で使用しているサーバ
? 2U4Node 高密度 Computeサーバ ? 1U 10NVMe Storageサーバ
CPU
NVMe
Chassis
NIC
サーバ选定手法
12
サーバ选定手法 ? 要件定義
? 用途
? スペック
? 止められない度
? 金額感
13
サーバ选定手法 ? 要件定義
? 用途
高密度 OpenStack ComputeNodeサーバ
? スペック
Chassis: 2U4Node
CPU: 24core/48threads x2 socket
Mem: 64GB x16 = 1TB
Disk: None
NIC: Dual 25Gbps SFP28
PSU: Redundant, HotSwap可
FAN: Redundant, HotSwap可
? 止められない度
やや止めづらい(10vm over/1node)
4node全て停止はほぼ不可
? 金額感
できるかぎり安く
14
サーバ选定手法 ? 判断
? 妥協できる条件
? 分解難易度
? 価格
? 拡張性
? 妥協できない条件
? PSUの冗長化
? FANのHotSwap対応
? ラックに納まる大きさであること
? 弊社指定NICを装着できること
15
サーバ検証手法 ? 検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? 電源投入後に確認するモノ
? 静的な部分
? BMCの挙動
? NUMA
? Diskの見え方
? ベンチマーク
? 動的な部分(アイドル時/高負荷時)
? 消費電力の計測
? 各パーツの温度
? HotSwap試験
16
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? 入力電圧
? 電源容量
? コネクタの形状
17
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? 冗長されているか
? 抜き差しの難易度
? 配置
? FANアクセス用天板の大きさ
18
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? FormFactor (SFF, NGSFF, M.2…)
? Interface (SAS, SATA, NVMe)
? 本数
? トレイの形状
19
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? Onboard NICの種類 (BMC, LAN,,,)
? ポート数
? Interface (RJ45, SFP+,,,)
20
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? Toolレスで利用できるか
? レールタイプ
? 載せるタイプ
21
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? PCIeスロットにアクセスするのに何本ネ
ジを外さないといけないか
? 脆そうな部品はないか
22
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? Rackに収まる大きさか
23
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? よく冷えそうか
? 風の流れを妨げる部品は無いか
? FrontのDiskがよく冷えそうか
24
サーバ検証手法 ? 電源投入前検証
? 電源投入前に確認するモノ
? PSU
? FAN
? Disk
? NIC
? レール
? 分解難易度
? 筐体の大きさ
? エアフロー
? 拡張性
? 空きPCIeスロット数
? 空きDiskスロット数
25
サーバ検証手法 ? 電源投入後検証
? 静的な部分
? BMCの挙動
? NUMA
? Diskの見え方
? ベンチマーク
? Sensor情報
? LAN設定
? User設定
? HTML5のConsole
? 一括したデータ収集方法ある?
26
サーバ検証手法 ? 電源投入後検証
? 静的な部分
? BMCの挙動
? NUMA
? Diskの見え方
? ベンチマーク
? NUMAの構成を把握
? Memoryのバランスを把握
27
サーバ検証手法 ? 電源投入後検証
? 静的な部分
? BMCの挙動
? NUMA
? Diskの見え方
? ベンチマーク
? 認識順を確認 (sda, sdb, nvme0n1,,,)
? RAIDカード等のDriverの確認
28
サーバ选定手法 ? NVMe
? 性能測定
SSDの不得意を攻める
? 合格基準
? 事前に決めたIOPSを切ることがないこと
? ツール
? fio
? 負荷条件
? 使用容量をほぼ100%にする
? 小さいブロックサイズ(bs=4k)
? 長時間のRandom Write
? CPUフル稼働
29
サーバ选定手法 ? NVMe
キャッシュが効いてバーストするタイミング キャッシュ切れタイミング
30
サーバ検証手法 ? 電源投入後検証
? 静的な部分
? BMCの挙動
? NUMA
? Diskの見え方
? ベンチマーク
? CPUの性能 (UnixBench)
? NICの性能 (iperf)
31
サーバ选定手法 ? CPU
? CPUの特徴を知る
? ベンチマーク試験
? 選定基準
32
サーバ选定手法 ? CPU
? CPUの特徴を知る
? ベンチマーク試験
? 選定基準
? 基本スペック (Core数, クロック数, TDP,,,)
? NUMA構成の把握
? CPUを構成する技術
33
サーバ选定手法 ? CPU
? CPUの特徴を知る
? ベンチマーク試験
? 選定基準
? Unixbench
? 条件を合わせるアイデア
? KVM上で同一Core数のVMで比較
34
サーバ选定手法 ? CPU
? CPUの特徴を知る
? ベンチマーク試験
? 選定基準
? 高密度サーバ
? 1nodeあたりのVM密度
? どの世代のCPUにするか
? Storageサーバ
? PCIeレーン数
35
サーバ选定手法 ? NIC
? 性能測定
? DriverのCPU使用率
? Portの帯域全て使用できるか
? 合格基準
? DriverのCPU使用率が少ないこと
? Trafficがしかりでること
? ツール
? iperf2
? 監視項目
? 各PortのTraffic
? Kernel空間のCPU使用率
36
サーバ検証手法 ? 電源投入後検証
? 動的な部分
? 消費電力の計測
? 各パーツの温度
? HotSwap試験
? 負荷のかけ方
? # stress ?c CORE数 ?m CORE数
? アイドル時/高負荷時
? BMCで取得された値
? 電源ケーブルにクランプを挟んだり
37
サーバ検証手法 ? 電源投入後検証
? 動的な部分
? 消費電力の計測
? 各パーツの温度
? HotSwap試験
? 負荷のかけ方
? # stress ?c CORE数 ?m CORE数
? アイドル時/高負荷時
? BMCで取得された値
38
サーバ検証手法 ? 電源投入後検証
? 動的な部分
? 消費電力の計測
? 各パーツの温度
? HotSwap試験
? 負荷のかけ方
? # stress ?c CORE数 ?m CORE数
? アイドル時/高負荷時
? FANのHotSwap
? PSUのHotSwap
? DiskのHotSwap
まとめ
40
まとめ
? それぞれの事情にあった方法で、製品を選びましょう
? 要件定義をする
用途: DBサーバ
止められない度: クラスタ組むので簡単に停止可
? 妥協点を決める
妥協できない条件: DiskのIO性能、Diskの拡張性
妥協できる条件: 価格、筐体のHotSwap性能
? HWの特徴を把握する
DiskのIO性能、Diskの拡張性、Diskの交換方法
ありがとうございました

More Related Content

CODT2021 CyberAgentでの サーバ选定手法の紹介