15. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
オンプレ サービス
アプライアンス ソフトウェア
RDB(DWH)の概要
? ひとことで言うと
? データの抽出?集計に特化したRDB
? アーキテクチャの特徴
? データをパーティショニングして複数ディスクから同時に読む
(製品によっては)ハードウェアを最適化して、アプライアンスとして提供
? 列志向で圧縮してデータ格納
14
Amazon
RedshiftExadata
16. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentRDB(DWH)の用途
? 処理イメージ
? レスポンス:数秒、数分
? データサイズ:直近13ヶ月(1T?数10T)
? 計算:SQLベース
? UPDATE,DELETE,トランザクションはできるが遅い
? ユースケース
? アドホック分析、OLAP
? レポート
? BIツールのデータソース
? EDW(Enterprise Data Warehouse)ともよばれる
15
17. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ストレージノード ストレージノード ストレージノード
RDB(DWH)の注目プロダクト (1/2)
? Oracle Exadata
? ソフトウェアとハードウェアを密結合して、高いパフォーマンスを発揮
? 基本はオペレーション用途だが、分析もできる
? →「二兎追うものは一兎も得ず」な部分はある
16
データベースノード
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
データベースノード
CPU
WHERE句を解釈し、
読み込むブロックを最小化
ディスクIOを削減
キャッシュして
ディスクIOを削減
CPUを多数搭載
40Gbpsのラック内SAN
CPU CPUCPU CPU CPU
40G bps
18. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentRDB(DWH)の注目プロダクト (2/2)
? Amazon Redshift Spectrum
? RedShiftの裏にS3のデータをフィルタするSpectrum Layerを用意
? IOのスループットを向上
17
Spectrum Layer
(不可視領域)
Data
Catalog
L C
C
C
SQL
S3 Get
S
S
S
S
?
?
?
S3
RedShift