狠狠撸

狠狠撸Share a Scribd company logo
?

ビジネスへの本格活?用が
始まった ?Hadoop の今
?~MapR が選ばれる理理由?~
マップアール?テクノロジーズ株式会社
システムエンジニア
草薙 ?昭彦
2014 年年 2 ?月 26 ?日
? MapR Technologies

?
Hadoop による

お客様のビジネスの成功

? MapR Technologies

?
Hadoop ディストリビューション

OPEN SOURCE	

ディストリビューションC
	

ディストリビューションM
	

MANAGEMENT
INNOVATIONS

ディストリビューションA
	

MANAGEMENT
INNOVATIONS

OPEN SOURCE	

OPEN SOURCE	

INFRASTRUCTURE
INNOVATIONS

? MapR Technologies

?
Hadoop ディストリビューション
ディストリビューションA
	

ディストリビューションC
	

MANAGEMENT
INNOVATIONS
OPEN SOURCE	

OPEN SOURCE	

MANAGEMENT
INNOVATIONS
OPEN SOURCE	

INFRASTRUCTURE
INNOVATIONS

? MapR Technologies

?
お客様が直?面する現実の課題

データの移動

?高信頼の
データ基盤を
全社で共有
? MapR Technologies

?人?手?コスト
をかけない
運?用
?
課題1: データの移動
「とにかく時間がかかる」
「専?用ツール?コネクタの
メンテナンスが?大変」
業務システム

企業内ユーザー
レポーティング
?クエリー

RDBからのダンプ
?ファイル転送

ステージング
ファイルサーバ
専?用ツール
による
バッチ投?入

ETL?整形?集計
?キューブ作成

専?用コネクタ
による
RDBへの
ロード

? MapR Technologies

分析システム

?
MapR NFS ダイレクトアクセス
より直近のデータを分析対象に
外部システムが変わっても
NFS ならば対応が容易易
業務システム

企業内ユーザー
レポーティング
?クエリー

NFSによる
直接投?入

ETL?整形?集計
?キューブ作成

NFS経由で
RDBネイティブ
ローダー利利?用

? MapR Technologies

分析システム

?
HDFS vs MapR FS
HDFS

MapR FS

Hadoop 標準ファイルシステム

MapR 最適化ファイルシステム

ライトワンス

ランダム R/W

同時 R/W アクセス不不可

同時 R/W 可能

(ファイルクローズするまで他から?見見えない)

(書き込み中のファイルが他から読める)

NFS のフル機能と?高い性能を提供できるのは
アーキテクチャが異異なるから
? MapR Technologies

?
課題2: データ基盤の共有
「障害の影響やポリシーの違いを考慮して、他部?門と運?用を分けているが??」

部?門A

部?門B

部?門C

? MapR Technologies

?
Volume, Snapshot, Mirroring

部?門A

部?門B

部?門C

部?門Aボリューム

部?門Bボリューム

部?門Cボリューム

? MapR Technologies

?
Volume, Snapshot, Mirroring

部?門A

部?門B

部?門C

部?門Aボリューム

部?門Bボリューム

部?門Cボリューム

スナップショット
スナップショット

部?門A
ミラーボリューム

スナップショット
スナップショット

部?門B
ミラーボリューム

災害対策?用リモートクラスタ

? MapR Technologies

スナップショット
スナップショット

部?門C
ミラーボリューム

?
HDFS vs MapR FS
HDFS Snapshot

MapR FS Snapshot

ディレクトリ単位、?一貫性の
ないイメージ ?(メタデータのみの?一貫性)

ボリューム単位の
?一貫性のあるイメージ

HDFS ベースの分散コピー

MapR FS Mirroring

MapReduce ジョブによる
ファイル単位の転送

ネイティブプロセスによる
ブロック単位の転送

?一貫性のないイメージ

?一貫性のあるイメージ

?一貫性のあるスナップショット?ミラーリングを
提供できるのはアーキテクチャが異異なるから
? MapR Technologies

?
課題3: ?人?手/コストをかけない運?用
クラスタの規模が?大きくなってく
ると、サーバ台数を数%増やすだけ
で年年間数千万円のコスト増に???

ハードウェアのコモディティ化が
進んだ今、もっとも貴重でコスト
が?高いリソースは?人。システムの
運?用よりもコアビジネスにエンジ
ニアを多く割り当てたい???
? MapR Technologies

?
サーバ台数削減による ?TCO 改善
MB per Second

MB per Second

Read/Write スループット ?ベンチマーク

DFSIO Read スループット

DFSIO Write スループット

ソース: Flux7 Labs Study, 2013年年10?月

実際の事例例
他ディストリビューション

50台	
120台	
? MapR Technologies

?
MapR 統合データプラットフォーム
HBase
§??

JVM

§??

HDFS

§??

NoSQLカラムストア	
 ?
Apache HBase API
In-Hadoopデータベース

JVM
ext3/ext4

テーブル/ファイル

ディスク

ディスク

他ディストリビューション

MapR M7

多層のレイヤーを統合し、オーバーヘッドを除去
?高い性能と運?用管理理の?大幅な簡素化を実現
? MapR Technologies

?
Architecture Matters
アーキテクチャがすべてを左右する

? MapR Technologies

?
MapR Distribution for Hadoop
APACHE HADOOP ECOSYSTEM
Hive/
Stinger/
Tez

Drill

Impala

Shark

Hue

...

Flume

Mahout

Cascading

Solr

Spark

Storm

Sentry

Zookeeper

Management

Sqoop

Whirr

Pig

YARN

MapReduce

Oozie

HBase

?? 標準ファイルアクセス
?? クラスタを論論理理的に
?? ?高可?用性
?? 標準データベースア
分割して異異なる?用途
?? データ保護
クセス
?ジョブの種類?ユ
?? ディザスタリカバリ
Patent ?? プラガブルサービス
ーザーグループ?管
MAPR-FS
?? 2?~5倍の性能 Pending
MAPR-FS
?? 幅広い開発者?支援
理理者をサポート
FILES

?? エンタープライズ
セキュリティ認証
?? ワイヤレベル認証
?? データガバナンス

MapR Data Platform
MapR Data Platform
MapR Data Data
MapR Platform

エンタープライズ
グレード

パフォーマンス

Platform
データ保護

?? 予測分析?リアル
タイムデータベー
ス処理理??高レート
MAPR-DB
のデータ流流?入をサ
MAPR-DB
TABLES
ポートする能?力力

マルチテナント

? MapR Technologies

相互運?用性

?? トランザクション
の完全性を提供す
る処理理フレームワ
ークユニット

業務 ?& 分析

?
多くの Hadoop プロジェクトは
まだ実験段階

開発/テストが中?心:
教育/サービス

最初の業務事例例
1 – 10 ノード

? MapR Technologies

幅広い業務利利?用
10 – 2000 ノード

?
リアルタイム広告オークション

Sellers
Cloud
!

Advertising
Automation
Cloud
!

Buyers
!
Cloud
!

900億

広告オークション
?一?日あたり

? MapR Technologies

?
フォーチュン100?小売?大?手

4,500万
買い物客

?一ヶ?月あたり分析対象

? MapR Technologies

?
世界最?大のバイオメトリックDB

12億
?人

? MapR Technologies

?
MapR 最新のリリース
O’Reilly Strata Conference 2014 in Santa Clara
(2014/2/11?13) での発表
	

1

YARN をサポートした Apache
Hadoop 2.2 を含む最新のデ
ィストリビューションを発表	

既存アプリと
MapReduce以外の
アプリを共存可能に

2

無償で使?用できる開発者向け ?
Hadoop Sandbox を発表	

開発と運?用?手法の
習得を加速
	

3

HP Vertica プラットフォームを ?
 ?
MapR 上で提供	
? MapR Technologies

SQLでの分析?
業務処理理の統合
	

?
さっそく MapR を始めましょう
Free Trial	
MapR 評価版ダウンロード
30?日間無償の評価ライセンス

Amazon Web Services (EMR)
Google Compute Engine
数分でクラウド上でクラスタを?立立ち上げ

MapR Sandbox
無償の開発者向け
シングルノードVMイメージ
? MapR Technologies

?

More Related Content

ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26