狠狠撸

狠狠撸Share a Scribd company logo
MapR Hadoop M7
in CyberAgent AdTech Studio
2016 April 4th
CyberAgent, Inc. All Rights Reserved
自己绍介
Ken Takao
株式会社サイバーエージェント
アドテク本部 技術戦略部 技術戦略室
Central Infrastructure Agency
Infra Manager
アドテク本部の技術ボードメンバー
として分析基盤の構築や推進を行ってます。
サイバーエージェントとは?
OUR VISION
当社は1998年の創業以来、インターネットを軸に事業を展開し、
現在では当社の代表的なサービスである「Ameba」をはじめ、ス
マートフォン向けに多数のコミュニティサービスやゲームを提供
しています。2011年よりスマートフォン事業へ経営資産を大きく
シフトし、2014年9月期には売上高の約7割がスマートフォン事
業に転換。変化対応力を強みに事業拡大を続けております。
Ameba事業は、先行投資期から収穫期に移行。インターネット
広告事業においては、スマートフォン広告市場の約3割を取り扱
い、インターネット広 告 市 場 国 内ナンバーワンのシェアを拡 大
し、アドテクノロジー分野や動画広告など、新しい広告手法にも
積極的に取り組んでおります。2009年から展開するゲーム事業
においても、ネイティブゲームにて複数本のヒットタイトルが出る
など、国内有数のゲーム事業へ成長いたしました。
タイトル TITLE
タイトル TITLE
アドテクスタジオとは?
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
200名以上の
エンジニア
20以上の
広告システム
1000台以上の
物理サーバー GCP,AWS,
IDCF Cloudなど
マルチクラウド
10PB以上の
データ基盤
数百TBの
データ
ウェアハウス
Hadoop Platform
in AdTech Studio
アドテクスタジオのHadoop
現在10以上のHadoopクラスターが存在
?広告のレポート集計基盤
?アドホックなデータ分析
?巨大データストレージ
アドテクならではの要件
?想定容量10PB
?レイテンシー5ms以内
?構築期間2カ月
アドテクならではの要件
?想定容量10PB
クラウドだと2TBのディスクが24本のるサーバーが625台必要
?レイテンシー5ms以内
HBaseだとGCのタイミングでレイテンシー悪化
?構築期間2カ月
検証や構築、運用テストなど行うとギリギリ。
購入したサーバー
HP ProLiant
SL4540 Gen8
なんとDiskが60本搭載可能
1台あたり0.36PB(6TBx60本)
大量に購入
10PB!
トピック
高密度型サーバーを活用し、
容量を確保する一方でコストを削減
高密度型サーバーを使い切る
MAPRのパフォーマンス
IOが高速化すればするほど
伸びるパフォーマンス
MAPR HadoopとDWHの連携
グデータなど大規模な
データ量のファイルを
MAPR-FSに集約。
DWHでMAPR-FSを
POSIX CLIENTでマウ
ントし、超高速にデータ
をインポートし、必要な
時だけデータを入れて
集計
DWHでデータを読み込むときの
MAPR Hadoop側の転送スピード
Result
?約1TBのデータを30分程度でHadoopからDWHにIMPORT。
超高速なデータ集計基盤に!
?MAPR-FSではNFSでのマウントが可能となり、データのログ転送
回りのフローが大幅に簡略化!
?ただのストレージではなく、Hadoopコマンドが利用可能!
?ストレージ容量が10PBなので、今までデータ量を気にして消して
いたファイルも気兼ねなく保存し続けることが可能に。
?これによりデータを活用して配信に活用するスパンが短くなり、広
告効果が向上。
今后の展望
今后の展望
?アドテクにはリアルタイム性が必要
?より新しいデータをリアルタイムに活用したい
?コンバージド?データ?プラットフォームとして
機能追加された「MapR Streams」の活用を
検討中
Next Level
Project Ganesha
共通Hadoopクラスタと
それを取り巻くデータ処理環境を構築予定
ターゲット
 -個々に管理していたHadoopクラスタを集約することで
  リソースの効率化を行う
 -遊休リソースを分析業務に再分配
Project Ganeshaの全体像
Matrix
各システム
ストリーミング基盤
ログ
データ基盤

More Related Content

MapR Hadoop M7 in CyberAgent AdTech Studio