狠狠撸
Submit Search
MapR Hadoop M7 in CyberAgent AdTech Studio
?
2 likes
?
4,162 views
Ken Takao
Follow
サイバーエージェントアドテクスタジオで利用しているHadoop基盤「MapR M7」の利用事例について話した時の資料です。
Read less
Read more
1 of 28
Download now
Download to read offline
More Related Content
MapR Hadoop M7 in CyberAgent AdTech Studio
1.
MapR Hadoop M7 in
CyberAgent AdTech Studio 2016 April 4th CyberAgent, Inc. All Rights Reserved
2.
自己绍介
3.
Ken Takao 株式会社サイバーエージェント アドテク本部 技術戦略部 技術戦略室 Central Infrastructure
Agency Infra Manager アドテク本部の技術ボードメンバー として分析基盤の構築や推進を行ってます。
4.
サイバーエージェントとは?
5.
OUR VISION 当社は1998年の創業以来、インターネットを軸に事業を展開し、 現在では当社の代表的なサービスである「Ameba」をはじめ、ス マートフォン向けに多数のコミュニティサービスやゲームを提供 しています。2011年よりスマートフォン事業へ経営資産を大きく シフトし、2014年9月期には売上高の約7割がスマートフォン事 業に転換。変化対応力を強みに事業拡大を続けております。 Ameba事業は、先行投資期から収穫期に移行。インターネット 広告事業においては、スマートフォン広告市場の約3割を取り扱 い、インターネット広 告
市 場 国 内ナンバーワンのシェアを拡 大 し、アドテクノロジー分野や動画広告など、新しい広告手法にも 積極的に取り組んでおります。2009年から展開するゲーム事業 においても、ネイティブゲームにて複数本のヒットタイトルが出る など、国内有数のゲーム事業へ成長いたしました。
6.
タイトル TITLE
7.
タイトル TITLE
8.
アドテクスタジオとは?
12.
200名以上の エンジニア 20以上の 広告システム 1000台以上の 物理サーバー GCP,AWS, IDCF Cloudなど マルチクラウド 10PB以上の データ基盤 数百TBの データ ウェアハウス
13.
Hadoop Platform in AdTech
Studio
14.
アドテクスタジオのHadoop 現在10以上のHadoopクラスターが存在 ?広告のレポート集計基盤 ?アドホックなデータ分析 ?巨大データストレージ
15.
アドテクならではの要件 ?想定容量10PB ?レイテンシー5ms以内 ?構築期間2カ月
16.
アドテクならではの要件 ?想定容量10PB クラウドだと2TBのディスクが24本のるサーバーが625台必要 ?レイテンシー5ms以内 HBaseだとGCのタイミングでレイテンシー悪化 ?構築期間2カ月 検証や構築、運用テストなど行うとギリギリ。
17.
購入したサーバー HP ProLiant SL4540 Gen8
18.
なんとDiskが60本搭載可能 1台あたり0.36PB(6TBx60本)
19.
大量に購入 10PB!
20.
トピック 高密度型サーバーを活用し、 容量を確保する一方でコストを削減 高密度型サーバーを使い切る MAPRのパフォーマンス IOが高速化すればするほど 伸びるパフォーマンス
21.
MAPR HadoopとDWHの連携 グデータなど大規模な データ量のファイルを MAPR-FSに集約。 DWHでMAPR-FSを POSIX CLIENTでマウ ントし、超高速にデータ をインポートし、必要な 時だけデータを入れて 集計
22.
DWHでデータを読み込むときの MAPR Hadoop側の転送スピード
23.
Result ?約1TBのデータを30分程度でHadoopからDWHにIMPORT。 超高速なデータ集計基盤に! ?MAPR-FSではNFSでのマウントが可能となり、データのログ転送 回りのフローが大幅に簡略化! ?ただのストレージではなく、Hadoopコマンドが利用可能! ?ストレージ容量が10PBなので、今までデータ量を気にして消して いたファイルも気兼ねなく保存し続けることが可能に。 ?これによりデータを活用して配信に活用するスパンが短くなり、広 告効果が向上。
24.
今后の展望
25.
今后の展望 ?アドテクにはリアルタイム性が必要 ?より新しいデータをリアルタイムに活用したい ?コンバージド?データ?プラットフォームとして 機能追加された「MapR Streams」の活用を 検討中
26.
Next Level
27.
Project Ganesha 共通Hadoopクラスタと それを取り巻くデータ処理環境を構築予定 ターゲット -個々に管理していたHadoopクラスタを集約することで リソースの効率化を行う -遊休リソースを分析業務に再分配
28.
Project Ganeshaの全体像 Matrix 各システム ストリーミング基盤 ログ データ基盤
Download