狠狠撸

狠狠撸Share a Scribd company logo
? Talend 2014 1
ビッグデータの収集、整備、統合、活用の
ティップス
日時 :2014年6月27日(金)
於 :秋葉原コンベンションホール
主催 :翔泳社
Talend株式会社
コンサルティングマネージャー
正金秀規
DATA SCIENTIST SUMMIT 2014
【A-4】 15:30~16:10
本スライド内で引用される全ての商標、商標名、画像、ロゴ等は各社に帰属します
? Talend 2014 2
データ分析の阻害要因
? Talend 2014 3
歴史のある典型的なDWHシステム
DWHシステム
データマートDWHステージングエリア
ファイル類
ERP
Cloud / SaaS
DBMS
DWH
分析?
レポーティング
業務システム
最適化が必要
顧客情報分析、リスク分析
売上傾向分析、管理会計
サプライヤ分析、その他
? Talend 2014 4
ビジネスが
新たなデータを
要求する時代に
? Talend 2014 5
想定していなかった情報が業務を取り巻いてきています
天気情報
マーケット?ニュース
オープンデータ
センサーネットワーク
スマートメーター
データ量
データの種類
ソース数
データ量
データの鮮度
? Talend 2014 6
ビッグデータでトレンドな分析対象
?構造?半構造?多構造?非構造データ?
? 顧客インタラクションデータ
- クリックストリーム、WEBアクセスログ
- コールセンターのボイスデータ、e-mail
? ソーシャルネットワークデータ:Facebook,
Twitter等
? 非構造コンテンツ
? センサーデータ
- GPS位置情報、天気情報、光量、移動、振
幅、気圧、RFID/NFC等
? 業種?業界特化データ
- CDR:通話明細、銀行トランザクション等
出典:The Real-World Use
of Big Data Said Business
School Oxford and IBM,
October 2012
? Talend 2014 7
困難な点:ソースデータの複雑さ
? データの種類が多岐にわたる
- RDB等で管理された構造化データ
- 半構造化データ:XML, HTML, JSON等
- 非構造データ:テキスト
- マシン生成データ:センサーデータ等の特殊フォーマット
? データ量があまりに膨大
- ギガからペタへ
- 億から数十億へ
? 情報の鮮度に対する要求の高度化
- バッチ処理からストリームへの対応も考慮が必要
? データの意味を理解しなければならない
- データ項目には様々な意味があります
? Talend 2014 8
困難な点:ソースデータの複雑さ
アクセスログ
XML
画像データ
? Talend 2014 9
例:Twitter
タイムスタンプ
スクリーンネーム
時間帯
つぶやき
※以下は加工済みです
? Talend 2014 10
分析作業の負荷軽減と
精度向上、定着化のために
データの整理整頓が必要
? Talend 2014 11
データ分析と
ビッグデータインテグレーション
? Talend 2014 12
データ分析におけるプロセスと役割
仮説構築
データ
収集
データ
整備?変換
視覚化
データ
分析
データ
活用
データ
サイエンティスト
データ分析者
データ
インテグレーション
担当者
システム基盤
担当者
? Talend 2014 13
データ分析システム
昨今のデータ分析システムが保持すべき3つの機能
データ
インテグレーション機能
ビジネスインテリジェンス
機能
ビッグデータストア機能
仮説構築
データ
収集
データ
整備?変換
視覚化
データ
分析
データ
活用
? Talend 2014 14
ビッグデータストア機能とBIの役割
? ビッグデータストア機能
- Hadoop:大量データを蓄積
- NoSQL DB:データ?検索手法に
対する最適化
- Spark:インメモリ
? ビジネスインテリジェンス機能
- データ収集(必要なデータを見
つける)
- データ整理(有効な項目を見つ
ける)
- 視覚化
- 分析
? Talend 2014 15
データインテグレーション機能の役割
? データ収集の自動化
? コンバージョン
? クレンジング?フィルタリング
? 属性の付与?結合
? データストアへ投入
さらにインテグレーション担当者は、
? 分析担当者がパイロットした分析アルゴリズムを定形処理に実装
? 自動実行化することで定着化
? Talend 2014 16
データ分析システム
データ
インテグレーション機能
ビジネスインテリジェンス
機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張
例:ブループリント作成フェーズ
仮説構築
データ
収集
データ
整備?変換
視覚化
データ
分析
データ
活用
小規模体制、低コストで PRJプランニング、戦略、予算策定
? Talend 2014 17
データ分析システム
データ
インテグレーション機能
ビジネスインテリジェンス
機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張
例:コアシステム化フェーズ
OSS系インテグレーションツール BIツール
仮説構築
データ
収集
データ
整備?変換
視覚化
データ
分析
データ
活用
小規模体制、先ずはBIツールと基盤へ予算を振分けることも勘案
? Talend 2014 18
データ分析システム
データ
インテグレーション機能
ビジネスインテリジェンス
機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張
例:システム運用フェーズ
仮説構築
データ
収集
データ
整備?変換
視覚化
データ
分析
データ
活用
定形処理は、インテグレーションへ。小さなP-D-C-Aを積上げる
商用版インテグレーションツール BIツール
? Talend 2014 19
ビッグデータインテグレーションのポイント
システム構築やデータ分析は最終目標ではない、
データ分析やデータ統合によってビジネスを推進する、
ビジネス目標を達成することこそ目的
目的と手段を
取り違えない
スナップショットによるデータ統合や分析ではなく、
仮説?検証?データ分析という「PDCAサイクル」を
まわして実績を積み上げていく
スパイラル
アプローチ
データサイエンティスト(データ分析者)、データインテ
グレーション担当者、システム基盤担当者が一体と
なって進めることが重要
三身一体
? Talend 2014 20
ビッグデータ統合の
Talendを御紹介
? Talend 2014 21
Talendの概要と製品紹介
? Talend 2014 22
Talend Open Studio for
Talend Platform for ….
Talend製品体系
Talend Enterprise
With
Big Data
With
Big Data
With
Big Data
Talend Enterprise
Data Integration
Talend Enterprise
Big Data
Talend Enterprise
ESB
Talend Platform for
Big Data
Talend Platform for
Data Management
Talend Platform for
Data Services
Talend Platform for
Master Data Management
Talend Platform for
Enterprise Integration
? Talend 2014 23
複雑なMap Reduce処理をGUIで開発
? Map Reduceジョブデザインワークスペースでインディケーターを表示
- 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示
- Map Reduceジョブのチューニングがビジュアルに可能
ビッグデータ
インテグレー
ションの
生産性を
飛躍的に
向上!
? Talend 2014 24
Talendの特徴:ダイナミックインテグレーション
? ダイナミックに発生するデータを迅速に取得していくインテグレーション
多種多様なソースデータの取得?収集を可能とする
500コンポーネントを搭載。
コミュニティには300以上のユーザー作成コンポーネントも
500以上の
コンポーネント
ビッグデータ統合処理をMapReduce上でネイティブでの
実行することが可能なため投資効果を高く保ちながら
無限のスケーラビリティを実現
Hadoop
ネイティブ稼働
ライセンス対象はTalendを使う人
データ量、サーバー数、CPU数、コネクター数はライセンス対象ではない
コンポーネントは無料提供
プライスモデルは、サブスクリプションモデル
ビジネスモデル
? Talend 2014 25
Talend製品で実装済みのコネクターやコンポーネント
Hadoop NoSQL DB DWH, Technology
Amazon Elastic
MapReduce
? Talend 2014 26
金融サービス
保険
通信
サービス
製造業
流通小売り
公共機関
教育
導入顧客例:ワールドワイド4,000+社、国内
200+社でご活用
? Talend 2014 27
Contact us:
info@talend.com
Learn more:
www.talend.com
お問合せ:
GroupSalesJP@talend.com
WEBサイト:
http://jp.talend.com
ご清聴有難う御座いました

More Related Content

Data scientist summit 2014

  • 1. ? Talend 2014 1 ビッグデータの収集、整備、統合、活用の ティップス 日時 :2014年6月27日(金) 於 :秋葉原コンベンションホール 主催 :翔泳社 Talend株式会社 コンサルティングマネージャー 正金秀規 DATA SCIENTIST SUMMIT 2014 【A-4】 15:30~16:10 本スライド内で引用される全ての商標、商標名、画像、ロゴ等は各社に帰属します
  • 2. ? Talend 2014 2 データ分析の阻害要因
  • 3. ? Talend 2014 3 歴史のある典型的なDWHシステム DWHシステム データマートDWHステージングエリア ファイル類 ERP Cloud / SaaS DBMS DWH 分析? レポーティング 業務システム 最適化が必要 顧客情報分析、リスク分析 売上傾向分析、管理会計 サプライヤ分析、その他
  • 4. ? Talend 2014 4 ビジネスが 新たなデータを 要求する時代に
  • 5. ? Talend 2014 5 想定していなかった情報が業務を取り巻いてきています 天気情報 マーケット?ニュース オープンデータ センサーネットワーク スマートメーター データ量 データの種類 ソース数 データ量 データの鮮度
  • 6. ? Talend 2014 6 ビッグデータでトレンドな分析対象 ?構造?半構造?多構造?非構造データ? ? 顧客インタラクションデータ - クリックストリーム、WEBアクセスログ - コールセンターのボイスデータ、e-mail ? ソーシャルネットワークデータ:Facebook, Twitter等 ? 非構造コンテンツ ? センサーデータ - GPS位置情報、天気情報、光量、移動、振 幅、気圧、RFID/NFC等 ? 業種?業界特化データ - CDR:通話明細、銀行トランザクション等 出典:The Real-World Use of Big Data Said Business School Oxford and IBM, October 2012
  • 7. ? Talend 2014 7 困難な点:ソースデータの複雑さ ? データの種類が多岐にわたる - RDB等で管理された構造化データ - 半構造化データ:XML, HTML, JSON等 - 非構造データ:テキスト - マシン生成データ:センサーデータ等の特殊フォーマット ? データ量があまりに膨大 - ギガからペタへ - 億から数十億へ ? 情報の鮮度に対する要求の高度化 - バッチ処理からストリームへの対応も考慮が必要 ? データの意味を理解しなければならない - データ項目には様々な意味があります
  • 8. ? Talend 2014 8 困難な点:ソースデータの複雑さ アクセスログ XML 画像データ
  • 9. ? Talend 2014 9 例:Twitter タイムスタンプ スクリーンネーム 時間帯 つぶやき ※以下は加工済みです
  • 10. ? Talend 2014 10 分析作業の負荷軽減と 精度向上、定着化のために データの整理整頓が必要
  • 11. ? Talend 2014 11 データ分析と ビッグデータインテグレーション
  • 12. ? Talend 2014 12 データ分析におけるプロセスと役割 仮説構築 データ 収集 データ 整備?変換 視覚化 データ 分析 データ 活用 データ サイエンティスト データ分析者 データ インテグレーション 担当者 システム基盤 担当者
  • 13. ? Talend 2014 13 データ分析システム 昨今のデータ分析システムが保持すべき3つの機能 データ インテグレーション機能 ビジネスインテリジェンス 機能 ビッグデータストア機能 仮説構築 データ 収集 データ 整備?変換 視覚化 データ 分析 データ 活用
  • 14. ? Talend 2014 14 ビッグデータストア機能とBIの役割 ? ビッグデータストア機能 - Hadoop:大量データを蓄積 - NoSQL DB:データ?検索手法に 対する最適化 - Spark:インメモリ ? ビジネスインテリジェンス機能 - データ収集(必要なデータを見 つける) - データ整理(有効な項目を見つ ける) - 視覚化 - 分析
  • 15. ? Talend 2014 15 データインテグレーション機能の役割 ? データ収集の自動化 ? コンバージョン ? クレンジング?フィルタリング ? 属性の付与?結合 ? データストアへ投入 さらにインテグレーション担当者は、 ? 分析担当者がパイロットした分析アルゴリズムを定形処理に実装 ? 自動実行化することで定着化
  • 16. ? Talend 2014 16 データ分析システム データ インテグレーション機能 ビジネスインテリジェンス 機能 ビッグデータストア機能 モノ(道具と基盤)は投資獲得と共に順次拡張 例:ブループリント作成フェーズ 仮説構築 データ 収集 データ 整備?変換 視覚化 データ 分析 データ 活用 小規模体制、低コストで PRJプランニング、戦略、予算策定
  • 17. ? Talend 2014 17 データ分析システム データ インテグレーション機能 ビジネスインテリジェンス 機能 ビッグデータストア機能 モノ(道具と基盤)は投資獲得と共に順次拡張 例:コアシステム化フェーズ OSS系インテグレーションツール BIツール 仮説構築 データ 収集 データ 整備?変換 視覚化 データ 分析 データ 活用 小規模体制、先ずはBIツールと基盤へ予算を振分けることも勘案
  • 18. ? Talend 2014 18 データ分析システム データ インテグレーション機能 ビジネスインテリジェンス 機能 ビッグデータストア機能 モノ(道具と基盤)は投資獲得と共に順次拡張 例:システム運用フェーズ 仮説構築 データ 収集 データ 整備?変換 視覚化 データ 分析 データ 活用 定形処理は、インテグレーションへ。小さなP-D-C-Aを積上げる 商用版インテグレーションツール BIツール
  • 19. ? Talend 2014 19 ビッグデータインテグレーションのポイント システム構築やデータ分析は最終目標ではない、 データ分析やデータ統合によってビジネスを推進する、 ビジネス目標を達成することこそ目的 目的と手段を 取り違えない スナップショットによるデータ統合や分析ではなく、 仮説?検証?データ分析という「PDCAサイクル」を まわして実績を積み上げていく スパイラル アプローチ データサイエンティスト(データ分析者)、データインテ グレーション担当者、システム基盤担当者が一体と なって進めることが重要 三身一体
  • 20. ? Talend 2014 20 ビッグデータ統合の Talendを御紹介
  • 21. ? Talend 2014 21 Talendの概要と製品紹介
  • 22. ? Talend 2014 22 Talend Open Studio for Talend Platform for …. Talend製品体系 Talend Enterprise With Big Data With Big Data With Big Data Talend Enterprise Data Integration Talend Enterprise Big Data Talend Enterprise ESB Talend Platform for Big Data Talend Platform for Data Management Talend Platform for Data Services Talend Platform for Master Data Management Talend Platform for Enterprise Integration
  • 23. ? Talend 2014 23 複雑なMap Reduce処理をGUIで開発 ? Map Reduceジョブデザインワークスペースでインディケーターを表示 - 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示 - Map Reduceジョブのチューニングがビジュアルに可能 ビッグデータ インテグレー ションの 生産性を 飛躍的に 向上!
  • 24. ? Talend 2014 24 Talendの特徴:ダイナミックインテグレーション ? ダイナミックに発生するデータを迅速に取得していくインテグレーション 多種多様なソースデータの取得?収集を可能とする 500コンポーネントを搭載。 コミュニティには300以上のユーザー作成コンポーネントも 500以上の コンポーネント ビッグデータ統合処理をMapReduce上でネイティブでの 実行することが可能なため投資効果を高く保ちながら 無限のスケーラビリティを実現 Hadoop ネイティブ稼働 ライセンス対象はTalendを使う人 データ量、サーバー数、CPU数、コネクター数はライセンス対象ではない コンポーネントは無料提供 プライスモデルは、サブスクリプションモデル ビジネスモデル
  • 25. ? Talend 2014 25 Talend製品で実装済みのコネクターやコンポーネント Hadoop NoSQL DB DWH, Technology Amazon Elastic MapReduce
  • 26. ? Talend 2014 26 金融サービス 保険 通信 サービス 製造業 流通小売り 公共機関 教育 導入顧客例:ワールドワイド4,000+社、国内 200+社でご活用
  • 27. ? Talend 2014 27 Contact us: info@talend.com Learn more: www.talend.com お問合せ: GroupSalesJP@talend.com WEBサイト: http://jp.talend.com ご清聴有難う御座いました