狠狠撸

狠狠撸Share a Scribd company logo
Talend勉強会
2015-04-15
@kuro
本スライドの内容は個人的な調査の結果であり、株式会社
Talendとの関係はありません。
!
アジェンダ
? 罢补濒别苍诲製品について:10分
? Talend Open Studio for Data Integration デ
モ:20分
? 有償版との違いについて:15分
? 质疑応答:15分
? 質問は適宜して頂いて結構です!
3
罢补濒别苍诲製品について
Talend製品ポートフォリオ
? http://www.slideshare.net/talendkk/
talendtalend54 のP.26~
? 6つのモジュールと3つの製品レベル
5
10分
Talend Open Studio for
Data Integration デモ
デモのお題
? 店舗ID(storeId)と売上(sales)が含まれるcsvファ
イルを入力とする。店舗IDは同じIDが複数回含まれ
る。
? 同一店舗IDで売上を合算した売上合計(totalSales)
を一覧として店舗名(storeName)と組でcsvファ
イル出力する。店舗名はDBの店舗マスタ(store)
を参照する。
? 细かいルール(店舗滨顿の规则など)は省略。
デモのお題
storeId,sales
0001,100
0002,200
0003,300
0001,10000
0002,20000
0003,30000
storeName,totalSales
池袋店,10100
新宿店,20200
品川店,30300
store_id store_name
0001 池袋店
0002 新宿店
0003 品川店
店舗マスタ(store)
入力データ(sales)
出力ファイル(totalSales)
事前準備するもの
? 入力ファイルサンプル(1行目はカラム名)
? 出力ファイルサンプル(1行目はカラム名)
? マスタデータサンプル@顿叠サーバ
デモ
メタデータの作成
メタデータの作成
? メタデータ スキーマ 入出力データ定義
? 入出力データ定義はコンポーネント毎にも指定できるが、
メタデータ化することで他のコンポーネントやジョブ間で
共有できる。
? メタデータを変更した場合、該当のメタデータを利用して
いるコンポーネントに自動反映。
? メタデータを0から手で作ることも可能だが、実データを
元に自動生成した方が楽。
デモ
ジョブの作成
ジョブの作成
? コンポーネントの配置はパレットからドラッグ&ド
ロップ or 名前を覚えたらデザイナーの空き地に
フォーカスを当てて文字入力することでインクリメ
ンタルサーチ。
? 各コンポーネント間の接続はRow接続(データの
接続)とトリガ接続(イベントの接続)の2パター
ンがある。
デモ
ジョブのエクスポート
ジョブのエクスポート
? エクスポートでjarとランチャ(sh, bat)が生成さ
れる。
? ランチャの実行でジョブが実行される。
? 実行時にパラメータを指定してジョブに渡すことも
可能。
? 有償版はエクスポートでサーバ配置するのではなく
リポジトリ(SVN)経由。
デモ
コンテキストの利用
コンテキストの利用
? コンテキストを利用することで環境別設定が実化可
能(DB接続先、ファイル配置先、ファイル文字コー
ド、区切り文字など)。
? メタデータのパラメータを自動的にコンテキストす
ることが可能(コンテキストとしてエクスポート)。
? どの環境設定を利用するかはジョブ実行時にパラメー
タとして指定できる。
デモ
試験データの作成
試験データの作成
? tRowGeneratorコンポーネントでデータ生成が可
能。
? ランダムデータを作るための関数もいくつか用意さ
れている(シーケンス、ランダム、US氏名、US住
所)。
デモ
その他コンポーネントの紹介
その他コンポーネントの紹介
? Java実行
? Sort
? など时间があれば
30分
有償版との違い
(Data Integration)
製品比較表(概要)
http://jp.talend.com/products/data-integration
特長 Talend Open Studio for
Data Integration
Talend Enterprise
Data Integration
ジョブデザイナ x x
ビジネスモデラ x x
800以上のコネクタ x x
バージョン管理 x x
共有リポジトリ x
スケジューリング x
モニタリング x
ウィザード x
補償/保証 x
ライセンス Open Source Subscription
http://jp.talend.com/products/data-integration/matrix詳細は
モジュール構成
Talend Open
Studio
?開発?運用端末
Subversion
(リポジトリ)
JobServer
Administration
Center
Activity
Monitoring
Console
LogServer
Kibana
JobServerJobServerJobServer
ログモニタリング
ログをLogServerに集約
メタ、統計データ
ジョブ資材を取得
ジョブ実行支持
設定保存、読込
資材チェクイン、
チェックアウト
統計情報取得
ブラウザ
共有リポジトリ
Studioで保存する度にSubversionに自動コミット。
TACからのジョブ制御
Talend Administration Centerからジョブのデプロ
イ、スケジューリングが可能。
バージョン指定したデ
プロイ
TACからのジョブ制御
Talend Administration Centerからジョブのデプロ
イ、スケジューリングが可能。
処理の並列化
有償版Studioでは処理の並列化が可能。
tParalizeコンポーネン
トを利用した並列化
データフローの並列化
ドキュメント自動生成
ジョブ作成時に自動的にドキュメントを生成。Open
Studioでも手動で作成はできる。
AMCによる性能監視
Activity Monitoring Consoleによるジョブのステー
タス、処理時間の監視。
遠隔サーバでの実行
Studioから遠隔サーバでジョブを実行可能。
45分
质疑応答

More Related Content

Talend勉強会 20150414