際際滷

際際滷Share a Scribd company logo
Talend Open Studio for
Data Integration
Corso di Data Mining

Alessandro Gonella
ETL
Extract, Transform, Load


 Selezionare solo dati di interesse per il sistema
 Normalizzare i dati (eliminando i duplicati)
 Tradurre dati codificati
 Derivare nuovi dati calcolati
 Eseguire accoppiamenti (join) tra dati da differenti
   tabelle
Termini ricorrenti

Repository - locazione di storage

Progetto - collezione strutturata di oggetti

Workspace - directory dove vengono salvate tutte le
cartelle del progetto

Job - rappresentazione grafica di componenti connessi
assieme
Termini ricorrenti (2)

Oggetto - unit di base in un progetto

Componente - connettore preconfigurato usato per
realizzare una specifica operazione di data integration
GUI
Job Design

   Rappresentazione grafica
   Creazione di processi di gestione del dataflow
   Gestione delle sorgenti dati
   Gestione degli output
   Gestione dei componenti
Sorgenti di dati

Palette o Repository?

   Database
     Parametri di connessione, schema
     SQL Builder (Dati estrapolati)


   File delimitato (CSV)
     Percorso del file
     Struttura (caratteri separatori, header)
Connessioni

 Row
    Main, lookup, filter, rejects, errorReject, output
 Iterate
    Iterazione su files o righe database
 Trigger
    Nessun dato
    Creazione di dipendenze tra Jobs
Componente tMap

   Gestione di Input/Output multipli
   Operazioni di trasformazione, concatenazione,
    filtraggio...
   Utilizza le connessioni in entrata per stabilire gli schemi
    dei dati
Componente tMap (2)
Componente tMap (3)
   Join
       Explicit Join, Inner Join
   Filtri
   Variabili
   Editor delle espressioni
       Expression Builder
   Output
       Schema da connessioni
       Schema in tMap
Output

   Repository
   Palette


   Debug
       tLogRow
Talend Open Studio for Data Integration

More Related Content

Talend Open Studio for Data Integration

  • 1. Talend Open Studio for Data Integration Corso di Data Mining Alessandro Gonella
  • 2. ETL Extract, Transform, Load Selezionare solo dati di interesse per il sistema Normalizzare i dati (eliminando i duplicati) Tradurre dati codificati Derivare nuovi dati calcolati Eseguire accoppiamenti (join) tra dati da differenti tabelle
  • 3. Termini ricorrenti Repository - locazione di storage Progetto - collezione strutturata di oggetti Workspace - directory dove vengono salvate tutte le cartelle del progetto Job - rappresentazione grafica di componenti connessi assieme
  • 4. Termini ricorrenti (2) Oggetto - unit di base in un progetto Componente - connettore preconfigurato usato per realizzare una specifica operazione di data integration
  • 5. GUI
  • 6. Job Design Rappresentazione grafica Creazione di processi di gestione del dataflow Gestione delle sorgenti dati Gestione degli output Gestione dei componenti
  • 7. Sorgenti di dati Palette o Repository? Database Parametri di connessione, schema SQL Builder (Dati estrapolati) File delimitato (CSV) Percorso del file Struttura (caratteri separatori, header)
  • 8. Connessioni Row Main, lookup, filter, rejects, errorReject, output Iterate Iterazione su files o righe database Trigger Nessun dato Creazione di dipendenze tra Jobs
  • 9. Componente tMap Gestione di Input/Output multipli Operazioni di trasformazione, concatenazione, filtraggio... Utilizza le connessioni in entrata per stabilire gli schemi dei dati
  • 11. Componente tMap (3) Join Explicit Join, Inner Join Filtri Variabili Editor delle espressioni Expression Builder Output Schema da connessioni Schema in tMap
  • 12. Output Repository Palette Debug tLogRow