ݺߣ

ݺߣShare a Scribd company logo
www.xedotnet.org
Power BI: Cleaning and Modelling Data
Marco Pozzan
Speaker
• Consulente e formatore in ambito business intelligence, business analytics e data
mining per (www.methode.it)
• Dal 2002 le attività principali sono legate alla progettazione di data warehouse
relazionale e alla progettazione multidimensionale con strumenti Microsoft.
• Docente all'Università di Pordenone nel corso di analisi dei dati e Big Data
• Community Lead di 1nn0va (www.innovazionefvg.net)
• MCP,MCSA,MCSE,MCT e dal 2014 MVP per SQL Server e relatore in diverse
conferenze sul tema.
• Marco.Pozzan@methode.it
• @marcopozzan.it
• www.marcopozzan.it
• http://www.scoop.it/u/marco-pozzan
• http://paper.li/marcopozzan/1422524394
• Building blocks soluzione di BI
• Data Analysis e Power BI
• Demo
Agenda
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Collezionare: I dati necessari devono essere raccolti dalle applicazioni o
dalle sorgenti dati esterne nei diversi modi che conosciamo. Dove si
trovano i dati? Gap Informativo?
Integrare: I dati grezzi devono essere convertiti in informazioni chiare e
precise. Verifica delle regole di business. I dati devono essere integrati in
una struttura coerente usata per comprendere informazioni aziendali
(verificare il dato). Dati vengono normalizzati e puliti.
Analisi: generare informazione che sia accurata, disponibile sempre e
tempestiva ha poco valore se non ci sediamo con il business ad analizzare
che cosa significa realmente l’informazione estratta e la comprendiamo.
«L'informazione non è conoscenza Albert Einstein»
Presentare i dati e AGIRE!!!: Il motivo principale per cui le soluzioni di
business intelligence sono deludenti e che mettiamo a disposizione la
conoscenza attraverso dashboard, KPI ma le persone che possono decidere
per qualsiasi motivo non fanno nulla.
Building blocks business intelligence
Dati: Data Sources
• La posizione (location) o il repository dei
dati per la nostra soluzione di BI
• Sono usate tradizionalmente nei
processi di ETL, al momento abbiamo:
• On-premises
• In the cloud
• In files
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Dati: Queries
Comandi che girano sui data source per
estrarre un dato specifico:
• Ritorna un intera tabella oppure viene
eseguita una query sulla sorgente
• Può essere una stored procedure su SQL
Server
• Ritorna solo I dati di cui necessitiamo
• Eseguire trasformazioni dei dati
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Informazioni: Data Transformations
I dati devono essere trasformati dalla loro
forma originale (source system) in un
formato compatibile per la vostra
destinazione:
• Cleaning
• Formatting
• Key Lookups
• Aggregations
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
• Trovare, combinare e rimodellare Big Data, small data, e
qualsiasi Dato!
• Identificare e importare dati esterni
• Trovare dati rilevanti usando strumenti di ricerca
• Combinare e trasformare più sorgenti dati
• Power Query formula language: “M”
• Lo stesso linguaggio per la stessa query su sorgenti di dati
diverse
• Possibilità di condividere query e funzioni
• (free) add-in per Excel 2010 e Excel 2013, 2016
(integrated)
Power BI: Power Query?
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Conoscenza: Data Models
• Creare una vista consistente degli
elementi dei dati e le loro relazioni in una
organizzazione
• Insieme di standard e naming
conventions
• Contiene il modello semantico dei dati
• L'idea di base è sempre la stessa:
abilitare l'utente a navigare i dati senza
riscrivere una nuova query ogni volta
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Power BI: Power Pivot
• Soluzione In-memory per le
necessita di data modelling della
Self-Service BI.(free)add-in Excel
2010,Excel 2013 e 2016(i)
• Data Model (BISM) è
• E’ una lista di tabelle con delle frecce
che le collegano
• Tabella = indica un insieme di colonne
che contengono dati
• Relazione = si leggono come si
«riferisce a»
• Data model fisico: è il modo di
pensare del tecnico
• Data model logico: è il modo di
pensare dell’utente (mondo reale)
• Dove si creano le logiche di business o
calcoli
• Dove si utilizza DAX (Data Analysis
Expression)
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Visualization
• L’occhio umano riconosce i patterns
• Facile da individuare le anomalie in un
charts o in una maps, rispetto alle tabelle
• Le visualizzazioni trovano patterns, clusters,
e outliers
• Aiutano a prendere facili decisioni sui nostri
dati
• Eliminare lo sforzo mentale nell’analizzare i
numeri sulle righe
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
Power BI: Power View?
• Tool con visual interattivi
• Ricerca dati: cross-filtering, Bing-
integration, play axis
• Già pronti per una eventuale
presentazione (es: PPT)
• Basato su Silverlight / Html 5
• Pensato per gli utenti di business
• Obbietivo: dare potenza alla
visualizzazione dei dati
• Minima curva di apprendimento
Dati
Informazioni
Conoscenza
Visualizzazione - Azione
DEMOAnalisi l’IDEB
(Index Quality
Education
Brazilian)
23/03/2018 25
Recap DAX prima della demo
• La colonna calcolata usa Nometabella[campo]
• La misura usa [nomemisura]
• Colonna calcolata occupa spazio in memoria
• Operazioni su riga IF( Sales[Discount] > 0 ; «si», «no»)
• Misura non occupa spazio ma CPU
• SUM(Sales[Discount])
• FILTER/ALL simili alla where di SQL filtra una tabella
• FILTER(sales; sales[discount] >0 ) o ALL(Sales)
Recap nozioni DAX prima della demo
• Funzioni di aggregazione SUM,AVERAGE,Ecc...
• SUM(Sales[Qtà])
• Non posso aggregare su due colonne
• SUMX(Sales,Sales[Qta] * Sales[Unit Price])
• CALCULATE Rimpiazza il filtro di valutazione di una
formula
• CALCULATE(SUM(Sales[Discount]);Product[color] =«red»)
• ALLSELECTED permette il visual total
DEMO
Management
23/03/2018 28
Grazie!

More Related Content

What's hot (7)

PPTX
Business Intelligence & Analytics
Davide Mauri
PDF
Power bi + Flow
Marco Pozzan
PDF
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Denodo
PPT
Business Intelligence
Dario Partenope
PDF
Data Virtualization per una Multi-Cloud Data Integration senza barriere né co...
Denodo
PPTX
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Data Driven Innovation
PDF
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Marco Pozzan
Business Intelligence & Analytics
Davide Mauri
Power bi + Flow
Marco Pozzan
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Denodo
Business Intelligence
Dario Partenope
Data Virtualization per una Multi-Cloud Data Integration senza barriere né co...
Denodo
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Data Driven Innovation
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Marco Pozzan

Similar to Power B: Cleaning data (20)

PDF
Data flow
Marco Pozzan
PPTX
Big data e business intelligence
Marco Pozzan
PDF
Datamart.pdf
Marco Pozzan
PDF
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo
PDF
2470620 data-warehouse
Nagesh Khandare
PPTX
Datarace: IoT e Big Data (Italian)
Davide Mauri
PDF
Presentazione bd2
Gino Farisano
PPTX
Cloud, IoT and Big Data
SolidQIT
PPTX
Operational Data Store vs Data Lake
MongoDB
PPTX
Datamart.pptx
Marco Pozzan
PDF
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Marco Pozzan
PDF
Microsoft Power BI fast with aggregation and composite model
Marco Pozzan
PPT
Basi di dati e gis n
imartini
PPTX
Power BI data flow and Azure IoT Central
Marco Parenzan
PDF
Formez Opendata Inps - webinar 29 marzo 2012
INPSDG
PDF
Potenzialità degli strumenti di gestione del portafoglio ICT
Agenda digitale Umbria
PPTX
Design Patterns - enterprise patterns (part I)
Fabio Armani
PPTX
Power BI Streaming Data Flow e Azure IoT Central
Marco Parenzan
PPTX
Data modelling for Power BI
Marco Pozzan
PDF
Microsoft Power BI - Concetti base
Roberto Stefanetti
Data flow
Marco Pozzan
Big data e business intelligence
Marco Pozzan
Datamart.pdf
Marco Pozzan
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo
2470620 data-warehouse
Nagesh Khandare
Datarace: IoT e Big Data (Italian)
Davide Mauri
Presentazione bd2
Gino Farisano
Cloud, IoT and Big Data
SolidQIT
Operational Data Store vs Data Lake
MongoDB
Datamart.pptx
Marco Pozzan
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Marco Pozzan
Microsoft Power BI fast with aggregation and composite model
Marco Pozzan
Basi di dati e gis n
imartini
Power BI data flow and Azure IoT Central
Marco Parenzan
Formez Opendata Inps - webinar 29 marzo 2012
INPSDG
Potenzialità degli strumenti di gestione del portafoglio ICT
Agenda digitale Umbria
Design Patterns - enterprise patterns (part I)
Fabio Armani
Power BI Streaming Data Flow e Azure IoT Central
Marco Parenzan
Data modelling for Power BI
Marco Pozzan
Microsoft Power BI - Concetti base
Roberto Stefanetti
Ad

More from Marco Pozzan (17)

PDF
Microsoft Fabric and Open AI - Caso d'uso reale
Marco Pozzan
PDF
Metadata Driven Pipeline with Microsoft Fabric
Marco Pozzan
PDF
Data Warehouse with Fabric on data lakehouse
Marco Pozzan
PDF
ݺߣModellingDataSat.pdf
Marco Pozzan
PDF
Quanto mi costa SQL Pool Serverless Synapse
Marco Pozzan
PPTX
REAL TIME ANALYTICS INFRASTRUCTURE WITH AZURE
Marco Pozzan
PDF
What is in reality a DAX filter context
Marco Pozzan
PDF
Azure saturday pn 2018
Marco Pozzan
PDF
Optimizing dax
Marco Pozzan
PDF
Optimizing dax
Marco Pozzan
PDF
Power query
Marco Pozzan
PPTX
xVelocity in Deep
Marco Pozzan
PPTX
Dax en
Marco Pozzan
PPTX
SSIS - Integration Services
Marco Pozzan
PPTX
Introduction Dax
Marco Pozzan
PPTX
PowerPivot e Dax
Marco Pozzan
PPTX
Reporting services
Marco Pozzan
Microsoft Fabric and Open AI - Caso d'uso reale
Marco Pozzan
Metadata Driven Pipeline with Microsoft Fabric
Marco Pozzan
Data Warehouse with Fabric on data lakehouse
Marco Pozzan
ݺߣModellingDataSat.pdf
Marco Pozzan
Quanto mi costa SQL Pool Serverless Synapse
Marco Pozzan
REAL TIME ANALYTICS INFRASTRUCTURE WITH AZURE
Marco Pozzan
What is in reality a DAX filter context
Marco Pozzan
Azure saturday pn 2018
Marco Pozzan
Optimizing dax
Marco Pozzan
Optimizing dax
Marco Pozzan
Power query
Marco Pozzan
xVelocity in Deep
Marco Pozzan
SSIS - Integration Services
Marco Pozzan
Introduction Dax
Marco Pozzan
PowerPivot e Dax
Marco Pozzan
Reporting services
Marco Pozzan
Ad

Power B: Cleaning data

  • 1. www.xedotnet.org Power BI: Cleaning and Modelling Data Marco Pozzan
  • 2. Speaker • Consulente e formatore in ambito business intelligence, business analytics e data mining per (www.methode.it) • Dal 2002 le attività principali sono legate alla progettazione di data warehouse relazionale e alla progettazione multidimensionale con strumenti Microsoft. • Docente all'Università di Pordenone nel corso di analisi dei dati e Big Data • Community Lead di 1nn0va (www.innovazionefvg.net) • MCP,MCSA,MCSE,MCT e dal 2014 MVP per SQL Server e relatore in diverse conferenze sul tema. • Marco.Pozzan@methode.it • @marcopozzan.it • www.marcopozzan.it • http://www.scoop.it/u/marco-pozzan • http://paper.li/marcopozzan/1422524394
  • 3. • Building blocks soluzione di BI • Data Analysis e Power BI • Demo Agenda
  • 4. Dati Informazioni Conoscenza Visualizzazione - Azione Collezionare: I dati necessari devono essere raccolti dalle applicazioni o dalle sorgenti dati esterne nei diversi modi che conosciamo. Dove si trovano i dati? Gap Informativo? Integrare: I dati grezzi devono essere convertiti in informazioni chiare e precise. Verifica delle regole di business. I dati devono essere integrati in una struttura coerente usata per comprendere informazioni aziendali (verificare il dato). Dati vengono normalizzati e puliti. Analisi: generare informazione che sia accurata, disponibile sempre e tempestiva ha poco valore se non ci sediamo con il business ad analizzare che cosa significa realmente l’informazione estratta e la comprendiamo. «L'informazione non è conoscenza Albert Einstein» Presentare i dati e AGIRE!!!: Il motivo principale per cui le soluzioni di business intelligence sono deludenti e che mettiamo a disposizione la conoscenza attraverso dashboard, KPI ma le persone che possono decidere per qualsiasi motivo non fanno nulla. Building blocks business intelligence
  • 5. Dati: Data Sources • La posizione (location) o il repository dei dati per la nostra soluzione di BI • Sono usate tradizionalmente nei processi di ETL, al momento abbiamo: • On-premises • In the cloud • In files Dati Informazioni Conoscenza Visualizzazione - Azione
  • 6. Dati: Queries Comandi che girano sui data source per estrarre un dato specifico: • Ritorna un intera tabella oppure viene eseguita una query sulla sorgente • Può essere una stored procedure su SQL Server • Ritorna solo I dati di cui necessitiamo • Eseguire trasformazioni dei dati Dati Informazioni Conoscenza Visualizzazione - Azione
  • 7. Informazioni: Data Transformations I dati devono essere trasformati dalla loro forma originale (source system) in un formato compatibile per la vostra destinazione: • Cleaning • Formatting • Key Lookups • Aggregations Dati Informazioni Conoscenza Visualizzazione - Azione
  • 8. • Trovare, combinare e rimodellare Big Data, small data, e qualsiasi Dato! • Identificare e importare dati esterni • Trovare dati rilevanti usando strumenti di ricerca • Combinare e trasformare più sorgenti dati • Power Query formula language: “M” • Lo stesso linguaggio per la stessa query su sorgenti di dati diverse • Possibilità di condividere query e funzioni • (free) add-in per Excel 2010 e Excel 2013, 2016 (integrated) Power BI: Power Query? Dati Informazioni Conoscenza Visualizzazione - Azione
  • 9. Conoscenza: Data Models • Creare una vista consistente degli elementi dei dati e le loro relazioni in una organizzazione • Insieme di standard e naming conventions • Contiene il modello semantico dei dati • L'idea di base è sempre la stessa: abilitare l'utente a navigare i dati senza riscrivere una nuova query ogni volta Dati Informazioni Conoscenza Visualizzazione - Azione
  • 10. Power BI: Power Pivot • Soluzione In-memory per le necessita di data modelling della Self-Service BI.(free)add-in Excel 2010,Excel 2013 e 2016(i) • Data Model (BISM) è • E’ una lista di tabelle con delle frecce che le collegano • Tabella = indica un insieme di colonne che contengono dati • Relazione = si leggono come si «riferisce a» • Data model fisico: è il modo di pensare del tecnico • Data model logico: è il modo di pensare dell’utente (mondo reale) • Dove si creano le logiche di business o calcoli • Dove si utilizza DAX (Data Analysis Expression) Dati Informazioni Conoscenza Visualizzazione - Azione
  • 11. Visualization • L’occhio umano riconosce i patterns • Facile da individuare le anomalie in un charts o in una maps, rispetto alle tabelle • Le visualizzazioni trovano patterns, clusters, e outliers • Aiutano a prendere facili decisioni sui nostri dati • Eliminare lo sforzo mentale nell’analizzare i numeri sulle righe Dati Informazioni Conoscenza Visualizzazione - Azione
  • 12. Power BI: Power View? • Tool con visual interattivi • Ricerca dati: cross-filtering, Bing- integration, play axis • Già pronti per una eventuale presentazione (es: PPT) • Basato su Silverlight / Html 5 • Pensato per gli utenti di business • Obbietivo: dare potenza alla visualizzazione dei dati • Minima curva di apprendimento Dati Informazioni Conoscenza Visualizzazione - Azione
  • 14. Recap DAX prima della demo • La colonna calcolata usa Nometabella[campo] • La misura usa [nomemisura] • Colonna calcolata occupa spazio in memoria • Operazioni su riga IF( Sales[Discount] > 0 ; «si», «no») • Misura non occupa spazio ma CPU • SUM(Sales[Discount]) • FILTER/ALL simili alla where di SQL filtra una tabella • FILTER(sales; sales[discount] >0 ) o ALL(Sales)
  • 15. Recap nozioni DAX prima della demo • Funzioni di aggregazione SUM,AVERAGE,Ecc... • SUM(Sales[Qtà]) • Non posso aggregare su due colonne • SUMX(Sales,Sales[Qta] * Sales[Unit Price]) • CALCULATE Rimpiazza il filtro di valutazione di una formula • CALCULATE(SUM(Sales[Discount]);Product[color] =«red») • ALLSELECTED permette il visual total