ݺߣ

ݺߣShare a Scribd company logo
Dátové sklady
Ing. Vladimír ᲹԳšԾ
Výrobca potrebuje vedieť...
2
2
Ktorý je náš
najmenej a najvac
ziskový zákazník?
Kto su moji zákazníci
a ktoré produkty kupujú?
Ktorý zákazník
je ochotný
viac nakupovať?
Aký dopad bude
mať nový produkt
na príjmy a výnosy?
Ako konkrétna
akcia prispela
k nárastu tržieb?
Čo je naziskovejší
distribučný kanál?
Čo je to dátový sklad
 Databáza na podporu rozhodovania, ktorá je
udržiavaná mimo produkčnej databázy.
 Podpora spracovania informácií
prostredníctvom konsolidovanej databázy s
historickými dátami.
 “Dátový sklad je subjektívne-orientovaná,
integrovaná, časovo stála kolekcia dát pre
podporu manažmentu.” - W. H. Inmon
 Data warehousing – proces vytvorenia a
používania dátového skladu
3
DWH – Subjektívne-orientovaný
 organizovaná okolo hlavných subjektov
(zákazník, produkt, predaj)
 zameraná na modelovanie a analýzu dát pre
riadiacich pracovníkov na báze transakčných
dát
 poskytuje jednoduchý a stručný pohľad na
čiastkové subjekty pomocou vylúčenia dát,
ktoré sú nepoužiteľné pre rozhodovanie
4
DWH - Integrovaný
 Konštruovaný ako integrovaný priestor
združujúci heterogénne zdroje
 Relačné DB, textové súbory, on-line záznamy
 Sú implementované techniky integrácie a
dátovej kvality
 Zaistenie konzistencie v názvoch, atribútoch
medzi rôznymi dátovými zdrojmi
 Konvertovanie zdrojových dát podľa definícií
5
DWH – Časovo nezávislý
 Časový horizont pre dátový sklad je výrazne
dlhší ako údaje uchovávané v operatívnych
systémoch
 Operačné databázy: aktuálna hodnota dát
 Data warehouse data: poskytuje informácie z
historickej perspektívy (napr., posledných 5-10
rokov)
 Každá kľúčová štruktúra v DW obsahuje
časovú dimenziu, ale nie všetky dáta majú
časovú dimenziu
6
DWH – Stály
 Fyzicky oddelené uloženie dát
transformovaných z operatívnej evidencie
 Operatívne uchovávanie dát v dátovom
sklade nenastáva
 DW nepotrebuje transakčné spracovanie a
obnovu
 Používa dve operácie:
 Inicializačné nahratie dát
 Prístup k dátam
7
Dátové modelovanie
 Proces vytvorenia dátového modelu
informačného systému použitím formálnych
modelovacích techník
 Fázy návrhu DB:
 Konceptuálny (koncept. model, Chenn)
 Logický (normalizácia)
 Fyzický (závislé na implementačnom prostr.)
8
Dátové modelovanie
9
Relačný model v 3NF
10
 Jednoduché nahranie dát
 Prenos dát zo zdrojových súborov a ich integrácia
 Zložité dotazy
 Množstvo JOIN operácií
 Ťažšie pochopiteľný bežnými používateľmi
 Model pre centrálne úložisko dát podľa Inmona
Dimenzionálny dátový model
11
 Odporúčaný pre DWH
 Zložité ETL
 Transformácie dát
 Integrácia, ...
 Jednoduché reportovanie
 Ľahšie pochopiteľný
 Rýchlejšie analytické dotazy
 Model pre datamarty – podľa Inmona aj
Kimballa
Relačný vs. dimenzionálny model
 Relačný dátový model v 3-NF
 Odstránenie duplicitných dát – zmenšenie počtu
záznamov
 Zvýšenie počtu tabuliek
 Prepojenie cez cudzie kľúče a tabuľky relácii
 Efektívny insert/update, menej efektívne
dotazovanie
 Dimenzionálny dátový model (nie je v 3NF)
 Adaptácia relačného modelu
 Faktové a dimenzionálne tabuľky
 Denormalizovaný, duplicitné dáta
 Menší počet tabuliek
 Efektívne dotazovanie
12
Entitno-relačný dátový model
13
Dimenzionálny dátový model
14
DWH vs. DBMS
 OLTP (on-line transaction processing)
 Hlavné úlohy tradičných DBMS
 Denno-denné operácie: nákup, sklady, bankové transakcie,
výroba, mzdy, účtovanie atď.
 OLAP (on-line analytical processing)
 Hlavne využívané v dátových skladoch
 Analýza dát a podpora rozhodovania
 Odelené funkcie (OLTP vs. OLAP):
 Užívateľsky a systémovo orientovaný: zákazník vs. trh
 obsah: aktuálne, detailné vs. historické, konsolidované
 Design: ER + aplikačný vs. star + subjektívny
 Pohľad: skutočnosť, lokálne vs. evolučne, integrovane
 Vzory prístupu: upravovanie vs. read-only, ale komplexné
dotazy
15
OLTP a OLAP model
16
OLTP a OLAP model
17
OLTP vs. OLAP zhrnutie
 OLTP sa používajú
na beh firmy
18
 OLAP pomáha
optimalizovať fungovanie
DWH architektúra
19
Data
Warehouse
Extract
Transform
Load
Refresh
OLAP Engine
Analysis
Query
Reports
Data mining
Monitor
&
Integrator
Metadata
Data Sources Front-End Tools
Serve
Data Marts
Operational
DBs
Other
sources
Data Storage
OLAP Server
ETL (Extract, Transform, Load)
 Vykonáva sa automatizovane v
pravidelných časových intervaloch
 Denne (v noci)
 Týždenne
 Extrakcia
 Extrakcia dát z rozličných zdrojov a
formátov
 Validácia dát (správna forma/hodnota)
20
ETL (Extract, Transform, Load)
 Transformácia
 Na dáta je aplikovaná séria funkcií a pravidiel
pre prípravu ich nahratiu do DWH
 Čistenie dát
 Iba správne dáta môžu byť nahraté
 Voľba iba určitých stĺpcov
 Kódovanie („Male“ to „M“)
 Odvodenie nových hodnôt (hodnota_predaja
= cena * počet_predaných_produktov)
 Agregácia (sumarizácia)
 Rozdelenie stĺpcov (napr. na dátum a čas)
21
ETL (Extract, Transform, Load)
 Nahranie
 Zabezpečuje nahranie extrahovaných a
transformovaných dát do cieľového
systému (DWH)
22
ETL (Extract, Transform, Load)
23
DWH architektúra
24
Data
Warehouse
Extract
Transform
Load
Refresh
OLAP Engine
Analysis
Query
Reports
Data mining
Monitor
&
Integrator
Metadata
Data Sources Front-End Tools
Serve
Data Marts
Operational
DBs
Other
sources
Data Storage
OLAP Server
Multidimenzionálna databáza
 DW je postavené na multidimenzionom dátovom
modeli, ktorý zobrazuje dáta z dátových kociek
 Dátová kocka, ako napr. predaj, dovoluje
modelovať informácie z rôznych dimenzií
 Dimenzionálne tabuľky položka (meno_polozky,
značka, typ), alebo čas(den, týždeň, mesiac,
štvrťrok, rok)
 Tabuľka faktov obsahuje hodnoty (napr.
predaná_cena) a klúče vytvárajú reláciu s
dimenziou
25
Multidimenzionálna kocka (OLAP kocka)
26
Date
Country
sum
sum
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
U.S.A
Canada
Mexico
sum
Tabuľky faktov
 Tabuľka faktov obsahuje dva druhy
atribútov:
 kľúčové atribúty – sú to cudzie kľúče z
príslušných tabuliek dimenzií. Primárny
kľúč tabuľky faktov je zložený zo
všetkých jej kľúčových atribútov
 nekľúčové atribúty – sú to samotné
fakty, ktoré sa sledujú pre každú
kombináciu nekľúčových atribútov
27
Tabuľky faktov
 Popisuje konkrétny subjekt podnikania
 Fakt, ktorý je uložený v tabuľke, sa sleduje pre
jednotlivé kombinácie dimenzií
 Tabuľka faktov obsahuje veľké objemy údajov
 Maximálny objem tabuľky sa určuje ako
karteziánsky súčin hodnôt primárnych kľúčov
tabuliek dimenzií
 Zdrojom údajov sú bázické dáta z podnikových
informačných zdrojov
 Údaje sa pri transformácií do tabuľky faktov
sumarizujú a agregujú na požadovanej úrovni
 Každú tabuľku faktov charakterizuje granularita,
ktorá vyjadruje stupeň agregácie faktov oproti
zdrojovým údajom
28
Tabuľky dimenzií
 Ohraničujú výber konkrétneho faktu z
tabuľky faktov.
 Obsahujú atribúty, ktoré popisujú vybranú
dimenziu a charakterizujú význam
jednotlivých faktov v tabuľke faktov.
 Príkladmi dimenzií sú:
 produkt
 čas
 geografická lokalita
29
30
 Granularita dimenzií
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
Tabuľky dimenzií
Dimenzionálny dátový model
31
OLAP operácie
 Roll-up
 Drill-down
 Slice and dice
 Pivot (rotate)
32
OLAP operácie Roll-up
33
OLAP operácie – Drill-down
34
OLAP operácie - Slice
35
OLAP operácie - Dice
36
OLAP operácie – Pivot (rotation)
37
Schéma dátového skladu
38
STAR SNOWFLAKE
Star - schéma dátového skladu
39
Star - schéma dátového skladu
40
Snowflake - schéma dátového skladu
41
Snowflake - schéma dátového skladu
42
STAR vs. SNOWFLAKE
SNOWFLAKE STAR
Jednoduchosť
údržby/zmeny
Neobsahuje redundanciu takže
je ľahšie modifikovateľná
Obsahuje redundantné dáta
Jednoduchosť
používania
Komplexnejšie dotazy a tým aj
menej zrozumiteľné
Menšia komplexnosť dotazov a
jednoduchšia na pochopenie
Rýchlosť
vykonania
dotazov
Veľa cudzích kľúčov, čo
spôsobuje dlhší čas vykonania
dotazov
Menší počet cudzích kľúčov a tým
aj rýchlejšie vykonanie dotazov
DWH typ Komplexné vzťahy
(many:many)
Jednoduché vzťahy
(1:1 alebo 1:many)
Join Veľký počet Malý počet
Počet tabuliek
dimenzií
Môže obsahovať viac ako
jednu tabuľku pre každú
dimenziu
Obsahuje iba jednu tabuľku pre
dimenziu
Kedy použiť Ak je DT veľká, šetrí miesto Ak tabuľka dimenzií obsahuje
menší počet riadkov
Normalizácia
schémy
DT je normalizovaná, FT
denormalizovaná
Obe DT aj FT sú denormalizované
43
Architektúra DWH (3-vrstvová)
44
Architektúra DWH podľa Inmona
 Pohľad zhora-nadol
45
Architektúra DWH podľa Kimballa
46
 Pohľad zdola-nahor
Využitie DWH
47
 Spracovanie informácií
 Podporuje dotazovanie a základné štatistické
analýzy, reporting a grafy a tabulky
 Spracovanie analýz
 Multidimenzionálna analýza v DW
 Podporuje základné OLAP operácie, slice-dice,
drillovanie, pivoting
 Data mining
 Objavovanie znalostí z ukrytých vzorov správania
 Podporuje asociácie, vytváranie analytických
modelov, vykonáva klasifikáciu informácií
vizualizáciu, …
Závery
48
 Prečo data warehousing?
 Dátové modelovanie (E-R vs. dimenzionálne)
 Multidimenzionálny model dátového skladu
 Star schema, snowflake schema, fakty
 Dátová kocka - dimenzie & hodnoty
 ETL proces (Extract, Transform, Load)
 OLAP operácie: drilling, rolling, slicing, dicing and
pivoting
Ďakujem za pozornosť
49
Použité zdroje
 http://www.diffen.com/difference/Image:Snowflake-schema-4.png
 http://www.diffen.com/difference/Snowflake_Schema_vs_Star_Schema
 http://www.tutorialspoint.com/dwh/dwh_olap.htm4
 http://www.maind.sk/dimenzionalne_modelovanie.php
 http://new.dcs.fmph.uniba.sk/files/mit/20111004_DWH_Modeling_JDvor
akova.pdf
50

More Related Content

Dátové sklady

  • 2. Výrobca potrebuje vedieť... 2 2 Ktorý je náš najmenej a najvac ziskový zákazník? Kto su moji zákazníci a ktoré produkty kupujú? Ktorý zákazník je ochotný viac nakupovať? Aký dopad bude mať nový produkt na príjmy a výnosy? Ako konkrétna akcia prispela k nárastu tržieb? Čo je naziskovejší distribučný kanál?
  • 3. Čo je to dátový sklad  Databáza na podporu rozhodovania, ktorá je udržiavaná mimo produkčnej databázy.  Podpora spracovania informácií prostredníctvom konsolidovanej databázy s historickými dátami.  “Dátový sklad je subjektívne-orientovaná, integrovaná, časovo stála kolekcia dát pre podporu manažmentu.” - W. H. Inmon  Data warehousing – proces vytvorenia a používania dátového skladu 3
  • 4. DWH – Subjektívne-orientovaný  organizovaná okolo hlavných subjektov (zákazník, produkt, predaj)  zameraná na modelovanie a analýzu dát pre riadiacich pracovníkov na báze transakčných dát  poskytuje jednoduchý a stručný pohľad na čiastkové subjekty pomocou vylúčenia dát, ktoré sú nepoužiteľné pre rozhodovanie 4
  • 5. DWH - Integrovaný  Konštruovaný ako integrovaný priestor združujúci heterogénne zdroje  Relačné DB, textové súbory, on-line záznamy  Sú implementované techniky integrácie a dátovej kvality  Zaistenie konzistencie v názvoch, atribútoch medzi rôznymi dátovými zdrojmi  Konvertovanie zdrojových dát podľa definícií 5
  • 6. DWH – Časovo nezávislý  Časový horizont pre dátový sklad je výrazne dlhší ako údaje uchovávané v operatívnych systémoch  Operačné databázy: aktuálna hodnota dát  Data warehouse data: poskytuje informácie z historickej perspektívy (napr., posledných 5-10 rokov)  Každá kľúčová štruktúra v DW obsahuje časovú dimenziu, ale nie všetky dáta majú časovú dimenziu 6
  • 7. DWH – Stály  Fyzicky oddelené uloženie dát transformovaných z operatívnej evidencie  Operatívne uchovávanie dát v dátovom sklade nenastáva  DW nepotrebuje transakčné spracovanie a obnovu  Používa dve operácie:  Inicializačné nahratie dát  Prístup k dátam 7
  • 8. Dátové modelovanie  Proces vytvorenia dátového modelu informačného systému použitím formálnych modelovacích techník  Fázy návrhu DB:  Konceptuálny (koncept. model, Chenn)  Logický (normalizácia)  Fyzický (závislé na implementačnom prostr.) 8
  • 10. Relačný model v 3NF 10  Jednoduché nahranie dát  Prenos dát zo zdrojových súborov a ich integrácia  Zložité dotazy  Množstvo JOIN operácií  Ťažšie pochopiteľný bežnými používateľmi  Model pre centrálne úložisko dát podľa Inmona
  • 11. Dimenzionálny dátový model 11  Odporúčaný pre DWH  Zložité ETL  Transformácie dát  Integrácia, ...  Jednoduché reportovanie  Ľahšie pochopiteľný  Rýchlejšie analytické dotazy  Model pre datamarty – podľa Inmona aj Kimballa
  • 12. Relačný vs. dimenzionálny model  Relačný dátový model v 3-NF  Odstránenie duplicitných dát – zmenšenie počtu záznamov  Zvýšenie počtu tabuliek  Prepojenie cez cudzie kľúče a tabuľky relácii  Efektívny insert/update, menej efektívne dotazovanie  Dimenzionálny dátový model (nie je v 3NF)  Adaptácia relačného modelu  Faktové a dimenzionálne tabuľky  Denormalizovaný, duplicitné dáta  Menší počet tabuliek  Efektívne dotazovanie 12
  • 15. DWH vs. DBMS  OLTP (on-line transaction processing)  Hlavné úlohy tradičných DBMS  Denno-denné operácie: nákup, sklady, bankové transakcie, výroba, mzdy, účtovanie atď.  OLAP (on-line analytical processing)  Hlavne využívané v dátových skladoch  Analýza dát a podpora rozhodovania  Odelené funkcie (OLTP vs. OLAP):  Užívateľsky a systémovo orientovaný: zákazník vs. trh  obsah: aktuálne, detailné vs. historické, konsolidované  Design: ER + aplikačný vs. star + subjektívny  Pohľad: skutočnosť, lokálne vs. evolučne, integrovane  Vzory prístupu: upravovanie vs. read-only, ale komplexné dotazy 15
  • 16. OLTP a OLAP model 16
  • 17. OLTP a OLAP model 17
  • 18. OLTP vs. OLAP zhrnutie  OLTP sa používajú na beh firmy 18  OLAP pomáha optimalizovať fungovanie
  • 19. DWH architektúra 19 Data Warehouse Extract Transform Load Refresh OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Sources Front-End Tools Serve Data Marts Operational DBs Other sources Data Storage OLAP Server
  • 20. ETL (Extract, Transform, Load)  Vykonáva sa automatizovane v pravidelných časových intervaloch  Denne (v noci)  Týždenne  Extrakcia  Extrakcia dát z rozličných zdrojov a formátov  Validácia dát (správna forma/hodnota) 20
  • 21. ETL (Extract, Transform, Load)  Transformácia  Na dáta je aplikovaná séria funkcií a pravidiel pre prípravu ich nahratiu do DWH  Čistenie dát  Iba správne dáta môžu byť nahraté  Voľba iba určitých stĺpcov  Kódovanie („Male“ to „M“)  Odvodenie nových hodnôt (hodnota_predaja = cena * počet_predaných_produktov)  Agregácia (sumarizácia)  Rozdelenie stĺpcov (napr. na dátum a čas) 21
  • 22. ETL (Extract, Transform, Load)  Nahranie  Zabezpečuje nahranie extrahovaných a transformovaných dát do cieľového systému (DWH) 22
  • 24. DWH architektúra 24 Data Warehouse Extract Transform Load Refresh OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Sources Front-End Tools Serve Data Marts Operational DBs Other sources Data Storage OLAP Server
  • 25. Multidimenzionálna databáza  DW je postavené na multidimenzionom dátovom modeli, ktorý zobrazuje dáta z dátových kociek  Dátová kocka, ako napr. predaj, dovoluje modelovať informácie z rôznych dimenzií  Dimenzionálne tabuľky položka (meno_polozky, značka, typ), alebo čas(den, týždeň, mesiac, štvrťrok, rok)  Tabuľka faktov obsahuje hodnoty (napr. predaná_cena) a klúče vytvárajú reláciu s dimenziou 25
  • 26. Multidimenzionálna kocka (OLAP kocka) 26 Date Country sum sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum
  • 27. Tabuľky faktov  Tabuľka faktov obsahuje dva druhy atribútov:  kľúčové atribúty – sú to cudzie kľúče z príslušných tabuliek dimenzií. Primárny kľúč tabuľky faktov je zložený zo všetkých jej kľúčových atribútov  nekľúčové atribúty – sú to samotné fakty, ktoré sa sledujú pre každú kombináciu nekľúčových atribútov 27
  • 28. Tabuľky faktov  Popisuje konkrétny subjekt podnikania  Fakt, ktorý je uložený v tabuľke, sa sleduje pre jednotlivé kombinácie dimenzií  Tabuľka faktov obsahuje veľké objemy údajov  Maximálny objem tabuľky sa určuje ako karteziánsky súčin hodnôt primárnych kľúčov tabuliek dimenzií  Zdrojom údajov sú bázické dáta z podnikových informačných zdrojov  Údaje sa pri transformácií do tabuľky faktov sumarizujú a agregujú na požadovanej úrovni  Každú tabuľku faktov charakterizuje granularita, ktorá vyjadruje stupeň agregácie faktov oproti zdrojovým údajom 28
  • 29. Tabuľky dimenzií  Ohraničujú výber konkrétneho faktu z tabuľky faktov.  Obsahujú atribúty, ktoré popisujú vybranú dimenziu a charakterizujú význam jednotlivých faktov v tabuľke faktov.  Príkladmi dimenzií sú:  produkt  čas  geografická lokalita 29
  • 30. 30  Granularita dimenzií Industry Region Year Category Country Quarter Product City Month Week Office Day Tabuľky dimenzií
  • 32. OLAP operácie  Roll-up  Drill-down  Slice and dice  Pivot (rotate) 32
  • 34. OLAP operácie – Drill-down 34
  • 35. OLAP operácie - Slice 35
  • 36. OLAP operácie - Dice 36
  • 37. OLAP operácie – Pivot (rotation) 37
  • 39. Star - schéma dátového skladu 39
  • 40. Star - schéma dátového skladu 40
  • 41. Snowflake - schéma dátového skladu 41
  • 42. Snowflake - schéma dátového skladu 42
  • 43. STAR vs. SNOWFLAKE SNOWFLAKE STAR Jednoduchosť údržby/zmeny Neobsahuje redundanciu takže je ľahšie modifikovateľná Obsahuje redundantné dáta Jednoduchosť používania Komplexnejšie dotazy a tým aj menej zrozumiteľné Menšia komplexnosť dotazov a jednoduchšia na pochopenie Rýchlosť vykonania dotazov Veľa cudzích kľúčov, čo spôsobuje dlhší čas vykonania dotazov Menší počet cudzích kľúčov a tým aj rýchlejšie vykonanie dotazov DWH typ Komplexné vzťahy (many:many) Jednoduché vzťahy (1:1 alebo 1:many) Join Veľký počet Malý počet Počet tabuliek dimenzií Môže obsahovať viac ako jednu tabuľku pre každú dimenziu Obsahuje iba jednu tabuľku pre dimenziu Kedy použiť Ak je DT veľká, šetrí miesto Ak tabuľka dimenzií obsahuje menší počet riadkov Normalizácia schémy DT je normalizovaná, FT denormalizovaná Obe DT aj FT sú denormalizované 43
  • 45. Architektúra DWH podľa Inmona  Pohľad zhora-nadol 45
  • 46. Architektúra DWH podľa Kimballa 46  Pohľad zdola-nahor
  • 47. Využitie DWH 47  Spracovanie informácií  Podporuje dotazovanie a základné štatistické analýzy, reporting a grafy a tabulky  Spracovanie analýz  Multidimenzionálna analýza v DW  Podporuje základné OLAP operácie, slice-dice, drillovanie, pivoting  Data mining  Objavovanie znalostí z ukrytých vzorov správania  Podporuje asociácie, vytváranie analytických modelov, vykonáva klasifikáciu informácií vizualizáciu, …
  • 48. Závery 48  Prečo data warehousing?  Dátové modelovanie (E-R vs. dimenzionálne)  Multidimenzionálny model dátového skladu  Star schema, snowflake schema, fakty  Dátová kocka - dimenzie & hodnoty  ETL proces (Extract, Transform, Load)  OLAP operácie: drilling, rolling, slicing, dicing and pivoting
  • 50. Použité zdroje  http://www.diffen.com/difference/Image:Snowflake-schema-4.png  http://www.diffen.com/difference/Snowflake_Schema_vs_Star_Schema  http://www.tutorialspoint.com/dwh/dwh_olap.htm4  http://www.maind.sk/dimenzionalne_modelovanie.php  http://new.dcs.fmph.uniba.sk/files/mit/20111004_DWH_Modeling_JDvor akova.pdf 50