Prezentácia podáva základné informácie o dátových skladoch. Obsahuje vysvetlenie pojmu dátový sklad a jeho vlastností, princípy dátového modelovania, relačný vs. dimenzionálny dátový model, OLAP vs. OLTP spracovanie dát, architektúru dátového skladu, ETL proces, OLAP kocka a jaj vlastnosti a pod.
2. Výrobca potrebuje vedieť...
2
2
Ktorý je náš
najmenej a najvac
ziskový zákazník?
Kto su moji zákazníci
a ktoré produkty kupujú?
Ktorý zákazník
je ochotný
viac nakupovať?
Aký dopad bude
mať nový produkt
na príjmy a výnosy?
Ako konkrétna
akcia prispela
k nárastu tržieb?
Čo je naziskovejší
distribučný kanál?
3. Čo je to dátový sklad
Databáza na podporu rozhodovania, ktorá je
udržiavaná mimo produkčnej databázy.
Podpora spracovania informácií
prostredníctvom konsolidovanej databázy s
historickými dátami.
“Dátový sklad je subjektívne-orientovaná,
integrovaná, časovo stála kolekcia dát pre
podporu manažmentu.” - W. H. Inmon
Data warehousing – proces vytvorenia a
používania dátového skladu
3
4. DWH – Subjektívne-orientovaný
organizovaná okolo hlavných subjektov
(zákazník, produkt, predaj)
zameraná na modelovanie a analýzu dát pre
riadiacich pracovníkov na báze transakčných
dát
poskytuje jednoduchý a stručný pohľad na
čiastkové subjekty pomocou vylúčenia dát,
ktoré sú nepoužiteľné pre rozhodovanie
4
5. DWH - Integrovaný
Konštruovaný ako integrovaný priestor
združujúci heterogénne zdroje
Relačné DB, textové súbory, on-line záznamy
Sú implementované techniky integrácie a
dátovej kvality
Zaistenie konzistencie v názvoch, atribútoch
medzi rôznymi dátovými zdrojmi
Konvertovanie zdrojových dát podľa definícií
5
6. DWH – Časovo nezávislý
Časový horizont pre dátový sklad je výrazne
dlhší ako údaje uchovávané v operatívnych
systémoch
Operačné databázy: aktuálna hodnota dát
Data warehouse data: poskytuje informácie z
historickej perspektívy (napr., posledných 5-10
rokov)
Každá kľúčová štruktúra v DW obsahuje
časovú dimenziu, ale nie všetky dáta majú
časovú dimenziu
6
7. DWH – Stály
Fyzicky oddelené uloženie dát
transformovaných z operatívnej evidencie
Operatívne uchovávanie dát v dátovom
sklade nenastáva
DW nepotrebuje transakčné spracovanie a
obnovu
Používa dve operácie:
Inicializačné nahratie dát
Prístup k dátam
7
8. Dátové modelovanie
Proces vytvorenia dátového modelu
informačného systému použitím formálnych
modelovacích techník
Fázy návrhu DB:
Konceptuálny (koncept. model, Chenn)
Logický (normalizácia)
Fyzický (závislé na implementačnom prostr.)
8
10. Relačný model v 3NF
10
Jednoduché nahranie dát
Prenos dát zo zdrojových súborov a ich integrácia
Zložité dotazy
Množstvo JOIN operácií
Ťažšie pochopiteľný bežnými používateľmi
Model pre centrálne úložisko dát podľa Inmona
11. Dimenzionálny dátový model
11
Odporúčaný pre DWH
Zložité ETL
Transformácie dát
Integrácia, ...
Jednoduché reportovanie
Ľahšie pochopiteľný
Rýchlejšie analytické dotazy
Model pre datamarty – podľa Inmona aj
Kimballa
12. Relačný vs. dimenzionálny model
Relačný dátový model v 3-NF
Odstránenie duplicitných dát – zmenšenie počtu
záznamov
Zvýšenie počtu tabuliek
Prepojenie cez cudzie kľúče a tabuľky relácii
Efektívny insert/update, menej efektívne
dotazovanie
Dimenzionálny dátový model (nie je v 3NF)
Adaptácia relačného modelu
Faktové a dimenzionálne tabuľky
Denormalizovaný, duplicitné dáta
Menší počet tabuliek
Efektívne dotazovanie
12
15. DWH vs. DBMS
OLTP (on-line transaction processing)
Hlavné úlohy tradičných DBMS
Denno-denné operácie: nákup, sklady, bankové transakcie,
výroba, mzdy, účtovanie atď.
OLAP (on-line analytical processing)
Hlavne využívané v dátových skladoch
Analýza dát a podpora rozhodovania
Odelené funkcie (OLTP vs. OLAP):
Užívateľsky a systémovo orientovaný: zákazník vs. trh
obsah: aktuálne, detailné vs. historické, konsolidované
Design: ER + aplikačný vs. star + subjektívny
Pohľad: skutočnosť, lokálne vs. evolučne, integrovane
Vzory prístupu: upravovanie vs. read-only, ale komplexné
dotazy
15
20. ETL (Extract, Transform, Load)
Vykonáva sa automatizovane v
pravidelných časových intervaloch
Denne (v noci)
Týždenne
Extrakcia
Extrakcia dát z rozličných zdrojov a
formátov
Validácia dát (správna forma/hodnota)
20
21. ETL (Extract, Transform, Load)
Transformácia
Na dáta je aplikovaná séria funkcií a pravidiel
pre prípravu ich nahratiu do DWH
Čistenie dát
Iba správne dáta môžu byť nahraté
Voľba iba určitých stĺpcov
Kódovanie („Male“ to „M“)
Odvodenie nových hodnôt (hodnota_predaja
= cena * počet_predaných_produktov)
Agregácia (sumarizácia)
Rozdelenie stĺpcov (napr. na dátum a čas)
21
22. ETL (Extract, Transform, Load)
Nahranie
Zabezpečuje nahranie extrahovaných a
transformovaných dát do cieľového
systému (DWH)
22
25. Multidimenzionálna databáza
DW je postavené na multidimenzionom dátovom
modeli, ktorý zobrazuje dáta z dátových kociek
Dátová kocka, ako napr. predaj, dovoluje
modelovať informácie z rôznych dimenzií
Dimenzionálne tabuľky položka (meno_polozky,
značka, typ), alebo čas(den, týždeň, mesiac,
štvrťrok, rok)
Tabuľka faktov obsahuje hodnoty (napr.
predaná_cena) a klúče vytvárajú reláciu s
dimenziou
25
27. Tabuľky faktov
Tabuľka faktov obsahuje dva druhy
atribútov:
kľúčové atribúty – sú to cudzie kľúče z
príslušných tabuliek dimenzií. Primárny
kľúč tabuľky faktov je zložený zo
všetkých jej kľúčových atribútov
nekľúčové atribúty – sú to samotné
fakty, ktoré sa sledujú pre každú
kombináciu nekľúčových atribútov
27
28. Tabuľky faktov
Popisuje konkrétny subjekt podnikania
Fakt, ktorý je uložený v tabuľke, sa sleduje pre
jednotlivé kombinácie dimenzií
Tabuľka faktov obsahuje veľké objemy údajov
Maximálny objem tabuľky sa určuje ako
karteziánsky súčin hodnôt primárnych kľúčov
tabuliek dimenzií
Zdrojom údajov sú bázické dáta z podnikových
informačných zdrojov
Údaje sa pri transformácií do tabuľky faktov
sumarizujú a agregujú na požadovanej úrovni
Každú tabuľku faktov charakterizuje granularita,
ktorá vyjadruje stupeň agregácie faktov oproti
zdrojovým údajom
28
29. Tabuľky dimenzií
Ohraničujú výber konkrétneho faktu z
tabuľky faktov.
Obsahujú atribúty, ktoré popisujú vybranú
dimenziu a charakterizujú význam
jednotlivých faktov v tabuľke faktov.
Príkladmi dimenzií sú:
produkt
čas
geografická lokalita
29
43. STAR vs. SNOWFLAKE
SNOWFLAKE STAR
Jednoduchosť
údržby/zmeny
Neobsahuje redundanciu takže
je ľahšie modifikovateľná
Obsahuje redundantné dáta
Jednoduchosť
používania
Komplexnejšie dotazy a tým aj
menej zrozumiteľné
Menšia komplexnosť dotazov a
jednoduchšia na pochopenie
Rýchlosť
vykonania
dotazov
Veľa cudzích kľúčov, čo
spôsobuje dlhší čas vykonania
dotazov
Menší počet cudzích kľúčov a tým
aj rýchlejšie vykonanie dotazov
DWH typ Komplexné vzťahy
(many:many)
Jednoduché vzťahy
(1:1 alebo 1:many)
Join Veľký počet Malý počet
Počet tabuliek
dimenzií
Môže obsahovať viac ako
jednu tabuľku pre každú
dimenziu
Obsahuje iba jednu tabuľku pre
dimenziu
Kedy použiť Ak je DT veľká, šetrí miesto Ak tabuľka dimenzií obsahuje
menší počet riadkov
Normalizácia
schémy
DT je normalizovaná, FT
denormalizovaná
Obe DT aj FT sú denormalizované
43
47. Využitie DWH
47
Spracovanie informácií
Podporuje dotazovanie a základné štatistické
analýzy, reporting a grafy a tabulky
Spracovanie analýz
Multidimenzionálna analýza v DW
Podporuje základné OLAP operácie, slice-dice,
drillovanie, pivoting
Data mining
Objavovanie znalostí z ukrytých vzorov správania
Podporuje asociácie, vytváranie analytických
modelov, vykonáva klasifikáciu informácií
vizualizáciu, …
48. Závery
48
Prečo data warehousing?
Dátové modelovanie (E-R vs. dimenzionálne)
Multidimenzionálny model dátového skladu
Star schema, snowflake schema, fakty
Dátová kocka - dimenzie & hodnoty
ETL proces (Extract, Transform, Load)
OLAP operácie: drilling, rolling, slicing, dicing and
pivoting