1. Argumentace
Téma je úryvkem z mé bakalářské práce. Práce byla vypracována před dvěma lety a zabývá se
odvětvím, ve kterém bych chtěl v budoucnu působit. K výběru tématu přispělo přečtení fóra a tím
pádem usnadnění cesty k vypracování této práce. Název je odvozen z dvou technologií, které se
v textu snažím přiblížit a určit přednosti každé z nich.
Porovnání OLTP a OLAP
OLTP databáze
Běžná databáze by měla umožňovat velké množství operací v reálném čase. Takové databáze jsou
označovány jako OLTP (On-line Transaction Processing). Data jsou zde ukládána v dvojrozměrných
databázových tabulkách. Každý řádek v tabulce má jednoznačný identifikátor. Mezi tabulkami existují
relace, které popisují vzájemné vztahy.
Realizaci každé databáze, by měl předcházet návrh relačního schématu. U OLTP databází se při
návrhu využívá normalizace, která by měla usnadnit následující práci s databází. Nejčastěji se
využívají databáze ve třetí normální formě.
Datové sklady a OLAP
Pod pojmem datový sklad je možné si představit rozsáhlou databázi oddělenou od operační databáze,
ovšem pro organizaci dat zde platí jiná pravidla. Tabulky nemusejí být normalizované. Hlavním cílem
datových sladů je podpora rozhodování.
Asi nejznámější definice datového skladu od Billa Inmona:
„Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově
proměnných, historických dat použitých pro získávání informací a podporu rozhodování. V datovém
skladu jsou uložena atomická a sumární data.“
Subjektová orientace:
Data se do datového skladu zapisují spíš podle předmětu zájmu, než podle aplikace, ve které byla
vytvořena. Při orientaci na subjekt jsou data v datovém skladu kategorizovaná podle subjektu, kterým
může být například zákazník, dodavatel, zaměstnanec, výrobek a podobně.
Integrovanost:
Datový sklad musí být jednotný a integrovaný. To znamená, že data týkající se konkrétního předmětu
se do datového skladu ukládají jen jednou. Proto musíme zavést jednotnou terminologii, jednotné a
konzistentní jednotky veličin. Není to snadný úkol, protože data přicházejí do datového skladu z
nekonzistentního a neintegrovaného operačního prostředí. Proto musí být data v etapě přípravy a
zavedení upravená, vyčištěná a sjednocená. Pokud data nejsou konzistentní a důvěryhodná, datový
sklad ztrácí význam.
2. Časová variabilita:
Data se ukládají do datového skladu jako série snímků, z nichž každý reprezentuje určitý časový úsek.
Na rozdíl od operačního prostředí, kde jsou data platná v okamžiku přístupu, v datových skladech jsou
data platná pro určitý časový moment, časový snímek. Zatímco v operačním databázovém prostředí
jsou uložena data za kratší časové období, většinou za několik dnů, maximálně měsíců, v datovém
skladu jsou data za delší časové období, typicky za několik roků.
Neměnnost:
V operačních transakčních databázích jsou data do databáze jednak vkládána, jednak modifikována a
mazána. Data v datovém skladu se obvykle nemění ani neodstraňují, jen jsou v pravidelných
intervalech přidávána nová data. Proto je manipulace s daty v datových skladech daleko jednodušší. V
zásadě můžeme připustit jen dva typy operací. Zavedení dat do datového skladu a přístup k těmto
datům.
OLAP systémy
OLAP je zkratka pro Online Analytical Processing, která na první pohled nic konkrétnějšího neřekne.
Systémy OLAP pomáhají analyzovat velké množství dat, ze kterých je možno vytvářet tabulky,
reporty, grafy a další možné souhrnné zprávy. Tyto výstupy pomohou poměrně rychle analyzovat
velké množství dat uložených v databázi a napomohou při rozhodování.
E.F.Codd, tvůrce relačního databázového modelu popsal výraz OLAP pomocí 12 pravidel.
1. Multidimenzionální konceptuální model: OLAP by měl poskytovat uživateli
multidimenzionální model odpovídající jeho podnikatelským potřebám tak, aby tento model
mohl využívat pro analýzu shromážděných dat.
2. Transparentnost: Technologie systému OLAP, podřízená databáze a architektura výpočtu by
měli být pro uživatele transparentní, aby uživatel mohl naplno využívat svou produktivitu a
odbornost při použití front-end nástrojů a prostředí.
3. Dostupnost: Systém OLAP by měl přistupovat k těm datům, které jsou potřebné pro analýzu.
4. Konzistentní vykazování: I když počet záznamů, a tedy i velikost databáze, postupem času
roste, uživatel by neměl pocítit žádné podstatné snížení výkonu.
5. Architektura klient-server: Systém OLAP musí odpovídat principům architektury klient-
server s přihlédnutím na maximální cenu a výkon, flexibilitu a interoperabilitu.
6. Generická dimenzionalita: Každá dimenze dat musí být ekvivalentní ve struktuře i
operačních schopnostech.
7. Dynamické ošetření řídkých matic: Systém OLAP by měl být schopný adaptovat svoje
fyzické schéma na konkrétní analytický model, který optimalizuje ošetření řídkých matic,
přičemž dosáhne a udrží požadovanou úroveň výkonu.
8. Podpora pro více uživatelů: Systém OLAP musí být schopný podporovat pracovní skupinu
uživatelů pracujících současně na konkrétním modelu.
3. 9. Neomezené křížové dimenziální operace: Systém OLAP musí dokázat rozeznat
dimenzionální hierarchie a automaticky provést asociované kumulované kalkulace v rámci
dimenzí, i mezi nimi.
10. Intuitivní manipulace s daty: Pravidlo definuje konsolidované přeorientování cest na detailní
úroveň a zpět. Uživatelské rozhraní by mělo umožňovat všechny manipulace způsobem
„ukázat a klepnout, případně zachytit a přemístit“ v buňkách kostky.
11. Flexibilní vykazování: Musí existovat schopnost uspořádat řádky, sloupce a buňky
způsobem, který umožní analýzu intuitivní vizuální prezentací analytických sestav.
12. Neomezené dimenze a úrovně agregace: V závislosti na požadavcích podnikání může mít
analytický model více dimenzí, přičemž každý z nich může mít vícenásobné hierarchie.
Klíčová slova
OLAP, databáze, OLTP, datové sklady
Anotace
Práce se zaměřuje na porovnání databází typu OLTP a OLAP. Z větší části se věnuje systémům
OLAP, které mohou shlukovat data z několika OLTP databází. Práce obsahuje pouze stručnou
charakteristiku.
Zdroje
[1] LACKO, Ľuboslav. Business Intelligence v SQL Serveru 2008 : reportovací, analytické a další
datové služby. Vyd. 1. Brno : Computer Press, 2009. 456 s. ISBN 978-80-251-2887-9.
[2] Business Intelligence [online]. 2008 [cit. 2010-05-16]. Microsoft. Dostupné z WWW:
<http://www.microsoft.com/cze/sqlserver2008/business-intelligence.mspx>.
[3] Datové sklady a OLAP [online]. 28. 10. 2002 [cit. 2010-05-16]. Data Mining Solutions.
Dostupné z WWW: <http://datamining.xf.cz/view.php?cisloclanku=2002102808>.