ݺߣ

ݺߣShare a Scribd company logo
Argumentace
Téma je úryvkem z mé bakalářské práce. Práce byla vypracována před dvěma lety a zabývá se
odvětvím, ve kterém bych chtěl v budoucnu působit. K výběru tématu přispělo přečtení fóra a tím
pádem usnadnění cesty k vypracování této práce. Název je odvozen z dvou technologií, které se
v textu snažím přiblížit a určit přednosti každé z nich.

Porovnání OLTP a OLAP

OLTP databáze
Běžná databáze by měla umožňovat velké množství operací v reálném čase. Takové databáze jsou
označovány jako OLTP (On-line Transaction Processing). Data jsou zde ukládána v dvojrozměrných
databázových tabulkách. Každý řádek v tabulce má jednoznačný identifikátor. Mezi tabulkami existují
relace, které popisují vzájemné vztahy.
Realizaci každé databáze, by měl předcházet návrh relačního schématu. U OLTP databází se při
návrhu využívá normalizace, která by měla usnadnit následující práci s databází. Nejčastěji se
využívají databáze ve třetí normální formě.

Datové sklady a OLAP
Pod pojmem datový sklad je možné si představit rozsáhlou databázi oddělenou od operační databáze,
ovšem pro organizaci dat zde platí jiná pravidla. Tabulky nemusejí být normalizované. Hlavním cílem
datových sladů je podpora rozhodování.
Asi nejznámější definice datového skladu od Billa Inmona:
„Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově
proměnných, historických dat použitých pro získávání informací a podporu rozhodování. V datovém
skladu jsou uložena atomická a sumární data.“

Subjektová orientace:
Data se do datového skladu zapisují spíš podle předmětu zájmu, než podle aplikace, ve které byla
vytvořena. Při orientaci na subjekt jsou data v datovém skladu kategorizovaná podle subjektu, kterým
může být například zákazník, dodavatel, zaměstnanec, výrobek a podobně.

Integrovanost:
Datový sklad musí být jednotný a integrovaný. To znamená, že data týkající se konkrétního předmětu
se do datového skladu ukládají jen jednou. Proto musíme zavést jednotnou terminologii, jednotné a
konzistentní jednotky veličin. Není to snadný úkol, protože data přicházejí do datového skladu z
nekonzistentního a neintegrovaného operačního prostředí. Proto musí být data v etapě přípravy a
zavedení upravená, vyčištěná a sjednocená. Pokud data nejsou konzistentní a důvěryhodná, datový
sklad ztrácí význam.
Časová variabilita:
Data se ukládají do datového skladu jako série snímků, z nichž každý reprezentuje určitý časový úsek.
Na rozdíl od operačního prostředí, kde jsou data platná v okamžiku přístupu, v datových skladech jsou
data platná pro určitý časový moment, časový snímek. Zatímco v operačním databázovém prostředí
jsou uložena data za kratší časové období, většinou za několik dnů, maximálně měsíců, v datovém
skladu jsou data za delší časové období, typicky za několik roků.

Neměnnost:
V operačních transakčních databázích jsou data do databáze jednak vkládána, jednak modifikována a
mazána. Data v datovém skladu se obvykle nemění ani neodstraňují, jen jsou v pravidelných
intervalech přidávána nová data. Proto je manipulace s daty v datových skladech daleko jednodušší. V
zásadě můžeme připustit jen dva typy operací. Zavedení dat do datového skladu a přístup k těmto
datům.

OLAP systémy
OLAP je zkratka pro Online Analytical Processing, která na první pohled nic konkrétnějšího neřekne.
Systémy OLAP pomáhají analyzovat velké množství dat, ze kterých je možno vytvářet tabulky,
reporty, grafy a další možné souhrnné zprávy. Tyto výstupy pomohou poměrně rychle analyzovat
velké množství dat uložených v databázi a napomohou při rozhodování.
E.F.Codd, tvůrce relačního databázového modelu popsal výraz OLAP pomocí 12 pravidel.
    1. Multidimenzionální        konceptuální     model:    OLAP       by měl     poskytovat   uživateli
         multidimenzionální model odpovídající jeho podnikatelským potřebám tak, aby tento model
         mohl využívat pro analýzu shromážděných dat.
    2. Transparentnost: Technologie systému OLAP, podřízená databáze a architektura výpočtu by
         měli být pro uživatele transparentní, aby uživatel mohl naplno využívat svou produktivitu a
         odbornost při použití front-end nástrojů a prostředí.
    3. Dostupnost: Systém OLAP by měl přistupovat k těm datům, které jsou potřebné pro analýzu.
    4. Konzistentní vykazování: I když počet záznamů, a tedy i velikost databáze, postupem času
         roste, uživatel by neměl pocítit žádné podstatné snížení výkonu.
    5. Architektura klient-server: Systém OLAP musí odpovídat principům architektury klient-
         server s přihlédnutím na maximální cenu a výkon, flexibilitu a interoperabilitu.
    6. Generická dimenzionalita: Každá dimenze dat musí být ekvivalentní ve struktuře i
         operačních schopnostech.
    7. Dynamické ošetření řídkých matic: Systém OLAP by měl být schopný adaptovat svoje
         fyzické schéma na konkrétní analytický model, který optimalizuje ošetření řídkých matic,
         přičemž dosáhne a udrží požadovanou úroveň výkonu.
    8. Podpora pro více uživatelů: Systém OLAP musí být schopný podporovat pracovní skupinu
         uživatelů pracujících současně na konkrétním modelu.
9. Neomezené křížové dimenziální operace: Systém OLAP musí dokázat rozeznat
          dimenzionální hierarchie a automaticky provést asociované kumulované kalkulace v rámci
          dimenzí, i mezi nimi.
      10. Intuitivní manipulace s daty: Pravidlo definuje konsolidované přeorientování cest na detailní
          úroveň a zpět. Uživatelské rozhraní by mělo umožňovat všechny manipulace způsobem
          „ukázat a klepnout, případně zachytit a přemístit“ v buňkách kostky.
      11. Flexibilní vykazování: Musí existovat schopnost uspořádat řádky, sloupce a buňky
          způsobem, který umožní analýzu intuitivní vizuální prezentací analytických sestav.
      12. Neomezené dimenze a úrovně agregace: V závislosti na požadavcích podnikání může mít
          analytický model více dimenzí, přičemž každý z nich může mít vícenásobné hierarchie.



Klíčová slova
OLAP, databáze, OLTP, datové sklady

Anotace
Práce se zaměřuje na porovnání databází typu OLTP a OLAP. Z větší části se věnuje systémům
OLAP, které mohou shlukovat data z několika OLTP databází. Práce obsahuje pouze stručnou
charakteristiku.

Zdroje
[1] LACKO, Ľuboslav. Business Intelligence v SQL Serveru 2008 : reportovací, analytické a další
        datové služby. Vyd. 1. Brno : Computer Press, 2009. 456 s. ISBN 978-80-251-2887-9.
[2]     Business Intelligence [online]. 2008 [cit. 2010-05-16]. Microsoft. Dostupné z WWW:
        <http://www.microsoft.com/cze/sqlserver2008/business-intelligence.mspx>.
[3]     Datové sklady a OLAP [online]. 28. 10. 2002 [cit. 2010-05-16]. Data Mining Solutions.
        Dostupné z WWW: <http://datamining.xf.cz/view.php?cisloclanku=2002102808>.

More Related Content

Závěrečný úkol KPI

  • 1. Argumentace Téma je úryvkem z mé bakalářské práce. Práce byla vypracována před dvěma lety a zabývá se odvětvím, ve kterém bych chtěl v budoucnu působit. K výběru tématu přispělo přečtení fóra a tím pádem usnadnění cesty k vypracování této práce. Název je odvozen z dvou technologií, které se v textu snažím přiblížit a určit přednosti každé z nich. Porovnání OLTP a OLAP OLTP databáze Běžná databáze by měla umožňovat velké množství operací v reálném čase. Takové databáze jsou označovány jako OLTP (On-line Transaction Processing). Data jsou zde ukládána v dvojrozměrných databázových tabulkách. Každý řádek v tabulce má jednoznačný identifikátor. Mezi tabulkami existují relace, které popisují vzájemné vztahy. Realizaci každé databáze, by měl předcházet návrh relačního schématu. U OLTP databází se při návrhu využívá normalizace, která by měla usnadnit následující práci s databází. Nejčastěji se využívají databáze ve třetí normální formě. Datové sklady a OLAP Pod pojmem datový sklad je možné si představit rozsáhlou databázi oddělenou od operační databáze, ovšem pro organizaci dat zde platí jiná pravidla. Tabulky nemusejí být normalizované. Hlavním cílem datových sladů je podpora rozhodování. Asi nejznámější definice datového skladu od Billa Inmona: „Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnných, historických dat použitých pro získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data.“ Subjektová orientace: Data se do datového skladu zapisují spíš podle předmětu zájmu, než podle aplikace, ve které byla vytvořena. Při orientaci na subjekt jsou data v datovém skladu kategorizovaná podle subjektu, kterým může být například zákazník, dodavatel, zaměstnanec, výrobek a podobně. Integrovanost: Datový sklad musí být jednotný a integrovaný. To znamená, že data týkající se konkrétního předmětu se do datového skladu ukládají jen jednou. Proto musíme zavést jednotnou terminologii, jednotné a konzistentní jednotky veličin. Není to snadný úkol, protože data přicházejí do datového skladu z nekonzistentního a neintegrovaného operačního prostředí. Proto musí být data v etapě přípravy a zavedení upravená, vyčištěná a sjednocená. Pokud data nejsou konzistentní a důvěryhodná, datový sklad ztrácí význam.
  • 2. Časová variabilita: Data se ukládají do datového skladu jako série snímků, z nichž každý reprezentuje určitý časový úsek. Na rozdíl od operačního prostředí, kde jsou data platná v okamžiku přístupu, v datových skladech jsou data platná pro určitý časový moment, časový snímek. Zatímco v operačním databázovém prostředí jsou uložena data za kratší časové období, většinou za několik dnů, maximálně měsíců, v datovém skladu jsou data za delší časové období, typicky za několik roků. Neměnnost: V operačních transakčních databázích jsou data do databáze jednak vkládána, jednak modifikována a mazána. Data v datovém skladu se obvykle nemění ani neodstraňují, jen jsou v pravidelných intervalech přidávána nová data. Proto je manipulace s daty v datových skladech daleko jednodušší. V zásadě můžeme připustit jen dva typy operací. Zavedení dat do datového skladu a přístup k těmto datům. OLAP systémy OLAP je zkratka pro Online Analytical Processing, která na první pohled nic konkrétnějšího neřekne. Systémy OLAP pomáhají analyzovat velké množství dat, ze kterých je možno vytvářet tabulky, reporty, grafy a další možné souhrnné zprávy. Tyto výstupy pomohou poměrně rychle analyzovat velké množství dat uložených v databázi a napomohou při rozhodování. E.F.Codd, tvůrce relačního databázového modelu popsal výraz OLAP pomocí 12 pravidel. 1. Multidimenzionální konceptuální model: OLAP by měl poskytovat uživateli multidimenzionální model odpovídající jeho podnikatelským potřebám tak, aby tento model mohl využívat pro analýzu shromážděných dat. 2. Transparentnost: Technologie systému OLAP, podřízená databáze a architektura výpočtu by měli být pro uživatele transparentní, aby uživatel mohl naplno využívat svou produktivitu a odbornost při použití front-end nástrojů a prostředí. 3. Dostupnost: Systém OLAP by měl přistupovat k těm datům, které jsou potřebné pro analýzu. 4. Konzistentní vykazování: I když počet záznamů, a tedy i velikost databáze, postupem času roste, uživatel by neměl pocítit žádné podstatné snížení výkonu. 5. Architektura klient-server: Systém OLAP musí odpovídat principům architektury klient- server s přihlédnutím na maximální cenu a výkon, flexibilitu a interoperabilitu. 6. Generická dimenzionalita: Každá dimenze dat musí být ekvivalentní ve struktuře i operačních schopnostech. 7. Dynamické ošetření řídkých matic: Systém OLAP by měl být schopný adaptovat svoje fyzické schéma na konkrétní analytický model, který optimalizuje ošetření řídkých matic, přičemž dosáhne a udrží požadovanou úroveň výkonu. 8. Podpora pro více uživatelů: Systém OLAP musí být schopný podporovat pracovní skupinu uživatelů pracujících současně na konkrétním modelu.
  • 3. 9. Neomezené křížové dimenziální operace: Systém OLAP musí dokázat rozeznat dimenzionální hierarchie a automaticky provést asociované kumulované kalkulace v rámci dimenzí, i mezi nimi. 10. Intuitivní manipulace s daty: Pravidlo definuje konsolidované přeorientování cest na detailní úroveň a zpět. Uživatelské rozhraní by mělo umožňovat všechny manipulace způsobem „ukázat a klepnout, případně zachytit a přemístit“ v buňkách kostky. 11. Flexibilní vykazování: Musí existovat schopnost uspořádat řádky, sloupce a buňky způsobem, který umožní analýzu intuitivní vizuální prezentací analytických sestav. 12. Neomezené dimenze a úrovně agregace: V závislosti na požadavcích podnikání může mít analytický model více dimenzí, přičemž každý z nich může mít vícenásobné hierarchie. Klíčová slova OLAP, databáze, OLTP, datové sklady Anotace Práce se zaměřuje na porovnání databází typu OLTP a OLAP. Z větší části se věnuje systémům OLAP, které mohou shlukovat data z několika OLTP databází. Práce obsahuje pouze stručnou charakteristiku. Zdroje [1] LACKO, Ľuboslav. Business Intelligence v SQL Serveru 2008 : reportovací, analytické a další datové služby. Vyd. 1. Brno : Computer Press, 2009. 456 s. ISBN 978-80-251-2887-9. [2] Business Intelligence [online]. 2008 [cit. 2010-05-16]. Microsoft. Dostupné z WWW: <http://www.microsoft.com/cze/sqlserver2008/business-intelligence.mspx>. [3] Datové sklady a OLAP [online]. 28. 10. 2002 [cit. 2010-05-16]. Data Mining Solutions. Dostupné z WWW: <http://datamining.xf.cz/view.php?cisloclanku=2002102808>.