ݺߣ

ݺߣShare a Scribd company logo
Jak se vyhnout chybám při analýze
nejen velkých dat
Gauss Algorithmic - nástrahy datové analýzy
Ján Janča
Gauss Algorithmic
Specialista na on-line marketing
a využití prediktivní a datové
analytiky v e-commerce.
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
Gauss Algorithmic - Big data, heslo s kterým se je nutno vypořádat
● Big data = jakýkoliv soubor dat, ve kterém nejsme schopni najíst
souvislosti tradičními postupy (tužka, papír, mozek,... Excel).
● Big data analytics = postupy a algoritmy pro získání informací z dat.
● Data driven management = přijímání rozhodnutí na základě informací.
Data Informace Rozhodnutí
Big data je jednoduchá, ale revoluční myšlenka, že data mají cenu. Big znamená důležité (big deal).
Gauss Algorithmic - Nejvýznamnější vlastníci dat na světě
15x 1 EB = 1018 B = 106 TB
příklad: Randall Munroe
National Geospatial-
Intelligence Agency
CIANational Reconnaissance
Office
NSA
Gauss Algorithmic - Proč přišla “Big data” právě teď
● Výpočetní výkon a kapacita
datových úložišť rostou
exponenciálně.
● Lze “upočítat” 100 000x víc
než před 10 lety.
“Humans, who are limited by slow
biological evolution, couldn't compete
and would be superseded”
Stephen Hawking
Gauss Algorithmic - Problém s “Big data” analýzou
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
Gauss Algorithmic - Problém s “Big Data” analýzou
● za 80 % výrobních problémů může 20 % příčin
● 80 % příjmů získáte od 20 % zákazníků
● 20 % vaší reklamy přivede 80 % zákazníků
● 80 % dat přenese v síti 20 % uživatelů
● 80 % skladové plochy vám zabere 20 % skladových položek
● 20% vašich obchodních zástupců zajistí 80 % tržeb
● nejčastěji nosíte 20 % oblečení a 80 % téměř nepoužíváte
● 80 % příjmů ve stripclubech získá 20 % tanečnic
Gauss Algorithmic - Problém s “Big data” analýzou
● Potřeba rozhodovat se na základě informací získaných z dat “v
reálném” čase.
● Omezené množství “upočitatelných analýz v reálném” čase.
● Hodnota získané informace v čase klesá (buď přestane být
aktuální nebo stejnou informaci získá více subjektů).
● Potřeba nejprve precizně formulovat otázky, které omezí
počet prováděných analýz.
Dopady pravidla 80/20 na datovou analýzu
Podle výzkumu univerzity MIT, 72% vedoucích pracovníků v oblasti
business analytics není spokojeno s rychlostí získávání informací z dat.
Gauss Algorithmic - Problém s “Big data” analýzou
Pozor na homeopatickou
statistiku.
Množství informací uložené v
určitém množství dat je
konečné, někdy dokonce zcela
nepatrné, a nijak nesouvisí s
množstvím z nich generovaných
grafů a tabulek.
Řešením není kvantita, ale kvalita
Gauss Algorithmic - Problém s “Big data” analýzou
1. Úspěšnou datovou analýzu lze
dělat bez znalostí matematiky a
statistiky.
1. Úspěšnou datovou analýzu lze
dělat pouze se znalostí
matematiky a statistiky.
Pozor na rozdíl mezi kvalifikací a kompetencí
Dva časté omyly na startu
Gauss Algorithmic - Problém s “Big data” analýzou
Anscombův kvartet v číslech
Pro všechny 4. skupiny platí:
Střední hodnota x: 9.0
Střední hodnota y: 7.5
Odchylka x: 11.00
Odchylka y: 4.13
Korelace mezi x a y: 0.816
Koeficienty linreg: y = 3.00 + 0.50 x
Statisticky téměř shodné datasety.
Kompletní příklad na: http://insightdatascience.com/blog/eda-and-graphics-eli-bressert.html
Nikdy slepě nevěřte datům I.
Gauss Algorithmic - Problém s “Big data” analýzou
Ve skutečnosti se od sebe
zásadně liší.
“There are a lot of small
data problems that occur in
big data, they don’t
disappear because you’ve
got lots of the stuff. They
get worse.”
Prof. David Spiegelhalter
University of Cambridge
Nikdy slepě nevěřte datům II.
Gauss Algorithmic - nástrahy datové analýzy
Standardní postup datové analýzy
Gauss Algorithmic - nástrahy datové analýzy
Vývoj vyhledávání značek
“Blackberry”, “Apple” a “Nokia”
na Google.com
Jak určit oběžnou dobu Měsíce
okolo Země bez fyzikálních
výpočtů.
Hledaná fráze: “full moon”
Jak může získat data a odpovědi manager I.
Gauss Algorithmic - nástrahy datové analýzy
Jak může získat data a odpovědi manager II.
Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
Gauss Algorithmic - nástrahy datové analýzy
1. průměrná úspěšnost, počet objednávek a očekávaný obrat podle
hodiny, kdy zákazník vytvoří objednávku..
2. Úspěšnost uzavření obchodu v závislosti na době mezi vložením
objednávky a prvním telefonickým kontaktem z call centra.
Některé korelace jsou signifikantní
Gauss Algorithmic - nástrahy datové analýzy
1. Počet objednávek na obyvatele dle krajů 2. Průměrná cena na osobu a obyvatele v kraji 3. Průměrná cena na osobu a disponabilní příjem/ kraj
Nespoléhejte jen na vlastní data
● Spojení vlastních a cizích dat může přinést zcela nové výsledky.
● Cizí data mohou být “vývojkou” informací skrytých na vašem
“datafilmu”.
Gauss Algorithmic - nástrahy datové analýzy
Počasí
Ekonomická
data
Geodata
Gauss Algorithmic - nástrahy datové analýzy
Makropohled vs. mikropohled
Gauss Algorithmic - nástrahy datové analýzy
● Data, která nevyužívate jsou nákladem (HW, energie, přenos dat při
ukládání a zálohování).
● Ať děláte co děláte, stejně nikdy nebudete mít “všechna” data, jejich
shromažďování je předpokladem nikoliv smyslem projektu.
● Technologie bez kvalifikovaného personálu nemohou naplnit svůj
potenciál.
● Iluze automatizovaný managerských “klikacích” nástrojů pro
vizualizaci dat se začíná rozplývat.
● Záčatkem projektu musí být definice cílů a otázek jak se k nim dostat
+ plán jak výsledky implementovat v rozhodovacím procesu.
Hlavní problémy využití (velkých) dat
Gauss Algorithmic - nástrahy datové analýzy
● Jaký problém chcete vyřešit? Lidé chtějí více dat, ne proto, aby
udělali lepší analýzu, ale proto, že neví co v datech hledají a tak
chtějí “všechny”.
● Jaká data skutečně potřebuji k řešení problému? Nejen interní, ale i
externí.
● Jak budu data analyzovat? Nejen technologie, ale znalosti a
zkušenosti.
● Jak budu prezentovat výstupy lidem, kteří se jimi mají řídit?
● Jak manageři přenesou výsupy analýzy do reálného provozu.
Jaké otázky si klást před zahajením projektu
Gauss Algorithmic - Používané technologie
● Používáme otevřené technologie vyvíjené a využívané špičkovými
vědeckými týmy (astrofyzika, částicová fyzika, neurovědy).
● IPython / Jupyter + knihovny (scikit learn, scipy, numpy, pandas).
● Jupyter - Multi-user language-agnostic/independent (Python, Julia, R, Ruby,
Haskell, Scala, Go,...).
● Apache Spark - zpracování velkých dat (až 100x rychlejší než Hadoop).
Gauss Algorithmic - pár slov o společnosti
● Spin off digitální agentury Cognito.cz
● Analýza velkých dat, strojové učení a prediktivní analytika
● Jsme posedlí hledáním odpovědí
● “We must know, we will know”
Carl Friedrich Gauss
1777 - 1855
● Matematik
● Fyzik
● Astronom
● Statistik
David Hilbert
1862- 1943
● Matematik
● Optimista
Gauss Algorithmic - Co děláme
● Analýza jazyka (složitost, obsah, význam slov
pro ROI, např. v PPC.)
● Cílení, segmentace a personalizace.
● Detekce anomálií / kybernetická bezpečnost.
● Doporučování pro e-shopy i weby.
● Prediktivní analýzy (poptávka vs cena,
elasticita, scoringové modely, atd.).
● Strategie analýzy firemních dat.
● Zakázkové analýzy malých i velkých dat
(clustering, statistika, webová analytika).
Děkuji za pozornost.
Čas pro Vaše dotazy.

More Related Content

Jak se vyhnout chybám při analýze nejen velkých dat

  • 1. Jak se vyhnout chybám při analýze nejen velkých dat
  • 2. Gauss Algorithmic - nástrahy datové analýzy Ján Janča Gauss Algorithmic Specialista na on-line marketing a využití prediktivní a datové analytiky v e-commerce. “80 % výsledků, které přinesou zisk, najdete ve 20 % analýz.” “Dopředu nikdy nevíte, kterých 20 % to bude.”
  • 3. Gauss Algorithmic - Big data, heslo s kterým se je nutno vypořádat ● Big data = jakýkoliv soubor dat, ve kterém nejsme schopni najíst souvislosti tradičními postupy (tužka, papír, mozek,... Excel). ● Big data analytics = postupy a algoritmy pro získání informací z dat. ● Data driven management = přijímání rozhodnutí na základě informací. Data Informace Rozhodnutí Big data je jednoduchá, ale revoluční myšlenka, že data mají cenu. Big znamená důležité (big deal).
  • 4. Gauss Algorithmic - Nejvýznamnější vlastníci dat na světě 15x 1 EB = 1018 B = 106 TB příklad: Randall Munroe National Geospatial- Intelligence Agency CIANational Reconnaissance Office NSA
  • 5. Gauss Algorithmic - Proč přišla “Big data” právě teď ● Výpočetní výkon a kapacita datových úložišť rostou exponenciálně. ● Lze “upočítat” 100 000x víc než před 10 lety. “Humans, who are limited by slow biological evolution, couldn't compete and would be superseded” Stephen Hawking
  • 6. Gauss Algorithmic - Problém s “Big data” analýzou “80 % výsledků, které přinesou zisk, najdete ve 20 % analýz.” “Dopředu nikdy nevíte, kterých 20 % to bude.”
  • 7. Gauss Algorithmic - Problém s “Big Data” analýzou ● za 80 % výrobních problémů může 20 % příčin ● 80 % příjmů získáte od 20 % zákazníků ● 20 % vaší reklamy přivede 80 % zákazníků ● 80 % dat přenese v síti 20 % uživatelů ● 80 % skladové plochy vám zabere 20 % skladových položek ● 20% vašich obchodních zástupců zajistí 80 % tržeb ● nejčastěji nosíte 20 % oblečení a 80 % téměř nepoužíváte ● 80 % příjmů ve stripclubech získá 20 % tanečnic
  • 8. Gauss Algorithmic - Problém s “Big data” analýzou ● Potřeba rozhodovat se na základě informací získaných z dat “v reálném” čase. ● Omezené množství “upočitatelných analýz v reálném” čase. ● Hodnota získané informace v čase klesá (buď přestane být aktuální nebo stejnou informaci získá více subjektů). ● Potřeba nejprve precizně formulovat otázky, které omezí počet prováděných analýz. Dopady pravidla 80/20 na datovou analýzu Podle výzkumu univerzity MIT, 72% vedoucích pracovníků v oblasti business analytics není spokojeno s rychlostí získávání informací z dat.
  • 9. Gauss Algorithmic - Problém s “Big data” analýzou Pozor na homeopatickou statistiku. Množství informací uložené v určitém množství dat je konečné, někdy dokonce zcela nepatrné, a nijak nesouvisí s množstvím z nich generovaných grafů a tabulek. Řešením není kvantita, ale kvalita
  • 10. Gauss Algorithmic - Problém s “Big data” analýzou 1. Úspěšnou datovou analýzu lze dělat bez znalostí matematiky a statistiky. 1. Úspěšnou datovou analýzu lze dělat pouze se znalostí matematiky a statistiky. Pozor na rozdíl mezi kvalifikací a kompetencí Dva časté omyly na startu
  • 11. Gauss Algorithmic - Problém s “Big data” analýzou Anscombův kvartet v číslech Pro všechny 4. skupiny platí: Střední hodnota x: 9.0 Střední hodnota y: 7.5 Odchylka x: 11.00 Odchylka y: 4.13 Korelace mezi x a y: 0.816 Koeficienty linreg: y = 3.00 + 0.50 x Statisticky téměř shodné datasety. Kompletní příklad na: http://insightdatascience.com/blog/eda-and-graphics-eli-bressert.html Nikdy slepě nevěřte datům I.
  • 12. Gauss Algorithmic - Problém s “Big data” analýzou Ve skutečnosti se od sebe zásadně liší. “There are a lot of small data problems that occur in big data, they don’t disappear because you’ve got lots of the stuff. They get worse.” Prof. David Spiegelhalter University of Cambridge Nikdy slepě nevěřte datům II.
  • 13. Gauss Algorithmic - nástrahy datové analýzy Standardní postup datové analýzy
  • 14. Gauss Algorithmic - nástrahy datové analýzy Vývoj vyhledávání značek “Blackberry”, “Apple” a “Nokia” na Google.com Jak určit oběžnou dobu Měsíce okolo Země bez fyzikálních výpočtů. Hledaná fráze: “full moon” Jak může získat data a odpovědi manager I.
  • 15. Gauss Algorithmic - nástrahy datové analýzy Jak může získat data a odpovědi manager II.
  • 16. Gauss Algorithmic - nástrahy datové analýzy Ne každá korelace je signifikantní
  • 17. Gauss Algorithmic - nástrahy datové analýzy Ne každá korelace je signifikantní
  • 18. Gauss Algorithmic - nástrahy datové analýzy 1. průměrná úspěšnost, počet objednávek a očekávaný obrat podle hodiny, kdy zákazník vytvoří objednávku.. 2. Úspěšnost uzavření obchodu v závislosti na době mezi vložením objednávky a prvním telefonickým kontaktem z call centra. Některé korelace jsou signifikantní
  • 19. Gauss Algorithmic - nástrahy datové analýzy 1. Počet objednávek na obyvatele dle krajů 2. Průměrná cena na osobu a obyvatele v kraji 3. Průměrná cena na osobu a disponabilní příjem/ kraj Nespoléhejte jen na vlastní data ● Spojení vlastních a cizích dat může přinést zcela nové výsledky. ● Cizí data mohou být “vývojkou” informací skrytých na vašem “datafilmu”.
  • 20. Gauss Algorithmic - nástrahy datové analýzy Počasí Ekonomická data Geodata
  • 21. Gauss Algorithmic - nástrahy datové analýzy Makropohled vs. mikropohled
  • 22. Gauss Algorithmic - nástrahy datové analýzy ● Data, která nevyužívate jsou nákladem (HW, energie, přenos dat při ukládání a zálohování). ● Ať děláte co děláte, stejně nikdy nebudete mít “všechna” data, jejich shromažďování je předpokladem nikoliv smyslem projektu. ● Technologie bez kvalifikovaného personálu nemohou naplnit svůj potenciál. ● Iluze automatizovaný managerských “klikacích” nástrojů pro vizualizaci dat se začíná rozplývat. ● Záčatkem projektu musí být definice cílů a otázek jak se k nim dostat + plán jak výsledky implementovat v rozhodovacím procesu. Hlavní problémy využití (velkých) dat
  • 23. Gauss Algorithmic - nástrahy datové analýzy ● Jaký problém chcete vyřešit? Lidé chtějí více dat, ne proto, aby udělali lepší analýzu, ale proto, že neví co v datech hledají a tak chtějí “všechny”. ● Jaká data skutečně potřebuji k řešení problému? Nejen interní, ale i externí. ● Jak budu data analyzovat? Nejen technologie, ale znalosti a zkušenosti. ● Jak budu prezentovat výstupy lidem, kteří se jimi mají řídit? ● Jak manageři přenesou výsupy analýzy do reálného provozu. Jaké otázky si klást před zahajením projektu
  • 24. Gauss Algorithmic - Používané technologie ● Používáme otevřené technologie vyvíjené a využívané špičkovými vědeckými týmy (astrofyzika, částicová fyzika, neurovědy). ● IPython / Jupyter + knihovny (scikit learn, scipy, numpy, pandas). ● Jupyter - Multi-user language-agnostic/independent (Python, Julia, R, Ruby, Haskell, Scala, Go,...). ● Apache Spark - zpracování velkých dat (až 100x rychlejší než Hadoop).
  • 25. Gauss Algorithmic - pár slov o společnosti ● Spin off digitální agentury Cognito.cz ● Analýza velkých dat, strojové učení a prediktivní analytika ● Jsme posedlí hledáním odpovědí ● “We must know, we will know” Carl Friedrich Gauss 1777 - 1855 ● Matematik ● Fyzik ● Astronom ● Statistik David Hilbert 1862- 1943 ● Matematik ● Optimista
  • 26. Gauss Algorithmic - Co děláme ● Analýza jazyka (složitost, obsah, význam slov pro ROI, např. v PPC.) ● Cílení, segmentace a personalizace. ● Detekce anomálií / kybernetická bezpečnost. ● Doporučování pro e-shopy i weby. ● Prediktivní analýzy (poptávka vs cena, elasticita, scoringové modely, atd.). ● Strategie analýzy firemních dat. ● Zakázkové analýzy malých i velkých dat (clustering, statistika, webová analytika). Děkuji za pozornost. Čas pro Vaše dotazy.