2. Gauss Algorithmic - nástrahy datové analýzy
Ján Janča
Gauss Algorithmic
Specialista na on-line marketing
a využití prediktivní a datové
analytiky v e-commerce.
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
3. Gauss Algorithmic - Big data, heslo s kterým se je nutno vypořádat
● Big data = jakýkoliv soubor dat, ve kterém nejsme schopni najíst
souvislosti tradičními postupy (tužka, papír, mozek,... Excel).
● Big data analytics = postupy a algoritmy pro získání informací z dat.
● Data driven management = přijímání rozhodnutí na základě informací.
Data Informace Rozhodnutí
Big data je jednoduchá, ale revoluční myšlenka, že data mají cenu. Big znamená důležité (big deal).
4. Gauss Algorithmic - Nejvýznamnější vlastníci dat na světě
15x 1 EB = 1018 B = 106 TB
příklad: Randall Munroe
National Geospatial-
Intelligence Agency
CIANational Reconnaissance
Office
NSA
5. Gauss Algorithmic - Proč přišla “Big data” právě teď
● Výpočetní výkon a kapacita
datových úložišť rostou
exponenciálně.
● Lze “upočítat” 100 000x víc
než před 10 lety.
“Humans, who are limited by slow
biological evolution, couldn't compete
and would be superseded”
Stephen Hawking
6. Gauss Algorithmic - Problém s “Big data” analýzou
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
7. Gauss Algorithmic - Problém s “Big Data” analýzou
● za 80 % výrobních problémů může 20 % příčin
● 80 % příjmů získáte od 20 % zákazníků
● 20 % vaší reklamy přivede 80 % zákazníků
● 80 % dat přenese v síti 20 % uživatelů
● 80 % skladové plochy vám zabere 20 % skladových položek
● 20% vašich obchodních zástupců zajistí 80 % tržeb
● nejčastěji nosíte 20 % oblečení a 80 % téměř nepoužíváte
● 80 % příjmů ve stripclubech získá 20 % tanečnic
8. Gauss Algorithmic - Problém s “Big data” analýzou
● Potřeba rozhodovat se na základě informací získaných z dat “v
reálném” čase.
● Omezené množství “upočitatelných analýz v reálném” čase.
● Hodnota získané informace v čase klesá (buď přestane být
aktuální nebo stejnou informaci získá více subjektů).
● Potřeba nejprve precizně formulovat otázky, které omezí
počet prováděných analýz.
Dopady pravidla 80/20 na datovou analýzu
Podle výzkumu univerzity MIT, 72% vedoucích pracovníků v oblasti
business analytics není spokojeno s rychlostí získávání informací z dat.
9. Gauss Algorithmic - Problém s “Big data” analýzou
Pozor na homeopatickou
statistiku.
Množství informací uložené v
určitém množství dat je
konečné, někdy dokonce zcela
nepatrné, a nijak nesouvisí s
množstvím z nich generovaných
grafů a tabulek.
Řešením není kvantita, ale kvalita
10. Gauss Algorithmic - Problém s “Big data” analýzou
1. Úspěšnou datovou analýzu lze
dělat bez znalostí matematiky a
statistiky.
1. Úspěšnou datovou analýzu lze
dělat pouze se znalostí
matematiky a statistiky.
Pozor na rozdíl mezi kvalifikací a kompetencí
Dva časté omyly na startu
11. Gauss Algorithmic - Problém s “Big data” analýzou
Anscombův kvartet v číslech
Pro všechny 4. skupiny platí:
Střední hodnota x: 9.0
Střední hodnota y: 7.5
Odchylka x: 11.00
Odchylka y: 4.13
Korelace mezi x a y: 0.816
Koeficienty linreg: y = 3.00 + 0.50 x
Statisticky téměř shodné datasety.
Kompletní příklad na: http://insightdatascience.com/blog/eda-and-graphics-eli-bressert.html
Nikdy slepě nevěřte datům I.
12. Gauss Algorithmic - Problém s “Big data” analýzou
Ve skutečnosti se od sebe
zásadně liší.
“There are a lot of small
data problems that occur in
big data, they don’t
disappear because you’ve
got lots of the stuff. They
get worse.”
Prof. David Spiegelhalter
University of Cambridge
Nikdy slepě nevěřte datům II.
13. Gauss Algorithmic - nástrahy datové analýzy
Standardní postup datové analýzy
14. Gauss Algorithmic - nástrahy datové analýzy
Vývoj vyhledávání značek
“Blackberry”, “Apple” a “Nokia”
na Google.com
Jak určit oběžnou dobu Měsíce
okolo Země bez fyzikálních
výpočtů.
Hledaná fráze: “full moon”
Jak může získat data a odpovědi manager I.
15. Gauss Algorithmic - nástrahy datové analýzy
Jak může získat data a odpovědi manager II.
16. Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
17. Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
18. Gauss Algorithmic - nástrahy datové analýzy
1. průměrná úspěšnost, počet objednávek a očekávaný obrat podle
hodiny, kdy zákazník vytvoří objednávku..
2. Úspěšnost uzavření obchodu v závislosti na době mezi vložením
objednávky a prvním telefonickým kontaktem z call centra.
Některé korelace jsou signifikantní
19. Gauss Algorithmic - nástrahy datové analýzy
1. Počet objednávek na obyvatele dle krajů 2. Průměrná cena na osobu a obyvatele v kraji 3. Průměrná cena na osobu a disponabilní příjem/ kraj
Nespoléhejte jen na vlastní data
● Spojení vlastních a cizích dat může přinést zcela nové výsledky.
● Cizí data mohou být “vývojkou” informací skrytých na vašem
“datafilmu”.
22. Gauss Algorithmic - nástrahy datové analýzy
● Data, která nevyužívate jsou nákladem (HW, energie, přenos dat při
ukládání a zálohování).
● Ať děláte co děláte, stejně nikdy nebudete mít “všechna” data, jejich
shromažďování je předpokladem nikoliv smyslem projektu.
● Technologie bez kvalifikovaného personálu nemohou naplnit svůj
potenciál.
● Iluze automatizovaný managerských “klikacích” nástrojů pro
vizualizaci dat se začíná rozplývat.
● Záčatkem projektu musí být definice cílů a otázek jak se k nim dostat
+ plán jak výsledky implementovat v rozhodovacím procesu.
Hlavní problémy využití (velkých) dat
23. Gauss Algorithmic - nástrahy datové analýzy
● Jaký problém chcete vyřešit? Lidé chtějí více dat, ne proto, aby
udělali lepší analýzu, ale proto, že neví co v datech hledají a tak
chtějí “všechny”.
● Jaká data skutečně potřebuji k řešení problému? Nejen interní, ale i
externí.
● Jak budu data analyzovat? Nejen technologie, ale znalosti a
zkušenosti.
● Jak budu prezentovat výstupy lidem, kteří se jimi mají řídit?
● Jak manageři přenesou výsupy analýzy do reálného provozu.
Jaké otázky si klást před zahajením projektu
24. Gauss Algorithmic - Používané technologie
● Používáme otevřené technologie vyvíjené a využívané špičkovými
vědeckými týmy (astrofyzika, částicová fyzika, neurovědy).
● IPython / Jupyter + knihovny (scikit learn, scipy, numpy, pandas).
● Jupyter - Multi-user language-agnostic/independent (Python, Julia, R, Ruby,
Haskell, Scala, Go,...).
● Apache Spark - zpracování velkých dat (až 100x rychlejší než Hadoop).
25. Gauss Algorithmic - pár slov o společnosti
● Spin off digitální agentury Cognito.cz
● Analýza velkých dat, strojové učení a prediktivní analytika
● Jsme posedlí hledáním odpovědí
● “We must know, we will know”
Carl Friedrich Gauss
1777 - 1855
● Matematik
● Fyzik
● Astronom
● Statistik
David Hilbert
1862- 1943
● Matematik
● Optimista
26. Gauss Algorithmic - Co děláme
● Analýza jazyka (složitost, obsah, význam slov
pro ROI, např. v PPC.)
● Cílení, segmentace a personalizace.
● Detekce anomálií / kybernetická bezpečnost.
● Doporučování pro e-shopy i weby.
● Prediktivní analýzy (poptávka vs cena,
elasticita, scoringové modely, atd.).
● Strategie analýzy firemních dat.
● Zakázkové analýzy malých i velkých dat
(clustering, statistika, webová analytika).
Děkuji za pozornost.
Čas pro Vaše dotazy.