Chyby při A/B testování, které jsme udělali za vás

•Download as PPTX, PDF•

1 like•437 views

AB testování je nejexaktnější metoda pro vyhodnocování změn, kterými chcete vylepšit obchodní výkon eshopu. Možná už testujete nebo se k tomu už už chystáte a pak se vám bude hodit výčet chyb, kterých se je dobré při AB testování vyvarovat. Vyhněte se slepým cestám, které jsme prozkoumali za vás.

Michal Mrskoč
CHYBY V AB TESTECH,
KTERÉ JSME UDĚLALI ZA VÁS

Poměr mezi průběžnými náklady na placené přivádění návštěvníků (PPC)
a investicemi pro zlepšování obchodní výkonosti webu (CRO: UX + SEO + copy)
Zdroj: Bryan Eisenberg 2012 a H1.cz 2015
100 : 1

CHYBY V AB TESTOVÁNÍ
• Chyby ideové a principiální
• Chyby technické
• Chyby vyhodnocování
• Chyba kardinální a nepochopitelná

CHYBY IDEOVÉ A PRINCIPIÁLNÍ
• Netestování
• Neochota riskovat neúspěch

Chyby při A/B testování, které jsme udělali za vás

CHYBY IDEOVÉ A PRINCIPIÁLNÍ
• Netestování
• Neochota riskovat neúspěch
• Testování zbytečných a malicherných věcí

CHYBY IDEOVÉ A PRINCIPIÁLNÍ
• Netestování
• Neochota riskovat neúspěch
• Testování zbytečných a malicherných věcí
• Test bez jasně formulované hypotézy a odpovídajících KPI

CHYBY TECHNICKÉ
• Kolize scriptů
• Špatná distribuce verzí
• Blikání a zpožděné překreslování
• Neexistující nebo špatné propojení na Google Analytics

CHYBY VYHODNOCOVÁNÍ
• Důvěra pouze v jeden nástroj

CHYBY VYHODNOCOVÁNÍ
• Důvěra pouze v jeden nástroj
• Nevhodný počet účastníků testu

CHYBY VYHODNOCOVÁNÍ
• Důvěra pouze v jeden nástroj
• Nevhodný počet účastníků testu
• Nevhodné KPI a příliš úzký pohled na výsledky

A: Nic B: Bestseller C: Personalizovaná nabídka dle chování návštěvníka

Varianta Celkový obrat Prům. hodnota objednávky Transakční poměr
A: none - - -
B: bestsellers - 10,69 % - 4,43 % - 5,36 %
C: Persoo + 16,08 % + 15,94 % + 2,68 %
Po prvním měsíci jsme variantu Bestsellers vypnuli.

CHYBY VYHODNOCOVÁNÍ
• Důvěra pouze v jeden nástroj
• Nevhodný počet účastníků testu
• Nevhodné KPI a příliš úzký pohled na výsledky
• Souběžné testy

CHYBA KARDINÁLNÍ
• Neimplementace ukončených testů resp. jejich vítězných variant

DĚKUJI ZA POZORNOST
Michal Mrskoč
michal@picards.cz
725 960 766
@m_a_s_c_h_a

Chyby při A/B testování, které jsme udělali za vás

1. Michal Mrskoč CHYBY V AB TESTECH, KTERÉ JSME UDĚLALI ZA VÁS

2. Poměr mezi průběžnými náklady na placené přivádění návštěvníků (PPC) a investicemi pro zlepšování obchodní výkonosti webu (CRO: UX + SEO + copy) Zdroj: Bryan Eisenberg 2012 a H1.cz 2015 100 : 1

3. DLOUHODOBÝMI CÍLI PROCESU CRO JE PŘEDEVŠÍM: • Zvyšování počtu konverzí (objednávky, newsletter, registrace, wishlist…) • Snižování Bounce rate (míra okamžitého opuštění webu) • Zlepšování přirozené nalezitelnosti stránek (SEO) • Snižování investic do reklamy • Posilování značky a vztahu se zákazníkem

4. AB TESTOVÁNÍ

5. CHYBY V AB TESTOVÁNÍ • Chyby ideové a principiální • Chyby technické • Chyby vyhodnocování • Chyba kardinální a nepochopitelná

6. CHYBY IDEOVÉ A PRINCIPIÁLNÍ • Netestování • Neochota riskovat neúspěch

8. CHYBY IDEOVÉ A PRINCIPIÁLNÍ • Netestování • Neochota riskovat neúspěch • Testování zbytečných a malicherných věcí

11. CHYBY IDEOVÉ A PRINCIPIÁLNÍ • Netestování • Neochota riskovat neúspěch • Testování zbytečných a malicherných věcí • Test bez jasně formulované hypotézy a odpovídajících KPI

12. CHYBY TECHNICKÉ • Kolize scriptů • Špatná distribuce verzí • Blikání a zpožděné překreslování • Neexistující nebo špatné propojení na Google Analytics

13. CHYBY VYHODNOCOVÁNÍ • Důvěra pouze v jeden nástroj

17. CHYBY VYHODNOCOVÁNÍ • Důvěra pouze v jeden nástroj • Nevhodný počet účastníků testu

19. CHYBY VYHODNOCOVÁNÍ • Důvěra pouze v jeden nástroj • Nevhodný počet účastníků testu • Nevhodné KPI a příliš úzký pohled na výsledky

21. A: Nic B: Bestseller C: Personalizovaná nabídka dle chování návštěvníka

22. Varianta Celkový obrat Prům. hodnota objednávky Transakční poměr A: none - - - B: bestsellers - 10,69 % - 4,43 % - 5,36 % C: Persoo + 16,08 % + 15,94 % + 2,68 % Po prvním měsíci jsme variantu Bestsellers vypnuli.

23. Varianta Celkový obrat Prům. hodnota objednávky Transakční poměr A: none - - - B: bestsellers - 10,69 % - 4,43 % - 5,36 % C: Persoo + 16,08 % + 15,94 % + 2,68 % Po prvním měsíci jsme variantu Bestsellers vypnuli. OBRAT: + 12,57 % Průměrná hodnota objednávky: + 7,39 % Transakční poměr: + 4,25 % Průměrný počet druhů zboží v košíku: + 12,25 % Rozdíl Personalizované nabídky za dva měsíce AB testu.

24. CHYBY VYHODNOCOVÁNÍ • Důvěra pouze v jeden nástroj • Nevhodný počet účastníků testu • Nevhodné KPI a příliš úzký pohled na výsledky • Souběžné testy

25. CHYBA KARDINÁLNÍ • Neimplementace ukončených testů resp. jejich vítězných variant

27. DĚKUJI ZA POZORNOST Michal Mrskoč michal@picards.cz 725 960 766 @m_a_s_c_h_a

Editor's Notes

Každý chybuje, nebojme se to přiznat. Ostatně právě neschopnost přiznat si chybu, vede k neschopnosti se z vlastní chyby poučit. A to je velká chyba…
V roce 2012 publikoval Bryan Eisenberg výsledky studie, ve které uváděl poměr 92:1. My jsme vzali klientská data za loňský rok v agentuře H1.cz. Ve skutečnosti ten poměr může být ještě větší, protože v agenturách tohoto typu se na klienty stále vyvíjí tlak, aby část nákladů byla přesunuta do CRO, obrovské spendy na PPC tečou mimo agentury. A menší eshopy, když už vydávají na on-line nějaké peníze, investují takřka výhradně do PPC.
CRO je proces, který je průběžně vyhodnocován – TO JE DŮLEŽITÉ.
Netestovat, pokud na to máme návštěvnost resp. dostatečný počet konverzí, je chyba. Budete tak upravovat web jen na základě dojmů. Neochota riskovat neúspěch – prameny ze světa říkají, že zhruba jeden test z deseti je taková pecka, že zaplatí těch devět nepřesvědčivých či dokonce neúspěšných. My máme v Čechách úspěšnost zhruba 50-60%. Ukážu vám jeden neúspěšný test.
U jednoho klienta, prodávajícím sportovní oblečení a vybavení, jsme se rozhodli začít testovat. Navrhl jsem pro začátek na zahřátí jednoduchý test ověřující následující hypotézu: Písmenko S, v pravém horním rohu je pro zákazníky nerozpoznatelné jako ikona označující slevu. Zaměňují to za značku velikosti oblečení a mají pocit, že už je to jen v esku a proto nenakupují. Navrhli jsme velkou výraznou a explicitní nálepku s vyznačením slevy. Výsledek byl katastrofa. -- Celý příběh s poučením – Nebojte se riskovat neúspěch!
Test zbytečných a malicherných věcí – tohle je tenký led zkušenosti. Jeden náš klient testuje nesmysly, jen aby nedošlo k propadu, nikoli k vylepšení. Další malichernost - Testy tlačítek Koupit. vs,. Vložit… ale bez prvotní zkušenosti bychom nevěděli, že je to zbytečné testovat. Testujte spíš zásadnější změny.
Ukázka testování kompletní změny layoutu Basecamp Highrise: Výrazné zeštíhlení obsahu, zjednodušení. Navýšení o více než sto procent.
A ukázka chyby - pokus vrátit do nového layoutu všechen ten původní obsah.
Test bez jasně formulované hypotézy a odpovídajících KPI – vždy si řekněte, čeho konkrétně se má změnou dosáhnout. Netestujte „jestli tohle nebude náhodou lepší“ K vhodným KPI, tedy vyhodnocovaným cílům, se dostaneme ještě v části o chybách vyhodnocování.
Kolize scriptů – příběh o znemožnění se přihlásit. Špatná distribuce verzí – např. zapomenutá testovací IP adresa. Blikání a zpožděné překreslování stránky druhou verzí – špatné umístění kódu nástroje, musí být na stránce zpracováván jako první, tedy ne do patičky. Rozhodně ne přes GTM. Nepropojení na GA – nebudete mít v čem data ověřit a příp. doměřit na dalších segmentech.
Znáte to okřídlené „nevěřím statistice, kterou si sám nesfalšuji“…
Nevhodný počet účastníků testu – to se týká jak počtu příliš malého, tak vzorku příliš velkého. Příklad Heureka na Svět bot – rok trvající test. Za měsíc nedochází k příliš velké chybě způsobené tím, že návštěvníci přicházejí z různých zařízení. Během roku je to zcela jiné. Počítač doma, v práci, telefon, jiný browser, vymazaná cache… Jak zjistit hrubý počet účastníků testu?
Jednou z možností je AA test. Postavíte proti sobě dvě naprosto stejné varianty webu. Výkon by pochopitelně měl být stejný. Jak ale vidíte, tak výkon se sjednotí teprve v čase s určitým množstvím účastníků testu, ze začátku hraje obrovskou roli náhoda. Na horním grafu vidíte, že v půlce testu se konverzní poměr lišil o 25%, to bylo při třiceti tisících návštěvníků na variantu. Hodnoty konverzního poměru se sjednotily až na čtyřiceti pěti tisících návštěvníků. Na dolním grafu je pak vidět, jak se i na tak velkém obrovském vzorku liší výkon e-commerce na stejných variantách. Metrika Revnue per visitor vám sama o sobě neřekne, jestli vzrostl konverzní poměr, nebo průměrná hodnota objednávky nebo obojí. Pouze s dalšími metrikami má její vyhodnocení smysl. Buďte obezřetní v tom, co a jak interpretujete.
Ukázka nevhodně zvoleného KPI –Visual Website Optimizer publikoval case study, která představovala AB test, spočívající v odstranění drop-down menu. Pár odborníků se výsledků chytlo a pokládají to za důkaz, že drop-down menu jsou zlo. Nechci se bavit o drop-down menu, pouze o číslech, která nám sděluje tento konkrétní test. Testem prošlo na každé z variant tři tisíce unikátních návštěvníků. To je podle mne zoufale málo. Konverzní poměr se liší o pouhých deset konverzí, tedy každá další konverze mění zásadně procentuální rozdíl konverzního poměru a pochopitelně i obrat na zákazníka. Test byl vyhodnocen na základě metriky Revenue per visitor, i když ostatní metriky nedosáhly statistické průkaznosti. Věřím, že navigace může mít vliv na konverzní poměr. Ale není mi příliš jasné, jaký vliv má pouhé odstranění navigace na průměrnou hodnotu objednávky.
Ještě jedna ukázka fixace na nesprávné KPI - Tohle je další test, který jsme udělali pro eshop Hanibal, tenokrát ve spolupráci s personalizačním nástrojem Persoo. Pokud si uživatel vložil zboží do košíku, tak se původně nedělo nic. My jsme navrhli, že by se mohla v té chvíli zobrazit vrstva, ve které by se zákazníkům nabídlo nějaké další zboží. Bé varianta nabízela zboží jen na základě bestsellerů, prostě to obecně nejlépe prodávané s největší šancí , že zaujme někoho dalšího. Cé varianta nabízela zboží na základě personalizované nabídky, tedy podle nákupní a návštěvnické historie zákazníka a chování typově podobných zákazníků.
Test jsme po měsíci provozu vyhodnotili a zjistili, že varianta Bé, tedy nabídka nejpopulárnějšího zboží prostě nefunguje. Pokles byl ve všech metrikách. Variantu jsme tedy vypnuli a nechali test běžet další měsíc.
Po dalším měsíci jsme test znovu vyhodnotili. Celkové výsledky jasně ukázaly, že přidání personalizované nabídky dalšího zboží mělo jednoznačně úspěch. Pokud ale budete studovat ty dvě tabulky podrobněji, zjistíte, že jak v metrice obratu, tak u průměrné hodnoty objednávky se v druhém měsíci té personalizované variantě dařilo hůř než první měsíc. Ta čísla jsou průměr za dva měsíce, tedy druhý měsíc byl výrazně horší. Co vzrostlo, byl počet transakcí. Počet objednávek od vracejících se zákazníků, tedy lze říci, že vzrostla zákaznická spokojenost. Pamatujte tedy na to, že vyhodnocování úprav pouze na základě revenue může být zavádějící a nemusí přinést komplexní pohled na všechny dopady změny.
Souběžné testy – pokud mají společné KPI (např. dokončení objednávky), tak se navzájem varianty ovlivňují a výsledky jsou znehodnocené. Nicméně myslím, že by se souběžným testům mělo vyhýbat úplně.
15% úspěšných testů se nezrealizuje!
Kdo nic nedělá, nic nezkazí, ale ani nic nezíská. Nebojte se testovat, nebojte se dělat chyby. Je to klišé, ale jen tak se budete posunovat dál.

�ݺ�ߣ

Chyby při A/B testování, které jsme udělali za vás

More Related Content

Chyby při A/B testování, které jsme udělali za vás

Editor's Notes