Prezentacja z Data Science Summit 2017 o wykorzystaniu metod uczenia maszynowego w reklamie RTB w firmie Adform. Prezentacja zawiera opis RTB oraz przykad modelowania optymalizacji CPC. Dodatkowo przedstawione s metody wykorzystywane dla zapewnienia odpowiednich restrykcji czasowych. Na koniec - trendy, linki, referencje.
Pierwsza prezentacja meetupu Data Science pod szyldem allegrotech.
Zapraszamy na spotkania dotyczce analizy du甜ych zbior坦w danych.
Chcielibymy opowiedzie Wam o wyzwaniach, z kt坦rymi mamy do czynienia w naszej pracy w Allegro.
Chcemy skupi si na technikach statystycznych, ale bdziemy m坦wi r坦wnie甜 o technologiach, z kt坦rych korzystamy. Bdzie o Sparku, Elasticsearchu, Kibanie, Tezie, Drillu, Scali, Pythonie, R czy Julii. Analiza danych, statystyka i uczenie maszynowe bd jednak zawsze na pierwszym planie.
Nie chcemy duplikowa tematyki poruszanej na innych meetupach. Chcemy m坦wi o konkretnych zastosowaniach i konkretnych problemach, z kt坦rymi mamy do czynienia. Mamy nadziej, 甜e niekt坦re z naszych rozwiza bd dla Was inspiracj, i 甜e Wy pomo甜ecie nam spojrze na nasze problemy w nowy spos坦b.
Radosaw Kita, Bartomiej Twardowski
Machine learning vs big data od pomysu do produkcji - Bartomiej Twardowsk...Evention
油
Big Data & Machine Learning w Allegro
Big Data:
clickstream (web/mobile - Kafka)
backend events (microservices - Hermes)
dane archiwalne z wielu lat (DWH)
ML w Allegro:
rankingowanie
rekomendacje
atrybucja wielokanaowa
(...)
Rekomendujemy - Szybkie wprowadzenie do system坦w rekomendacji oraz troch wie...Bartlomiej Twardowski
油
W zalewie informacji odnalezienie tych kt坦re nas rzeczywicie interesuj staje si bardzo trudne. Wspomagaj nas w tym systemy IR, np. w postaci wyszukiwarek internetowych. O krok dalej id systemy rekomendacji, pr坦bujc odgadn preferencje u甜ytkownika i zaoferowa najlepiej spersonalizowane treci automatycznie.
Podejcie do problemu rekomendacji u甜ytkownikowi najbardziej dopasowanych informacji zmieniao si w czasie. Aktualnie do wyboru mamy szereg gotowych do zastosowania metod: od prostego opisu podobiestwa u甜ytkownik坦w, koczc na zo甜onych modelach trenowanych przez metody ML. Trudno zaczyna stanowi poprawne zrozumienie problemu/domeny, odpowiednie dobranie metody rekomendacji oraz spos坦b jej pomiaru.
Na prezentacji zostanie przedstawione kr坦tkie wprowadzenie do tematyki system坦w rekomendacji. Om坦wione zostan metod rekomendacji oraz sposoby ich ewaluacja. Zaprezentowane zostanie podejcie do problemu jako "ranking top-N" najlepszych ofert. Cao uzupeniona zostanie dowiadczeniami i ciekawymi problemami z implementacji platformy rekomendacyjnej dla najwikszego serwisu e-commerce w Polsce.
Systemy rekomendacji, Algorytmy rankingu Top-N rekomendacji bazujce na nieja...Bartlomiej Twardowski
油
Wprowadzenie do system坦w rekomendacji - prezentacja z seminarium Instytutu Informatyki Politechniki Warszawskiej.
W zalewie informacji odnalezienie tych kt坦re nas rzeczywicie interesuj staje si bardzo trudne. Wspomagaj nas w tym systemy IR, np. w postaci wyszukiwarek internetowych. O krok dalej id systemy rekomendacji, pr坦bujc odgadn preferencje u甜ytkownika i zaoferowa najlepiej spersonalizowane treci automatycznie.
Podejcie do problemu rekomendacji u甜ytkownikowi najbardziej dopasowanych informacji zmieniao si w czasie. Aktualnie do wyboru mamy szereg gotowych do zastosowania metod: od prostego opisu podobiestwa u甜ytkownik坦w, koczc na zo甜onych modelach data mining. Trudno zaczyna stanowi poprawne zrozumienie problemu/domeny, odpowiednie dobranie metody rekomendacji oraz spos坦b jej pomiaru.
Na prezentacji zostanie przedstawione kr坦tkie wprowadzenie do tematyki system坦w rekomendacji. Om坦wione zostan metod rekomendacji oraz sposoby ich ewaluacja. Zaprezentowane zostanie podejcie do rekomendacji jako "ranking top-N". Cao uzupeniona zostanie dowiadczeniami i ciekawymi problemami z implementacji platformy rekomendacyjnej dla najwikszego serwisu e-commerce w Polsce.
Ju甜 1-go grudnia 2015 zapraszamy na kolejn odson Kongresu Marketing Automation. Toscani, Roleski, Brzoska i Przewi添likowski. Szczeg坦y pod adresem http://www.marketingautomationcongress.com/
Programmatic - jak zacz. Akademia Grupy NetsprintNetsprint
油
Szkolenie: reklama programmatic - jak zacz. Webinar w Akademii Grupy Netsprint. Prelegent: Aneta Gsiorek, prowadzcy webinary: Artur Karda. Data: 22.05.2017
Programmatic to najszybciej rozwijajcy si trend bran甜y internetowej, zwizany nie tylko wycznie ze sprzeda甜 reklam. W Polsce na razie 24% marketer坦w zna jego dziaanie, jednak nale甜y spodziewa si, 甜e ta tendencja wkr坦tce ulegnie zmianie. Za kilka lat prawie poowa reklam bdzie sprzedawana w technologii programmatic. W czym tkwi przewaga programmatic nad ,,zwyk reklam?
Wprowadzenie do atrybucji konwersji w e-commercePromotraffic
油
Prezentacja przedstawia popularne modele atrybucji konwersji, jakie s ich wady, zalety, trendy oraz rekomendacje w zakresie mierzenia efektywnoci kampanii sprzeda甜owych dla e-commerce.
Case study IDMnet - AdProfile - Intencje Zakupowe - telewizja nIDMnet S.A.
油
Case Study kampanii z wykorzystaniem narzdzia Intencje Zakupowe. Zastosowanie technologii predykcyjnego targetowania behawioralnego (nugg.ad) w oparciu o dane z por坦wnywarki cenowej (nokaut). wymylone przez AdProfile | cz IDMnet.
Google Analytics dla e-commerce. Podejcie praktyczne - Florian Pertyski, Bl...Bluerank
油
Prezentacja Floriana Pertyskiego (web analyst, Bluerank) podczas Konferencji eCommerce Standard 2013, kt坦ra miaa miejsce 18.04.2013.
- Co mierzy, czyli esencja analityki dla e-commerce.
- Kluczowa konfiguracja Google Analytics dla e-commerce.
- Integracja danych e-commerce.
- cie甜ki zakupu: najlepsze praktyki.
Prezentacja zawiera informacje o standardzie standard pomiaru widowni internetowej w Polsce na lata 2016-2020. Pokazuje histori konkursu ofert, kryteria wyboru wykonawcy oraz koncepcj nowego badania. Prezentacja zostaa wygoszona przez Andrzeja Garapicha i Matthiasa Hartmanna podczas Forum IAB 2015.
Programmatic to najszybciej rozwijajcy si trend bran甜y internetowej, zwizany nie tylko wycznie ze sprzeda甜 reklam. W Polsce na razie 24% marketer坦w zna jego dziaanie, jednak nale甜y spodziewa si, 甜e ta tendencja wkr坦tce ulegnie zmianie. Za kilka lat prawie poowa reklam bdzie sprzedawana w technologii programmatic. W czym tkwi przewaga programmatic nad ,,zwyk reklam?
Wprowadzenie do atrybucji konwersji w e-commercePromotraffic
油
Prezentacja przedstawia popularne modele atrybucji konwersji, jakie s ich wady, zalety, trendy oraz rekomendacje w zakresie mierzenia efektywnoci kampanii sprzeda甜owych dla e-commerce.
Case study IDMnet - AdProfile - Intencje Zakupowe - telewizja nIDMnet S.A.
油
Case Study kampanii z wykorzystaniem narzdzia Intencje Zakupowe. Zastosowanie technologii predykcyjnego targetowania behawioralnego (nugg.ad) w oparciu o dane z por坦wnywarki cenowej (nokaut). wymylone przez AdProfile | cz IDMnet.
Google Analytics dla e-commerce. Podejcie praktyczne - Florian Pertyski, Bl...Bluerank
油
Prezentacja Floriana Pertyskiego (web analyst, Bluerank) podczas Konferencji eCommerce Standard 2013, kt坦ra miaa miejsce 18.04.2013.
- Co mierzy, czyli esencja analityki dla e-commerce.
- Kluczowa konfiguracja Google Analytics dla e-commerce.
- Integracja danych e-commerce.
- cie甜ki zakupu: najlepsze praktyki.
Prezentacja zawiera informacje o standardzie standard pomiaru widowni internetowej w Polsce na lata 2016-2020. Pokazuje histori konkursu ofert, kryteria wyboru wykonawcy oraz koncepcj nowego badania. Prezentacja zostaa wygoszona przez Andrzeja Garapicha i Matthiasa Hartmanna podczas Forum IAB 2015.
5. @btwardow
Real-Time Bidding
Yuan, Y., Wang, F., Li, J., & Qin, R. (2014). A survey on real time bidding advertising. Proceedings of 2014 IEEE
International Conference on Service Operations and Logistics, and Informatics, SOLI 2014, 418423. http://doi.org/
10.1109/SOLI.2014.6960761
6. @btwardow
Cel
Reklama bardziej relewantna i przynoszca wicej
zysk坦w - bierzemy udzia w aukcji tylko wtedy kiedy
wiemy, 甜e u甜ytkownik jest zainteresowany ofert
Lepsze wykorzystanie rodk坦w reklamodawc坦w -
ten sam bud甜et mo甜e przynie wicej konwersji
Aby uzyska powy甜sze cele musimy wykorzysta
algorytmy z predykcj oraz optymalizacj celu
reklamodawcy
7. @btwardow
CPM, CPC, CPL, - co to
takiego?
CPM - Cost Per Mile (1000) wywietle
CPC - Cost Per Click
CPL - Cost Per Lead (Acquisition, Conversion)
Wszystkie aukcje wysane do AdX s w
cenach CPM!
9. @btwardow
Jakie dane s
wykorzystywane
Dane Historyczne
Bid Requests - informacje wysane przez SSP/AdX do DSP
Wywietlenia reklamy
Kliki
Wywietlenia stron przez u甜ytkownika (Tracking Points)
inne (zdarzenia js, crawling of鍖ine,)
Utrzymywane online
Cookie Pro鍖les - pro鍖le u甜ytkownika
10. @btwardow
Informacje w Bid Request
CookieId
URL
IP (a wic te甜. Country, City z bazy geolokalizacyjnej)
IAB Category
UA, Mobile App Id
Slot Size (np. 180x150)
Slot Position (np. above the fold)
.
11. @btwardow
Co jest Big Data?
bid request
wywietlenia
kliki
odwiedziny stron
inne zdarzenia u甜ytkownika (widzialno, video,
)
12. @btwardow
Pro鍖le U甜ytkownika
Otrzymane na podstawie dziaa u甜ytkownik坦w
Przykadowe dane:
odwiedzone domeny/TP
kraj, urzdzenie, rozmiar ekranu
w jakie reklamy ostatnio klika
kategorie IAB
dane z DMP + segmentacje
oraz wiele innych
G坦wne 添r坦do personalizacji przy aukcji online
Z wzgld坦w prawnych mog nastpowa pewne ograniczenia w wykorzystywaniu danych
14. @btwardow
Model predykcji kliku
p(Click|Imp)
Wykorzystanie regresji logistycznej do predykcji
atwa w zrozumieniu i ew. szukaniu bd坦w
szybka metoda (mamy tylko par ms na obliczenia)
15. @btwardow
>1M cech dla ka甜dej obserwacji
wikszo to cechy typu one-hot encoded
modelowanie interakcji, np: client x domena
bardzo szybka predykcja online: cechy binarne + od鍖ltrowane do
najistotniejszych (~50K) + mao aktywnych dla konkretnej aukcji
regularyzacja L1 do 鍖ltrowania cech:
pozwala na utrzymanie odpowiedniego poziomu ewaluacji czasu
modelu
Dlaczego regularyzacja L1?
16. @btwardow
Sampling & The hashing
trick
Sampling
podejcie brute-force nie przejdzie
odpowiednie pr坦bkowanie jest rozwizaniem ( + korekta wyrazu wolnego)
zbiory przykad坦w neg/pos silnie niezbalansowane
The hashing trick
wszystkie cechy kodujemy do 2^N bitowej przestrzeni (w wikszoci N
<32 i tyle maksymalnie bdziemy mie wag)
szybkie obliczanie on-line (liczba cech x hash() x mno甜enie wag)
Inne warte uwagi: decision tree encoding [5], embedding [1, 2]
17. @btwardow
Follow the regularized
leader (FTRL) [6]
online machine learning
przykadowy kod dla wersji FTRL-Proximal:
python: https://www.kaggle.com/jiweiliu/ftrl-
starter-code
go (concurrent, l1&l2): https://gist.github.com/
ceshine/f7f93046c58fe6ee840b
18. @btwardow
Przykad obliczenia
prawdopodobiestwa kliku
Otrzymujemy zapytanie:
Cookie 3000657545365 is at www.gazeta.pl
Jakie jest prawdopodobiestwo kliku reklamy iPhone 7?
Wpyw cechy (+ - pozytywny, - - negatywny)
URL: www.gazeta.pl (+)
Position 1 visible without scrolling (+)
Banner size 930x180 (+)
Screen size 1920x1080 (+)
Cookie has visited these domains:
apple.com(+)
macrumors.com(+)
plotek.pl (+)
t-mobile.com(+)
samsung.com(-)
Bierzemy pod uwag wszystkie cechy dla kt坦rych mamy
niezerowe wagi w modeli i obliczamy prawdopodobiestwo.
19. @btwardow
Cena aukcji - CPM
Reklamodawca podaj cen docelow (lub maksymaln) CPC dla
kampanii
Model predykcji kliku umo甜liwia przejcie z ceny CPC do CPM dla
pojedynczej aukcji
Sprawdzenie czy model jest poprawnie skalibrowany:
samo patrzenie na AUC/RIG nie wystarczy
bidpriceCP M = p(click) targetCP C
CPCeffective =
P
win price
total clicks
P
bid price
P
p(click)
= targetCP C
20. @btwardow
Inne przykady optymalizacji
Inne cele: CPL, NBC, CPE,
Np. dla CPL w wersji gdzie konwersja nastpuje po
kliku budujemy 2 modele: dla p(click|impr) oraz
p(lead|click)
21. @btwardow
ML w innych aspektach
DSP: Forecasting, Bid Landscape, Bidding
Strategy Optimizations, traf鍖c 鍖ltering, fraud &
anomaly detection
DMP: look-a-like algorithms
SSP side <> DSP
22. @btwardow
ML w RTB
trendy i co warto obserwowa
wiele wsp坦lnego z systemami rekomendacji => modele
bazujce na faktoryzacji - FM/FFM [4] (to ju甜 ma par lat)
deep learning: embedding ( [1] Enno @Adform, [2] Meta-
Prod2Vec), maria甜 - wide& deep [3], users sessions
modeling [7]
Watch: https://github.com/wnzhang/rtb-papers
Inspiracje z konkurs坦w typu Kaggle (niestety w
wikszoci nie do zaaplikowania, np. bazujce na
odnalezionym przecieku)
24. @btwardow
Reference
[1] Shioji, E. and Arai, M., 2017. Neural Feature Embedding for User Response Prediction in Real-Time Bidding
(RTB). arXiv preprint arXiv:1702.00855.
[2] Conneau, A., Smirnova, E., & Vasile, F. (2016). Meta-Prod2Vec - Product Embeddings Using Side-Information
for Recommendation. RecSys.
[3] Cheng, H.T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., Anderson, G., Corrado, G., Chai,
W., Ispir, M. and Anil, R., 2016, September. Wide & deep learning for recommender systems. In Proceedings of
the 1st Workshop on Deep Learning for Recommender Systems (pp. 7-10). ACM.
[4] Juan, Y., & Lin, C. (2016). Field-aware Factorization Machines for CTR Prediction. RecSys. http://doi.org/
10.1145/2959100.2959134
[5] He, X., Bowers, S., Candela, J. Q., Pan, J., Jin, O., Xu, T., Herbrich, R. (2014). Practical Lessons from
Predicting Clicks on Ads at Facebook. Proceedings of 20th ACM SIGKDD Conference on Knowledge Discovery
and Data Mining - ADKDD14, 19. http://doi.org/10.1145/2648584.2648589
[6] McMahan, H. B., Holt, G., Sculley, D., Young, M., Ebner, D., Grady, J., Kubica, J. (2013). Ad click
prediction: a view from the trenches. Proceedings of the 19th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining, 12221230. http://doi.org/10.1145/2487575.2488200
[7] Bartomiej Twardowski. 2016. Modelling Contextual Information in Session-Aware Recommender Systems
with Neural Networks.10th ACM Conference on Recommender Systems (RecSys '16). ACM, DOI: https://doi.org/
10.1145/2959100.2959162