ݺߣ

ݺߣShare a Scribd company logo
“Du är vad du
läser”
Tidningen som lär sig vad du gillar
Hur maskininlärning och sök hjälper oss att
skapa smartare digitala produkter
Exempel du känner igen från dn.se och di.se
Några resultat vi lärt oss av
Också en del prototyper, inte alltid
förverkligade på sajt
Vi har en stund för frågor efter dragningen
Alla deltagare får bilderna
“En jordbävning i
långsamt tempo”
Ett medielandskap i förändring
Papper är dyrt, men också långsamt att
distribuera
Konkurrerar om uppmärksamhet, tid och
annonser med internets jättar
Mindre ytor, andra format, nya
plattformar
Digitala produkter är
“något annat”
Organisationer som bygger om sig för
att publicera hela tiden, inte en gång om
dagen
“Läste du tidningen i morse?” -> vilken
tidning då? Inte samma för alla
Tidningen ändras i takt med att nytt
material publiceras
Tidningen ändras i takt med att du läser
Du deltar aktivt i att bygga dina nyheter
Förväntningarna ställs
högre idag
“Alexa, spela något från den där
spellistan på Spotify, som jag gillar så
mycket!”
En bra digital produkt tolkar ditt språk,
gör antaganden om vad som kommer
härnäst, drar slutsatser
Vi tycker om att få hjälp med tips om
resor, medicinska råd, val av utbildning,
shopping, navigering, hitta kunskap och
underhållning
Nyheter är annorlunda,
eller är de det?
Nyheter ska vara “det som är viktigt” att
veta just nu
Men de innehåller också material som
man själv väljer och vill leta rätt på
(kultur, sport, ekonomi)
Vi har tidningar också för att förkovra
oss, bli underhållna, söka information
En del av kundlöftet är att skriva om det
du gillar och ta reda vad det är
Beteendedata och
textanalys
Vilka mönster kan vi se i användares
vandring genom sajten, som talar om vad
de gillar?
Collaborative filtering -> Oftast metoder
som är “agnostiska” till innehållet
Eller se på “metadata”, markörer på
intresse som är mer långlivade än
läsningen av en viss artikel
Saker vi känner igen
från DN och Di
“Andra läser just nu” (IBCF)
“Utvalt för dig” Hybrid mellan metadata
och beteende
“Rekommenderat för dig”,
Innehållsbaserat med diviersifiering
Samtliga är individuella urval av artiklar.
Du är ensam i din målgrupp.
Hur vet man att det är
bra?
Vi gör kontrollerade experiment online
där vi tar med en viss procent användare
Mest läst är ofta en bra baslinje, det
bästa generella urvalet som kunnat ske
Personalisering artikelsida, +13% fler
användare som klickar (beteendedata)
Personalisering förstasidan, +4% fler
användare (hybrid)
Personalisering på metadata, +7%
Men det är inte säkert att klick på yta
är den bästa metriken, för vad man vill
åstadkomma
Totalt antal sidvisningar, sidvisningar
per besök, bounce rate, lästid är andra
viktiga mått
Språktjänster och
metadata
Named entity
recognition
Maskininlärning för att känna igen
benämningar av personer, organisationer
och platser i text
För varje ord (token), vad är
sannolikheten att det är början (B), på
insidan (I) eller utanför (O) en
benämning?
Prefix, suffix, ordklasser -> En mycket
stor mängd features
Entity linking
Det finns många “Michael Jackson” att
välja på i den verkliga världen
Vi gör en sökning mot Wikipedia, lägger
till ämneslikhet, popularitet, förekomst
av ankartexter
En rankingmodell (LambdaMART)
sorterar resultaten, en annan modell
kollar kvaliteten
Ut kommer WikidataID, universella
identifierare
Koppla till en
kunskapsdatabas
Om jag vet att personen som nämns, är
riksdagsledamot, så “handlar artikeln
också om” dennes parti
Vi gör inferenser, drar slutsatser, om det
som skrivits
Riksdagens öppna data, Premier League,
NHL, Allsvenskan, från bolag till bransch
Klassa till en taxonomi
IPTC har en väl utformad taxonomi över
typer av nyheter
Kategorierna är det vi kanske skulle
hittat som sektioner i en tidning (politik,
konflikter, kultur etc.)
Vi tar definitionen av varje kategori och
gör en semantisk berikning med hjälp av
ordvektorer (word2vec)
Kategorierna rangordnas efter hur stor
andel av nyckelorden texten innehåller
Namngivna
ämnestaggar
Wikipedias kategorier, efter litet
kurering
38000 ämnesord som kan tilldelas
texten som analyseras
Mycket bra kategorier, fria från
värderingar, överraskande träffande
Ex: “Sportevenemang i Norge”, “Rysk
kvinnohistoria”, “Politiska affärer”,
“Protestsånger”
“Jag är det jag läser”
Den följd av artiklar jag läst, kan ses
som en samling av alla metadatapunkter
Användarens preferenser, uttrycks på
samma sätt som ett dokument, en
artikel
De “finns i samma värld” och “talar
samma språk”
En fiktiv användarprofil
En språkmässig bro
Mellan användare och innehåll,
användaren är en sökfråga
Mellan innehåll och användare, “ge mig
de 1000 som är mest intresserade”
Mellan sajter och innehåll. Jag har läst
det här på Dagens Industri -> Vad på
Dagens Nyheter kan vara intressant
Redaktionella taggar, saknar betydelse
utanför huset, men en tagg som är
förankrad i Wikipedia, behåller den
En innehålls-
rekommendation
En läshistorik, från två olika tidningar
Vi matchar med en individuell
rekommendation av redaktionellt
material
Så relevant som möjligt
En rekommendation av
nativeannonser
Jag har läst tre artiklar, från olika
tidningar
Vi gör en individuell matchning med
annonser
Prototyp: idag gör vi bara en kontextuell
matchning
Personaliserat sök
Beroende på vad jag läst precis innan,
blir mina sökresultat annorlunda
Tar hänsyn till intressen, begrepp och
kontext, inte bara det sökord du skriver
in
När jag läst om kärnvapen, blir min
sökning på “Trump” annorlunda och
resultaten något annat
Rekommendera
användare till en artikel
När vi publicerat en ny artikel, har vi alla
metadata inom några sekunder
Vi använder artikeln som sin egen
målgruppsdefinition och hämtar valfritt
antal användare
Smala ämnen bör ha mindre målgrupper,
bredare kan ha större
Ingen aktiv bevakning behövs från
användaren
ԱäԻԾԲڲ
ola.gustafsson@bonniernews.se
www.linkedin.com/in/ogustafsson

More Related Content

Du är vad du läser

  • 1. “Du är vad du läser” Tidningen som lär sig vad du gillar Hur maskininlärning och sök hjälper oss att skapa smartare digitala produkter Exempel du känner igen från dn.se och di.se Några resultat vi lärt oss av Också en del prototyper, inte alltid förverkligade på sajt Vi har en stund för frågor efter dragningen Alla deltagare får bilderna
  • 2. “En jordbävning i långsamt tempo” Ett medielandskap i förändring Papper är dyrt, men också långsamt att distribuera Konkurrerar om uppmärksamhet, tid och annonser med internets jättar Mindre ytor, andra format, nya plattformar
  • 3. Digitala produkter är “något annat” Organisationer som bygger om sig för att publicera hela tiden, inte en gång om dagen “Läste du tidningen i morse?” -> vilken tidning då? Inte samma för alla Tidningen ändras i takt med att nytt material publiceras Tidningen ändras i takt med att du läser Du deltar aktivt i att bygga dina nyheter
  • 4. Förväntningarna ställs högre idag “Alexa, spela något från den där spellistan på Spotify, som jag gillar så mycket!” En bra digital produkt tolkar ditt språk, gör antaganden om vad som kommer härnäst, drar slutsatser Vi tycker om att få hjälp med tips om resor, medicinska råd, val av utbildning, shopping, navigering, hitta kunskap och underhållning
  • 5. Nyheter är annorlunda, eller är de det? Nyheter ska vara “det som är viktigt” att veta just nu Men de innehåller också material som man själv väljer och vill leta rätt på (kultur, sport, ekonomi) Vi har tidningar också för att förkovra oss, bli underhållna, söka information En del av kundlöftet är att skriva om det du gillar och ta reda vad det är
  • 6. Beteendedata och textanalys Vilka mönster kan vi se i användares vandring genom sajten, som talar om vad de gillar? Collaborative filtering -> Oftast metoder som är “agnostiska” till innehållet Eller se på “metadata”, markörer på intresse som är mer långlivade än läsningen av en viss artikel
  • 7. Saker vi känner igen från DN och Di “Andra läser just nu” (IBCF) “Utvalt för dig” Hybrid mellan metadata och beteende “Rekommenderat för dig”, Innehållsbaserat med diviersifiering Samtliga är individuella urval av artiklar. Du är ensam i din målgrupp.
  • 8. Hur vet man att det är bra? Vi gör kontrollerade experiment online där vi tar med en viss procent användare Mest läst är ofta en bra baslinje, det bästa generella urvalet som kunnat ske Personalisering artikelsida, +13% fler användare som klickar (beteendedata) Personalisering förstasidan, +4% fler användare (hybrid) Personalisering på metadata, +7% Men det är inte säkert att klick på yta är den bästa metriken, för vad man vill åstadkomma Totalt antal sidvisningar, sidvisningar per besök, bounce rate, lästid är andra viktiga mått
  • 10. Named entity recognition Maskininlärning för att känna igen benämningar av personer, organisationer och platser i text För varje ord (token), vad är sannolikheten att det är början (B), på insidan (I) eller utanför (O) en benämning? Prefix, suffix, ordklasser -> En mycket stor mängd features
  • 11. Entity linking Det finns många “Michael Jackson” att välja på i den verkliga världen Vi gör en sökning mot Wikipedia, lägger till ämneslikhet, popularitet, förekomst av ankartexter En rankingmodell (LambdaMART) sorterar resultaten, en annan modell kollar kvaliteten Ut kommer WikidataID, universella identifierare
  • 12. Koppla till en kunskapsdatabas Om jag vet att personen som nämns, är riksdagsledamot, så “handlar artikeln också om” dennes parti Vi gör inferenser, drar slutsatser, om det som skrivits Riksdagens öppna data, Premier League, NHL, Allsvenskan, från bolag till bransch
  • 13. Klassa till en taxonomi IPTC har en väl utformad taxonomi över typer av nyheter Kategorierna är det vi kanske skulle hittat som sektioner i en tidning (politik, konflikter, kultur etc.) Vi tar definitionen av varje kategori och gör en semantisk berikning med hjälp av ordvektorer (word2vec) Kategorierna rangordnas efter hur stor andel av nyckelorden texten innehåller
  • 14. Namngivna ämnestaggar Wikipedias kategorier, efter litet kurering 38000 ämnesord som kan tilldelas texten som analyseras Mycket bra kategorier, fria från värderingar, överraskande träffande Ex: “Sportevenemang i Norge”, “Rysk kvinnohistoria”, “Politiska affärer”, “Protestsånger”
  • 15. “Jag är det jag läser” Den följd av artiklar jag läst, kan ses som en samling av alla metadatapunkter Användarens preferenser, uttrycks på samma sätt som ett dokument, en artikel De “finns i samma värld” och “talar samma språk”
  • 17. En språkmässig bro Mellan användare och innehåll, användaren är en sökfråga Mellan innehåll och användare, “ge mig de 1000 som är mest intresserade” Mellan sajter och innehåll. Jag har läst det här på Dagens Industri -> Vad på Dagens Nyheter kan vara intressant Redaktionella taggar, saknar betydelse utanför huset, men en tagg som är förankrad i Wikipedia, behåller den
  • 18. En innehålls- rekommendation En läshistorik, från två olika tidningar Vi matchar med en individuell rekommendation av redaktionellt material Så relevant som möjligt
  • 19. En rekommendation av nativeannonser Jag har läst tre artiklar, från olika tidningar Vi gör en individuell matchning med annonser Prototyp: idag gör vi bara en kontextuell matchning
  • 20. Personaliserat sök Beroende på vad jag läst precis innan, blir mina sökresultat annorlunda Tar hänsyn till intressen, begrepp och kontext, inte bara det sökord du skriver in När jag läst om kärnvapen, blir min sökning på “Trump” annorlunda och resultaten något annat
  • 21. Rekommendera användare till en artikel När vi publicerat en ny artikel, har vi alla metadata inom några sekunder Vi använder artikeln som sin egen målgruppsdefinition och hämtar valfritt antal användare Smala ämnen bör ha mindre målgrupper, bredare kan ha större Ingen aktiv bevakning behövs från användaren