Gebruik van sociale media voor de officiële statistiek
1. Gebruik van social media
voor de officiële statistiek:
Dr. Piet J.H. Daas
Senior-Methodoloog, Big Data onderzoek coördinator
en Marco Puts, Martijn Tennekes, Marco Paragini, ….
22 Sept., NPSO
Statistics
Netherlands
Een top-down (Big Data) aanpak
3. Twee soorten data
Primaire data Secundaire data
Onze ‘eigen’ vragenlijsten
Data van ‘anderen’
- Administratieve bronnen
- Big Data
-zoals social media
CBS
3
4. Big Data onderzoek bij het CBS
– Exploratief, ‘data gedreven’
‐ Case studies:Verkeers’lussen’, Mobiele telefoon data, Sociale media
‐ Er is nog geen Big Data methodologie (werken we aan)
– Combinatie van IT, methodologie en inhoud (Data Science)
– Belangrijke onderwerpen voor de officiële statistiek
‐ Structurele toegang tot data krijgen
‐ Selectiviteit (representativiteit)
‐ Grote hoeveelheden data controleren en corrigeren
‐ Omvang data verminderen
(zonder informatieverlies)
4
5. 5
Waarom social media?
– Nederlanders zijn erg actief op sociale media!
– Zo’n 70% volgens een recent onderzoek
– Snel beschikbaar
– Mogelijke bron van informatie over wat er leeft onder de
‘Nederlanders’ (actief op social media)
‐ Als aanvullende bron? Naast surveys en admin. data
– Zijn er nog meer mogelijkheden?
‐ Exploratief onderzoeken!
‐ lt
Map by Eric Fischer (via Fast Company)
6. Onderzoek naar social media op CBS
1. Relatie inhoudTwitter en thema’s CBS publicaties
2. Relatie sentiment in social media en consumenten
vertrouwen
3. ‘Meten’ andere emoties in social media berichten
4. Sociale samenhang enTwitter (in specifieke regio)
5. Selectiviteit: mogelijkheden ‘feature extractie’ van
Twitter
6
7. Onderwerpen Twitter
Bijdrage (%)
0 10 20 30 40 50
Thema's
Overige
Media
Sport
Cultuur/events
Vakantie
Vrije tijd
Vervoer
Veiligheid
Politiek
Onderwijs
Gezondheid
ICT
Weer
Milieu
Economie
Wonen
Relaties
Werk
1) Onderwerpen in NLTwitterberichten
(46%)
(10%)
(7%)
(3%)
(5%)
12 miljoen berichten van 330.000 users met locatie in NL
7
8. 8
2) Sentiment in NL Sociale media
– De gegevens
‐ NL bedrijf dat continueALLE publieke Nederlandstalige sociale media
berichten verzameld
‐ Dataset van meer dan 4 miljard berichten!
• Vanaf 2010 tot heden
• Zo’n 3-4 miljoen nieuwe berichten per dag
– Over het bepalen van het sentiment
‐ ‘Bag of words’ aanpak
• Lijst van NL-woorden en hun sentiment
• Additionele lijst van sociale media specifieke ‘woorden’ (‘FAIL’, ‘LOL’, etc.)
‐ Overall score bepaald het uiteindelijke sentiment
• Is positief, negatief of neutraal
‐ Gemiddelde sentiment per periode (dag / week / maand)
• (#positief - #negatief)/#totaal * 100%
11. Table 1. Social media messages properties for various platforms and their correlation with consumer confidence
Correlation coefficient of
Social media platform Number of social Number of messages as monthly sentiment index and
media messages1
percentage of total (%) consumer confidence ( r )2
All platforms combined 3,153,002,327 100 0.75 0.78
Facebook 334,854,088 10.6 0.81* 0.85*
Twitter 2,526,481,479 80.1 0.68 0.70
Hyves 45,182,025 1.4 0.50 0.58
News sites 56,027,686 1.8 0.37 0.26
Blogs 48,600,987 1.5 0.25 0.22
Google+ 644,039 0.02 -0.04 -0.09
Linkedin 565,811 0.02 -0.23 -0.25
Youtube 5,661,274 0.2 -0.37 -0.41
Forums 134,98,938 4.3 -0.45 -0.49
1
period covered June 2010 untill November 2013
2
confirmed by visual inspecting scatterplots and additional checks (see text)
*cointegrated
Platform specifieke resultaten
11
12. Schematisch overzicht
12
Vorige maand Maand
Consumenten Vertr.
Publicatie datum (~20e)
Social media sentiment
Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28
Vorige maand Huidige maand
Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28
Sentiment
14. Uiteindelijke resultaten
14
– Correlatie en cointegratie
‐ 1e ‘week’ van ConsumentenVertrouwen geeft meestal 70% respons
‐ Beste correlatie en cointegratie met het sentiment van de 2e week
• Highest correlation 0.93* (all Facebook * specific word filteredTwitter)
– Granger causaliteit
‐ Veranderingen in ConsumentenVertrouwen lopen voor op veranderingen in
het Sociale media sentiment
‐ Voor alle combinaties!
– Voorspellen?
‐ Iets beter dan ‘random chance’
‐ Beste resultaat voor de 4e week v/d maand
15. ‘Sentiment’ indicator voor NL (beta-versie)
15
Gebaseerd op het gemiddelde sentiment van publieke NL-talige Facebook enTwitter berichten
16. 3) Basis emoties in social media
16
Enkele basis emoties
Vreugde
Verdriet
Woede
Angst
Tederheid
Opgewonden
18. 4) Sociale samenhang en social media
– Wat zijn de mogelijkheden van social media om sociale
samenhang te bestuderen?
– Studie naar een gemeente in Limburg
‐ Samen met Hans Schmeets
– Verzamelen van actieveTwittergebruikers in die
gemeente
‐ In totaal ~2000 accounts
‐ Locatie van de gebruikers (dorp)
‐ Onderlinge relatie bepaald (volgers/vrienden)
‐ Nog te doen: Onderwerpen tweets
18
20. 5) Selectiviteit: kenmerken Twitteraars
– OpTwitter is slechts een selectie van alle Nederlanders
actief
– Willen we deze bron kunnen gebruiken dan moeten we
meer van de gebruikers afweten
– Dit kan o.a. door bepalen van (achtergrond)kenmerken
– Zoals geslacht, leeftijd, inkomen, opleidingsniveau
etc.
– Wat zijn de mogelijkheden?
‐ Voor geslacht
20
22. Resultaten van een subset
– Uit een lijst vanTwitter gebruikers (~330.000)
– Een random sample van 1000 unieke id’s geselecteerd
– Hiervan bleek:
‐ 844 profielen bestonden nog
• 844 hadden een naam
• 583 hadden een korte bio
• 473 hadden ‘getweet’
• 804 hadden een ‘niet‐standaard’ foto
• 409 Mannen (49%)
• 282Vrouwen (33%)
• 153 ‘Overige’ (18%)
• bedrijven, organisaties, hond, katten, ‘bots’..
22
StandaardTwitter foto
23. Geslacht bepalen: 1) Voornaam
23
– Hebben de ‘Voornamenbank’ website gebruikt (Meertens instituut)
– Score tussen 0 en 1 (vrouw – man); 676 v/d 844 (80%) namen kwamen voor
– Onbekende namen -1 (vaak bedrijven/organisaties)
24. 24
Geslacht bepalen: 2) Korte bio
– Als er een korte bio omschrijving is
‐ Best wel wat mensen vermelden hun ‘positie’ in de familie
• Mother, father, papa, mama, ‘son of’, etc.
‐ Soms zelfs hun beroep (‘studente’)
‐ Voor 155 v/d 583 (27%) was hun geslacht hieruit af te leiden
‐ Je moet zowel naar Nederlandse en Engels termen zoeken
25. Geslacht bepalen: 3) Inhoud Tweets
– Samen met Universiteit Twente (Dong Nguyen)
– Machine learning aanpak die geslacht specifieke schrijfstijl kan herkennen
‐ Alleen Nederlandstalige berichten!
‐ 437 v/d 473 (92%) personen hadden tweets die bruikbaar waren
26. Geslacht bepalen 4) Profiel foto
– OpenCV software gebruikt om foto's te bewerken
1) Gezichten herkennen
2) Standaardiseren van gezichten (uitknippen, herschalen en roteren)
3) Gezichten classificeren a.d.h.v. geslacht
- op 603 v/d 804 (75%) profiel foto’s werden 1 of meer gezichten herkend
1
2
3
27. Geslacht bepalen: algemene resultaten
27
Diagnostic Odds Ratio =
(TP/FN) / (FP/TN)
random guessing
log(DOR) = 0
‐ Resultaten van meerdere methoden
• Hoe combineer je die het best?
• Ook rekening houden met efficiëntie v/d methode
Diagnostic Odds
Ratio (log)
Voornaam 6.41
Korte bio 3.50
InhoudTweets 2.36
Foto (gezichten) 0.72
28. Afsluitende opmerkingen
– Social media is een erg lastige bron om te analyseren
– Bevat veel ‘ruis’
– Social media is een secundaire bron
‐ Hierdoor moet je anders denken/werken
• kwaliteit verbeteren (ruis onderdrukken, aggregeren) gebruik
maken van de grote hoeveelheden aan data
– Teksten en foto’s analyseren is een vak apart
‐ Zelf expertise opdoen & samenwerken
– Interessante resultaten maar
‐ het is relatief nieuw terrein, dus nog veel uit te zoeken
– We zien mogelijkheden voor de officiële statistiek maar
‐ Is het bureau er al aan toe?
28