際際滷

際際滷Share a Scribd company logo
Big Data @ CBS
Overzicht van ervaringen
Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge,
Alex Priem and May Offermans
4 Februari 2014, Utrecht
Overzicht

 Big Data
 Onderzoekthema bij het CBS
 Verkennende studies
 Verkeerslusdata (NDW-data)
 Mobiele telefoon data
 Sociale media berichten

 Ervaringen en uitdagingen
 Methodologische & technische uitdagingen
 Nut van visualisaties
 Benodigde vaardigheden
2
 Data, data everywhere!
Twee typen data

Primaire data

Secundaire data

Data van anderen
Onze eigen enqu棚tes
4

- Administratieve bronnen
- Big Data
Verkennende Big Data studies

Veel
onontdekte
gebieden
Welke bronnen verkend?
Big Data bronnen die nauwgezet zijn onderzocht
1) Verkeerslusdata

~100 miljoen records / dag
(in totaal 9 miljard records)

2) Mobiele telefoon data ~36 miljoen records / dag
(in totaal 500 miljoen records)
3) Sociale media berichten ~3 miljoen records / dag
(in totaal > 3 miljard records)
6
Verkeerslussen
Verkeerslusdata
 Elke minuut (24/7) worden het aantal passerende
voertuigen geteld door ruim 20.000 lussen in
Nederland
 Totaal en verschillende lengtecategorie谷n

 Mooie databron voor de Verkeer en Vervoer
statistieken van het CBS (en meer)
 Heel veel data, zon 100 miljoen records per dag
Locaties

7
Totaal aantal voertuigen per dag

Time (hour)

8
Aantal actieve lussen op die dag (eerste 10 min)

9
Correctie voor ontbrekende data
Per blok van 5 min.
Voor

Totaal ~ 295 miljoen getelde voertuigen

10

Na

Totaal ~ 330 miljoen voertuigen (+12%)
Alle voertuigen in September
In verschillende lengtecategorie谷n
1 categorie

3 categori谷n

5 categori谷n

Totaal

Totaal
<= 5.6m
> 5.6 & <= 12.2m
> 12.2m

Totaal
> 1.85 & <= 2.4m
> 2.4 & <= 5.6m
> 5.6 & <= 11.5m
> 11.5 & <= 12.2m
> 12.2m

Kleine voertuigen <= 5.6 m
Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
Grote voertuigen > 12.2 m
12
Kleine voertuigen (<= 5.6 meter)

~75% v/h totaal
13
Kleine & gemiddelde voertuigen

14
Klein, gemiddelde & grote voertuigen

15
Grote voertuigen in September
Google Earth: voor locaties
Tellingen op microniveau
Alle voertuigen

Grote voertuigen

18

Alle voertuigen

Alle voertuigen
Containeroverslag bij Rotterdam

51.941,4.02836

19
2) Mobiele telefoondata
Gebruik mobiele telefoon als databron
 Vrijwel iedereen heeft een mobieltje
 Bij zich en bijna altijd aan!
 Steeds meer mensen hebben een smart phone
 Mobieltjes worden erg vaak gebruikt gedurende de dag

 Kun je mobiele telefoongegevens gebruiken voor de offici谷le
statistiek?
 Verplaatsingsgedrag (van mobieltjes)
 Dagpopulatie (van mobieltjes)
 Toerisme (nieuw geregistreerde telefoons op het netwerk)

 Er is data van 辿辿n mobiele telefoonmaatschappij gebruikt (!)
 Eerste test: geanonimiseerde microdata (periode van 14 dagen)
 Later: uuraggregaten per gebied
20
Verplaatsingsgedrag van mobiele telefoons
Verplaatsing van erg actieve bellers
- gedurende een 14-daagse periode

Gebaseerd op:
- Bel- en SMS-activiteit
- meerdere keren per dag
- Locatie gebaseerd op GSM-mast
waarmee telefoon verbonden is

Opvallend:
- Bevat de 5 grote steden
- Maar veel minder in het Noorden
en Zeeland

21
Dag populatie
 Per gebied veranderingen
in gebruik mobieltjes
 7 & 8 Mei 2013
 Geaggregeerd per gebied
 Alleen gegevens gebruikt
bij > 15 gebeurtenissen
per uur

22
Toerisme
Activiteit van Duitse mobieltjes aan de kust

Mobiel
Temp.

23
Social media
 Nederlanders zijn erg actief op sociale media
 Bijna altijd bij zich en staat vrijwel altijd aan

 Steeds meer mensen hebben een smartphone!

 Mogelijke informatiebron voor:
 Welke onderwerpen zijn actueel:

 Aantal berichten en sentiment hierover
 Als meetinstrument te gebruiken voor:

 .

24
Map by Eric Fischer (via Fast Company)
Sociale media berichten
 Nederlanders zijn erg actief op Sociale media
 Wat voor informatie delen ze?
 Kunnen we hier iets mee?
 Het is erg snel beschikbaar!
> Welke onderwerpen worden besproken?
Inhoud:
 Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen
Sentiment
 Sentiment in NLtalige berichten bekeken: allemaal > 3 miljard

25
Relatie CBS-themas en Twitter

Thema's

Onderwerpen Twitter
Werk
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Onderwijs
Politiek
Veiligheid
Vervoer
Vrije tijd
Vakantie
Cultuur/events
Sport
Media
Overige

(5%)

(3%)

(10%)

(7%)
(46%)
0

26

10

20

30

40

50

Bijdrage (%)

12 miljoen berichten
Sentiment in social media
 Toegang gekocht tot database van Coosto
 > 3 miljard publiekelijk beschikbare sociale mediaberichten
(uitsluitende NLtalig)
 Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc.
 Ook bepaling sentiment van elk bericht
 Positief, negatief of neutraal
 Interessant resultaat
 Veranderingen in het (maandelijkse) sentiment
27
Consumer confidence, survey data
Sentiment analyse
Consumentenvertrouwen

~1000 respondenten/maand

28
Sentiment analysis
Consumentenvertrouwen &
Sociale media sentiment (maand)

Corr: 0.88
~30 miljoen berichten/maand

29
Ervaringen en uitdagingen
Ervaringen en uitdagingen
De volgende leerpunten zijn ge誰dentificeerd bij
het werken met Big Data op het CBS.
1) Omgaan met en analyse van zeer grote
hoeveelheden data
2) Nut van visualisatiemethoden
3) Omgaan met ruizige en ongestructureerde data
4) Omgaan met selectiviteit van de data (populatie)
5) Van correlatie naar oorzakelijkheid
6) Mensen nodig met de juiste vaardigheden
7) Bewust zijn van privacy en beveiligingsissues
We hebben nog niet alle opgelost (privacy wel hoor)
31
@pietdaas

De toekomst van de statistiek?
Ad

Recommended

Statistiek en grote databestanden
Statistiek en grote databestanden
Piet J.H. Daas
Statistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizaties
Piet J.H. Daas
Big data cbs_piet_daas
Big data cbs_piet_daas
Piet J.H. Daas
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
AlmereDataCapital
Bi dutch meeting data science
Bi dutch meeting data science
Piet J.H. Daas
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
herbold
Open Data
Open Data
saskiamenkel
ITI workshop open data
ITI workshop open data
Marcel de Rink
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
Dutch Power
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
Ad Steenbakkers
Opening up social media publiek Nederland
Opening up social media publiek Nederland
sannetentije
20130115 presentatie 5 trends
20130115 presentatie 5 trends
MirandaBrummel
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Social media conference - Sanne ten Tije
Social media conference - Sanne ten Tije
Opening-up.eu
Leen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content driven
PLATOVlaanderen
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTnetwerk - CultuurNet Vlaanderen
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakel
edietvorst
6 norman manley geen big data zonder small data
6 norman manley geen big data zonder small data
NMITSymposium
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Roy Johannink
Opzet Media:Tijd
Opzet Media:Tijd
Sjoerd F. Pennekamp
Big data en offici谷le statistiek
Big data en offici谷le statistiek
Piet J.H. Daas
Gebruik van sociale media voor de offici谷le statistiek
Gebruik van sociale media voor de offici谷le statistiek
Piet J.H. Daas
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
ysprick
Apps voor lokale overheden
Apps voor lokale overheden
Rosseau Bart
Open Innovation & Social Media 2012
Open Innovation & Social Media 2012
Wim Andr辿a
Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas

More Related Content

Similar to Big data @ CBS (20)

ITI workshop open data
ITI workshop open data
Marcel de Rink
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
Dutch Power
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
Ad Steenbakkers
Opening up social media publiek Nederland
Opening up social media publiek Nederland
sannetentije
20130115 presentatie 5 trends
20130115 presentatie 5 trends
MirandaBrummel
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Social media conference - Sanne ten Tije
Social media conference - Sanne ten Tije
Opening-up.eu
Leen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content driven
PLATOVlaanderen
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTnetwerk - CultuurNet Vlaanderen
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakel
edietvorst
6 norman manley geen big data zonder small data
6 norman manley geen big data zonder small data
NMITSymposium
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Roy Johannink
Opzet Media:Tijd
Opzet Media:Tijd
Sjoerd F. Pennekamp
Big data en offici谷le statistiek
Big data en offici谷le statistiek
Piet J.H. Daas
Gebruik van sociale media voor de offici谷le statistiek
Gebruik van sociale media voor de offici谷le statistiek
Piet J.H. Daas
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
ysprick
Apps voor lokale overheden
Apps voor lokale overheden
Rosseau Bart
Open Innovation & Social Media 2012
Open Innovation & Social Media 2012
Wim Andr辿a
ITI workshop open data
ITI workshop open data
Marcel de Rink
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beinvloed door Big Data en ICT
Dutch Power
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
Ad Steenbakkers
Opening up social media publiek Nederland
Opening up social media publiek Nederland
sannetentije
20130115 presentatie 5 trends
20130115 presentatie 5 trends
MirandaBrummel
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Social media conference - Sanne ten Tije
Social media conference - Sanne ten Tije
Opening-up.eu
Leen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content driven
PLATOVlaanderen
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTnetwerk - CultuurNet Vlaanderen
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakel
edietvorst
6 norman manley geen big data zonder small data
6 norman manley geen big data zonder small data
NMITSymposium
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Roy Johannink
Big data en offici谷le statistiek
Big data en offici谷le statistiek
Piet J.H. Daas
Gebruik van sociale media voor de offici谷le statistiek
Gebruik van sociale media voor de offici谷le statistiek
Piet J.H. Daas
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
ysprick
Apps voor lokale overheden
Apps voor lokale overheden
Rosseau Bart
Open Innovation & Social Media 2012
Open Innovation & Social Media 2012
Wim Andr辿a

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
Use of social media for official statistics
Use of social media for official statistics
Piet J.H. Daas
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
Ntts2017 presentation 45
Ntts2017 presentation 45
Piet J.H. Daas
Big Data presentation Mannheim
Big Data presentation Mannheim
Piet J.H. Daas
Extracting information from ' messy' social media data
Extracting information from ' messy' social media data
Piet J.H. Daas
Big Data @ CBS
Big Data @ CBS
Piet J.H. Daas
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
Big Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
Piet J.H. Daas
Quality challenges in modernising business statistics
Quality challenges in modernising business statistics
Piet J.H. Daas
Quality Approaches to Big Data
Quality Approaches to Big Data
Piet J.H. Daas
Social media sentiment and consumer confidence
Social media sentiment and consumer confidence
Piet J.H. Daas
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
Use of social media for official statistics
Use of social media for official statistics
Piet J.H. Daas
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
Ntts2017 presentation 45
Ntts2017 presentation 45
Piet J.H. Daas
Big Data presentation Mannheim
Big Data presentation Mannheim
Piet J.H. Daas
Extracting information from ' messy' social media data
Extracting information from ' messy' social media data
Piet J.H. Daas
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
Big Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
Piet J.H. Daas
Quality challenges in modernising business statistics
Quality challenges in modernising business statistics
Piet J.H. Daas
Quality Approaches to Big Data
Quality Approaches to Big Data
Piet J.H. Daas
Social media sentiment and consumer confidence
Social media sentiment and consumer confidence
Piet J.H. Daas
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
Ad

Recently uploaded (10)

Logical Aspects Of Computational Linguistics 6th International Conference Lac...
Logical Aspects Of Computational Linguistics 6th International Conference Lac...
soremijolet
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
kutuskaine
Idealization Xiii Modeling In History Krzysztof Brzechczyn
Idealization Xiii Modeling In History Krzysztof Brzechczyn
bukibuzga
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
hsakvtrw562
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
misjzdqlx0124
Database Concepts 8th Edition (eBook PDF)
Database Concepts 8th Edition (eBook PDF)
htpoxgsvx374
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
axswigb793
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
rbjtfra9517
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
ssdygsoq114
The Jewish People In America Vol17 Peter Wiernik
The Jewish People In America Vol17 Peter Wiernik
kipgfjrgnj444
Logical Aspects Of Computational Linguistics 6th International Conference Lac...
Logical Aspects Of Computational Linguistics 6th International Conference Lac...
soremijolet
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
kutuskaine
Idealization Xiii Modeling In History Krzysztof Brzechczyn
Idealization Xiii Modeling In History Krzysztof Brzechczyn
bukibuzga
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
hsakvtrw562
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
misjzdqlx0124
Database Concepts 8th Edition (eBook PDF)
Database Concepts 8th Edition (eBook PDF)
htpoxgsvx374
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
axswigb793
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
rbjtfra9517
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
ssdygsoq114
The Jewish People In America Vol17 Peter Wiernik
The Jewish People In America Vol17 Peter Wiernik
kipgfjrgnj444
Ad

Big data @ CBS

  • 1. Big Data @ CBS Overzicht van ervaringen Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge, Alex Priem and May Offermans 4 Februari 2014, Utrecht
  • 2. Overzicht Big Data Onderzoekthema bij het CBS Verkennende studies Verkeerslusdata (NDW-data) Mobiele telefoon data Sociale media berichten Ervaringen en uitdagingen Methodologische & technische uitdagingen Nut van visualisaties Benodigde vaardigheden 2
  • 3. Data, data everywhere!
  • 4. Twee typen data Primaire data Secundaire data Data van anderen Onze eigen enqu棚tes 4 - Administratieve bronnen - Big Data
  • 5. Verkennende Big Data studies Veel onontdekte gebieden
  • 6. Welke bronnen verkend? Big Data bronnen die nauwgezet zijn onderzocht 1) Verkeerslusdata ~100 miljoen records / dag (in totaal 9 miljard records) 2) Mobiele telefoon data ~36 miljoen records / dag (in totaal 500 miljoen records) 3) Sociale media berichten ~3 miljoen records / dag (in totaal > 3 miljard records) 6
  • 7. Verkeerslussen Verkeerslusdata Elke minuut (24/7) worden het aantal passerende voertuigen geteld door ruim 20.000 lussen in Nederland Totaal en verschillende lengtecategorie谷n Mooie databron voor de Verkeer en Vervoer statistieken van het CBS (en meer) Heel veel data, zon 100 miljoen records per dag Locaties 7
  • 8. Totaal aantal voertuigen per dag Time (hour) 8
  • 9. Aantal actieve lussen op die dag (eerste 10 min) 9
  • 10. Correctie voor ontbrekende data Per blok van 5 min. Voor Totaal ~ 295 miljoen getelde voertuigen 10 Na Totaal ~ 330 miljoen voertuigen (+12%)
  • 11. Alle voertuigen in September
  • 12. In verschillende lengtecategorie谷n 1 categorie 3 categori谷n 5 categori谷n Totaal Totaal <= 5.6m > 5.6 & <= 12.2m > 12.2m Totaal > 1.85 & <= 2.4m > 2.4 & <= 5.6m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 12
  • 13. Kleine voertuigen (<= 5.6 meter) ~75% v/h totaal 13
  • 14. Kleine & gemiddelde voertuigen 14
  • 15. Klein, gemiddelde & grote voertuigen 15
  • 16. Grote voertuigen in September
  • 17. Google Earth: voor locaties
  • 18. Tellingen op microniveau Alle voertuigen Grote voertuigen 18 Alle voertuigen Alle voertuigen
  • 20. 2) Mobiele telefoondata Gebruik mobiele telefoon als databron Vrijwel iedereen heeft een mobieltje Bij zich en bijna altijd aan! Steeds meer mensen hebben een smart phone Mobieltjes worden erg vaak gebruikt gedurende de dag Kun je mobiele telefoongegevens gebruiken voor de offici谷le statistiek? Verplaatsingsgedrag (van mobieltjes) Dagpopulatie (van mobieltjes) Toerisme (nieuw geregistreerde telefoons op het netwerk) Er is data van 辿辿n mobiele telefoonmaatschappij gebruikt (!) Eerste test: geanonimiseerde microdata (periode van 14 dagen) Later: uuraggregaten per gebied 20
  • 21. Verplaatsingsgedrag van mobiele telefoons Verplaatsing van erg actieve bellers - gedurende een 14-daagse periode Gebaseerd op: - Bel- en SMS-activiteit - meerdere keren per dag - Locatie gebaseerd op GSM-mast waarmee telefoon verbonden is Opvallend: - Bevat de 5 grote steden - Maar veel minder in het Noorden en Zeeland 21
  • 22. Dag populatie Per gebied veranderingen in gebruik mobieltjes 7 & 8 Mei 2013 Geaggregeerd per gebied Alleen gegevens gebruikt bij > 15 gebeurtenissen per uur 22
  • 23. Toerisme Activiteit van Duitse mobieltjes aan de kust Mobiel Temp. 23
  • 24. Social media Nederlanders zijn erg actief op sociale media Bijna altijd bij zich en staat vrijwel altijd aan Steeds meer mensen hebben een smartphone! Mogelijke informatiebron voor: Welke onderwerpen zijn actueel: Aantal berichten en sentiment hierover Als meetinstrument te gebruiken voor: . 24 Map by Eric Fischer (via Fast Company)
  • 25. Sociale media berichten Nederlanders zijn erg actief op Sociale media Wat voor informatie delen ze? Kunnen we hier iets mee? Het is erg snel beschikbaar! > Welke onderwerpen worden besproken? Inhoud: Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen Sentiment Sentiment in NLtalige berichten bekeken: allemaal > 3 miljard 25
  • 26. Relatie CBS-themas en Twitter Thema's Onderwerpen Twitter Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige (5%) (3%) (10%) (7%) (46%) 0 26 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten
  • 27. Sentiment in social media Toegang gekocht tot database van Coosto > 3 miljard publiekelijk beschikbare sociale mediaberichten (uitsluitende NLtalig) Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc. Ook bepaling sentiment van elk bericht Positief, negatief of neutraal Interessant resultaat Veranderingen in het (maandelijkse) sentiment 27
  • 28. Consumer confidence, survey data Sentiment analyse Consumentenvertrouwen ~1000 respondenten/maand 28
  • 29. Sentiment analysis Consumentenvertrouwen & Sociale media sentiment (maand) Corr: 0.88 ~30 miljoen berichten/maand 29
  • 31. Ervaringen en uitdagingen De volgende leerpunten zijn ge誰dentificeerd bij het werken met Big Data op het CBS. 1) Omgaan met en analyse van zeer grote hoeveelheden data 2) Nut van visualisatiemethoden 3) Omgaan met ruizige en ongestructureerde data 4) Omgaan met selectiviteit van de data (populatie) 5) Van correlatie naar oorzakelijkheid 6) Mensen nodig met de juiste vaardigheden 7) Bewust zijn van privacy en beveiligingsissues We hebben nog niet alle opgelost (privacy wel hoor) 31
  • 32. @pietdaas De toekomst van de statistiek?