際際滷

際際滷Share a Scribd company logo
Enkele voorbeelden
Data Science, Big Data en de offici谷le
statistiek
Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes
Alex Priem en Paul van den Hurk
Overzicht
2
 Het CBS
 Data en bronnen
 Waarom Big Data & Data Science?
 3Vs en uitdagingen
 Voorbeelden
 Virtuele volkstelling
 Polisadministratie
Verkeerslussen
 Mobiele telefoons
 Sociale mediaberichten
Het CBS
Het CBS produceerde in 2012
ongeveer 5000 offici谷le publicaties
en tabellen
Daar hebben we DATADATA voor nodig!
3
Twee soorten databronnen
Primaire data Secondaire data
Onze eigen vragenlijsten Data van anderen
- Administratieve bronnen
- Nieuwe databronnen
 Data, data everywhere!Data, data everywhere!
X
Waarom Big Data?
Snel beschikbaar
Hoeveelheid
Complex/Lastig
 Informatie extractie
 Populatie en dynamiek
6
3Vs
Uitdagingen bij aanvang
 Praktisch
 Hoe komen we aan Big Data?
 Waar en hoe doen we de analyses?
 Juridisch
 Mogen we dit?
 Netjes werken: rekening houden met privacy gevoelige data (WBP)
 Kosten
 Het CBS betaald niet voor administratieve data.
 En voor Big Data?
 Methodologisch
 Methoden nodig om grote hoeveelheden data te analyseren
 Technisch
 Leren van computational statistics gerelateerde onderzoeksgebieden
 High Performance Computing technieken (parallelle verwerking)
 Mensen
 Hebben data scientists nodig: statistisch denkende mensen die
kunnen programmeren, nieuwsgierig zijn en:
 buiten het traditionele steekproef paradigma kunnen denken!
7
Onderzoek door het CBS
Bevindingen onderzoek grote data bronnen
Visualisaties:
1) Virtuele Volkstelling (17 miljoen records)
2) Polisadministratie (20 miljoen records)
Big Data:
3) Verkeerslussen (100 miljoen records)
4) Mobiele telefonie (~500 miljoen records)
5) Sociale media (12 miljoen - 2 miljard records)
8
Voorbeeld 1. Virtuele Volkstelling
 Volkstelling is verplicht, eens in 10-jaar
 In Nederland niet meer met vragenlijsten
 Laatste traditionele volkstelling in 1971
 Nu door (her)gebruik van reeds verzamelde
informatie
 Grootschalig koppelen van administratieve bronnen en
enqu棚tegegevens
 Controleren van resultaat
 Hoe?
 Met een visualisatiemethode: Tableplot
9
Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
 in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
 Numerieke variabelen
 Bereken gemiddelde (gem. leeftijd)
 Categoriale variabelen
 Verhouding aanwezige categorie谷n (man vs vrouw)
4. Plaatje plotten van geselecteerd aantal variabelen
 Kleurgebruik belangrijk tot 12
10
Een tableplot van het testbestand
11
Data verwerking
Ruwe (originele) data
Gecontroleerde data
Uiteindelijk data
12
Voorbeeld 2: Polisadministratie
 Bestand met de financi谷le gegevens van alle
banen, uitkeringen en pensioenen in Nederland
 Verzameld door Belastingdienst en UWV
 Elke maand 20 miljoen records
 Hoe krijgen we inzicht in deze enorme bak
data?
 Met een visualisatie: heat map
13
Heatmap: Leeftijd, Inkomen
leeftijd
In 3D heatmap: Leeftijd, Inkomen, Aantal
Na indikken
leeftijd
Voorbeeld 3: Verkeerslussen
Verkeerslussen
 Elke minuut (24/7) wordt het aantal passerende
voertuigen op >10.000 meetpunten in Nederland
geteld
 Totaal en in verschillende lengtecategorie谷n
 Mooie bron om verkeer- en vervoer- statistieken
mee te maken (en meer)
 Veel data, zon 100 miljoen records per dag
Locaties
16
Aantal gedetecteerde voertuigen op 辿辿n dag in NL
17
Registratie activiteit verkeerslussen (eerste 10 min)
18
Correctie voor ontbrekende gegevens
Corrigeren in blokken van 5 min.
Voor Na
Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%)
19
Totaal voertuigen gedurende de dag (snapshots)
Voor verschillende lengtecategorie谷n
Kleine voertuigen <= 5.6 m
Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
Grote voertuigen > 12.2 m
1 categorie 3 categori谷n 5 categori谷n
Totaal Totaal Totaal
<= 5.6m > 1.85 & <= 2.4m
> 5.6 & <= 12.2m > 2.4 & <= 5.6m
> 12.2m > 5.6 & <= 11.5m
> 11.5 & <= 12.2m
> 12.2m
21
Kleine voertuigen
Tijd (uur) ~75% van totaal
22
Kleine & gemiddelde voertuigen
Tijd (uur)
23
Kleine, gemiddelde & grote voertuigen
Tijd (uur)
24
Afzonderlijke lussen
25
Containeroverslag in Rotterdam
51.941,4.02836
!!! Echter !!!
Tijd (uur)26
Voorbeeld 4: Mobiele telefoons
Vrijwel elke Nederlander heeft een mobieltje
 Bijna altijd bij zich en staat vrijwel altijd aan
Ideale informatiebron om:
 Met behulp van gegevens van providers:
 Verplaatsingsgedrag (Dag-populatie)
 Toerisme (nieuwe aanmeldingen op netwerk)
 Mensenmassas (bijv. bij evenementen)
27
Dag-populatie
Woonadres in GBA
- Waar personen snachts
verblijven
Wat doen ze overdag?
- Locatie van mobieltje bepalen
bij bel/sms/data actviteit a.h.v.
mastlocatie
Data van 辿辿n provider
- Data Dec 2012 en Jan 2013
- Eerste begin Dag-populatie
28
Voorbeeld 5: Sociale media
 Nederlanders zijn erg actief op sociale media
 Bijna altijd bij zich en staat vrijwel altijd aan
 Steeds meer mensen hebben een smartphone!
 Mogelijke informatiebron voor:
 Welke onderwerpen zijn actueel:
 Aantal berichten en sentiment hierover
 Als meetinstrument te gebruiken voor:
 .
Map by Eric Fischer (via Fast Company)
Sociale media: Nederlandstalige berichten
 Nederlanders zijn erg actief op sociale media
 Mogelijke informatiebron:
 Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen
(snel beschikbaar!)
 Testen om nut en bruikbaarheid te controleren
a. Inhoud:
- Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen
b. Sentiment
- Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard
30
Sociale media: Twitter
Onderwerpen Twitter
Bijdrage (%)
0 10 20 30 40 50
Thema's
Overige
Media
Sport
Cultuur/events
Vakantie
Vrije tijd
Vervoer
Veiligheid
Politiek
Onderwijs
Gezondheid
ICT
Weer
Milieu
Economie
Wonen
Relaties
Werk
(46%)
(10%)
(7%)
(3%)
(5%)
12 miljoen berichten31
Sentiment in Sociale media
 Toegang tot Coosto database gekocht
 > 2 miljard publiek beschikbare NL-berichten
 Twitter, Facebook, Hyves, Webfora, Blogs etc.
 Sentiment van elk bericht
 Positief, negatief of neutraal
 Van alles geprobeerd
 Interessante insteek
 Gekeken naar Mood of the nation en vergeleken met
het Consumenten vertrouwen van het CBS
32
Consumenten vertrouwen, enqu棚te data
Sentiment t.a.v. het economisch klimaat
~1000 respondenten/maand
(posneg)as%oftotal(posneg)als%vantotaal
Tijd
33
Consumentenvertrouwen vs. sociale media
Corr: 0.88 ~25 miljoen berichten/maand
Sentiment t.a.v. het economisch klimaat &
In sociale mediaberichten(posneg)als%vantotaal
Tijd
34
Uitdagingen: Big Data en CBS
 Juridisch
 Routinematige toegang (niet alleen voor onderzoek)?
 Goed uitzoeken
 Praktisch
 Gaan we alle (micro)data in huis analyseren?
 Of bij de bronhouder of in de Cloud ?
 Methodologisch
 Big data bronnen registeren events
 En zijn niet het gevolg van een steekproefontwerp
 Grote behoefte aan theorievorming op dit terrein!
 Mensen
 Behoefte aan Data scientists op het CBS
 Zijn er momenteel niet veel (opleiden?)
35
De toekomst van het CBS?
Ad

Recommended

Statistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizaties
Piet J.H. Daas
Big data en offici谷le statistiek
Big data en offici谷le statistiek
Piet J.H. Daas
Statistiek en grote databestanden
Statistiek en grote databestanden
Piet J.H. Daas
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
AlmereDataCapital
Big data cbs_piet_daas
Big data cbs_piet_daas
Piet J.H. Daas
Big Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
Piet J.H. Daas
Data science and the future of statistics
Data science and the future of statistics
Piet J.H. Daas
Big Data @ CBS
Big Data @ CBS
Piet J.H. Daas
Big data @ CBS
Big data @ CBS
Piet J.H. Daas
Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen)
Arjen de Vries
Big Data en Open Data
Big Data en Open Data
Bart Hanssens
Vodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stad
Chantal de Lie
Datajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraaf
peterverweij
Datajournalistiek voor redacteuren van de persgroep
Datajournalistiek voor redacteuren van de persgroep
peterverweij
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
IntoTheMinds
ITI workshop open data
ITI workshop open data
Marcel de Rink
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
Ikinnoveer
Oscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data Visualisatie
Media Perspectives
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de Overheid
Eduvision Opleidingen
Wat is big data en hoe bemeester je het?
Wat is big data en hoe bemeester je het?
Nick van Breda
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
Lisette van Beusekom
Big data analytics johan quist
Big data analytics johan quist
Johan Quist
Big data, wat kun je ermee?
Big data, wat kun je ermee?
gera_p
Presentation LOD workshop ESI HHS
Presentation LOD workshop ESI HHS
eSociety Institute of The Hague University of Applied Sciences
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Proloog - Hackathon Rotterdam 12 oktober 2012
Proloog - Hackathon Rotterdam 12 oktober 2012
Peter Conradie
Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas

More Related Content

Similar to Bi dutch meeting data science (20)

Big data @ CBS
Big data @ CBS
Piet J.H. Daas
Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen)
Arjen de Vries
Big Data en Open Data
Big Data en Open Data
Bart Hanssens
Vodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stad
Chantal de Lie
Datajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraaf
peterverweij
Datajournalistiek voor redacteuren van de persgroep
Datajournalistiek voor redacteuren van de persgroep
peterverweij
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
IntoTheMinds
ITI workshop open data
ITI workshop open data
Marcel de Rink
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
Ikinnoveer
Oscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data Visualisatie
Media Perspectives
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de Overheid
Eduvision Opleidingen
Wat is big data en hoe bemeester je het?
Wat is big data en hoe bemeester je het?
Nick van Breda
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
Lisette van Beusekom
Big data analytics johan quist
Big data analytics johan quist
Johan Quist
Big data, wat kun je ermee?
Big data, wat kun je ermee?
gera_p
Presentation LOD workshop ESI HHS
Presentation LOD workshop ESI HHS
eSociety Institute of The Hague University of Applied Sciences
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Proloog - Hackathon Rotterdam 12 oktober 2012
Proloog - Hackathon Rotterdam 12 oktober 2012
Peter Conradie
Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen)
Arjen de Vries
Big Data en Open Data
Big Data en Open Data
Bart Hanssens
Vodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stad
Chantal de Lie
Datajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraaf
peterverweij
Datajournalistiek voor redacteuren van de persgroep
Datajournalistiek voor redacteuren van de persgroep
peterverweij
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
IntoTheMinds
ITI workshop open data
ITI workshop open data
Marcel de Rink
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
Ikinnoveer
Oscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data Visualisatie
Media Perspectives
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de Overheid
Eduvision Opleidingen
Wat is big data en hoe bemeester je het?
Wat is big data en hoe bemeester je het?
Nick van Breda
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
Lisette van Beusekom
Big data analytics johan quist
Big data analytics johan quist
Johan Quist
Big data, wat kun je ermee?
Big data, wat kun je ermee?
gera_p
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
Proloog - Hackathon Rotterdam 12 oktober 2012
Proloog - Hackathon Rotterdam 12 oktober 2012
Peter Conradie

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
Use of social media for official statistics
Use of social media for official statistics
Piet J.H. Daas
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
Ntts2017 presentation 45
Ntts2017 presentation 45
Piet J.H. Daas
Big Data presentation Mannheim
Big Data presentation Mannheim
Piet J.H. Daas
Extracting information from ' messy' social media data
Extracting information from ' messy' social media data
Piet J.H. Daas
Gebruik van sociale media voor de offici谷le statistiek
Gebruik van sociale media voor de offici谷le statistiek
Piet J.H. Daas
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
Quality challenges in modernising business statistics
Quality challenges in modernising business statistics
Piet J.H. Daas
Quality Approaches to Big Data
Quality Approaches to Big Data
Piet J.H. Daas
Social media sentiment and consumer confidence
Social media sentiment and consumer confidence
Piet J.H. Daas
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
Strata Big data presentation
Strata Big data presentation
Piet J.H. Daas
Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
Use of social media for official statistics
Use of social media for official statistics
Piet J.H. Daas
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
Ntts2017 presentation 45
Ntts2017 presentation 45
Piet J.H. Daas
Big Data presentation Mannheim
Big Data presentation Mannheim
Piet J.H. Daas
Extracting information from ' messy' social media data
Extracting information from ' messy' social media data
Piet J.H. Daas
Gebruik van sociale media voor de offici谷le statistiek
Gebruik van sociale media voor de offici谷le statistiek
Piet J.H. Daas
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
Quality challenges in modernising business statistics
Quality challenges in modernising business statistics
Piet J.H. Daas
Quality Approaches to Big Data
Quality Approaches to Big Data
Piet J.H. Daas
Social media sentiment and consumer confidence
Social media sentiment and consumer confidence
Piet J.H. Daas
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
Strata Big data presentation
Strata Big data presentation
Piet J.H. Daas
Ad

Recently uploaded (11)

Comparative Genomics Methods And Protocols 1st Edition Joo C Setubal
Comparative Genomics Methods And Protocols 1st Edition Joo C Setubal
xbhamef758
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
kutuskaine
Multivariable Calculus 2nd Edition Brian E. Blank
Multivariable Calculus 2nd Edition Brian E. Blank
vcoxhiq738
Concepts in Strategic Management and Business Policy Globalization Innovation...
Concepts in Strategic Management and Business Policy Globalization Innovation...
ewlalgp855
The Psychology of Spine Surgery 1st Edition Andrew R. Block
The Psychology of Spine Surgery 1st Edition Andrew R. Block
ugcrokz061
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
misjzdqlx0124
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
ssdygsoq114
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
hsakvtrw562
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
axswigb793
A New Architecture For Functional Grammar Functional Grammar Series J Lachlan...
A New Architecture For Functional Grammar Functional Grammar Series J Lachlan...
ecnlxfkyv5483
The Ongoing Technological System Ait El Hadj Smal
The Ongoing Technological System Ait El Hadj Smal
bhfekrzdq718
Comparative Genomics Methods And Protocols 1st Edition Joo C Setubal
Comparative Genomics Methods And Protocols 1st Edition Joo C Setubal
xbhamef758
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
kutuskaine
Multivariable Calculus 2nd Edition Brian E. Blank
Multivariable Calculus 2nd Edition Brian E. Blank
vcoxhiq738
Concepts in Strategic Management and Business Policy Globalization Innovation...
Concepts in Strategic Management and Business Policy Globalization Innovation...
ewlalgp855
The Psychology of Spine Surgery 1st Edition Andrew R. Block
The Psychology of Spine Surgery 1st Edition Andrew R. Block
ugcrokz061
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...
misjzdqlx0124
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
ssdygsoq114
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
hsakvtrw562
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...
axswigb793
A New Architecture For Functional Grammar Functional Grammar Series J Lachlan...
A New Architecture For Functional Grammar Functional Grammar Series J Lachlan...
ecnlxfkyv5483
The Ongoing Technological System Ait El Hadj Smal
The Ongoing Technological System Ait El Hadj Smal
bhfekrzdq718
Ad

Bi dutch meeting data science

  • 1. Enkele voorbeelden Data Science, Big Data en de offici谷le statistiek Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes Alex Priem en Paul van den Hurk
  • 2. Overzicht 2 Het CBS Data en bronnen Waarom Big Data & Data Science? 3Vs en uitdagingen Voorbeelden Virtuele volkstelling Polisadministratie Verkeerslussen Mobiele telefoons Sociale mediaberichten
  • 3. Het CBS Het CBS produceerde in 2012 ongeveer 5000 offici谷le publicaties en tabellen Daar hebben we DATADATA voor nodig! 3
  • 4. Twee soorten databronnen Primaire data Secondaire data Onze eigen vragenlijsten Data van anderen - Administratieve bronnen - Nieuwe databronnen
  • 5. Data, data everywhere!Data, data everywhere! X
  • 6. Waarom Big Data? Snel beschikbaar Hoeveelheid Complex/Lastig Informatie extractie Populatie en dynamiek 6 3Vs
  • 7. Uitdagingen bij aanvang Praktisch Hoe komen we aan Big Data? Waar en hoe doen we de analyses? Juridisch Mogen we dit? Netjes werken: rekening houden met privacy gevoelige data (WBP) Kosten Het CBS betaald niet voor administratieve data. En voor Big Data? Methodologisch Methoden nodig om grote hoeveelheden data te analyseren Technisch Leren van computational statistics gerelateerde onderzoeksgebieden High Performance Computing technieken (parallelle verwerking) Mensen Hebben data scientists nodig: statistisch denkende mensen die kunnen programmeren, nieuwsgierig zijn en: buiten het traditionele steekproef paradigma kunnen denken! 7
  • 8. Onderzoek door het CBS Bevindingen onderzoek grote data bronnen Visualisaties: 1) Virtuele Volkstelling (17 miljoen records) 2) Polisadministratie (20 miljoen records) Big Data: 3) Verkeerslussen (100 miljoen records) 4) Mobiele telefonie (~500 miljoen records) 5) Sociale media (12 miljoen - 2 miljard records) 8
  • 9. Voorbeeld 1. Virtuele Volkstelling Volkstelling is verplicht, eens in 10-jaar In Nederland niet meer met vragenlijsten Laatste traditionele volkstelling in 1971 Nu door (her)gebruik van reeds verzamelde informatie Grootschalig koppelen van administratieve bronnen en enqu棚tegegevens Controleren van resultaat Hoe? Met een visualisatiemethode: Tableplot 9
  • 10. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) Numerieke variabelen Bereken gemiddelde (gem. leeftijd) Categoriale variabelen Verhouding aanwezige categorie谷n (man vs vrouw) 4. Plaatje plotten van geselecteerd aantal variabelen Kleurgebruik belangrijk tot 12 10
  • 11. Een tableplot van het testbestand 11
  • 12. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijk data 12
  • 13. Voorbeeld 2: Polisadministratie Bestand met de financi谷le gegevens van alle banen, uitkeringen en pensioenen in Nederland Verzameld door Belastingdienst en UWV Elke maand 20 miljoen records Hoe krijgen we inzicht in deze enorme bak data? Met een visualisatie: heat map 13
  • 15. leeftijd In 3D heatmap: Leeftijd, Inkomen, Aantal Na indikken leeftijd
  • 16. Voorbeeld 3: Verkeerslussen Verkeerslussen Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld Totaal en in verschillende lengtecategorie谷n Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) Veel data, zon 100 miljoen records per dag Locaties 16
  • 17. Aantal gedetecteerde voertuigen op 辿辿n dag in NL 17
  • 19. Correctie voor ontbrekende gegevens Corrigeren in blokken van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%) 19
  • 20. Totaal voertuigen gedurende de dag (snapshots)
  • 21. Voor verschillende lengtecategorie谷n Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 1 categorie 3 categori谷n 5 categori谷n Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m 21
  • 22. Kleine voertuigen Tijd (uur) ~75% van totaal 22
  • 23. Kleine & gemiddelde voertuigen Tijd (uur) 23
  • 24. Kleine, gemiddelde & grote voertuigen Tijd (uur) 24
  • 27. Voorbeeld 4: Mobiele telefoons Vrijwel elke Nederlander heeft een mobieltje Bijna altijd bij zich en staat vrijwel altijd aan Ideale informatiebron om: Met behulp van gegevens van providers: Verplaatsingsgedrag (Dag-populatie) Toerisme (nieuwe aanmeldingen op netwerk) Mensenmassas (bijv. bij evenementen) 27
  • 28. Dag-populatie Woonadres in GBA - Waar personen snachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie Data van 辿辿n provider - Data Dec 2012 en Jan 2013 - Eerste begin Dag-populatie 28
  • 29. Voorbeeld 5: Sociale media Nederlanders zijn erg actief op sociale media Bijna altijd bij zich en staat vrijwel altijd aan Steeds meer mensen hebben een smartphone! Mogelijke informatiebron voor: Welke onderwerpen zijn actueel: Aantal berichten en sentiment hierover Als meetinstrument te gebruiken voor: . Map by Eric Fischer (via Fast Company)
  • 30. Sociale media: Nederlandstalige berichten Nederlanders zijn erg actief op sociale media Mogelijke informatiebron: Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) Testen om nut en bruikbaarheid te controleren a. Inhoud: - Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard 30
  • 31. Sociale media: Twitter Onderwerpen Twitter Bijdrage (%) 0 10 20 30 40 50 Thema's Overige Media Sport Cultuur/events Vakantie Vrije tijd Vervoer Veiligheid Politiek Onderwijs Gezondheid ICT Weer Milieu Economie Wonen Relaties Werk (46%) (10%) (7%) (3%) (5%) 12 miljoen berichten31
  • 32. Sentiment in Sociale media Toegang tot Coosto database gekocht > 2 miljard publiek beschikbare NL-berichten Twitter, Facebook, Hyves, Webfora, Blogs etc. Sentiment van elk bericht Positief, negatief of neutraal Van alles geprobeerd Interessante insteek Gekeken naar Mood of the nation en vergeleken met het Consumenten vertrouwen van het CBS 32
  • 33. Consumenten vertrouwen, enqu棚te data Sentiment t.a.v. het economisch klimaat ~1000 respondenten/maand (posneg)as%oftotal(posneg)als%vantotaal Tijd 33
  • 34. Consumentenvertrouwen vs. sociale media Corr: 0.88 ~25 miljoen berichten/maand Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten(posneg)als%vantotaal Tijd 34
  • 35. Uitdagingen: Big Data en CBS Juridisch Routinematige toegang (niet alleen voor onderzoek)? Goed uitzoeken Praktisch Gaan we alle (micro)data in huis analyseren? Of bij de bronhouder of in de Cloud ? Methodologisch Big data bronnen registeren events En zijn niet het gevolg van een steekproefontwerp Grote behoefte aan theorievorming op dit terrein! Mensen Behoefte aan Data scientists op het CBS Zijn er momenteel niet veel (opleiden?) 35
  • 36. De toekomst van het CBS?