Dr. Piet Daas (CBS) - Statistiek en grote data bestandenAlmereDataCapital
油
Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere.
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
油
Key-Note presentatie op het Big Data symposium voor gezamenlijke provincies op 13 april 2016, georganiseerd door Geonovum in samenwerking met het Provinciaal Platform GEO (PP-GEO).
In deze presentatie wordt een beknopt overzicht van Big Data. Het geeft een introductie van het begrip big data, en de relatie met andere begrippen als Smart Cities, Internet of Things, en Open Data. Daarnaast komen een aantal "kwesties" aan de orde die met big data verbonden zijn, zoals privacy & security, opleiding, standaarden en architectuur, en worden een aantal huidige toepassingen van Big Data binnen de Nederlandse overheid uitgelicht. De presentatie geeft ook een visie op hoe provincies een co旦rdinerende en verbindende rol kunnen vervullen bij de ontwikkeling van Smart Provincies, en geeft aan hoe het Platform Making Sense for Society van Geonovum daarbij kan ondersteunen
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
油
Het kabinet Rutte II zet in op het gebruik van ICT als middel om de economie te stimuleren en de concurrentiepositie van Nederland te verbeteren. Hiervoor zijn 10 doorbraakprojecten gedefinieerd die zich richten op het vergroten van gebruik en kennis van ICT. Deze projecten versterken het nationale ICT-beleid zoals dat is vastgelegd in de Digitale Agenda en worden uitgevoerd in een samenwerking tussen overheid, onderzoek & wetenschap en het bedrijfsleven. Het doorbraakproject "Open (geo)data als grondstof voor groei en innovatie" richt zich op het op gang brengen van het gebruik van de Open Data en het wegnemen van belemmeringen die ondernemers ondervinden in het gebruiken van Open Data van de Nederlandse overheid. Het project kiest hierbij nadrukkelijk het perspectief van de vraag en zal vanuit die positie belemmeringen zoals privacy, bestuurlijke ambitie en de dynamiek markt/overheid agenderen. Het op gang brengen van de vraag zal gedaan worden door het organiseren van een aantal sectorgerichte Open Data estafettebijeenkomsten die maatschappelijke vraag, ondernemers die toepassingen ontwikkelen en aanbieders van open data bij elkaar brengt.
Workshop gegeven door Esri NL en de Nationale Denktank tijdens het Innovatie Tafel Infrastructuur congres. Open Data en Big Data zijn de besproken thema's betreffende het thema mobiliteit
Opening up social media publiek Nederlandsannetentije
油
Presentatie over enkele onderzoeken van het Center for eGovernment Studies rondom het publieksperspectief op social media in overheidscontext. Opening Up Conference Social Media & Gemeenten in congrescnetrum Lamot te Mechelen, Belgie.
Deze presentatie over de vijf online trends voor 2013 voor het veiligheidsdomein naar aanleiding van onderstaand artikel, is gehouden tijdens de Ambtenaar 2.0 dag 2013 in Zwolle.
http://www.frankwatching.com/archive/2013/01/09/vijf-sociale-media-trends-voor-het-veiligheidsdomein-in-2013/
De wereld verandert. Dit vertaalt zich ook in de manier waarop wij communiceren over vrije tijd. Deze wordt steeds digitaler. Maar wordt iedereen zo bereikt? Eric Goubin (Kortom) toont hoe je met laagdrempelige, inclusieve communicatie specifieke doelgroepen kunt blijven bereiken.
UiTforum 2016
dinsdag 18 oktober 2016
www.UiTnetwerk.be
GEO2.0 - Locatie als verbindende schakeledietvorst
油
De mogelijkheden om op basis van een lokatie gericht informatie op te vragen of te geven, zijn de laatste jaren enorm gegroeid.
Autonavigatie, mobiele telefoons, bankpasjes en bonuskaarten: bijna dagelijks maken we (ongemerkt) gebruik van lokatiegebonden informatie. Maar over welke informatie hebben we het nu? Wat is de rol van de overheid, het bedrijfsleven en de maatschappij? Hoe is het gesteld met de privacy? Deze sessie laat zien wat de mogelijkheden van lokatiegegevens zijn, maar gaat daarbij samen met u ook dieper in op de dilemma's en de keuze die we daarin kunnen maken.
Omgevingsanalyse 3.0: laat de informatie tot je komen!Roy Johannink
油
Op donderdag 14 november 2013 verzorgde Roy Johannink, senior adviseur Beleid en Onderzoek, een workshop over omgevingsanalyse tijdens de Vakdag Communicatie voor de politie. De vraag die daarbij centraal stond, luidde: Hoe benutten we de reacties van de omgeving op sociale media optimaal voor de politieprocessen? Omgevingsanalyses halen de buitenwereld naar binnen als basis voor een communicatiestrategie. Dat geldt voor zowel de dagelijkse communicatie als voor crisiscommunicatie. De laatste jaren is het analyseren van de omgeving veranderd door de komst van sociale media. Roy besprak tijdens zijn workshop hoe je daar als organisatie slim en effici谷nt op in kunt spelen. Tijdens de vakdag is de hashtag #CVP13 (Communicatie Vakdag Politie 2013) gebruikt.
Beschrijving van de opzet van het Media:Tijd project. In deze presentatie worden kort de twee onderdelen van dit project gepresenteerd: het tijdbestedingsonderzoek en de datafusie.
Big Data and official statistics with examples of their usePiet J.H. Daas
油
The document provides an overview of the work done by the Center for Big Data Statistics (CBDS) at Statistics Netherlands. It discusses several examples of using big data sources to produce official statistics:
1) Road sensor data was used to produce the first official big data-based statistics on traffic intensity and its correlation with GDP.
2) Mobile phone data was analyzed to produce statistics on mobility patterns, daytime population, and tourism.
3) AIS ship tracking data was analyzed to study ship movements and transhipment locations.
4) Web scraping and text analysis of company websites was used to identify innovative companies, including small companies not covered by traditional surveys.
5) Sentiment analysis and
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
油
Statistics Netherlands is facing IT infrastructure challenges due to the growing demand for processing large datasets and integrating new data sources. Solutions being considered include both parallelized and non-parallelized processing options using big data analytics platforms, cloud services, and GPU computing. A new data center is planned to be established to accommodate both traditional and big data processing needs, incorporating various technological advancements.
Workshop gegeven door Esri NL en de Nationale Denktank tijdens het Innovatie Tafel Infrastructuur congres. Open Data en Big Data zijn de besproken thema's betreffende het thema mobiliteit
Opening up social media publiek Nederlandsannetentije
油
Presentatie over enkele onderzoeken van het Center for eGovernment Studies rondom het publieksperspectief op social media in overheidscontext. Opening Up Conference Social Media & Gemeenten in congrescnetrum Lamot te Mechelen, Belgie.
Deze presentatie over de vijf online trends voor 2013 voor het veiligheidsdomein naar aanleiding van onderstaand artikel, is gehouden tijdens de Ambtenaar 2.0 dag 2013 in Zwolle.
http://www.frankwatching.com/archive/2013/01/09/vijf-sociale-media-trends-voor-het-veiligheidsdomein-in-2013/
De wereld verandert. Dit vertaalt zich ook in de manier waarop wij communiceren over vrije tijd. Deze wordt steeds digitaler. Maar wordt iedereen zo bereikt? Eric Goubin (Kortom) toont hoe je met laagdrempelige, inclusieve communicatie specifieke doelgroepen kunt blijven bereiken.
UiTforum 2016
dinsdag 18 oktober 2016
www.UiTnetwerk.be
GEO2.0 - Locatie als verbindende schakeledietvorst
油
De mogelijkheden om op basis van een lokatie gericht informatie op te vragen of te geven, zijn de laatste jaren enorm gegroeid.
Autonavigatie, mobiele telefoons, bankpasjes en bonuskaarten: bijna dagelijks maken we (ongemerkt) gebruik van lokatiegebonden informatie. Maar over welke informatie hebben we het nu? Wat is de rol van de overheid, het bedrijfsleven en de maatschappij? Hoe is het gesteld met de privacy? Deze sessie laat zien wat de mogelijkheden van lokatiegegevens zijn, maar gaat daarbij samen met u ook dieper in op de dilemma's en de keuze die we daarin kunnen maken.
Omgevingsanalyse 3.0: laat de informatie tot je komen!Roy Johannink
油
Op donderdag 14 november 2013 verzorgde Roy Johannink, senior adviseur Beleid en Onderzoek, een workshop over omgevingsanalyse tijdens de Vakdag Communicatie voor de politie. De vraag die daarbij centraal stond, luidde: Hoe benutten we de reacties van de omgeving op sociale media optimaal voor de politieprocessen? Omgevingsanalyses halen de buitenwereld naar binnen als basis voor een communicatiestrategie. Dat geldt voor zowel de dagelijkse communicatie als voor crisiscommunicatie. De laatste jaren is het analyseren van de omgeving veranderd door de komst van sociale media. Roy besprak tijdens zijn workshop hoe je daar als organisatie slim en effici谷nt op in kunt spelen. Tijdens de vakdag is de hashtag #CVP13 (Communicatie Vakdag Politie 2013) gebruikt.
Beschrijving van de opzet van het Media:Tijd project. In deze presentatie worden kort de twee onderdelen van dit project gepresenteerd: het tijdbestedingsonderzoek en de datafusie.
Big Data and official statistics with examples of their usePiet J.H. Daas
油
The document provides an overview of the work done by the Center for Big Data Statistics (CBDS) at Statistics Netherlands. It discusses several examples of using big data sources to produce official statistics:
1) Road sensor data was used to produce the first official big data-based statistics on traffic intensity and its correlation with GDP.
2) Mobile phone data was analyzed to produce statistics on mobility patterns, daytime population, and tourism.
3) AIS ship tracking data was analyzed to study ship movements and transhipment locations.
4) Web scraping and text analysis of company websites was used to identify innovative companies, including small companies not covered by traditional surveys.
5) Sentiment analysis and
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
油
Statistics Netherlands is facing IT infrastructure challenges due to the growing demand for processing large datasets and integrating new data sources. Solutions being considered include both parallelized and non-parallelized processing options using big data analytics platforms, cloud services, and GPU computing. A new data center is planned to be established to accommodate both traditional and big data processing needs, incorporating various technological advancements.
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
油
1. The documents discuss methodology, quality, and IT aspects of big data within the ESSnet Big Data project.
2. Key topics addressed include the big data processing lifecycle, metadata management challenges, and quality aspects like coverage, accuracy, and comparability over time.
3. Common themes that emerged across work packages include the need for a unified framework for data integration and metadata, and the value of shared software and training resources.
Piet Daas and Marco Puts from Statistics Netherlands presented on big data methods and techniques. They discussed the four phases of working with big data: collect, process, analyze, and disseminate. They provided examples of each phase using road sensor data to measure traffic, scraping company websites to identify innovative firms, and using aerial images to detect solar panels. They emphasized the need to preprocess and clean big data due to its noisy nature. When analyzing big data, they discussed dealing with imbalanced datasets, such as through oversampling rare cases. They concluded by showing examples of visualizing big data results as dot maps and animations.
Use of social media for official statisticsPiet J.H. Daas
油
The document discusses the challenges and potential of using social media data for producing official statistics, highlighting issues like response burden and decreasing response rates. It outlines various applications, including sentiment analysis, measuring social tension, and identifying individuals' housing intentions, emphasizing the importance of data noise reduction and population accuracy. Additionally, it mentions the need for developing models to effectively utilize this rich data source for statistical purposes.
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
油
1) The document discusses three types of using big data in statistics: (1) combined with survey data, (2) from a single complete source, and (3) from a single incomplete source.
2) Examples of type 2 include road sensor traffic data and web-scraped price data. These sources completely cover their target populations.
3) Examples of type 3 include social media data and mobile phone data. Only part of the target population is included, so ways must be found to deal with the missing part, such as determining the characteristics of the included population.
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
油
Piet Daas presents on responsible data science at Statistics Netherlands and implications for big data research. Some key points:
- Statistics Netherlands uses a variety of administrative data and surveys in its Social Statistical Database to produce statistics, ensuring privacy through anonymization and access restrictions.
- The Center for Big Data Statistics aims to produce new real-time statistics using big data sources while reducing data collection burdens and advancing methodology. Challenges include a lack of established big data methods and ensuring transparency of models.
- Responsible data science principles of fairness, accuracy, confidentiality and transparency must be further developed to fully leverage big data's potential while preventing harms, such as through de-identification and model explainability.
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
油
The document summarizes work done at the Center for Big Data Statistics, including case studies and methodological research. Some examples of projects are:
1) Visualizing income data in 2D and 3D heat maps showing relationships between age, income, and amount.
2) Analyzing road sensor data to show relationships between traffic intensity and GDP.
3) Tracking "ginger bread" product sales from scanner data around Saint Nicolas festivities.
4) Developing a social tension indicator using Twitter data.
5) Identifying web-only shops and innovative companies using web page archives.
The document outlines goals for a data-driven society, including the creation of real-time statistics and the integration of various data sources to enhance understanding of big data methodology while addressing privacy concerns. It presents a working program for 2017 focusing on mobility, tourism, and the innovative use of big data through experimental products and partnerships. Examples of beta products demonstrate applications like social unrest indicators and traffic intensity analysis, showcasing the potential for utilizing big data in official statistics.
1) Statistics Netherlands is working on several Big Data projects to produce new official statistics in a timely manner using large alternative data sources like road sensors.
2) Their Center for Big Data Statistics aims to reduce response burden, deepen methodological knowledge, and stimulate cooperation using an ecosystem of partners.
3) As a proof of concept, they have produced the first Big Data-based official statistic on regional traffic intensity using minute-level road sensor data from 20,000 sensors on Dutch highways. This required data cleaning, transformation, estimation techniques, and integrating skills from statistics, IT, and subject-matter expertise.
Extracting information from ' messy' social media dataPiet J.H. Daas
油
This document summarizes research conducted by Statistics Netherlands on using social media data for official statistics. It discusses (1) determining sentiment in social media and its correlation with consumer confidence surveys, (2) developing an initial social media-based (un)safety monitor, and (3) analyzing the composition of social media users to determine background characteristics like gender. Key findings include high correlation between sentiment and surveys, the ability to predict consumer confidence from sentiment, and developing accurate methods to classify user gender using multiple social media signals.
This document summarizes the experiences of Statistics Netherlands with big data research. It discusses two types of data - primary data collected through surveys and secondary data from administrative sources and big data. It provides examples of big data research conducted using road sensor data, mobile phone data, and social media data. Lessons learned include the need for skills in accessing and analyzing large datasets, dealing with noisy unstructured data, and addressing privacy and costs. Important future research topics mentioned are profiling units in big data, data editing at large scale, and data reduction techniques.
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
油
This document discusses profiling Big Data sources to assess their selectivity. It analyzes a random sample of 1,000 Dutch Twitter users to determine gender selectivity. Several methods are used to infer gender from profile elements: (1) First names are analyzed using a Dutch name database, (2) Bios and tweets are examined for gendered language, (3) Pictures are processed with face recognition software. Overall results show first names provided the highest diagnostic odds ratio for determining gender, while profile pictures provided the lowest. The study aims to develop clever ways to combine these methods for more accurate gender profiling of social media users.
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
油
This document discusses using road sensor data for official statistics in the Netherlands. It describes challenges around dealing with large volumes of data, creating historical time series, and ensuring accuracy. A statistical process is outlined that cleans, transforms, selects, estimates from and frames the raw road sensor data, which records over 230 million vehicle counts per day. Key steps include selecting only necessary variables from valid data on main routes, putting daily records together, cleaning using recursive Bayesian estimation and a hidden Markov model, and estimating traffic indices from the cleaned data.
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
油
This document summarizes the experiences of Statistics Netherlands with big data. It discusses two types of data - primary data from their own surveys and secondary data from other sources like administrative records and big data. It provides examples of exploratory big data studies conducted using road sensor data, mobile phone data, and social media data. It finds that combining IT skills with statistical methodology is important for working with big data. Skills in data science, machine learning, and extracting information from diverse sources like text and images are needed. The document also discusses lessons learned regarding the types of big data, accessing and analyzing large volumes of data, dealing with noisy and unstructured data, and moving beyond simple correlation.
Big Data presentation for Statistics CanadaPiet J.H. Daas
油
The document discusses the integration of big data into official statistics, highlighting experiences from Statistics Netherlands with various data sources such as road sensors, mobile phone activity, and social media. It emphasizes the need for new skills and methodologies to handle big data challenges, including data editing, reduction, and dealing with unstructured data. Key lessons learned include the importance of understanding diverse data types, analytical capabilities, privacy issues, and the necessity for a data-driven mindset.
Quality challenges in modernising business statisticsPiet J.H. Daas
油
This document discusses quality challenges in modernizing official business statistics due to two fundamental changes: commercialization of statistics and globalization. It notes these changes have resulted in different statistics being needed and different ways of producing statistics, using available administrative data, secondary sources, and modernizing survey methodology. It evaluates the qualities and disqualities of various data sources like surveys, administrative data, and big data. Finally, it tentatively concludes statistical systems need to develop new indicators and integrate multiple data sources using their individual qualities, while also modernizing business surveys. The goal is to update multi-source and mixed-mode strategies for producing official statistics.
This document discusses quality approaches for big data in statistics. It outlines limitations of established quality frameworks for big data, including population not being known, unbalanced data coverage, and unclear relevance of data sources. Options presented to address these limitations include deriving background information, using modeling approaches, and calibration or correlation studies. The document advocates that statistical organizations validate information from other big data producers, get to know big data sources, use big data for efficiency and early indicators, and create an environment conducive to innovative big data approaches.
Social media sentiment and consumer confidencePiet J.H. Daas
油
This document summarizes a workshop on using big data for forecasting and statistics. It discusses using social media sentiment data from over 3.5 billion Dutch messages to analyze consumer confidence. Sentiment is determined from words and averages sentiment per time period. Facebook sentiment most strongly correlates with later consumer confidence figures. Sentiment from the first half of the month best predicts the consumer confidence published around the 20th, indicating sentiment may rapidly forecast consumer attitudes. While units differ, social media sentiment seems to track the "mood of the nation" and could provide a rapid indicator of consumer confidence.
Opportunities and methodological challenges of Big Data for official statist...Piet J.H. Daas
油
1) The document discusses opportunities and challenges of using Big Data for official statistics. It describes Big Data as data that is difficult to collect, store, or process using conventional statistical systems due to issues of volume, velocity, structure, or variety.
2) The author outlines their experiences at Statistics Netherlands using various Big Data sources like traffic sensor data, mobile phone data, and social media data. They discuss methodological challenges in accessing and analyzing large volumes of data, dealing with noisy and unstructured data, and addressing issues of selectivity.
3) The document emphasizes the need for new skills like data science, high performance computing, and people with open and pragmatic mindsets to work with Big Data. It also addresses privacy
Logical Aspects Of Computational Linguistics 6th International Conference Lac...soremijolet
油
Logical Aspects Of Computational Linguistics 6th International Conference Lacl 2011 Montpellier France June 29 July 1 2011 Proceedings 1st Edition Maxime Amblard Auth
Logical Aspects Of Computational Linguistics 6th International Conference Lacl 2011 Montpellier France June 29 July 1 2011 Proceedings 1st Edition Maxime Amblard Auth
Logical Aspects Of Computational Linguistics 6th International Conference Lacl 2011 Montpellier France June 29 July 1 2011 Proceedings 1st Edition Maxime Amblard Auth
The Making Of Gratians Decretum 1st Edition Anders Winrothkutuskaine
油
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
The Making Of Gratians Decretum 1st Edition Anders Winroth
Idealization Xiii Modeling In History Krzysztof Brzechczynbukibuzga
油
Idealization Xiii Modeling In History Krzysztof Brzechczyn
Idealization Xiii Modeling In History Krzysztof Brzechczyn
Idealization Xiii Modeling In History Krzysztof Brzechczyn
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)hsakvtrw562
油
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
RECENT DEVELOPMENTS IN BIOENERGY RESEARCH Vijai G. Gupta (Editor)
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed ...misjzdqlx0124
油
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed Edition Ralph Kimball
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed Edition Ralph Kimball
The data warehouse toolkit the complete guide to dimensional modeling 2nd ed Edition Ralph Kimball
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACC...axswigb793
油
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACCP Y. H. Hui
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACCP Y. H. Hui
Foodborne Disease Handbook. Volume 2: Viruses, Parasites, Pathogens, and HACCP Y. H. Hui
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manualrbjtfra9517
油
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
Introduction to Wireless and Mobile Systems 4th Edition Agrawal Solutions Manual
Sociology A Down to Earth Approach 13th Edition Henslin Test Bankssdygsoq114
油
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
Sociology A Down to Earth Approach 13th Edition Henslin Test Bank
The Jewish People In America Vol17 Peter Wiernikkipgfjrgnj444
油
Ad
Big data @ CBS
1. Big Data @ CBS
Overzicht van ervaringen
Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge,
Alex Priem and May Offermans
4 Februari 2014, Utrecht
2. Overzicht
Big Data
Onderzoekthema bij het CBS
Verkennende studies
Verkeerslusdata (NDW-data)
Mobiele telefoon data
Sociale media berichten
Ervaringen en uitdagingen
Methodologische & technische uitdagingen
Nut van visualisaties
Benodigde vaardigheden
2
6. Welke bronnen verkend?
Big Data bronnen die nauwgezet zijn onderzocht
1) Verkeerslusdata
~100 miljoen records / dag
(in totaal 9 miljard records)
2) Mobiele telefoon data ~36 miljoen records / dag
(in totaal 500 miljoen records)
3) Sociale media berichten ~3 miljoen records / dag
(in totaal > 3 miljard records)
6
7. Verkeerslussen
Verkeerslusdata
Elke minuut (24/7) worden het aantal passerende
voertuigen geteld door ruim 20.000 lussen in
Nederland
Totaal en verschillende lengtecategorie谷n
Mooie databron voor de Verkeer en Vervoer
statistieken van het CBS (en meer)
Heel veel data, zon 100 miljoen records per dag
Locaties
7
20. 2) Mobiele telefoondata
Gebruik mobiele telefoon als databron
Vrijwel iedereen heeft een mobieltje
Bij zich en bijna altijd aan!
Steeds meer mensen hebben een smart phone
Mobieltjes worden erg vaak gebruikt gedurende de dag
Kun je mobiele telefoongegevens gebruiken voor de offici谷le
statistiek?
Verplaatsingsgedrag (van mobieltjes)
Dagpopulatie (van mobieltjes)
Toerisme (nieuw geregistreerde telefoons op het netwerk)
Er is data van 辿辿n mobiele telefoonmaatschappij gebruikt (!)
Eerste test: geanonimiseerde microdata (periode van 14 dagen)
Later: uuraggregaten per gebied
20
21. Verplaatsingsgedrag van mobiele telefoons
Verplaatsing van erg actieve bellers
- gedurende een 14-daagse periode
Gebaseerd op:
- Bel- en SMS-activiteit
- meerdere keren per dag
- Locatie gebaseerd op GSM-mast
waarmee telefoon verbonden is
Opvallend:
- Bevat de 5 grote steden
- Maar veel minder in het Noorden
en Zeeland
21
22. Dag populatie
Per gebied veranderingen
in gebruik mobieltjes
7 & 8 Mei 2013
Geaggregeerd per gebied
Alleen gegevens gebruikt
bij > 15 gebeurtenissen
per uur
22
24. Social media
Nederlanders zijn erg actief op sociale media
Bijna altijd bij zich en staat vrijwel altijd aan
Steeds meer mensen hebben een smartphone!
Mogelijke informatiebron voor:
Welke onderwerpen zijn actueel:
Aantal berichten en sentiment hierover
Als meetinstrument te gebruiken voor:
.
24
Map by Eric Fischer (via Fast Company)
25. Sociale media berichten
Nederlanders zijn erg actief op Sociale media
Wat voor informatie delen ze?
Kunnen we hier iets mee?
Het is erg snel beschikbaar!
> Welke onderwerpen worden besproken?
Inhoud:
Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen
Sentiment
Sentiment in NLtalige berichten bekeken: allemaal > 3 miljard
25
26. Relatie CBS-themas en Twitter
Thema's
Onderwerpen Twitter
Werk
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Onderwijs
Politiek
Veiligheid
Vervoer
Vrije tijd
Vakantie
Cultuur/events
Sport
Media
Overige
(5%)
(3%)
(10%)
(7%)
(46%)
0
26
10
20
30
40
50
Bijdrage (%)
12 miljoen berichten
27. Sentiment in social media
Toegang gekocht tot database van Coosto
> 3 miljard publiekelijk beschikbare sociale mediaberichten
(uitsluitende NLtalig)
Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc.
Ook bepaling sentiment van elk bericht
Positief, negatief of neutraal
Interessant resultaat
Veranderingen in het (maandelijkse) sentiment
27
31. Ervaringen en uitdagingen
De volgende leerpunten zijn ge誰dentificeerd bij
het werken met Big Data op het CBS.
1) Omgaan met en analyse van zeer grote
hoeveelheden data
2) Nut van visualisatiemethoden
3) Omgaan met ruizige en ongestructureerde data
4) Omgaan met selectiviteit van de data (populatie)
5) Van correlatie naar oorzakelijkheid
6) Mensen nodig met de juiste vaardigheden
7) Bewust zijn van privacy en beveiligingsissues
We hebben nog niet alle opgelost (privacy wel hoor)
31