際際滷

際際滷Share a Scribd company logo
Statistical Paradises and
Paradoxes in Big Data
Tankar om Xiao-Li Mengs artikel
Dan Hedlin
Statistiska institutionen,
Stockholms universitet
Dan Hedlin, Department of Statistics, 2019 2
Ur Qvintensen
2010/2
Meng, X.-L. (2018). Statistical paradises and
paradoxes in big data (I): Law of large populations,
big data paradox, and the 2016 US presidential
election. The Annals of Applied Statistics.
Dan Hedlin, Department of Statistics, 2019 3
F旦r att kunna dra
statistiskt s辰kra slutsatser
till en population fr奪n ett
stickprov, kr辰vs att man har
dragit ett slumpm辰ssigt
urval utifr奪n en aktuell ram
旦ver de som ing奪r i m奪l-
populationen, och som 辰r
m旦jliga att n奪. (Dahmstr旦m 2011, p. 88)
Dan Hedlin, Department of Statistics, 2019 4
Vad g辰ller f旦r urval och bortfall?
 Ignorerbar urvals- och svarsmekanism:
Inget samband mellan urvals- och
svarssannolikheter och det man unders旦ker
(Little 1982, Smith 1983)
 G辰ller vid slumpm辰ssigt urval och slumpm辰ssigt
bortfall men 辰ven vid vissa icke-slumpm辰ssiga
urval
Dan Hedlin, Department of Statistics, 2019 5
 Men 辰ven om det finns samband, kan
man justera f旦r det s奪 辰r det ok
 Poststratifiering, v辰gning
 SCB anv辰nder kalibrering (S辰rndal och Lundstr旦m
2005)
Dan Hedlin, Department of Statistics, 2019 6
Felet = Differens mellan skattat
medelv辰rde och sant medelv辰rde
Felet 辰r en produkt av
1. Datakvalitet
2. Datakvantitet
3. Problemets sv奪righetsgrad
(Meng 2018)
Dan Hedlin, Department of Statistics, 2019 7
Register / Big data
 Felet, produkt (multiplikation) av:
1. Korrelation mellan selektion och
unders旦kningsvariabel
2. Roten ur drop-out odds: andel ej
unders旦kta genom andel unders旦kta
3. Unders旦kningsvariabelns spridning
(standardavvikelse)
Dan Hedlin, Department of Statistics, 2019 8
Bias orsakad av bortfall i under-
s旦kningar med slumpm辰ssigt urval
 Relativ bias = (V辰ntev辰rde av skattning  sant
v辰rde) dividerat med sant v辰rde
Produkt:
1. Korrelation mellan selektion och
unders旦kningsvariabel ()
2. Svarssannolikheternas spridning (cv)
3. Unders旦kningsvariabelns spridning (cv)
(Bethlehem 1988)
Dan Hedlin, Department of Statistics, 2019 9
Vad 辰r b辰st?
1. Slumpm辰ssigt urval av 1% av
populationen men 40% bortfall
2. Register som t辰cker 80% av
populationen
Exempel fr奪n Meng (2018)
Dan Hedlin, Department of Statistics, 2019 10
Beror p奪 tre faktorer
1. Kvoten av tv奪 drop-out odds:
 Urvalsunders旦kning (1  )/,  =


 Register 
 Oddskvoten: urvalsunders旦kningens drop-
out odds dividerad med registrets drop-out
odds, OK
2. Registrets korrelation,  
3. Urvalsunders旦kningens korrelation, 
Dan Hedlin, Department of Statistics, 2019 11
Villkor f旦r att register ska vara b辰st
       (Meng 2018)
Mengs exempel:
1. Slumpm辰ssigt urval av 1% av
populationen men 40% bortfall
2. Register som t辰cker 80% av
populationen
 Roten ur OK 辰r ungef辰r 26
 Ganska s辰kert att registret 辰r b辰st
Dan Hedlin, Department of Statistics, 2019 12
Ett till exempel,
population 7.5 miljoner
1. Slumpm辰ssigt urval av 0.1% av
populationen men 60% bortfall, 3000
svarande
2. Panel med 100 000 personer, alla svarar
 Roten ur OK 辰r ungef辰r 6
 Sv奪rt att s辰ga vad som 辰r b辰st
Dan Hedlin, Department of Statistics, 2019 13
Designeffekt =
den varians man f奪r med vald metod
Dividerad med
den varians man hade f奪tt med OSU
Dan Hedlin, Department of Statistics, 2019 14
Lack-of-design effect
 MSE (big data) / MSE (OSU utan bortfall)
=
Populationsstorleken g奪nger data defect
index
 Data defect index 辰r v辰ntev辰rdet av
kvadraten av korrelationen f旦r big data
 Felet i skattningen blir st旦rre ju st旦rre
population!
 Return of the long-forgotten monster
N
(Meng 2018, s. 698)
Dan Hedlin, Department of Statistics, 2019 15
Law of large populations
 Felet / roten ur variansen under OSU
=
Roten ur populationsstorleken g奪nger
korrelationen f旦r big data
 The bigger the data, the surer we fool
ourselves
Dan Hedlin, Department of Statistics, 2019 16
(Meng 2018, s. 702)
Antag:
1. Big data som t辰cker halva populationen
2. Korrelationen f旦r big data 辰r 0.05
 Kan inte bli b辰ttre 辰n ett slumpm辰ssigt
urval p奪 400 personer, utan bortfall
Dan Hedlin, Department of Statistics, 2019 17
(Meng 2018)
Men man kan ju v辰ga data
 Den gamla metoden poststratifiering
fungerar generellt bra
 Men man kommer aldrig att reducera
bortfallsfelet eller big data-felet till noll
 F旦r det kr辰vs att man har all information
som f旦rklarar selektionsmekanismen,
och det har man nu inte.
Dan Hedlin, Department of Statistics, 2019 18
  what is big about Big Data is the
number of intellectually and
technologically challenging problems
that keep many of us sleepless either
because we are too excited or too
frustrated.
Dan Hedlin, Department of Statistics, 2019 19
(Meng 2018, s. 722)
References
 Bethlehem, J. (1988). Reduction of nonresponse bias through regression
estimation. Journal of Official Statistics, 4(3), 51-60.
 Dahmstr旦m, K. (2011). Fr奪n datainsamling till rapport: att g旦ra en
statistisk unders旦kning. 5th ed. Lund: Studentlitteratur.
 Little, R. J.A. (1982). Models for Nonresponse in Sample Surveys. Journal
of the American Statistical Association, 77, 237-250.
 Meng, X.-L. (2018). Statistical paradises and paradoxes in big data
(I): Law of large populations, big data paradox, and the 2016 US
presidential election. The Annals of Applied Statistics.
 Smith, T.M.F. (1983). On the validity of inferences from non-random
sample. Journal of the Royal Statistical Society, Series A, 146,
394-403.
 S辰rndal, C.-E. och Lundstr旦m, S. (2012). Estimation in Surveys with
Nonresponse. New York: Wiley.
Dan Hedlin, Department of Statistics, 2019 20

More Related Content

2 dan-hedlin-stockholms-universitet

  • 1. Statistical Paradises and Paradoxes in Big Data Tankar om Xiao-Li Mengs artikel Dan Hedlin Statistiska institutionen, Stockholms universitet
  • 2. Dan Hedlin, Department of Statistics, 2019 2 Ur Qvintensen 2010/2
  • 3. Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Dan Hedlin, Department of Statistics, 2019 3
  • 4. F旦r att kunna dra statistiskt s辰kra slutsatser till en population fr奪n ett stickprov, kr辰vs att man har dragit ett slumpm辰ssigt urval utifr奪n en aktuell ram 旦ver de som ing奪r i m奪l- populationen, och som 辰r m旦jliga att n奪. (Dahmstr旦m 2011, p. 88) Dan Hedlin, Department of Statistics, 2019 4
  • 5. Vad g辰ller f旦r urval och bortfall? Ignorerbar urvals- och svarsmekanism: Inget samband mellan urvals- och svarssannolikheter och det man unders旦ker (Little 1982, Smith 1983) G辰ller vid slumpm辰ssigt urval och slumpm辰ssigt bortfall men 辰ven vid vissa icke-slumpm辰ssiga urval Dan Hedlin, Department of Statistics, 2019 5
  • 6. Men 辰ven om det finns samband, kan man justera f旦r det s奪 辰r det ok Poststratifiering, v辰gning SCB anv辰nder kalibrering (S辰rndal och Lundstr旦m 2005) Dan Hedlin, Department of Statistics, 2019 6
  • 7. Felet = Differens mellan skattat medelv辰rde och sant medelv辰rde Felet 辰r en produkt av 1. Datakvalitet 2. Datakvantitet 3. Problemets sv奪righetsgrad (Meng 2018) Dan Hedlin, Department of Statistics, 2019 7
  • 8. Register / Big data Felet, produkt (multiplikation) av: 1. Korrelation mellan selektion och unders旦kningsvariabel 2. Roten ur drop-out odds: andel ej unders旦kta genom andel unders旦kta 3. Unders旦kningsvariabelns spridning (standardavvikelse) Dan Hedlin, Department of Statistics, 2019 8
  • 9. Bias orsakad av bortfall i under- s旦kningar med slumpm辰ssigt urval Relativ bias = (V辰ntev辰rde av skattning sant v辰rde) dividerat med sant v辰rde Produkt: 1. Korrelation mellan selektion och unders旦kningsvariabel () 2. Svarssannolikheternas spridning (cv) 3. Unders旦kningsvariabelns spridning (cv) (Bethlehem 1988) Dan Hedlin, Department of Statistics, 2019 9
  • 10. Vad 辰r b辰st? 1. Slumpm辰ssigt urval av 1% av populationen men 40% bortfall 2. Register som t辰cker 80% av populationen Exempel fr奪n Meng (2018) Dan Hedlin, Department of Statistics, 2019 10
  • 11. Beror p奪 tre faktorer 1. Kvoten av tv奪 drop-out odds: Urvalsunders旦kning (1 )/, = Register Oddskvoten: urvalsunders旦kningens drop- out odds dividerad med registrets drop-out odds, OK 2. Registrets korrelation, 3. Urvalsunders旦kningens korrelation, Dan Hedlin, Department of Statistics, 2019 11
  • 12. Villkor f旦r att register ska vara b辰st (Meng 2018) Mengs exempel: 1. Slumpm辰ssigt urval av 1% av populationen men 40% bortfall 2. Register som t辰cker 80% av populationen Roten ur OK 辰r ungef辰r 26 Ganska s辰kert att registret 辰r b辰st Dan Hedlin, Department of Statistics, 2019 12
  • 13. Ett till exempel, population 7.5 miljoner 1. Slumpm辰ssigt urval av 0.1% av populationen men 60% bortfall, 3000 svarande 2. Panel med 100 000 personer, alla svarar Roten ur OK 辰r ungef辰r 6 Sv奪rt att s辰ga vad som 辰r b辰st Dan Hedlin, Department of Statistics, 2019 13
  • 14. Designeffekt = den varians man f奪r med vald metod Dividerad med den varians man hade f奪tt med OSU Dan Hedlin, Department of Statistics, 2019 14
  • 15. Lack-of-design effect MSE (big data) / MSE (OSU utan bortfall) = Populationsstorleken g奪nger data defect index Data defect index 辰r v辰ntev辰rdet av kvadraten av korrelationen f旦r big data Felet i skattningen blir st旦rre ju st旦rre population! Return of the long-forgotten monster N (Meng 2018, s. 698) Dan Hedlin, Department of Statistics, 2019 15
  • 16. Law of large populations Felet / roten ur variansen under OSU = Roten ur populationsstorleken g奪nger korrelationen f旦r big data The bigger the data, the surer we fool ourselves Dan Hedlin, Department of Statistics, 2019 16 (Meng 2018, s. 702)
  • 17. Antag: 1. Big data som t辰cker halva populationen 2. Korrelationen f旦r big data 辰r 0.05 Kan inte bli b辰ttre 辰n ett slumpm辰ssigt urval p奪 400 personer, utan bortfall Dan Hedlin, Department of Statistics, 2019 17 (Meng 2018)
  • 18. Men man kan ju v辰ga data Den gamla metoden poststratifiering fungerar generellt bra Men man kommer aldrig att reducera bortfallsfelet eller big data-felet till noll F旦r det kr辰vs att man har all information som f旦rklarar selektionsmekanismen, och det har man nu inte. Dan Hedlin, Department of Statistics, 2019 18
  • 19. what is big about Big Data is the number of intellectually and technologically challenging problems that keep many of us sleepless either because we are too excited or too frustrated. Dan Hedlin, Department of Statistics, 2019 19 (Meng 2018, s. 722)
  • 20. References Bethlehem, J. (1988). Reduction of nonresponse bias through regression estimation. Journal of Official Statistics, 4(3), 51-60. Dahmstr旦m, K. (2011). Fr奪n datainsamling till rapport: att g旦ra en statistisk unders旦kning. 5th ed. Lund: Studentlitteratur. Little, R. J.A. (1982). Models for Nonresponse in Sample Surveys. Journal of the American Statistical Association, 77, 237-250. Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Smith, T.M.F. (1983). On the validity of inferences from non-random sample. Journal of the Royal Statistical Society, Series A, 146, 394-403. S辰rndal, C.-E. och Lundstr旦m, S. (2012). Estimation in Surveys with Nonresponse. New York: Wiley. Dan Hedlin, Department of Statistics, 2019 20