3. Meng, X.-L. (2018). Statistical paradises and
paradoxes in big data (I): Law of large populations,
big data paradox, and the 2016 US presidential
election. The Annals of Applied Statistics.
Dan Hedlin, Department of Statistics, 2019 3
4. F旦r att kunna dra
statistiskt s辰kra slutsatser
till en population fr奪n ett
stickprov, kr辰vs att man har
dragit ett slumpm辰ssigt
urval utifr奪n en aktuell ram
旦ver de som ing奪r i m奪l-
populationen, och som 辰r
m旦jliga att n奪. (Dahmstr旦m 2011, p. 88)
Dan Hedlin, Department of Statistics, 2019 4
5. Vad g辰ller f旦r urval och bortfall?
Ignorerbar urvals- och svarsmekanism:
Inget samband mellan urvals- och
svarssannolikheter och det man unders旦ker
(Little 1982, Smith 1983)
G辰ller vid slumpm辰ssigt urval och slumpm辰ssigt
bortfall men 辰ven vid vissa icke-slumpm辰ssiga
urval
Dan Hedlin, Department of Statistics, 2019 5
6. Men 辰ven om det finns samband, kan
man justera f旦r det s奪 辰r det ok
Poststratifiering, v辰gning
SCB anv辰nder kalibrering (S辰rndal och Lundstr旦m
2005)
Dan Hedlin, Department of Statistics, 2019 6
7. Felet = Differens mellan skattat
medelv辰rde och sant medelv辰rde
Felet 辰r en produkt av
1. Datakvalitet
2. Datakvantitet
3. Problemets sv奪righetsgrad
(Meng 2018)
Dan Hedlin, Department of Statistics, 2019 7
8. Register / Big data
Felet, produkt (multiplikation) av:
1. Korrelation mellan selektion och
unders旦kningsvariabel
2. Roten ur drop-out odds: andel ej
unders旦kta genom andel unders旦kta
3. Unders旦kningsvariabelns spridning
(standardavvikelse)
Dan Hedlin, Department of Statistics, 2019 8
9. Bias orsakad av bortfall i under-
s旦kningar med slumpm辰ssigt urval
Relativ bias = (V辰ntev辰rde av skattning sant
v辰rde) dividerat med sant v辰rde
Produkt:
1. Korrelation mellan selektion och
unders旦kningsvariabel ()
2. Svarssannolikheternas spridning (cv)
3. Unders旦kningsvariabelns spridning (cv)
(Bethlehem 1988)
Dan Hedlin, Department of Statistics, 2019 9
10. Vad 辰r b辰st?
1. Slumpm辰ssigt urval av 1% av
populationen men 40% bortfall
2. Register som t辰cker 80% av
populationen
Exempel fr奪n Meng (2018)
Dan Hedlin, Department of Statistics, 2019 10
11. Beror p奪 tre faktorer
1. Kvoten av tv奪 drop-out odds:
Urvalsunders旦kning (1 )/, =
Register
Oddskvoten: urvalsunders旦kningens drop-
out odds dividerad med registrets drop-out
odds, OK
2. Registrets korrelation,
3. Urvalsunders旦kningens korrelation,
Dan Hedlin, Department of Statistics, 2019 11
12. Villkor f旦r att register ska vara b辰st
(Meng 2018)
Mengs exempel:
1. Slumpm辰ssigt urval av 1% av
populationen men 40% bortfall
2. Register som t辰cker 80% av
populationen
Roten ur OK 辰r ungef辰r 26
Ganska s辰kert att registret 辰r b辰st
Dan Hedlin, Department of Statistics, 2019 12
13. Ett till exempel,
population 7.5 miljoner
1. Slumpm辰ssigt urval av 0.1% av
populationen men 60% bortfall, 3000
svarande
2. Panel med 100 000 personer, alla svarar
Roten ur OK 辰r ungef辰r 6
Sv奪rt att s辰ga vad som 辰r b辰st
Dan Hedlin, Department of Statistics, 2019 13
14. Designeffekt =
den varians man f奪r med vald metod
Dividerad med
den varians man hade f奪tt med OSU
Dan Hedlin, Department of Statistics, 2019 14
15. Lack-of-design effect
MSE (big data) / MSE (OSU utan bortfall)
=
Populationsstorleken g奪nger data defect
index
Data defect index 辰r v辰ntev辰rdet av
kvadraten av korrelationen f旦r big data
Felet i skattningen blir st旦rre ju st旦rre
population!
Return of the long-forgotten monster
N
(Meng 2018, s. 698)
Dan Hedlin, Department of Statistics, 2019 15
16. Law of large populations
Felet / roten ur variansen under OSU
=
Roten ur populationsstorleken g奪nger
korrelationen f旦r big data
The bigger the data, the surer we fool
ourselves
Dan Hedlin, Department of Statistics, 2019 16
(Meng 2018, s. 702)
17. Antag:
1. Big data som t辰cker halva populationen
2. Korrelationen f旦r big data 辰r 0.05
Kan inte bli b辰ttre 辰n ett slumpm辰ssigt
urval p奪 400 personer, utan bortfall
Dan Hedlin, Department of Statistics, 2019 17
(Meng 2018)
18. Men man kan ju v辰ga data
Den gamla metoden poststratifiering
fungerar generellt bra
Men man kommer aldrig att reducera
bortfallsfelet eller big data-felet till noll
F旦r det kr辰vs att man har all information
som f旦rklarar selektionsmekanismen,
och det har man nu inte.
Dan Hedlin, Department of Statistics, 2019 18
19. what is big about Big Data is the
number of intellectually and
technologically challenging problems
that keep many of us sleepless either
because we are too excited or too
frustrated.
Dan Hedlin, Department of Statistics, 2019 19
(Meng 2018, s. 722)
20. References
Bethlehem, J. (1988). Reduction of nonresponse bias through regression
estimation. Journal of Official Statistics, 4(3), 51-60.
Dahmstr旦m, K. (2011). Fr奪n datainsamling till rapport: att g旦ra en
statistisk unders旦kning. 5th ed. Lund: Studentlitteratur.
Little, R. J.A. (1982). Models for Nonresponse in Sample Surveys. Journal
of the American Statistical Association, 77, 237-250.
Meng, X.-L. (2018). Statistical paradises and paradoxes in big data
(I): Law of large populations, big data paradox, and the 2016 US
presidential election. The Annals of Applied Statistics.
Smith, T.M.F. (1983). On the validity of inferences from non-random
sample. Journal of the Royal Statistical Society, Series A, 146,
394-403.
S辰rndal, C.-E. och Lundstr旦m, S. (2012). Estimation in Surveys with
Nonresponse. New York: Wiley.
Dan Hedlin, Department of Statistics, 2019 20