際際滷

際際滷Share a Scribd company logo
Regresja kwartylowa
Do czego su甜y statystyka?
Problem na dzi:
Czy niebieskoocy zarabiaj wicej ni甜
zielonoocy?
Czy kontakt z reklam produktu wpywa
na znajomo marki?
2
Do czego su甜y statystyka?
Pr坦ba versus populacja
3
Populacja
Pr坦ba
Losowanie
reprezentatywne
W jaki
spos坦b
badamy
Obserwacje
dla pr坦byWnioski dla
populacji
Ale co z tym
wynagrodzeniem?
4
Ale co z tym
wynagrodzeniem?
5
rednia, mediana,
kwartyle, decyle i percentyle
6
kolor oczu
ilo
obserwacji rednia mediana kwartyl 1 (25%) kwartyl 3 (75%)
kwartyl 4
(100%) -
warto
maksymalna
niebieskie 120 110,10 108,00 80,00 140,00 220,00
zielone 125 102,30 104,00 72,00 128,00 208,00
kolor oczu percentyl 5% percentyl 95%
niebieskie 40,00 184,20
zielone 32,00 176,00
kolor oczu decyl 10% decyl 20% decyl 80% decyl 90%
niebieskie 52,00 72,00 152,80 168,00
zielone 45,60 68,00 136,00 150,40
Typy rozkad坦w
 Normalny
 Prawoskony
 Lewoskony
7
Ale co z tym
wynagrodzeniem?
8
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
O co tak naprawd pytamy?
Gdyby kolor oczu nie wpywa na wysoko wynagrodzenia,
to?
rednie wynagrodzenie w obu grupach by byo r坦wne 
To bdzie nasza hipoteza zerowa.
I ?
Poziom istotnoci p  im ni甜szy tym lepiej :)
1. prawdopodobiestwo uzyskania takiego wyniku pod warunkiem, 甜e
hipoteza zerowa jest prawdziwa
2. prawdopodobiestwo popenienia bdu pierwszego rodzaju,
czyli: odrzucenia prawdziwej hipotezy zerowej
Za dobr warto graniczn zazwyczaj uznaje si 0,05 (p<0,05)
9
t = -1,4114, p-value = 0,1594
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
I ?
Nie mamy podstaw do odrzucenia naszej hipotezy zerowej.
wiat statystyka nie jest symetryczny:
p < 0,05  odrzucamy hipotez zerow
p >= 0,05  nie mamy podstaw do odrzucenia hipotezy zerowej
10
t = -1,4114, p-value = 0,1594
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
Na ile sposob坦w mo甜emy
co popsu?
11
nie odrzucamy
hipotezy zerowej
odrzucamy hipotez
zerow
hipoteza zerowa
prawdziwa OK
bd pierwszego
rodzaju
hipoteza zerowa
faszywa bd drugiego rodzaju OK
Czy oba rodzaje bd坦w zawsze jednakowo bol?
 decyzja o przyznaniu kredytu
 decyzja o dopuszczeniu na rynek nowego leku
To co z t regresj?
12
To co z t regresj?
13
spos坦b dopasowania
modelu:
metoda najmniejszych
kwadrat坦w
Jeden predyktor
14
model=lm(reg$wynagrodzenie ~ reg$staz)
summary(model)
plot(reg$wynagrodzenie ~ reg$staz, main="Wynagrodzenie vs sta甜 pracy",
ylab="wynagrodzenie", xlab="sta甜 pracy")
abline(lm(reg$wynagrodzenie ~ reg$staz), col="blue")
Jeden predyktor
15
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73.5684 6.3993 11.496 < 2e-16 ***
reg$staz 3.0500 0.5475 5.571 6.7e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1   1
Residual standard error: 40.84 on 243 degrees of freedom
Multiple R-squared: 0.1133, Adjusted R-squared: 0.1096
F-statistic: 31.04 on 1 and 243 DF, p-value: 6.697e-08
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1
Czyli mamy:
wynagrodzenie = 73,5684 + 3,05*staz
A gdy staz = 0?
Nazewnictwo
16
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1+ 硫2*X2 +  + 硫n*Xn
Y  zmienna zale甜na, modelowana
X1  Xn  zmienne niezale甜ne, predyktory
Najwa甜niejszy dla nas wsp坦czynnik, to:
R-kwadrat
przyjmuje wartoci z zakresu 0-1
jaki procent zmiennoci zmiennej zale甜nej wyjaniaj
predyktory
Spr坦bujmy inaczej
17
Jeden predyktor
18
model=lm(reg$wynagrodzenie ~ reg$staz -1)
summary(model)
plot(reg$wynagrodzenie ~ reg$staz, main="Wynagrodzenie vs sta甜 pracy",
ylab="wynagrodzenie", xlab="sta甜 pracy")
abline(lm(reg$wynagrodzenie ~ reg$staz), col="blue")
abline(lm(reg$wynagrodzenie ~ reg$staz -1), col="red")
Jeden predyktor
19
Coefficients:
Estimate Std. Error t value Pr(>|t|)
reg$staz 8.7970 0.2768 31.79 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1   1
Residual standard error: 50.64 on 244 degrees of freedom
Multiple R-squared: 0.8055, Adjusted R-squared: 0.8047
F-statistic: 1010 on 1 and 244 DF, p-value: < 2.2e-16
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1
Czyli mamy:
wynagrodzenie = 8,797*staz
Dwa predyktory
20
> model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz -1)
> summary(model)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
reg$wiek 1.0729 0.1472 7.290 4.35e-12 ***
reg$staz 4.5681 0.6322 7.226 6.41e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1   1
Residual standard error: 45.96 on 243 degrees of freedom
Multiple R-squared: 0.8404, Adjusted R-squared: 0.8391
F-statistic: 639.7 on 2 and 243 DF, p-value: < 2.2e-16
Czyli ostatecznie:
wynagrodzenie = 1,0729*wiek + 4,5681*staz
Dwa predyktory  tak dla
porzdku
21
> model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz)
> summary(model)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 117.5809 12.8216 9.171 < 2e-16 ***
reg$wiek -1.0284 0.2620 -3.925 0.000113 ***
reg$staz 3.6652 0.5545 6.610 2.44e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1   1
Residual standard error: 39.68 on 242 degrees of freedom
Multiple R-squared: 0.1663, Adjusted R-squared: 0.1594
F-statistic: 24.14 on 2 and 242 DF, p-value: 2.754e-10
Nasz model
22
wynagrodzenie = 1,0729*wiek + 4,5681*staz
p = 0,8391
Kogo opisuje nasz model?
R2= 1  =1

(畉
)
=1

()
gdzie 畉  warto wyliczona przez model
y  rednia z wartoci obserwowanych
Regresja kwartylowa
23
W zwykej regresji:
Y= 硫0 + 硫1*X1+ 硫2*X2 +  + 硫n*Xn
A gdyby tak to samo, ale dla poszczeg坦lnych
kwartyli/decyli/percentyli?
Regresja kwartylowa
24
library(quantreg)
taus <- c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)
plot(reg$wynagrodzenie ~ reg$staz,
main="Wynagrodzenie vs staz", ylab="wynagrodzenie",
xlab="sta甜 pracy")
for (i in 1:length(taus)) {
abline(rq(reg$wynagrodzenie ~ reg$staz -1, tau =
taus[i]),
col = "gray")
}
Regresja kwartylowa
25
Regresja kwartylowa
26
tau: [1] 0.05
Value Std. Error t value Pr(>|t|)
reg$wiek -0.19556 0.11202 -1.74571 0.08212
reg$staz 4.37333 0.79955 5.46974 0.00000
tau: [1] 0.25
Value Std. Error t value Pr(>|t|)
reg$wiek 0.28571 0.17995 1.58770 0.11365
reg$staz 5.42857 0.70625 7.68651 0.00000
tau: [1] 0.5
Value Std. Error t value Pr(>|t|)
reg$wiek 0.90040 0.20075 4.48509 0.00001
reg$staz 5.43426 0.76791 7.07673 0.00000
tau: [1] 0.75
Value Std. Error t value Pr(>|t|)
reg$wiek 1.79420 0.19908 9.01253 0.00000
reg$staz 4.32190 0.74202 5.82452 0.00000
tau: [1] 0.95
Value Std. Error t value Pr(>|t|)
reg$wiek 3.13835 0.78113 4.01773 0.00008
reg$staz 2.92820 3.15226 0.92892 0.35385
Warto przeczyta
27
Roger Koenker. Quantile Regression (Econometric Society
Monographs). 2005.
http://www.econ.uiuc.edu/~roger/research/rq/vig.pdf
http://cran.r-project.org/web/packages/quantreg/quantreg.pdf
Dzikuj za uwag
Radosaw Kita
radoslaw.kita@alior.pl
28

More Related Content

Quantile Regression

  • 2. Do czego su甜y statystyka? Problem na dzi: Czy niebieskoocy zarabiaj wicej ni甜 zielonoocy? Czy kontakt z reklam produktu wpywa na znajomo marki? 2
  • 3. Do czego su甜y statystyka? Pr坦ba versus populacja 3 Populacja Pr坦ba Losowanie reprezentatywne W jaki spos坦b badamy Obserwacje dla pr坦byWnioski dla populacji
  • 4. Ale co z tym wynagrodzeniem? 4
  • 5. Ale co z tym wynagrodzeniem? 5
  • 6. rednia, mediana, kwartyle, decyle i percentyle 6 kolor oczu ilo obserwacji rednia mediana kwartyl 1 (25%) kwartyl 3 (75%) kwartyl 4 (100%) - warto maksymalna niebieskie 120 110,10 108,00 80,00 140,00 220,00 zielone 125 102,30 104,00 72,00 128,00 208,00 kolor oczu percentyl 5% percentyl 95% niebieskie 40,00 184,20 zielone 32,00 176,00 kolor oczu decyl 10% decyl 20% decyl 80% decyl 90% niebieskie 52,00 72,00 152,80 168,00 zielone 45,60 68,00 136,00 150,40
  • 7. Typy rozkad坦w Normalny Prawoskony Lewoskony 7
  • 8. Ale co z tym wynagrodzeniem? 8 kolor oczu ilo obserwacji rednia niebieskie 120 110,10 zielone 125 102,30 O co tak naprawd pytamy? Gdyby kolor oczu nie wpywa na wysoko wynagrodzenia, to? rednie wynagrodzenie w obu grupach by byo r坦wne To bdzie nasza hipoteza zerowa.
  • 9. I ? Poziom istotnoci p im ni甜szy tym lepiej :) 1. prawdopodobiestwo uzyskania takiego wyniku pod warunkiem, 甜e hipoteza zerowa jest prawdziwa 2. prawdopodobiestwo popenienia bdu pierwszego rodzaju, czyli: odrzucenia prawdziwej hipotezy zerowej Za dobr warto graniczn zazwyczaj uznaje si 0,05 (p<0,05) 9 t = -1,4114, p-value = 0,1594 kolor oczu ilo obserwacji rednia niebieskie 120 110,10 zielone 125 102,30
  • 10. I ? Nie mamy podstaw do odrzucenia naszej hipotezy zerowej. wiat statystyka nie jest symetryczny: p < 0,05 odrzucamy hipotez zerow p >= 0,05 nie mamy podstaw do odrzucenia hipotezy zerowej 10 t = -1,4114, p-value = 0,1594 kolor oczu ilo obserwacji rednia niebieskie 120 110,10 zielone 125 102,30
  • 11. Na ile sposob坦w mo甜emy co popsu? 11 nie odrzucamy hipotezy zerowej odrzucamy hipotez zerow hipoteza zerowa prawdziwa OK bd pierwszego rodzaju hipoteza zerowa faszywa bd drugiego rodzaju OK Czy oba rodzaje bd坦w zawsze jednakowo bol? decyzja o przyznaniu kredytu decyzja o dopuszczeniu na rynek nowego leku
  • 12. To co z t regresj? 12
  • 13. To co z t regresj? 13 spos坦b dopasowania modelu: metoda najmniejszych kwadrat坦w
  • 14. Jeden predyktor 14 model=lm(reg$wynagrodzenie ~ reg$staz) summary(model) plot(reg$wynagrodzenie ~ reg$staz, main="Wynagrodzenie vs sta甜 pracy", ylab="wynagrodzenie", xlab="sta甜 pracy") abline(lm(reg$wynagrodzenie ~ reg$staz), col="blue")
  • 15. Jeden predyktor 15 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.5684 6.3993 11.496 < 2e-16 *** reg$staz 3.0500 0.5475 5.571 6.7e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 40.84 on 243 degrees of freedom Multiple R-squared: 0.1133, Adjusted R-squared: 0.1096 F-statistic: 31.04 on 1 and 243 DF, p-value: 6.697e-08 Szukamy r坦wnania o postaci: Y= 硫0 + 硫1*X1 Czyli mamy: wynagrodzenie = 73,5684 + 3,05*staz A gdy staz = 0?
  • 16. Nazewnictwo 16 Szukamy r坦wnania o postaci: Y= 硫0 + 硫1*X1+ 硫2*X2 + + 硫n*Xn Y zmienna zale甜na, modelowana X1 Xn zmienne niezale甜ne, predyktory Najwa甜niejszy dla nas wsp坦czynnik, to: R-kwadrat przyjmuje wartoci z zakresu 0-1 jaki procent zmiennoci zmiennej zale甜nej wyjaniaj predyktory
  • 18. Jeden predyktor 18 model=lm(reg$wynagrodzenie ~ reg$staz -1) summary(model) plot(reg$wynagrodzenie ~ reg$staz, main="Wynagrodzenie vs sta甜 pracy", ylab="wynagrodzenie", xlab="sta甜 pracy") abline(lm(reg$wynagrodzenie ~ reg$staz), col="blue") abline(lm(reg$wynagrodzenie ~ reg$staz -1), col="red")
  • 19. Jeden predyktor 19 Coefficients: Estimate Std. Error t value Pr(>|t|) reg$staz 8.7970 0.2768 31.79 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 50.64 on 244 degrees of freedom Multiple R-squared: 0.8055, Adjusted R-squared: 0.8047 F-statistic: 1010 on 1 and 244 DF, p-value: < 2.2e-16 Szukamy r坦wnania o postaci: Y= 硫0 + 硫1*X1 Czyli mamy: wynagrodzenie = 8,797*staz
  • 20. Dwa predyktory 20 > model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz -1) > summary(model) Coefficients: Estimate Std. Error t value Pr(>|t|) reg$wiek 1.0729 0.1472 7.290 4.35e-12 *** reg$staz 4.5681 0.6322 7.226 6.41e-12 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 45.96 on 243 degrees of freedom Multiple R-squared: 0.8404, Adjusted R-squared: 0.8391 F-statistic: 639.7 on 2 and 243 DF, p-value: < 2.2e-16 Czyli ostatecznie: wynagrodzenie = 1,0729*wiek + 4,5681*staz
  • 21. Dwa predyktory tak dla porzdku 21 > model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz) > summary(model) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 117.5809 12.8216 9.171 < 2e-16 *** reg$wiek -1.0284 0.2620 -3.925 0.000113 *** reg$staz 3.6652 0.5545 6.610 2.44e-10 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 39.68 on 242 degrees of freedom Multiple R-squared: 0.1663, Adjusted R-squared: 0.1594 F-statistic: 24.14 on 2 and 242 DF, p-value: 2.754e-10
  • 22. Nasz model 22 wynagrodzenie = 1,0729*wiek + 4,5681*staz p = 0,8391 Kogo opisuje nasz model? R2= 1 =1 (畉 ) =1 () gdzie 畉 warto wyliczona przez model y rednia z wartoci obserwowanych
  • 23. Regresja kwartylowa 23 W zwykej regresji: Y= 硫0 + 硫1*X1+ 硫2*X2 + + 硫n*Xn A gdyby tak to samo, ale dla poszczeg坦lnych kwartyli/decyli/percentyli?
  • 24. Regresja kwartylowa 24 library(quantreg) taus <- c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95) plot(reg$wynagrodzenie ~ reg$staz, main="Wynagrodzenie vs staz", ylab="wynagrodzenie", xlab="sta甜 pracy") for (i in 1:length(taus)) { abline(rq(reg$wynagrodzenie ~ reg$staz -1, tau = taus[i]), col = "gray") }
  • 26. Regresja kwartylowa 26 tau: [1] 0.05 Value Std. Error t value Pr(>|t|) reg$wiek -0.19556 0.11202 -1.74571 0.08212 reg$staz 4.37333 0.79955 5.46974 0.00000 tau: [1] 0.25 Value Std. Error t value Pr(>|t|) reg$wiek 0.28571 0.17995 1.58770 0.11365 reg$staz 5.42857 0.70625 7.68651 0.00000 tau: [1] 0.5 Value Std. Error t value Pr(>|t|) reg$wiek 0.90040 0.20075 4.48509 0.00001 reg$staz 5.43426 0.76791 7.07673 0.00000 tau: [1] 0.75 Value Std. Error t value Pr(>|t|) reg$wiek 1.79420 0.19908 9.01253 0.00000 reg$staz 4.32190 0.74202 5.82452 0.00000 tau: [1] 0.95 Value Std. Error t value Pr(>|t|) reg$wiek 3.13835 0.78113 4.01773 0.00008 reg$staz 2.92820 3.15226 0.92892 0.35385
  • 27. Warto przeczyta 27 Roger Koenker. Quantile Regression (Econometric Society Monographs). 2005. http://www.econ.uiuc.edu/~roger/research/rq/vig.pdf http://cran.r-project.org/web/packages/quantreg/quantreg.pdf
  • 28. Dzikuj za uwag Radosaw Kita radoslaw.kita@alior.pl 28