2. Do czego su甜y statystyka?
Problem na dzi:
Czy niebieskoocy zarabiaj wicej ni甜
zielonoocy?
Czy kontakt z reklam produktu wpywa
na znajomo marki?
2
3. Do czego su甜y statystyka?
Pr坦ba versus populacja
3
Populacja
Pr坦ba
Losowanie
reprezentatywne
W jaki
spos坦b
badamy
Obserwacje
dla pr坦byWnioski dla
populacji
8. Ale co z tym
wynagrodzeniem?
8
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
O co tak naprawd pytamy?
Gdyby kolor oczu nie wpywa na wysoko wynagrodzenia,
to?
rednie wynagrodzenie w obu grupach by byo r坦wne
To bdzie nasza hipoteza zerowa.
9. I ?
Poziom istotnoci p im ni甜szy tym lepiej :)
1. prawdopodobiestwo uzyskania takiego wyniku pod warunkiem, 甜e
hipoteza zerowa jest prawdziwa
2. prawdopodobiestwo popenienia bdu pierwszego rodzaju,
czyli: odrzucenia prawdziwej hipotezy zerowej
Za dobr warto graniczn zazwyczaj uznaje si 0,05 (p<0,05)
9
t = -1,4114, p-value = 0,1594
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
10. I ?
Nie mamy podstaw do odrzucenia naszej hipotezy zerowej.
wiat statystyka nie jest symetryczny:
p < 0,05 odrzucamy hipotez zerow
p >= 0,05 nie mamy podstaw do odrzucenia hipotezy zerowej
10
t = -1,4114, p-value = 0,1594
kolor oczu
ilo
obserwacji rednia
niebieskie 120 110,10
zielone 125 102,30
11. Na ile sposob坦w mo甜emy
co popsu?
11
nie odrzucamy
hipotezy zerowej
odrzucamy hipotez
zerow
hipoteza zerowa
prawdziwa OK
bd pierwszego
rodzaju
hipoteza zerowa
faszywa bd drugiego rodzaju OK
Czy oba rodzaje bd坦w zawsze jednakowo bol?
decyzja o przyznaniu kredytu
decyzja o dopuszczeniu na rynek nowego leku
15. Jeden predyktor
15
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73.5684 6.3993 11.496 < 2e-16 ***
reg$staz 3.0500 0.5475 5.571 6.7e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 40.84 on 243 degrees of freedom
Multiple R-squared: 0.1133, Adjusted R-squared: 0.1096
F-statistic: 31.04 on 1 and 243 DF, p-value: 6.697e-08
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1
Czyli mamy:
wynagrodzenie = 73,5684 + 3,05*staz
A gdy staz = 0?
16. Nazewnictwo
16
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1+ 硫2*X2 + + 硫n*Xn
Y zmienna zale甜na, modelowana
X1 Xn zmienne niezale甜ne, predyktory
Najwa甜niejszy dla nas wsp坦czynnik, to:
R-kwadrat
przyjmuje wartoci z zakresu 0-1
jaki procent zmiennoci zmiennej zale甜nej wyjaniaj
predyktory
19. Jeden predyktor
19
Coefficients:
Estimate Std. Error t value Pr(>|t|)
reg$staz 8.7970 0.2768 31.79 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 50.64 on 244 degrees of freedom
Multiple R-squared: 0.8055, Adjusted R-squared: 0.8047
F-statistic: 1010 on 1 and 244 DF, p-value: < 2.2e-16
Szukamy r坦wnania o postaci:
Y= 硫0 + 硫1*X1
Czyli mamy:
wynagrodzenie = 8,797*staz
20. Dwa predyktory
20
> model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz -1)
> summary(model)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
reg$wiek 1.0729 0.1472 7.290 4.35e-12 ***
reg$staz 4.5681 0.6322 7.226 6.41e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 45.96 on 243 degrees of freedom
Multiple R-squared: 0.8404, Adjusted R-squared: 0.8391
F-statistic: 639.7 on 2 and 243 DF, p-value: < 2.2e-16
Czyli ostatecznie:
wynagrodzenie = 1,0729*wiek + 4,5681*staz
21. Dwa predyktory tak dla
porzdku
21
> model=lm(reg$wynagrodzenie ~ reg$wiek + reg$staz)
> summary(model)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 117.5809 12.8216 9.171 < 2e-16 ***
reg$wiek -1.0284 0.2620 -3.925 0.000113 ***
reg$staz 3.6652 0.5545 6.610 2.44e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 39.68 on 242 degrees of freedom
Multiple R-squared: 0.1663, Adjusted R-squared: 0.1594
F-statistic: 24.14 on 2 and 242 DF, p-value: 2.754e-10
22. Nasz model
22
wynagrodzenie = 1,0729*wiek + 4,5681*staz
p = 0,8391
Kogo opisuje nasz model?
R2= 1 =1
(畉
)
=1
()
gdzie 畉 warto wyliczona przez model
y rednia z wartoci obserwowanych
23. Regresja kwartylowa
23
W zwykej regresji:
Y= 硫0 + 硫1*X1+ 硫2*X2 + + 硫n*Xn
A gdyby tak to samo, ale dla poszczeg坦lnych
kwartyli/decyli/percentyli?
24. Regresja kwartylowa
24
library(quantreg)
taus <- c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)
plot(reg$wynagrodzenie ~ reg$staz,
main="Wynagrodzenie vs staz", ylab="wynagrodzenie",
xlab="sta甜 pracy")
for (i in 1:length(taus)) {
abline(rq(reg$wynagrodzenie ~ reg$staz -1, tau =
taus[i]),
col = "gray")
}