狠狠撸

狠狠撸Share a Scribd company logo
情報統計学
仮説検定
2011.07.29 講義後一部追加
仮説検定 Hypothesis testing
? 母集団の特性値についてある情報を持っている
? その情報が正しいか否かを知りたい
? 帰無仮説と対立仮説
null hypothesis/ alternative hypotheis
帰無仮説 (null hypothesis)
対立仮説 (alternative hypothesis)01
00
:
:
??
??
≠
=
H
H
のどちらが尤もらしいか、データに基づいて確率的に判定
検定の誤り
? 第 1 種の誤り
? H0 が正しいのに棄却してしまう
? 第 2 種の誤り
? H1 が正しいのに, H0 と結論してしまう。
? α と β を両方同時に小さくすることはできない
? α + β =1ではないことに注意
H0 が正しい H1 が正しい
H0 を採択 正しい
1- α
第 2 種の誤り (Type II error)
β
H1 を採択
(H0 を棄却 )
第 1 種の誤り (Type I error)
α
正しい
1- β (検出力)
01
00
:
:
??
??
≠
=
H
H
有意水準 (significance level)
? 第1種の誤りの確率を「有意水準」以下に抑え、その上で、
第2種の誤りの確率を最小化する。
? 有意水準 α としては、 0.05 、 0.01 という値が例ではよく使
われる
最小化
という条件で
→
≤
}|Pr{
}|Pr{
10
01
HH
HH α
? 有意水準 α
?どの程度の確率を小さいと定めるか
?分野ごとに異なるが, α=0.05 (5%) , 0.01 (1%) が良く使わ
れる。
? 棄却,採択
?「帰無仮説を棄却する」とは
? 帰無仮説が真であれば,この値が得られる確率はこの
ように小さいはずがない→確率が小さくなっているのは
,帰無仮説が誤りである→
? 帰無仮説を否定
?「帰無仮説を採択する」,「帰無仮説を棄却できない」
? 帰無仮説を認めるとき(消極的に認める:理由はあと
で)
? 棄却域
?統計量がどのような範囲の値のときに,帰無仮説を棄却す
るかを定めた範囲
? 採択域
?棄却域とは逆に,どのような値のときに帰無仮説を採択す
るか。
? 有意
?α=0.05 と有意水準を定めたとき,帰無仮説 H0 が棄却され
る場合,検定は(有意水準 5 %)で有意であるという。
?逆に棄却できない場合,有意でないという。
? p 値
?検定結果を示すとき,有意水準をどんな値にすれば,検定
結果が有意になるかという値
有意とは
? 第 2 種の誤り
?帰無仮説が棄却できなかったとき、その結論が誤っている
確率、すなわち第 2 種の誤りの確率はどの程度であろう
か?
?残念ながら、この誤りの確率は計算できないことが多い
?計算できないので、最悪のことを考えておこう
?すなわち、「第 2 種の誤りの確率は大きい」と考えよう
?帰無仮説を受容しても、その結論が誤っている確率が大き
い!
?誤っている可能性が高い結論を出しても、その結論には
意味が無い!
?帰無仮説を受容するという結論にはあまり意味が無い
? 第 1 種の誤り
?逆に、意味が有るのは、帰無仮説を棄却域するという結論
を出したとき、その結論が誤っている確率、すなわち第 1
種の誤りは高々 α (有意水準、 5% とか、 1% とか)で小
母平均の検定(母分散 σ2
が既知の場合)
? 母集団分布 N(μ , σ2
) の母平均 μ が特定の値 μ0 に等しいかど
うかを検定する。
? まず,仮説を設定する(両側または片側)
つづき
? 有意水準 α を定める。(通常 0.05 ,慎重なら 0.01 )
? 棄却域の設定
? Z は標準正規分布に従うので,棄却域は
? 両側検定の場合
? z0.025 = 1.96
から棄却域を設定する
? データ(サンプル)から, Z の実現値を計算する
? 判定
? Z が棄却域に入っていれば,帰無仮説を棄却する
シミュレーション
? 正規分布の母平均の検定 ( 母分散 σ2
が既知の場合 )
? 有意水準 α=0.05 を与えて,どの程度第 1 種の誤りが起きる
かシミュレーションで確かめる
? この検定を nsim 回行う
? 100 回のシミュレーションを何度か繰り返す
? 有意になる回数はバラバラ
nrepeat 回繰り返して
有意になった
回数の分布を見る
Histogram of rsim
rsim
Frequency
0 2 4 6 8 10 12
050100150
母平均の検定(母分散 σ2
が未知の場合)
? 両側検定
このとき
は自由度 n-1 の t 分布に従う。
シミュレーション
? この検定を nsim 回行う
? plot.sim.t.test(100, 10, 0.05)
-4 -2 0 2 4
0.00.10.20.30.4
x
tdens(x)
有意になる回数の分布
rsim.t <- hist.t.sig(1000, 100, 10, 0.05)
min(rsim.t)
max(rsim.t)
rsim.t <- hist.t.sig(1000, 100, 10, 0.05)
min(rsim.t)
max(rsim.t)
hist(rsim.t)
hist(rsim.t)$count
sum(rsim.t)
mean(rsim.t)
Histogram of rsim.t
rsim.t
Frequency
0 2 4 6 8 10 12
050100150
母分散の検定
シミュレーション
0 5 10 15 20 25 30
0.000.020.040.060.080.10 x
chisqdens9(x)
x <- sapply(rep(10, 100), rnorm)
sdx <- apply(x, 2, sd)
ssq <-sdx * sdx * 9
chi0 <- ssq / 1
points(chi0, runif(100) * 0.001)
for (i in chi0)
if(i < chiL || i > chiU)
print(i)
[1] 23.95675
[1] 1.926886
[1] 20.87051
[1] 2.309102
[1] 19.69925
0 5 10 15 20 25 30
0.000.020.040.060.080.10
x
chisqdens9(x)
K090 仮説検定
検出力
シミュレーション
? この処理を nsim 回繰り返す。その割合を返す関数が
test.power
mu1 <- seq(-2, 2, 0.1)
prslt <- calc.power(1000, 10, 0.05, mu1)
prslt
plot(mu1, prslt, type = "l")
帰無仮説から離れるほど
大きくなる
-2 -1 0 1 2
0.20.40.60.81.0
mu1
prslt
理論的には
x <- seq(-2, 2, 0.01)
plot(x, power.theo(x, 0.05, 10), type = "l")
-2 -1 0 1 2
0.20.40.60.81.0
x
power.theo(x,0.05,10)

More Related Content

K090 仮説検定

Editor's Notes

  • #4: 宝くじとか