狠狠撸

情報統計学
仮説検定
2011.07.29 講義後一部追加

仮説検定 Hypothesis testing
? 母集団の特性値についてある情報を持っている
? その情報が正しいか否かを知りたい
? 帰無仮説と対立仮説
null hypothesis/ alternative hypotheis
帰無仮説 (null hypothesis)
対立仮説 (alternative hypothesis)01
00
:
:
??
??
≠
=
H
H
のどちらが尤もらしいか、データに基づいて確率的に判定

検定の誤り
? 第 1 種の誤り
? H0 が正しいのに棄却してしまう
? H1 が正しいのに， H0 と結論してしまう。
? α と β を両方同時に小さくすることはできない
? α ＋ β ＝１ではないことに注意
H0 が正しい H1 が正しい
H0 を採択正しい
１－ α
第 2 種の誤り (Type II error)
β
H1 を採択
(H0 を棄却 )
第 1 種の誤り (Type I error)
α
正しい
１－ β （検出力）
01
00
:
:
??
??
≠
=
H
H

有意水準 (significance level)
? 第１種の誤りの確率を「有意水準」以下に抑え、その上で、
第２種の誤りの確率を最小化する。
? 有意水準 α としては、 0.05 、 0.01 という値が例ではよく使
われる
最小化
という条件で
→
≤
}|Pr{
}|Pr{
10
01
HH
HH α

? 有意水準 α
?どの程度の確率を小さいと定めるか
?分野ごとに異なるが， α=0.05 (5%) ， 0.01 (1%) が良く使わ
れる。
? 棄却，採択
?「帰無仮説を棄却する」とは
? 帰無仮説が真であれば，この値が得られる確率はこの
ように小さいはずがない→確率が小さくなっているのは
，帰無仮説が誤りである→
? 帰無仮説を否定
?「帰無仮説を採択する」，「帰無仮説を棄却できない」
? 帰無仮説を認めるとき（消極的に認める：理由はあと
で）

? 棄却域
?統計量がどのような範囲の値のときに，帰無仮説を棄却す
るかを定めた範囲
? 採択域
?棄却域とは逆に，どのような値のときに帰無仮説を採択す
るか。
? 有意
?α=0.05 と有意水準を定めたとき，帰無仮説 H0 が棄却され
る場合，検定は（有意水準 5 ％）で有意であるという。
?逆に棄却できない場合，有意でないという。
? p 値
?検定結果を示すとき，有意水準をどんな値にすれば，検定
結果が有意になるかという値

有意とは
?帰無仮説が棄却できなかったとき、その結論が誤っている
確率、すなわち第 2 種の誤りの確率はどの程度であろう
か？
?残念ながら、この誤りの確率は計算できないことが多い
?計算できないので、最悪のことを考えておこう
?すなわち、「第 2 種の誤りの確率は大きい」と考えよう
?帰無仮説を受容しても、その結論が誤っている確率が大き
い！
?誤っている可能性が高い結論を出しても、その結論には
意味が無い！
?帰無仮説を受容するという結論にはあまり意味が無い
?逆に、意味が有るのは、帰無仮説を棄却域するという結論
を出したとき、その結論が誤っている確率、すなわち第 1
種の誤りは高々 α （有意水準、 5% とか、 1% とか）で小

母平均の検定（母分散 σ2
が既知の場合）
? 母集団分布 N(μ ， σ2
) の母平均 μ が特定の値 μ0 に等しいかど
うかを検定する。
? まず，仮説を設定する（両側または片側）

つづき
? 有意水準 α を定める。（通常 0.05 ，慎重なら 0.01 ）
? 棄却域の設定
? Z は標準正規分布に従うので，棄却域は
? 両側検定の場合
? z0.025 ＝ 1.96
から棄却域を設定する
? データ（サンプル）から， Z の実現値を計算する
? 判定
? Z が棄却域に入っていれば，帰無仮説を棄却する

シミュレーション
? 正規分布の母平均の検定 ( 母分散 σ2
が既知の場合 )
? 有意水準 α=0.05 を与えて，どの程度第 1 種の誤りが起きる
かシミュレーションで確かめる

? この検定を nsim 回行う

? 100 回のシミュレーションを何度か繰り返す
? 有意になる回数はバラバラ
nrepeat 回繰り返して
有意になった
回数の分布を見る

Histogram of rsim
rsim
Frequency
0 2 4 6 8 10 12
050100150

母平均の検定（母分散 σ2
が未知の場合）
? 両側検定
このとき
は自由度 n-1 の t 分布に従う。

? この検定を nsim 回行う

? plot.sim.t.test(100, 10, 0.05)
-4 -2 0 2 4
0.00.10.20.30.4
x
tdens(x)

有意になる回数の分布
rsim.t <- hist.t.sig(1000, 100, 10, 0.05)
min(rsim.t)
max(rsim.t)
rsim.t <- hist.t.sig(1000, 100, 10, 0.05)
min(rsim.t)
max(rsim.t)
hist(rsim.t)
hist(rsim.t)$count
sum(rsim.t)
mean(rsim.t)
Histogram of rsim.t
rsim.t
Frequency
0 2 4 6 8 10 12
050100150

0 5 10 15 20 25 30
0.000.020.040.060.080.10 x
chisqdens9(x)

x <- sapply(rep(10, 100), rnorm)
sdx <- apply(x, 2, sd)
ssq <-sdx * sdx * 9
chi0 <- ssq / 1
points(chi0, runif(100) * 0.001)
for (i in chi0)
if(i < chiL || i > chiU)
print(i)
[1] 23.95675
[1] 1.926886
[1] 20.87051
[1] 2.309102
[1] 19.69925
0 5 10 15 20 25 30
0.000.020.040.060.080.10
x
chisqdens9(x)

? この処理を nsim 回繰り返す。その割合を返す関数が
test.power

mu1 <- seq(-2, 2, 0.1)
prslt <- calc.power(1000, 10, 0.05, mu1)
prslt
plot(mu1, prslt, type = "l")
帰無仮説から離れるほど
大きくなる
-2 -1 0 1 2
0.20.40.60.81.0
mu1
prslt

理論的には
x <- seq(-2, 2, 0.01)
plot(x, power.theo(x, 0.05, 10), type = "l")
-2 -1 0 1 2
0.20.40.60.81.0
x
power.theo(x,0.05,10)

狠狠撸

K090 仮説検定

More Related Content

K090 仮説検定

Editor's Notes