狠狠撸

狠狠撸Share a Scribd company logo
統計的推測 2   Statistical
Inference




     検定
検定 testing
仮説検定 Hypothesis testing

 母集団の特性値についてある情報を持っ
 ている
 その情報が正しいか否かを知りたい
  帰無仮説と対立仮説
  null hypothesis/ alternative hypotheis
仮説検定の考え方
    H 0 : ? = ?0   帰無仮説 (null hypothesis)

    H1 : ? ≠ ? 0
          対立仮説 (alternative hypothesis)
のどちらが尤もらしいか、データに基づいて確率的に判定

    検定の誤り
      第1種の誤り 帰無仮説が正しいときに棄
      却
      第2種の誤り 帰無仮説が正しくないとき
      に受容

    両方の誤りの確率をできるだけ小さくし
有意水準 (significance level)

 第1種の誤りの確率を「有意水準」以下
 に抑え、その上で、第2種の誤りの確率
 を最小化する。H } ≤ α
     Pr{H |
          1   0

      という条件で
      Pr{H 0 | H1} → 最小化
 有意水準 α としては、 0.05 、 0.01 とい
 う値が例ではよく使われる
「有意」 (significance) とは

 H0 を棄却したとき、その結論が誤ってい
 る(第1種の誤り)確率は高々有意水準 α

 H0 を受容したとき、その結論が誤ってい
 る(第2種の誤り)確率は計算できない
 場合がおおい。
 このため最悪の場合を考えると H0 を受容
 しても、それが誤りである確率は大きい
 と考える
 ==>この結論には意味が無い
P 値 (P-value)
 多くの統計ソフトでは、検定统计量の値とともに「 P
 値」が表示される。

 P 値とは検定結果を有意にする( H0 を棄却する)最小
 の有意水準のこと

 有意水準 α をいくらにすれば有意になるか

 逆に言えば
  P 値< α   ? 有意
  P 値> α   ? 有意でない
検定统计量の作り方

H0 を正しいと仮定して、データから求め
た統計量が得られる確率を計算

その確率が小さいとき、
 確率が小さい(めずらしい)ことがたまたま
 起きた
 データ得られている以上、確率は小さくない
 はず
 H0 を正しいと仮定したので確率がちいさく
 なった
 H0 は正しくない
棄却域と受容域

棄却域 (rejection region)      R
受容域 (acceptance region)     A
  
帰無仮説 H0 を正しいと仮定して、
検定统计量 T=T(X1,…,Xn) の分布を求め、
  T∈R  => H0 を reject
 T∈A  => H0 を accept
言うまでもなく、
  T∪A=[-∞,∞], Pr(T ∈R|H0)=α
正規分布の母平均の検定
 (分散既知)
データ
   X 1 , X 2 , ?, X n~NID ( ? , σ 2 )
仮説
   H 0 : ? = ? 0
   H1 : ? ≠ ? 0
                                             有意水準 α  より
H 0を正しいと仮定すると
                                                Z > kα / 2 ) = α
                                              Pr(
   X 1 , X 2 , ?, X n~NID ( ? 0 , σ )    2

                                             となるkα / 2を数表から求め
                n
                      Xi           2
                                    σ
    X = ∑                ~N ( ? 0   )
                                  ,             > kα / 2    帰無仮説H 0を棄却
                                              Z          ?
               i =1   n              n

    Z =
               X ? ?0
                            ~ N (0,1)
                                                ≤ kα / 2    帰無仮説H 0を受容
                                              Z          ?
                      σ2
                      n
シミュレーション
> (ntest 10 0.05)
                        有意水準 α=0.05 で検定し NoSig
NIL
> (ntest 10 0.05)        有意水準 α=0.05 で検定し NoSig
NIL
> (ntest 10 0.05)
                        有意水準 α=0.05 で検定し Significant
T
> (def rslt (ntest-sim 100 10 0.05))
RSLT                    有意水準 α=0.05 での検定を 100 回
> rslt                  シミュレーションで繰り返した
(NIL NIL NIL NIL NIL NIL  途中省略
 NIL NIL NIL NIL)
> (which rslt)
                        100 回中、第 28 回目と、 29 回目の
(28 29)
                        2 回が significant
> (which (ntest-sim 100 10 0.05))   100 回中、 5 回が significant
(13 53 64 80 94)
> (which (ntest-sim 100 10 0.05))   100 回中、 6 回が significant
(1 34 36 52 66 80)




      100 回中何回有意になるか、
      有意の回数の分布はどんなものか?
有意水準 0.05 の検定で 100 回
 中、
 有意になる回数の分布
> (def data (hist-sig 1000 100 10 0.05))
DATA
> (fivnum data)
(0 3 5 6 13)
> (def gh (histogram data))
GH
> (send gh :num-bins 14)
14
> (send gh :bin-counts)
(36 65 153 182 188 151 99 73 26 19 5 2 1 0)
正規分布の母平均の検定(分散未
知)
H 0 : ? = ?0
H1 : ? ≠ ? 0
     X ? ?0                       X ? ?0
Z=             ~ N (0,1),   T =            ~ t n ?1
       σ  2
                                    u2


        n                            n

有意水準αよりtα / 2 (n ? 1)を求める
   T > tα / 2 (n ? 1)) = α
 Pr(


T > tα / 2 (n ? 1) ? 帰無仮説H 0を棄却
その他の場合 ? 帰無仮説H 0を受容
母分散の検定(平均未知)
仮説
                               χ 0 > χ n ?1 (α / 2)または
                                 2     2
 H 0 : σ 2 = σ 0
               2

                               χ 0 < χ n ?1 (1 ? α / 2)     H 0棄却
                                 2     2
                                                          ?
 H1 : σ 2 ≠ σ 0
              2

                               その他の場合      H 0受容
                                         ?
データ
 X 1 , X 2 , ? , X n~N ( ? , σ 0 )
                               2


帰無仮説 H 0 が真のとき
          Xi ? X 2
          n
 χ = ∑ (
    2
    0           ) ~χ n ?1
                     2

     i =1  σ0
検定统计量
                         ∑i =1
                             n
        n
          xi ? x 2             ( xi ? x ) 2
 χ = ∑(
   2
   0            ) =
     i =1  σ0                    σ0
                                  2


            1
                ∑
                   n
   (n ? 1)            ( xi ? x ) 2
 =         n ? 1 i =1
                σ0
                 2


             1
                 ∑i =1
                    n
   (n ? 1)(            ( xi ? x ) 2 ) 2
 =          n ?1
                σ02


   (n ? 1)u 2
 =
      σ0 2

More Related Content

080 統計的推測 検定

  • 1. 統計的推測 2   Statistical Inference 検定
  • 2. 検定 testing 仮説検定 Hypothesis testing 母集団の特性値についてある情報を持っ ている その情報が正しいか否かを知りたい 帰無仮説と対立仮説 null hypothesis/ alternative hypotheis
  • 3. 仮説検定の考え方 H 0 : ? = ?0 帰無仮説 (null hypothesis) H1 : ? ≠ ? 0 対立仮説 (alternative hypothesis) のどちらが尤もらしいか、データに基づいて確率的に判定 検定の誤り 第1種の誤り 帰無仮説が正しいときに棄 却 第2種の誤り 帰無仮説が正しくないとき に受容 両方の誤りの確率をできるだけ小さくし
  • 4. 有意水準 (significance level) 第1種の誤りの確率を「有意水準」以下 に抑え、その上で、第2種の誤りの確率 を最小化する。H } ≤ α Pr{H | 1 0 という条件で Pr{H 0 | H1} → 最小化 有意水準 α としては、 0.05 、 0.01 とい う値が例ではよく使われる
  • 5. 「有意」 (significance) とは H0 を棄却したとき、その結論が誤ってい る(第1種の誤り)確率は高々有意水準 α H0 を受容したとき、その結論が誤ってい る(第2種の誤り)確率は計算できない 場合がおおい。 このため最悪の場合を考えると H0 を受容 しても、それが誤りである確率は大きい と考える ==>この結論には意味が無い
  • 6. P 値 (P-value) 多くの統計ソフトでは、検定统计量の値とともに「 P 値」が表示される。 P 値とは検定結果を有意にする( H0 を棄却する)最小 の有意水準のこと 有意水準 α をいくらにすれば有意になるか 逆に言えば P 値< α   ? 有意 P 値> α   ? 有意でない
  • 7. 検定统计量の作り方 H0 を正しいと仮定して、データから求め た統計量が得られる確率を計算 その確率が小さいとき、 確率が小さい(めずらしい)ことがたまたま 起きた データ得られている以上、確率は小さくない はず H0 を正しいと仮定したので確率がちいさく なった H0 は正しくない
  • 8. 棄却域と受容域 棄却域 (rejection region)      R 受容域 (acceptance region)     A    帰無仮説 H0 を正しいと仮定して、 検定统计量 T=T(X1,…,Xn) の分布を求め、 T∈R  => H0 を reject T∈A  => H0 を accept 言うまでもなく、   T∪A=[-∞,∞], Pr(T ∈R|H0)=α
  • 9. 正規分布の母平均の検定 (分散既知) データ    X 1 , X 2 , ?, X n~NID ( ? , σ 2 ) 仮説    H 0 : ? = ? 0    H1 : ? ≠ ? 0 有意水準 α  より H 0を正しいと仮定すると    Z > kα / 2 ) = α Pr(    X 1 , X 2 , ?, X n~NID ( ? 0 , σ ) 2 となるkα / 2を数表から求め n Xi 2 σ     X = ∑ ~N ( ? 0   ) ,    > kα / 2    帰無仮説H 0を棄却 Z ? i =1 n n     Z = X ? ?0  ~ N (0,1)    ≤ kα / 2    帰無仮説H 0を受容 Z ? σ2 n
  • 10. シミュレーション > (ntest 10 0.05) 有意水準 α=0.05 で検定し NoSig NIL > (ntest 10 0.05) 有意水準 α=0.05 で検定し NoSig NIL > (ntest 10 0.05) 有意水準 α=0.05 で検定し Significant T > (def rslt (ntest-sim 100 10 0.05)) RSLT 有意水準 α=0.05 での検定を 100 回 > rslt シミュレーションで繰り返した (NIL NIL NIL NIL NIL NIL  途中省略 NIL NIL NIL NIL) > (which rslt) 100 回中、第 28 回目と、 29 回目の (28 29) 2 回が significant
  • 11. > (which (ntest-sim 100 10 0.05)) 100 回中、 5 回が significant (13 53 64 80 94) > (which (ntest-sim 100 10 0.05)) 100 回中、 6 回が significant (1 34 36 52 66 80) 100 回中何回有意になるか、 有意の回数の分布はどんなものか?
  • 12. 有意水準 0.05 の検定で 100 回 中、 有意になる回数の分布 > (def data (hist-sig 1000 100 10 0.05)) DATA > (fivnum data) (0 3 5 6 13) > (def gh (histogram data)) GH > (send gh :num-bins 14) 14 > (send gh :bin-counts) (36 65 153 182 188 151 99 73 26 19 5 2 1 0)
  • 13. 正規分布の母平均の検定(分散未 知) H 0 : ? = ?0 H1 : ? ≠ ? 0 X ? ?0 X ? ?0 Z= ~ N (0,1),   T = ~ t n ?1 σ 2 u2 n n 有意水準αよりtα / 2 (n ? 1)を求める    T > tα / 2 (n ? 1)) = α Pr( T > tα / 2 (n ? 1) ? 帰無仮説H 0を棄却 その他の場合 ? 帰無仮説H 0を受容
  • 14. 母分散の検定(平均未知) 仮説 χ 0 > χ n ?1 (α / 2)または 2 2  H 0 : σ 2 = σ 0 2 χ 0 < χ n ?1 (1 ? α / 2)     H 0棄却 2 2 ?  H1 : σ 2 ≠ σ 0 2 その他の場合      H 0受容 ? データ  X 1 , X 2 , ? , X n~N ( ? , σ 0 ) 2 帰無仮説 H 0 が真のとき Xi ? X 2 n  χ = ∑ ( 2 0 ) ~χ n ?1 2 i =1 σ0
  • 15. 検定统计量 ∑i =1 n n xi ? x 2 ( xi ? x ) 2 χ = ∑( 2 0 ) = i =1 σ0 σ0 2 1 ∑ n (n ? 1) ( xi ? x ) 2 = n ? 1 i =1 σ0 2 1 ∑i =1 n (n ? 1)( ( xi ? x ) 2 ) 2 = n ?1 σ02 (n ? 1)u 2 = σ0 2