统计分析
- 54. 統計的検定の基本手順 (1/3)
? 帰無仮説の設定
? 言いたいことと反対の仮説(「AとBに差はない」)を立てる
? 仮説の下で矛盾が起こることを証明
? =そもそも仮説が間違っていた
? 対立仮説(「AとBに差はある」)を採択
なんかすごく回りくどく見える
最初から「差がある」ことを示せばいいのでは?
九大生と考える
九大生ならそんな
点数とるはずがない
九大生ではない
- 56. 統計的検定の基本手順 (3/3)
もうちょっと詳細
? 帰無仮説の設定
? 言いたいことと反対の仮説(「AとBに差はない」)を立てる
? 検定統計量の計算
? 例えば標本平均
? 確率の計算
? その統計量が「どの程度起こりうるものなのかどうか」
? 仮説の判定
? そもそも仮説が間違っていた
? 対立仮説(「AとBに差はある」)を採択
九大生と考える
「九大生ならとるはずが
ない」点数をとった
九大生と考えたのが
間違いだった
九大生としての
テストを受験させる
九大生ではない
- 70. Python で t 検定
? Python で実行するのはとても簡単!
1. 差があるか確認したいデータを2つ用意
2. 有意水準を決定:5%
3. 2つのデータを関数に放り込む
4. t, p値が出る
5. p値が0.05(5%)以下なら、有意に差がある
70
0
t分布
赤い区間に入る確率:p値
t値
95%
p値
- 82. 平均の差の検定(t 検定):対応あり
? 対応ある検定では
1. 差があるか確認したい対応があるデータを2つ用意
2. 有意水準を決定:5%
3. 2つのデータを関数に放り込む
関数の中で、自動で対応あり検定を行ってくれている
4. t, p値が出る
5. p値が0.05(5%)以下なら、有意に差がある
82
0
t分布
赤い区間に入る確率:p値
t値
95%
p値
- 94. 多重比較結果例
94
================================
============
group1 group2 meandiff lower upper reject
--------------------------------------------
0.0 1.0 -2.1935 -3.3511 -1.036 True
0.0 2.0 -0.3226 -1.4802 0.835 False
1.0 2.0 1.871 0.7134 3.0286 True
--------------------------------------------
?どの項目とどの項目に差があるのか比較
?Tukey-Kramerの検定を利用
?結果
?福岡ー東京間に差がある
?福岡ー京都間に差がない
?東京ー京都間に差がある
0:福岡
1:東京
2:京都
- 97. 比率の検定:カイ二乗検定
? 観測度数と期待度数を比べる
? カイ二乗値
? カイ2乗値を用いて、カイ二乗分布よりp値を算出
97
正常 肺癌 合計
喫煙者 60(72) 40(28) 100
非喫煙者 120(108) 30(42) 150
合計 180 70 250
(観測度数 ? 期待度数)2
期待度数
=
(72 ? 60)2
72
+ ? +
(42 ? 30)2
42
- 98. 比率の検定:カイ二乗検定
? 観測度数と期待度数を比べる
? カイ二乗値
? カイ2乗値を用いて、カイ二乗分布よりp値を算出
98
正常 肺癌 合計
喫煙者 60(72) 40(28) 100
非喫煙者 120(108) 30(42) 150
合計 180 70 250
(観測度数 ? 期待度数)2
期待度数
=
(72 ? 60)2
72
+ ? +
(42 ? 30)2
42
自由度:df = (r-1)(k-1) #r = 表の行の数,k = 表の列の数