狠狠撸

統計的推測　 Statistical Inference

推定と検定
母集団と標本
点推定
区間推定
2007.07.04 　母平均のまとめ追加
2007.05.25 情報統計学 R より編集
2008.06.20 一部編集
2012.07.13 　信頼区間
2012.07.17 　 t- 分布表の引き方

参考アニメーション
http://case.f7.ems.okayama-u.ac.jp/animation/population.html

母集団と標本

母集団 population
調査したい全体 θ1θ2...θN
母集団の特性値
母平均　　　 μ
母分散　　　 σ2
全数調査
時間がかかる
費用がかかる
もともと不可能な場合

標本調査 sample survey

標本 sample
母集団よりランダムに標本を抽出し、
観測してデータ
　　　 x1,x2,...,xn
が得られる
データの値は標本により異なる
確率変数
　　　 X1,X2,...,Xn
の実現値
標本

母集団

可能な標本の組数

有限母集団の場合
母集団の構成要素（岡山大学の全学生数）
　　　 N 　　　　　　　　（　　　 N=13,000
　　　　）

標本数
　　　ｎ　　　　　　　　（　　　ｎ＝１０　
　　　　　）
可能な標本の組数
　　　 M 　＝　 NCn
どの組を標本に選ぶか？！

無作為抽出 random sampling

独立性の保証
乱数
乱数表
乱数赛（サイコロ）
非復元無作為抽出 without replacement
復元無作為抽出　 with replacement
層別抽出法　　　　　 stratified sampling

乱数表

通常６頁
さいころで利用する頁
鉛筆を落として
最初に使用する値
必要な桁数で
通常下に読んでいく

47 都道府県
1 北海道 24 三重
2 青森 25 滋賀
3 岩手 26 京都
4 秋田 27 大阪
5 宮城 28 兵庫
6 山形 29 奈良
7 福島 30 和歌
8 茨城 31 鳥取
9 栃木 32 島根
10 群馬 33 岡山
11 埼玉 34 広島
12 千葉 35 山口
13 東京 36 徳島
14 神奈川 37 香川
15 新潟 38 愛媛
16 富山 39 高知
17 石川 40 福岡
18 福井 41 佐賀
19 山梨 42 長崎
20 長野 43 熊本
21 岐阜 44 大分
22 静岡 45 宮崎
23 愛知 46 鹿児島
47 沖縄

層別無作為抽出法

市区町村、町丁字別、性別、学年別
のように、できるだけ均一な集団（層）
に分け
各層から無作為抽出

各層からどんな割合で標本をとるか
各層の大きさに比例して
各層のばらつきに比例して

推定と検定

推定 estimation
母集団の特性値に何の情報もない
特性値の値はどんな値か知りたい
点推定　　 point estimation
区間推定 interval estimation/ confidence interval
検定 testing
母集団の特性値についてある情報を持ってい
る
その情報が正しいか否かを知りたい
帰無仮説と対立仮説
null hypothesis/ alternative hypothesis

点推定

仮想的な母集団
i 名前 θi > p1 <- c(148, 160, 159, 153, 151, 140)
> p1
1 A 148 [1] 148 160 159 153 151 140
2 B 160 > mean(p1)
[1] 151.8333 　　母平均
3 C 159 > var(p1)
4 D 153 [1] 54.96667 　　母分散
5 E 151
6 F 140

6?5
M = N Cn = 6 C4 = = 15
標本の取り出し方 2 ?1
標本 x1 x2 x3 x4 標本平均
1 ABCD 148 160 159 153 155.00
2 ABCE 148 160 159 151 154.50
3 ABCF 148 160 159 140 151.75 > mean(c(159, 153, 151, 140))
[1] 150.75
4 ABDE 148 160 153 151 153.00
途中省略
5 ABDF 148 160 153 140 150.25
6 ABEF 148 160 151 140 149.75 > mean(c(159, 153, 151, 140))
7 ACDE 148 159 153 151 152.75 [1] 150.75
> mean(c(155.00, 154.50, 151.75, 153.00, 150.25,
8 ACDF 148 159 153 140 150.00
+ 149.75, 152.75, 150.00, 149.50, 148.00,
9 ACEF 148 159 151 140 149.50 + 155.75, 153.00, 152.50, 151.00, 150.75))
10 ADEF 148 153 151 140 148.00 [1] 151.8333
11 BCDE 160 159 153 151 155.75
12 BCDF 160 159 153 140 153.00
13 BCEF 160 159 151 140 152.75
14 BDEF 160 153 151 140 151.00
15 CDEF 159 153 151 140 150.75
総平均 151.833

点推定

標本確率変数 X1,X2,...,Xn の関数として
母集団の特性値（パラメータ） θ を定め
る

すなわち(
θ? = f X ,X
1 2
,..., X n )

となる関数 f を定める

点推定に望まれる性質

不偏性 unbiasedness
一致性 consistency
有効性 efficiency
最尤法 maximum likelihood method
最尤推定　 MLE maximum likelihood estimator

不偏性 unbiasedness

標本 1 　　推定値 ?
θ1
標本 2 　　推定値 θ
?
2
.
.
.

標本 L 　　推定値 ?
θL

不偏性

推定値の期待値が推定したい値

θ θ
E ( ?) =

? +θ +... +θ
θ1 2 ? ?
= L
L

例　表 7.1 の母平均の推定
母平均
? = (148 + 160 + 159 + 153 + 151 + 140) / 6
= 151.83333333333331

1 n
? = f ( X 1, X 2 , ?, X n ) = X = ∑ X i 　　とおくと
?
n i =1
E ( ? ) = (155.00 + 154.50 + ? + 150.75) / 15
?
　　　151.83333333333331
=

一致性 consistency

標本数 n を大きくする（全数調査に近づ
ける）

θ? θ
推定値　は母集団のパラメータ　に一
致
? ?
limθ = limθ ( X 1 , X 2 ,..., X n) = θ
n →∞ n →∞

例　一致性
? ?
θ = limθ ( X 1, X 2,? , X n) = θ
lim
n →∞ n →∞

1 n
X = ∑ Xi
n i =1
148 + 160 + 159 + 153 + 151 + 140
　　　 → = ?　　　 → N )
(n
6

有効性 efficiency
^
θ θ
推定値　　は、できるだけ　　に近い値
が現れることが望ましい。

( 分散は小さいほどよい )
^
Var (θ ) ? 最小化

例　全て不偏?一致推定量
? = θ ( X , X , X , X ) = X 1+ X 2+ X 3+ X 4
θ ? 1 2 3 4
4
? = θ ( X , X , X , X ) = X 1+ X 2+ X 3
θ3 ? 1 2 3 4
3
? = θ ( X , X , X , X ) = X 1+ X 2
θ2 ? 1 2 3 4
2
? = θ (X ,X ,X ,X ) = X 1
θ1 ? 1 2 3 4
1

? ? ? ?
V (θ ) = E (θ ? E (θ )) 2 = E (θ ? θ ) 2

BLUE 　 Best Linear Unbiased
Estimator

X 1 , X 2 ,..., X n
データ　　　　　　　　　　　の線形結
合の形式の推定値
^ ^

θ = θ ( X , X ,..., X )
1 2 n

= c X + c X + ... + c X
1 1 2 2 n n

の中で分散最小のもの
^
Var (θ ) ? 最小化

最尤法
maximum likelihood method

尤度関数　 Likelihood Function
n 個の観測値 x1,x2,...,xn の同時密度
　　　 f ( x1 , x 2 ,?, x n ) = f ( x1 , x 2 ,?, x n ;θ )
をパラメータ θ の関数として
　　　L(θ ) = L(θ ; x1 , x 2 ,?, x n )
　　　 f ( x1 , x 2 , ? , x n ) = f ( x1 , x 2 , ? , x n ;θ )
=

みたものが、
パラメータ θ の「もっともらしさ」 = 「尤
度」

最尤法

最尤法
尤度関数　 L(θ) を最大にする θ を推定値

L(θ ) = max 　 )
? L(θ
θ
n
log L(θ ) = log L(θ ; x1 , x2 , ? , xn ) = ∑ log f ( xi ;θ )
i =1

最尤法

データが独立にとられている場合
n
L(θ ) = f ( x1 , x2 ,..., xn ;θ ) = ∏ f ( xi ;θ )
i =1

対数尤度関数
n n
l (θ ) = log L(θ ) = log ∏ f ( xi ;θ ) = ∑ log f ( xi ;θ )
i =1 i =1

正规分布の平均の点推定

X1 , X 2 ,..., X n ~ N ( ? , σ 2 ) のとき、対数尤度関数
( X i ? ? )2
l ( ? ) = ∑ log f ( X i ; ? ) = K + ∑ {? }
i =1 i 2σ 2

?
l ( ? ) = C 2∑ ( X i ? ? )
?? i

?l
= 0 ? ∑ ( X i ? ? ) = 0 ? ∑ X i = n?
?? i i

1
?
? = ∑ Xi
n i
すなわち平均の最尤推定は標本平均

正规分布の平均の点推定

1
?
? = ∑ Xi
n i
標本平均が
不偏性
一致性
有効性 (BLUE)
最尤性
のすべての意味で、一番良い推定量である。

正規分布の分散の点推定

平均 μ が既知の場合
?2 1 n
σ = ∑ ( X i ? ? )2
n i =1
平均 μ が未知の場合
最尤推定 ?2 1 n
σ = ∑ ( X i ? X )2
不偏推定 n i =1
?2 1 n
σ = ∑
n ? 1 i =1
( X i ? X )2

? ? n
1 ( xi ? ? ) 2
2 ∑
log L(σ ) =
2
log exp[? ]
? (σ )
2
? (σ ) i =1 2π σ 2σ 2

? n
( xi ? ? ) 2 n n
= [∑ ? ? log(2π ) ? log σ 2 ]
? (σ 2 ) i =1 2σ 2 2 2
n
( xi ? ? ) 2 1 n 1
= ∑? (? 2 2 ) ?
i =1 2 (σ ) 2σ 2

=0
1 n
σ 2 = ∑ ( xi ? ? ) 2
?
n i =1

n
1 ( xi ? ? ) 2
log L( ? , σ 2 ) = ∑ log exp[? ]
i =1 2π σ 2σ 2

n
( xi ? ? ) 2 n n
= ∑ [? ] ? log(2π ) ? log σ 2
i =1 2σ 2 2 2
?
log L( ? , σ ) = 0
2

??
?
log L( ? , σ 2 ) = 0
? (σ 2 )
1 n
? = ∑ xi = x
?
n i =1
1 n
σ 2 = ∑ ( xi ? x ) 2 = s 2
?
n i =1

不偏分散
n
E[ S ] = E[ ∑ ( X i ? X ) 2 ]
2

i =1
n
= E[∑ {( X i ? ? ) ? ( X ? ? )}2 ]
i =1
n
= E[ ∑ ( X i ? ? ) 2 ? n ( X ? ? ) 2 ]
i =1
n
= E[∑ (X i ? ? ) 2 ] ? nE[( X ? ? ) 2 ]
i =1

σ2 1 2 1 n
= nσ 2 ? n
n
U = 2

n ?1
S = ∑
n ? 1 i =1
(X i ? X ) 2
= (n ? 1)σ 2
1 1
E[U ] =
2
E[ S ] =
2
(n ? 1)σ 2 = σ 2
n ?1 n ?1

区間推定 interval estimation
? ?
(θ L ,θU ) X 1 , X 2 ,..., X n
区間　　　　　をデータ　　　　　　　　　
に基づいてθ? ( X , X ,..., X ),θ? ( X , X ,..., X ))
? ?
(θ L ,θU ) = ( L 1 2 n U 1 2 n

と定める
区間の幅 θ?U ? θ?L

定めた区間に母数がはいる確率
? ? Pr(θ L < θ < θ U )

信頼度　 confidence level

「区間の幅は狭く、確率は大きく」
同時には満たせない

条件付で考える
「確率は最低限（悪くとも） 1-α 」以上という
条件のもとで、幅を最少にするように定める

この確率 1-α を信頼度という。
定めた区間を信頼区間 (confidence interval) とい
う

区間推定の定式化
標本　　X 1 , X 2 , ? , X n
の関数として区間の端点を定める。
(θ L ,θ U ) = (θ L ( X 1 , X 2 , ? , X n ),θ U ( X 1 , X 2 , ? , X n ))

このとき
　　　 θ L < θ < θ U ) ≥ 1 ? α
Pr(
という条件の下で。区間の幅
　　θ U ? θ L ? 最小化

確率 95% の区間

36

正規分布の母平均 μ の区間推定
X 1 , X 2 ,? , X n ~ NID( ? , σ 2 )

0.4
1 n σ2
X = ∑ X i ~ N (? , )

0.3
dnorm (x)
n i =1 n

0.2
X ??

0.1
Z= ~ N (0,1)

0.0
σ2 -3 -2 -1 0

x
1 2 3

n
Pr(a < Z < b) = 1 ? α 区間の幅が一番短くなるのは
左右対称にとった場合
Pr(? k < Z < k ) = 1 ? α
Pr( Z > kα / 2 ) = α / 2

X 1 , X 2 ,? , X n ~ NID( ? , σ 2 )
1 n σ2
X = ∑ X i ~ N (? , )
n i =1 n
X ??
Z= ~ N (0,1)
σ2
n
Pr(a < Z < b) = 1 ? α
Pr(? k < Z < k ) = 1 ? α
Pr( Z > kα / 2 ) = α / 2

Pr(?kα / 2 < Z < kα / 2 ) = 1 ? α
σ2
Pr(?kα / 2 < ( X ? ?) / < kα / 2 ) = 1 ? α
n
σ2 σ2
Pr(?kα / 2 < X ? ? < kα / 2 ) = 1?α
n n
σ2 σ2
Pr(? X ? kα / 2 < ? ? < ? X + kα / 2 ) = 1?α
n n
σ2 σ2
Pr( X ? kα / 2 < ? < X + kα / 2 ) = 1?α
n n
信頼区間
σ2 σ2 σ2
　　 ? kα / 2
(X , X + kα / 2 ) 　X ± kα / 2
n n n

本番

100
> r <- sim.conf.interval(100, 10, 0.95)

80
> r[apply(r, 1, prod) > 0, ]

60
[,1] [,2]
[1,] -1.257169 -0.01757909

gy
[2,] -1.300771 -0.06118130

40
[3,] -1.323769 -0.08417887
[4,] -1.415869 -0.17627881
> (1:100)[apply(r, 1, prod) > 0] 20
[1] 48 64 96 99

> plot.conf.interval(r)
0

-2 -1 0 1 2

gx

（母分散が未知の場合）
X 1 , X 2 ,?, X n ~ N ( ? , σ 2 )
母分
1 n σ2 X ?? 散 σ2
X = ∑ X i ~ N ( ? , ), 　　Z = ～N (0,1)
n i =1 n σ2 /n の代
わり
Pr(?kα / 2 < Z < kα / 2 ) = 1 ? α に推
定値
X ??
Pr(?kα / 2 < < kα / 2 ) = 1 ? α u2 を
σ /n
2
代入
Pr( X ? kα / 2 σ 2 / n < ? < X + kα / 2 σ 2 / n ) = 1 ? α しよ
σ2 σ2 う
[ X ? kα / 2 , X + kα / 2 ]　
n n

自由度 n-1 の t- 分布
X ??
Z= ～N (0,1)

0.4
σ /n
2

0.3
X ??
T= ~ t n ?1

密度関数
u2 / n

0.2
0.1
自由度mのt分布の密度関数

0.0
m +1 m +1
Γ(
-3 -2 -1 0 1 2 3

) ? ?
x2 ? 2
x

f m ( x) = 2 ?1 + ? 黒：標準正規分布
m ? m? 赤：自由度９　ｔ分布
mπ Γ( ) ? ? 青：自由度３　ｔ分布
2

自由度１０　上侧确率
0.025

0.4
0.3
dt(x, 10)

0.2
0.1
0.0
-4 -2 0 2 4

Pr(T > 2.2281) = 0.025 x

Pr(| T |> 2.2281) = 0.025 × 2 = 0.05
t10 (0.025) = 2.2281

自由度 8 　両側確率 0.1

0.4
0.3
dt(x, 8)

0.2
0.1
0.0
-4 -2 0 2 4

x

両側確率　　 T |> 1.8595) = 0.05 × 2 = 0.1
Pr(|
上側確率　　 T > 1.8595) = 0.05
Pr(
下側確率　　 T < ?1.8595) = 0.05
Pr(
t8 (0.05) = 1.8595

X ??
Z= ～N (0,1)
σ /n2

Pr(?kα / 2 < Z < kα / 2 ) = 1 ? α
Pr( X ? kα / 2 σ 2 / n < ? < X + kα / 2 σ 2 / n ) = 1 ? α
X ??
T= ~ t n ?1
u2 / n
Pr(?t n ?1 (α / 2) < T < t n ?1 (α / 2)) = 1 ? α
u2 u2
Pr( X ? t n ?1 (α / 2) < ? < X + t n ?1 (α / 2) ) = 1?α
n n

信頼区間
u2 u2
[ X ? t n ?1 (α / 2) , X + t n ?1 (α / 2) ]
n n

区間推定のシミュレーション
（分散未知）
> t.test(rnorm(10), conf.level=0.95)

One Sample t-test

data: rnorm(10)
t = -1.0439, df = 9, p-value = 0.3237
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.9129610 0.3364108
sample estimates:
mean of x
-0.2882751

> t.test(rnorm(10), conf.level=0.95)$conf.int
[1] -0.4416194 1.4037247
attr(,"conf.level")
[1] 0.95

n=10 、 1-α=0.95 、 σ ２ = 未
知
> sim.t.conf.interval <- function(nsim, n, conf) {
+ result <- c()
+ for (i in 1:nsim){

100
+ result <- rbind(result, t.test(rnorm(n), conf.level=conf)$conf.int)
+ }
+ result

80
+}
> set.seed(1231)
> rt<-sim.t.conf.interval(100,10,0.95)

60
> rt[apply(rt,1,prod)>0,]
[,1] [,2]

gy
[1,] -0.99062123 -0.12569906

40
[2,] -1.10211619 -0.03000526
[3,] -0.54445510 -0.01016643
[4,] 0.01700083 1.08047258

20
> which(apply(rt,1,prod)>0)
[1] 32 69 72 93
> plot.conf.interval(rt)

0 -2 -1 0 1 2
gx

２つの信頼区间の比较

100
100

80
80

60
60

gy
gy

40
40

20
20

0
0

-2 -1 0 1 2 -2 -1 0 1 2

gx gx

狠狠撸

070 統計的推測　母集団と推定

Recommended

More Related Content

What's hot (20)

Similar to 070 統計的推測　母集団と推定 (20)

More from t2tarumi (16)

Recently uploaded (6)

070 統計的推測　母集団と推定

狠狠撸

070 統計的推測 母集団と推定

Recommended

More Related Content

What's hot (20)

Similar to 070 統計的推測 母集団と推定 (20)

More from t2tarumi (16)

Recently uploaded (6)

070 統計的推測 母集団と推定

070 統計的推測　母集団と推定

Similar to 070 統計的推測　母集団と推定 (20)

070 統計的推測　母集団と推定