狠狠撸

狠狠撸Share a Scribd company logo
1




情報統計学


         确率分布
          独立性
        期待値と分散
         正規分布
        20120525 一部修正
确率                              2

?   A という結果が起きる确率→ Pr(A) と書く。
确率分布                      3


? 确率分布
 その結果がどんな确率で起きるかをまとめたもの


 ? 離散型分布




 ? 連続型分布
    ? 特定の値 a を取る确率は 0

   ? 幅をつけて考える
累積分布関数 Cummulative Distribution Function, CDF                4

? 定義
  ? 确率変数 X に対して



  を确率変数 X の累積分布関数という。
? 确率密度関数
  ? 累積分布関数 F(x) が微分可能なとき,導関数



  を确率変数 X の(确率)密度関数 (probability density function, pdf) とい
   う。
  确率密度関数があるときには,
分布関数の性质   5
関数のグラフ                                                                                   6

? R で関数のグラフを書く。
   ? 确率密度関数
   ? 累積分布関数




                                                  1.0
                                                  0.5
? curve
   ? curve( 関数名 , 左端 ,  右端 )




                                        sin (x)

                                                  0.0
   ? curve(sin, 0, 2*pi)




                                                  -0.5
? curve variation
   ?   curve(sin, 0, 2*pi)                        -1.0

   ?   curve(cos, 0, 2*pi)                               0   1   2   3       4   5   6

                                                                         x
   ?   curve(sin, 0, 2*pi, add=T)
   ?   curve(sin, 0, 2*pi, add=T, col=“red”)

   ? plot(sin, 0, 2*pi)
関数を探す                          7


? 正規分布 (normal distribution)
? 関数名に Normal が付くものを探す
  ? help.search(“Normal”)


? Normal の中に関連するものがありそう
  ? help(“Normal”)
    で使い方をみる
  または
  ? ?Normal
  でもよい。
分布に関连する関数                                            8


? 分布名                 ? 関数名の頭文字
 ? 正規分布       norm        ? p分布名            分布関数
 ? t - 分布             t       ? Pr(X<x)
 ? カイ 2 乗分布   chisq       ? d 分布名                密
 ? F分布        f             度関数
 ? 一様分布                       ? density function
              unif
 ? 二項分布                   ? q 分布名                分
              binom
                            位点
 ? ポアソン分      poi
                              ? quantile
                          ? r 分布名                乱
                            数
                              ? random number
標準正規分布 (standard Normal Distribution)                                  9

? 累積分布関数




                                           1.0
                                           0.8
                                           0.6
                               pnorm (x)

                                           0.4
        curve(pnorm, -4, 4)




                                           0.2
                                           0.0
? 确率密度関数                                         -4   -2   0

                                                           x
                                                               2   4




                                           0.4
                                           0.3
                              dnorm (x)




        curve(dnorm, -4, 4)
                                           0.2
                                           0.1
                                           0.0




                                                 -4   -2   0   2   4
正規分布表の使い方


? 数表は「標準正規分布」 Z ~ N(0,1)

                           Pr(Z<0.91)
11




下側 α 点
  qnorm 関数
  qnorm(0.025, lower.tail = F)
   qnorm(0.025)
标準化、偏差値                                  12

? 標準化
                       X ??
   X ~ N (? ,σ ) ? Z =
              2
                            ~ N (0,1)
                        σ
? 偏差値

  X ~ N (? ,σ )
             2


                X ??
        ? 偏差値 =      ×10 + 50 ~ N (50,10 )
                                        2

                 σ
演習


? Z ~ N(0,1) 、 X ~ N(158,25) のとき次の確
  率を求めよ。
      1) Pr(0 ≤ Z < 1)
      2) Pr(1 ≤ Z )
      3) Pr(?2 ≤ Z < ?1)
      4) Pr( Z ≥ k ) = 0.05 となるkの値
      5) Pr(| Z |< 1)
      6) Pr(| Z |> 2)
       7) Pr(150 ≤ X < 160)
      8) Pr(| X ? 158 |> k ) = 0.05 となるkの値
一様分布                                                                              14

? 确率密度関数                                 curve(dunif, -0.5, 1.5)




                                   1.0
                                   0.8
                                   0.6
                       dunif (x)

                                   0.4
                                   0.2
                                   0.0
                                           -0.5   0.0   0.5   1.0     1.5




? 累積分布関数
                                                         x




                                           curve(punif, -0.5, 1.5)




                             1.0
                             0.8
                             0.6
           punif (x)

                             0.4
                             0.2
                             0.0




                                         -0.5     0.0   0.5     1.0         1.5

                                                         x
二項分布 (Binomial distribution)


 ? 1 回の試行 ( 実験 ) で A という事象が起きるか、
                        起
   きないか
 ? A という事象が起きる确率が p 、
           起きない确率が q=1-p
 ? この試行をn回行ったとき、 A が起きる回数を
   X とする。
 ? X の分布を二項分布といい、
      X ~ Bi(n, p)
   と表す。
二項分布 その2
? X の取り得る値  n回中の回数なので
     0, 1, 2, …, n

? Pr(X=k) = A がn回中k回起きる确率
         = nCk pk(1-p)n-k



? 分布関数
                          [ x]
      F ( x) = Pr( X ≤ x) = ∑ pk
                          k =0
                   [ x]
            ∑ n C x p k (1 ? p ) n ? k
          =
                   k =0
二项分布 その3


                                         pk = Pr( X = k )
      ? 二項分布 Bi(10,1/6)
                                            Ck p k (1 ? p ) n ? k
                                          =n
            ? さいころを 10 回振っ
              て、 1 の目が出る回数                      1        1
                                            Ck ( ) k (1 ? )10? k
                                          =10
              X の分布                             6        6
      1.0




                                         p3 = Pr( X = 3)
      0.8




                                                  1 3   1 10?3
                                            C3 ( ) (1 ? )
                                          =10
      0.6




                                                  6     6
cdf

      0.4




                                            10 × 9 × 8 1 3 5 7
                                           
                                          =           ( ) ( )
      0.2




                                              3 × 2 ×1 6 6
      0.0




            0   2   4       6   8   10     0.1550454
                                          =
                        x
二項分布 Bi(10,1/6) の分布関数
                                                           階段関数 (step function)

                           1.0
                           0.8
    pbinom(xx, 10, 1/6)

                           0.6
                           0.4
                           0.2
                           0.0




                                      0           2           4           6           8          10

                                                                    xx
                          > pbinom(x,10,1/6)
                          [1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325
                          [8] 0.9999806 0.9999992 1.0000000 1.0000000
シミュレーション (数値実験)  simulation   19

 ? 複雑な問題で式を求めるのが難しい
 ? 費用がかかりすぎる?時間がかかりすぎる


? シミュレーションとは
 ? 乱数を使って理論的な結果を検証
 ? 理論的には結果を得ることが難しい内容を求めること


? 乱数
 ? R では
    ? 乱数は,分布名に r をつけたもの
    ? 例:一様乱数  runif
    ?   正規乱数 rnorm
正規乱数  rnorm                                                                              20


? 正規分布に従う乱数
? rnorm( 個数)
                                                       Histogram of rnorm(100)

? 例えば




                                       0.4
   ? rnorm(100)




                                       0.3
? hist(rnorm(100), freq=F)

                             Density

                                       0.2
? curve(dnorm, add=T)
                                       0.1
                                       0.0




                                             -3   -2      -1          0          1   2

                                                               rnorm(100)
円周率のシミュレーション                                                                    21

? 一辺の長さ 1 の正方形
  ? 面積 1       ? 区間 [0, 1] の一様乱数を 2 個
? 半径 1 の 1/4 円   ? それを x 座標, y 座標とする点 P (x, y) を考え
  ? 面積 π/4         る
                    ? その点は正方形の中
                    ? さらに 1/4 円の中に落ちる比率は1: π/4




                                  1.0
                                  0.8
そういう点を n 個発生させ
  る
                                  0.6
                       circ (x)

? 1/4 円内の点の個数を m                  0.4



? 全体の点の個数を n
  ?m/n ≒ π/4
                                  0.2
                                  0.0




                                        0.0   0.2   0.4       0.6   0.8   1.0

                                                          x
22

circ <- function(x)
 sqrt(1 - x^2)




                                 1.0
curve(circ, 0, 1)
lines(c(1, 0), c(0, 0))
lines(c(0, 0), c(1, 0))




                                 0.8
> sim.pi(1000)


                                 0.6
Type <Return> to start simulation :
                             y


788 of 1000 in the circle.       0.4
                                 0.2
                                 0.0




                                       0.0   0.2   0.4       0.6   0.8   1.0

                                                         x
条件付确率 (conditional prob.)
? 事象 A が起きたという条件の下で
  事象 B が起きる确率を考える



? 例 女性で身長が170cm以上
                                B
                  Pr( A ∩ B )
     Pr( B | A) =
                    Pr( A)               A



                        Pr(身長 ≥ 170.0  かつ 女性)
  Pr(身長 ≥ 170.0 | 女性) =
                                   Pr(女性)
                        0.03976
                      =         = 0.0082
                         0.485
独立事象
? 条件付确率が条件に無関係のとき
  2 つの事象は独立という


   Pr( B | A) = Pr( B )
                Pr( A ∩ B )
   Pr( B | A) =             = Pr( B )
                  Pr( A)
   Pr( A ∩ B ) = Pr( A) Pr( B )
条件付分布
? X=x という条件の下での Y の分布

   G ( y | x) = Pr(Y < y | X = x)
                Pr(Y < y and X = x)
              =
                            Pr( X = x)
                h ( x, y )
   g ( y | x) =
                  f ( x)
   h( x, y ) = f ( x ) g ( y | x )
        g ( y ) f ( x | y )
              =
独立性
? 2 つの确率変数 X, Y が独立
  ? 分布関数

      H ( x, y ) = Pr( X < x, Y < y )
           Pr( X < x) Pr(Y < y )
                 =
           F ( x)G ( y )
                 =
  ? 密度関数



      h ( x, y ) = f ( x ) g ( y )
期待値 (Expectation)
? データの平均(代表値、どんな値)

      data : x1 , x2 ,? , xn
                    x1 + x2 + ? + xn
      mean : x =
                            n

? 确率変数(分布)の期待値(どんな値)

      取り得る値 : a1 , a2 ,? , ak
      各値の确率 : p1 , p2 ,? , pk


      平均 : E ( X ) = a1 p1 + a2 p2 + ? + ak pk
确率分布    度数分布表


値     确率          階級              階級値      相対度数

a1    p1          a0~a1           m1       f1
a2    p2          a1~a2           m2       f2


ak    pk          ak-1~ak         mk       fk
合計    1.00        合計                       1.00
     E ( X ) = a1 p1 + a2 p2 + ? + ak pk
       x = m1 f1 + m2 f 2 + ? + mk f k
期待値と分散


  X   确率変数
  f ( x)   Xの密度関数

                                               離散型の場合は
  Xの期待値(平均)                                    積分の代わりに
                 ∞                             和 (Σ) を使う
    E ( X ) = ∫ x f ( x)dx 
                ?∞
                     ∞
    E (φ ( X )) = ∫ φ ( x) f ( x)dx
                     ?∞

  Xの分散
    V ( X ) = E ( X ? E ( X )) 2    φ ( x) = {x ? E ( X )}2
                ∞
        ∫ {x ? E ( X )}2 f ( x)dx
      =
                ?∞

        E ( X 2 ) ? {E ( X )}2
      =
主な分布の期待と分散



  X ~ Bi (n, p )
    E ( X ) = np,   V ( X ) = npq
  X ~ Po(λ )
    E ( X ) = λ ,   V ( X ) = λ
  X ~ U ( a, b)
    E ( X ) = (a + b) / 2,   V ( X ) = (b ? a ) / 12
                                               2


  X ~ N (? ,σ )   2


    E ( X ) = ? ,    V ( X ) = σ    2
31




情報統計学


        χ2 分布
         t 分布
        F 分布
标本分布             32


? 正規分布から導かれる分布
 ?χ2 分布


 ?t 分布


 ?F 分布
χ2 分布             33


? 自由度 m の χ2 分布
  ? 确率密度関数




 ?E(Y)=m
 ?Var(Y)=2m
χ2 分布                                        34

? 确率変数 Z が標準正規分布 N(0,12) に従っているとき,
                Y = Z2
        の分布は自由度 1 の χ2 分布に従う。



? 确率変数 X1, X2, …, Xn が互いに独立で, Xi が正規分布 N(0,12)
  に従うとき,
                   Z = X12 + X22 + … + Xn2
            は自由度 n の χ2 分布に従う。
χ2 分布の确率密度関数のグラフ                                                   35

? 自由度 1 , 2 が特殊
  curve(dchisq(x,1), 0, 10, col = 1)        #1 は黒
  curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤
  curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑
  curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青
                                1.2
                                1.0
                                0.8
                 dchisq(x, 1)

                                0.6
                                0.4
                                0.2
                                0.0




                                      0   2   4       6   8   10

                                                  x
シミュレーションによる导出                                                                                                     36

?      標準正規分布を2乗すると χ2 分布になることを乱数を使って確かめる
       1. 正規乱数 z を 1 つ取る
       2. y=z2 を計算する
       3. これを n 回繰り返し, y の値を n 個とる
       4. Y の分布を図示し,理論的なものと比較する
                                                                                    Histogram of nrdata

    > nrdata <- rnorm(1000)
    > summary(nrdata)




                                                                    200
        Min. 1st Qu. Median Mean 3rd Qu.  Max.
    -3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000
    > sd(nrdata)



                                                                    150
    [1] 1.025253


                                                        Frequency
    > hist(nrdata)

                                                                    100
                                                                    50
                                                                    0




                                                                          -3   -2    -1      0      1     2   3

                                                                                           nrdata
nr2data <- nrdata^2
                                                                                      37
mean(nr2data)
sd(nr2data)
hist(nr2data, freq = F)
curve(dchisq(x,1), 0, 9, col = 2, add = T)
                                                          Histogram of nr2data




                                            0.7
                                            0.6
                                            0.5
                                            0.4
                                  Density

                                            0.3
                                            0.2
                                            0.1
                                            0.0




                                                  0   2   4        6        8    10   12

                                                                 nr2data
レポート                                      38

1. X が自由度 m の χ2 分布に従い, Y が自由度 n の χ2 分布に従っ
   て,互いに独立であれば
                    Z=X+Y
        の分布は,自由度 (m+n) の χ2 分布に従う。
 再生性というが,このことをシミュレーションを使って確認
   せよ。

2. 正規分布も再生性を持つ。このことをシミュレーションを用
   いて確かめよ。
t 分布                                                                 39




                                         0.4
? 密度関数のグラフは
 ? curve(dt(x, 10), -4, 4)



                                         0.3
                             dt(x, 10)

                                         0.2
                                         0.1
                                         0.0




                                               -4   -2   0   2   4

                                                         x
t 分布と正規分布の确率密度関数                                          40

?   curve(dt(x, 10), -4, 4)
?   curve(dt(x, 2), -4, 4, col = 2, add = TRUE)
?   curve(dnorm, -4, 4, col = 3, add = TRUE)

                             0.4
                             0.3
                 dt(x, 10)

                             0.2
                             0.1
                             0.0




                                   -4   -2   0    2   4
t 分布のパーセント点                                                       41

> qt(0.05, 5)

> qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100))
[1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461
   -1.724718
[8] -1.675905 -1.660234
> qt(c(0.05, 0.95), 5)
[1] -2.015048 2.015048
> pt(2.015048, 5)
[1] 0.95
シミュレーション 1                                                                42

nrdata <- rnorm(1000)
chi2data <- rchisq(1000, 10)




                                                  0.4
hist(chi2data)
tdata <- nrdata / (sqrt(chi2data / 10))
mean(tdata)




                                                  0.3
sd(tdata)
curve(dt(x, 10), -4, 4, col = 2)

                                      dt(x, 10)

                                                  0.2
hist(tdata, freq = F, add=TRUE)

                                                  0.1
                                                  0.0




                                                        -4   -2   0   2   4

                                                                  x
シミュレーション 2   43
44
45
46

tcalc <-function(x){                       Histogram of sample.t

  barx <- mean(x)




                               0.4
  sdx <- sd(x)
  tval <- barx / (sdx / sqrt(length(x)))

                               0.3
  tval
}
ran <- sapply(rep(10, 1000), rnorm)
                     Density

                               0.2




sample.t <- apply(ran, 2, tcalc)
hist(sample.t, nclass = 20, freq = F)
                               0.1




curve(dt(x, 9), -4, 4, col = 2, add = T)
                               0.0




                                     -4     -2         0           2   4
F 分布   47
F 分布の密度関数                                                                     48

> curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5))
> curve(df(x,2,10),0.00000001,5,col=2,add=T)
> curve(df(x,3,10),0,5,col=3,add=T)




                                                 1.5
> curve(df(x,8,10),0,5,col=4,add=T)
> curve(df(x,8,20),0,5,col=5,add=T)




                                                 1.0
                                  df(x, 1, 10)

                                                 0.5
                                                 0.0



                                                       0   1   2       3   4   5

                                                                   x
シミュレーション                                         49




> c8rand <- rchisq(1000, 8)
> c10rand <- rchisq(1000, 10)
> fprop <- (c8rand / 8) / (c10rand / 10)
> hist(fprop, nclass = 20, freq = F)
> hist(fprop, nclass = 20, freq = F)$count
> curve(df(x,8,10), 0, 5, col = 2, add = TRUE)
50


                        Histogram of fprop




          0.7
          0.6
          0.5
          0.4
Density

          0.3
          0.2
          0.1
          0.0




                0   2      4           6     8   10

                               fprop

More Related Content

K040 确率分布とchi2分布

  • 1. 1 情報統計学 确率分布 独立性 期待値と分散 正規分布 20120525 一部修正
  • 2. 确率 2 ? A という結果が起きる确率→ Pr(A) と書く。
  • 3. 确率分布 3 ? 确率分布 その結果がどんな确率で起きるかをまとめたもの ? 離散型分布 ? 連続型分布 ? 特定の値 a を取る确率は 0 ? 幅をつけて考える
  • 4. 累積分布関数 Cummulative Distribution Function, CDF 4 ? 定義 ? 确率変数 X に対して を确率変数 X の累積分布関数という。 ? 确率密度関数 ? 累積分布関数 F(x) が微分可能なとき,導関数 を确率変数 X の(确率)密度関数 (probability density function, pdf) とい う。 确率密度関数があるときには,
  • 6. 関数のグラフ 6 ? R で関数のグラフを書く。 ? 确率密度関数 ? 累積分布関数 1.0 0.5 ? curve ? curve( 関数名 , 左端 ,  右端 ) sin (x) 0.0 ? curve(sin, 0, 2*pi) -0.5 ? curve variation ? curve(sin, 0, 2*pi) -1.0 ? curve(cos, 0, 2*pi) 0 1 2 3 4 5 6 x ? curve(sin, 0, 2*pi, add=T) ? curve(sin, 0, 2*pi, add=T, col=“red”) ? plot(sin, 0, 2*pi)
  • 7. 関数を探す 7 ? 正規分布 (normal distribution) ? 関数名に Normal が付くものを探す ? help.search(“Normal”) ? Normal の中に関連するものがありそう ? help(“Normal”) で使い方をみる または ? ?Normal でもよい。
  • 8. 分布に関连する関数 8 ? 分布名 ? 関数名の頭文字 ? 正規分布 norm ? p分布名 分布関数 ? t - 分布 t ? Pr(X<x) ? カイ 2 乗分布 chisq ? d 分布名 密 ? F分布 f 度関数 ? 一様分布 ? density function unif ? 二項分布 ? q 分布名 分 binom 位点 ? ポアソン分 poi ? quantile ? r 分布名 乱 数 ? random number
  • 9. 標準正規分布 (standard Normal Distribution) 9 ? 累積分布関数 1.0 0.8 0.6 pnorm (x) 0.4 curve(pnorm, -4, 4) 0.2 0.0 ? 确率密度関数 -4 -2 0 x 2 4 0.4 0.3 dnorm (x) curve(dnorm, -4, 4) 0.2 0.1 0.0 -4 -2 0 2 4
  • 11. 11 下側 α 点 qnorm 関数 qnorm(0.025, lower.tail = F) qnorm(0.025)
  • 12. 标準化、偏差値 12 ? 標準化 X ?? X ~ N (? ,σ ) ? Z = 2 ~ N (0,1) σ ? 偏差値 X ~ N (? ,σ ) 2 X ?? ? 偏差値 = ×10 + 50 ~ N (50,10 ) 2 σ
  • 13. 演習 ? Z ~ N(0,1) 、 X ~ N(158,25) のとき次の確 率を求めよ。 1) Pr(0 ≤ Z < 1) 2) Pr(1 ≤ Z ) 3) Pr(?2 ≤ Z < ?1) 4) Pr( Z ≥ k ) = 0.05 となるkの値 5) Pr(| Z |< 1) 6) Pr(| Z |> 2) 7) Pr(150 ≤ X < 160) 8) Pr(| X ? 158 |> k ) = 0.05 となるkの値
  • 14. 一様分布 14 ? 确率密度関数 curve(dunif, -0.5, 1.5) 1.0 0.8 0.6 dunif (x) 0.4 0.2 0.0 -0.5 0.0 0.5 1.0 1.5 ? 累積分布関数 x curve(punif, -0.5, 1.5) 1.0 0.8 0.6 punif (x) 0.4 0.2 0.0 -0.5 0.0 0.5 1.0 1.5 x
  • 15. 二項分布 (Binomial distribution) ? 1 回の試行 ( 実験 ) で A という事象が起きるか、                      起 きないか ? A という事象が起きる确率が p 、           起きない确率が q=1-p ? この試行をn回行ったとき、 A が起きる回数を X とする。 ? X の分布を二項分布といい、 X ~ Bi(n, p) と表す。
  • 16. 二項分布 その2 ? X の取り得る値  n回中の回数なので    0, 1, 2, …, n ? Pr(X=k) = A がn回中k回起きる确率        = nCk pk(1-p)n-k ? 分布関数 [ x] F ( x) = Pr( X ≤ x) = ∑ pk k =0 [ x]       ∑ n C x p k (1 ? p ) n ? k = k =0
  • 17. 二项分布 その3 pk = Pr( X = k ) ? 二項分布 Bi(10,1/6)    Ck p k (1 ? p ) n ? k =n ? さいころを 10 回振っ て、 1 の目が出る回数 1 1    Ck ( ) k (1 ? )10? k =10 X の分布 6 6 1.0 p3 = Pr( X = 3) 0.8 1 3 1 10?3    C3 ( ) (1 ? ) =10 0.6 6 6 cdf 0.4 10 × 9 × 8 1 3 5 7    = ( ) ( ) 0.2 3 × 2 ×1 6 6 0.0 0 2 4 6 8 10   0.1550454 = x
  • 18. 二項分布 Bi(10,1/6) の分布関数 階段関数 (step function) 1.0 0.8 pbinom(xx, 10, 1/6) 0.6 0.4 0.2 0.0 0 2 4 6 8 10 xx > pbinom(x,10,1/6) [1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325 [8] 0.9999806 0.9999992 1.0000000 1.0000000
  • 19. シミュレーション (数値実験)  simulation 19 ? 複雑な問題で式を求めるのが難しい ? 費用がかかりすぎる?時間がかかりすぎる ? シミュレーションとは ? 乱数を使って理論的な結果を検証 ? 理論的には結果を得ることが難しい内容を求めること ? 乱数 ? R では ? 乱数は,分布名に r をつけたもの ? 例:一様乱数  runif ?   正規乱数 rnorm
  • 20. 正規乱数  rnorm 20 ? 正規分布に従う乱数 ? rnorm( 個数) Histogram of rnorm(100) ? 例えば 0.4 ? rnorm(100) 0.3 ? hist(rnorm(100), freq=F) Density 0.2 ? curve(dnorm, add=T) 0.1 0.0 -3 -2 -1 0 1 2 rnorm(100)
  • 21. 円周率のシミュレーション 21 ? 一辺の長さ 1 の正方形 ? 面積 1 ? 区間 [0, 1] の一様乱数を 2 個 ? 半径 1 の 1/4 円 ? それを x 座標, y 座標とする点 P (x, y) を考え ? 面積 π/4 る ? その点は正方形の中 ? さらに 1/4 円の中に落ちる比率は1: π/4 1.0 0.8 そういう点を n 個発生させ る 0.6 circ (x) ? 1/4 円内の点の個数を m 0.4 ? 全体の点の個数を n ?m/n ≒ π/4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x
  • 22. 22 circ <- function(x) sqrt(1 - x^2) 1.0 curve(circ, 0, 1) lines(c(1, 0), c(0, 0)) lines(c(0, 0), c(1, 0)) 0.8 > sim.pi(1000) 0.6 Type <Return> to start simulation : y 788 of 1000 in the circle. 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x
  • 23. 条件付确率 (conditional prob.) ? 事象 A が起きたという条件の下で 事象 B が起きる确率を考える ? 例 女性で身長が170cm以上 B Pr( A ∩ B ) Pr( B | A) = Pr( A) A Pr(身長 ≥ 170.0  かつ 女性) Pr(身長 ≥ 170.0 | 女性) = Pr(女性) 0.03976            = = 0.0082 0.485
  • 24. 独立事象 ? 条件付确率が条件に無関係のとき 2 つの事象は独立という Pr( B | A) = Pr( B ) Pr( A ∩ B ) Pr( B | A) = = Pr( B ) Pr( A) Pr( A ∩ B ) = Pr( A) Pr( B )
  • 25. 条件付分布 ? X=x という条件の下での Y の分布 G ( y | x) = Pr(Y < y | X = x) Pr(Y < y and X = x)      = Pr( X = x) h ( x, y ) g ( y | x) = f ( x) h( x, y ) = f ( x ) g ( y | x )      g ( y ) f ( x | y ) =
  • 26. 独立性 ? 2 つの确率変数 X, Y が独立 ? 分布関数 H ( x, y ) = Pr( X < x, Y < y )      Pr( X < x) Pr(Y < y ) =      F ( x)G ( y ) = ? 密度関数 h ( x, y ) = f ( x ) g ( y )
  • 27. 期待値 (Expectation) ? データの平均(代表値、どんな値) data : x1 , x2 ,? , xn x1 + x2 + ? + xn mean : x = n ? 确率変数(分布)の期待値(どんな値) 取り得る値 : a1 , a2 ,? , ak 各値の确率 : p1 , p2 ,? , pk 平均 : E ( X ) = a1 p1 + a2 p2 + ? + ak pk
  • 28. 确率分布    度数分布表 値 确率 階級 階級値 相対度数 a1 p1 a0~a1 m1 f1 a2 p2 a1~a2 m2 f2 ak pk ak-1~ak mk fk 合計 1.00 合計 1.00 E ( X ) = a1 p1 + a2 p2 + ? + ak pk   x = m1 f1 + m2 f 2 + ? + mk f k
  • 29. 期待値と分散 X   确率変数 f ( x)   Xの密度関数 離散型の場合は Xの期待値(平均) 積分の代わりに ∞ 和 (Σ) を使う   E ( X ) = ∫ x f ( x)dx  ?∞ ∞   E (φ ( X )) = ∫ φ ( x) f ( x)dx ?∞ Xの分散   V ( X ) = E ( X ? E ( X )) 2    φ ( x) = {x ? E ( X )}2 ∞       ∫ {x ? E ( X )}2 f ( x)dx = ?∞       E ( X 2 ) ? {E ( X )}2 =
  • 30. 主な分布の期待と分散 X ~ Bi (n, p )   E ( X ) = np,   V ( X ) = npq X ~ Po(λ )   E ( X ) = λ ,   V ( X ) = λ X ~ U ( a, b)   E ( X ) = (a + b) / 2,   V ( X ) = (b ? a ) / 12 2 X ~ N (? ,σ ) 2   E ( X ) = ? ,    V ( X ) = σ 2
  • 31. 31 情報統計学 χ2 分布 t 分布 F 分布
  • 32. 标本分布 32 ? 正規分布から導かれる分布 ?χ2 分布 ?t 分布 ?F 分布
  • 33. χ2 分布 33 ? 自由度 m の χ2 分布 ? 确率密度関数 ?E(Y)=m ?Var(Y)=2m
  • 34. χ2 分布 34 ? 确率変数 Z が標準正規分布 N(0,12) に従っているとき, Y = Z2 の分布は自由度 1 の χ2 分布に従う。 ? 确率変数 X1, X2, …, Xn が互いに独立で, Xi が正規分布 N(0,12) に従うとき, Z = X12 + X22 + … + Xn2 は自由度 n の χ2 分布に従う。
  • 35. χ2 分布の确率密度関数のグラフ 35 ? 自由度 1 , 2 が特殊 curve(dchisq(x,1), 0, 10, col = 1) #1 は黒 curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤 curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑 curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青 1.2 1.0 0.8 dchisq(x, 1) 0.6 0.4 0.2 0.0 0 2 4 6 8 10 x
  • 36. シミュレーションによる导出 36 ? 標準正規分布を2乗すると χ2 分布になることを乱数を使って確かめる 1. 正規乱数 z を 1 つ取る 2. y=z2 を計算する 3. これを n 回繰り返し, y の値を n 個とる 4. Y の分布を図示し,理論的なものと比較する Histogram of nrdata > nrdata <- rnorm(1000) > summary(nrdata) 200 Min. 1st Qu. Median Mean 3rd Qu. Max. -3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000 > sd(nrdata) 150 [1] 1.025253 Frequency > hist(nrdata) 100 50 0 -3 -2 -1 0 1 2 3 nrdata
  • 37. nr2data <- nrdata^2 37 mean(nr2data) sd(nr2data) hist(nr2data, freq = F) curve(dchisq(x,1), 0, 9, col = 2, add = T) Histogram of nr2data 0.7 0.6 0.5 0.4 Density 0.3 0.2 0.1 0.0 0 2 4 6 8 10 12 nr2data
  • 38. レポート 38 1. X が自由度 m の χ2 分布に従い, Y が自由度 n の χ2 分布に従っ て,互いに独立であれば Z=X+Y の分布は,自由度 (m+n) の χ2 分布に従う。  再生性というが,このことをシミュレーションを使って確認 せよ。 2. 正規分布も再生性を持つ。このことをシミュレーションを用 いて確かめよ。
  • 39. t 分布 39 0.4 ? 密度関数のグラフは ? curve(dt(x, 10), -4, 4) 0.3 dt(x, 10) 0.2 0.1 0.0 -4 -2 0 2 4 x
  • 40. t 分布と正規分布の确率密度関数 40 ? curve(dt(x, 10), -4, 4) ? curve(dt(x, 2), -4, 4, col = 2, add = TRUE) ? curve(dnorm, -4, 4, col = 3, add = TRUE) 0.4 0.3 dt(x, 10) 0.2 0.1 0.0 -4 -2 0 2 4
  • 41. t 分布のパーセント点 41 > qt(0.05, 5) > qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100)) [1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461 -1.724718 [8] -1.675905 -1.660234 > qt(c(0.05, 0.95), 5) [1] -2.015048 2.015048 > pt(2.015048, 5) [1] 0.95
  • 42. シミュレーション 1 42 nrdata <- rnorm(1000) chi2data <- rchisq(1000, 10) 0.4 hist(chi2data) tdata <- nrdata / (sqrt(chi2data / 10)) mean(tdata) 0.3 sd(tdata) curve(dt(x, 10), -4, 4, col = 2) dt(x, 10) 0.2 hist(tdata, freq = F, add=TRUE) 0.1 0.0 -4 -2 0 2 4 x
  • 44. 44
  • 45. 45
  • 46. 46 tcalc <-function(x){ Histogram of sample.t barx <- mean(x) 0.4 sdx <- sd(x) tval <- barx / (sdx / sqrt(length(x))) 0.3 tval } ran <- sapply(rep(10, 1000), rnorm) Density 0.2 sample.t <- apply(ran, 2, tcalc) hist(sample.t, nclass = 20, freq = F) 0.1 curve(dt(x, 9), -4, 4, col = 2, add = T) 0.0 -4 -2 0 2 4
  • 47. F 分布 47
  • 48. F 分布の密度関数 48 > curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5)) > curve(df(x,2,10),0.00000001,5,col=2,add=T) > curve(df(x,3,10),0,5,col=3,add=T) 1.5 > curve(df(x,8,10),0,5,col=4,add=T) > curve(df(x,8,20),0,5,col=5,add=T) 1.0 df(x, 1, 10) 0.5 0.0 0 1 2 3 4 5 x
  • 49. シミュレーション 49 > c8rand <- rchisq(1000, 8) > c10rand <- rchisq(1000, 10) > fprop <- (c8rand / 8) / (c10rand / 10) > hist(fprop, nclass = 20, freq = F) > hist(fprop, nclass = 20, freq = F)$count > curve(df(x,8,10), 0, 5, col = 2, add = TRUE)
  • 50. 50 Histogram of fprop 0.7 0.6 0.5 0.4 Density 0.3 0.2 0.1 0.0 0 2 4 6 8 10 fprop

Editor's Notes

  • #18: ## binomial distribution ## CDF plot (sterp function) ## parameters n, p n&lt;-10 p&lt;-1/6 x&lt;-0:n prob&lt;-dbinom(x,n,p) cprob&lt;-cumsum(prob) y&lt;-cprob x0&lt;-c(-2,x) y0&lt;-c(0,y) x1&lt;-c(x,n+2) y1&lt;-c(0,y) plot(0.5,0.5,xlim=c(-1,n+1),ylim=c(0,1),typ=&quot;n&quot;,xlab=&quot;x&quot;,ylab=&quot;cdf&quot;) abline(h=0,lty=3) abline(h=1,lty=3) segments(x0,y0,x1,y1,lw=2,col=&quot;red&quot;) segments(x,cprob,x,cprob-prob,lty=2)