狠狠撸

狠狠撸Share a Scribd company logo
2 変数の集計

  統計学入門
   2008.04
 2010.05.18  演習問題にヒント追加
         2011.05.11 一部修正
2012.05.08 抵抗線アニメーション付加




                           1
2 変量のデータ
番号 身長 体重
   1 1 48 41
   2 1 60 49
   3 1 59 45   一般には
   4 1 53 43
   5 1 51 42
   6 1 40 29   番号      X    Y
   7 1 56 49    1     x1   y1
   8 1 37 31    2     x2   y2
   9 1 49 47    3     x3   y3
 1 0 1 60 47    4     x4   y4
 1 1 1 51 42
                5     x5   y5
 1 2 1 57 39
 1 3 1 57 48
 1 4 1 44 36    n     xn   yn
                                2
2 変量データの分析
? 1変量データとして
 – 「身長」の分析
  ? 代表値 ばらつき グラフ表現
 – 「体重」の分析
  ? 代表値 ばらつき グラフ表現


? 2 変量データとして
 – 「身長」と「体重」の関係
  ? 散布図
  ? 傾向線(回帰直線)
  ? 直線的な傾向の強さ(相関係数)
                      3
1 変量データとしての集計
?   変量 X について
    – データ   x1, x2,
      ??? xn     x1 + x2 + ? + xn
                x=
    – 平均値                      n
                1 n
           s x = ∑ ( xi ? x ) 2
                 2
    – 分散        n i =1

?    変量 Y について
    – データ   y1, y2,
      ??? yn     y1 + y2 + ? + yn
             y=
    – 平均値                n
                     n
                          1
                         = ∑ ( yi ? y ) 2
                     2
                sy
    – 分散                  n i =1            4
各変数ごとの要約
> (1var-analysis height)         > (1var-analysis weight)

fivnum (137 148.5 152 157 160)   fivnum (29 40 42.5 47 49)

mean 151.57142857142856          mean 42.000000000000008

S.D. 7.345477789500418           S.D. 6.385078759829887




                                                            5
平行箱ひげ図
> (boxplot (list height weight))




                               > (boxplot (list height height2))
                                                              6
2 変量データとしての分析

? X と Y との関連を調べる
 –   散布図
 –   直線的な傾向
 –   傾向線(回帰直線)
 –   直線的な傾向の強弱を数値化
     ? 相関係数




                     7
散布図 (scatterplot scattergram)
> plot(height, weight)
               x 軸   y 軸




                           ? (xi, yi) を平面上の点
                             の座標として、n
                             個の点をプロット
                             したもの
                                         8
さまざまな散布
   図
          右上がり
          右下がり
          傾向なし
          直線以外の関係




                9
傾向線
? 散布図に右上がり、ないしは右下がり
  の
  直線的な傾向がある場合

? 傾向を示す直線(傾向線)を引こう

? どんな基準で傾向線を決めるか?
                      10
抵抗線? (resistance line)
? x 軸の変数の値の大きさで n/3 個づつに3分
  割
 – X 軸の値が小さい  G1 グループ
 – X 軸の値が中位の  G2 グループ
 – X 軸の値が大きな  G3 グループ
? G1, G3 のグループで
 – X , Y の中央値(ないしは平均値)を計算
 – G1 の中央値 XM1, YM1
 – G3 の中央値  XM3, YM3
? 傾き
    b = (YM1 - YM3)/( XM - XM3)
? 切片
   上記の傾きの直線を上下し、直線より上側
  の点の個数と下側の点の個数が同じになると11
  ころ
抵抗線

G1     G2    G3




 n     n     n
   個     個     個
 3     3     3


                   12
回帰直線 (regression line)   y=a+bx
? 最小2乗法
 – 誤差の考え方 i 番目のデータ (xi, yi) につ
   いて

                   ?
   データの y の値   yi yi
   直線上の y の値   a+bxi =
            n               n
  2 乗誤差の和 ?
Q(a, b) = ∑ ( yi ? yi ) 2 =∑ { yi ? (a + bxi )}2
           i =1            i =1

                minimize
                                                   13
误 差




      14
y=a+bx
                    データ
          yi             ( xi , yi )


               誤差
yi = a + bxi
?




                    xi
                                                15
回帰直線(つづき)
?Q ? n                            n
  =   ∑
?a ?a i =1
           {yi ? (a + bxi )}2 = ∑ 2{yi ? (a + bxi )}(?1) = 0
                                i =1



          n

         ∑{y
         i =1
                    i   ? (a + bxi )} = 0

          n                n        n

         ∑ y = ∑ a + b∑ x
         i =1
                i
                          i =1     i =1
                                          i



           y = a + bx

                                                          16
?Q ? n                            n
  =   ∑
?b ?b i =1
           {yi ? (a + bxi )}2 = ∑ 2{yi ? (a + bxi )}(? xi ) = 0
                                i =1


?Q ? n                    ? n
  = ∑ {yi ? (a + bxi )} =
                       2
                             ∑    {yi ? ( y ? bx + bxi )}2
?b ?b i =1                ?b i =1
  ? n
=    ∑
  ?b i =1
          {( yi ? y ) ? b( xi ? x )}2
   n
= ∑ 2{( yi ? y ) ? b( xi ? x )}(?( xi ? x )) = 0
  i =1
          n                             n

       ∑(y
         i =1
                i   ? y )( xi ? x ) = b∑ ( xi ? x )( xi ? x )
                                       i =1
           n                               n
                           1
    ∑ ( xi ? x )( yi ? y ) n ∑ ( xi ? x )( yi ? y ) sxy
b = i =1 n                = i =1 n                 = 2
                               1                    sx
        ∑ ( xi ? x )
         i =1
                     2
                                 ∑ ( xi ? x )
                               n i =1
                                              2
                                                                17
切片と傾き
y = a + bx
             n
       1
         ∑ ( xi ? x )( yi ? y )
  s xy n i =1
b= 2 =          n
  sx        1
              ∑ ( xi ? x )
            n i =1
                           2



                                  18
回帰直線 (regression line)
? 最小2乗法で求めた直線

          ?         ? ?
                y = a + bx
 a = y ? bx
 ?
                          ?      ?
                y = ( y ? bx ) + bx
 ?   s xy
 b= 2                    ?
     sx          y ? y = b( x ? x )
                         s xy
                 y ? y = 2 (x ? x)
                         sx
              x = x のとき y = y
                                      19
2本の回帰直线
          身長
体重




     身長        体重
                    20
2本の回帰直线                 体重


? 身長 (x) と体重 (y) の回帰直線
                s xy                  身長
                           y の (x の上への)
         y ? y = 2 (x ? x)
                sx         回帰直線


? 体重 (x') と身長 (y') の回帰直線
                    sx' y '        身長
          y '? y ' = 2 ( x'? x ' )
                     sx'
? 記号を元の x, y に戻すと                      体重
             s xy         x の (y の上への )
      x ? x = 2 ( y ? y ) 回帰直線
             sy
                                        21
2本の回帰直线
? y の回帰直線
           s xy
    y ? y = 2 (x ? x)
           sx
? x の回帰直線
           s xy
    x ? x = 2 ( y ? y)
           sy
      ( x, y ) = ( x , y )
? いずれも         という点を
  通る                   ( x, y ) = ( x , y )
? 2本の回帰直线は         で
  交わる
                                            22
2本の回帰直线が等しくなるの
  s    は s
         xy                                        xy
y? y =    2
              (x ? x)                 x?x =         2
                                                        ( y ? y)
         s
         x                                     s    y
                                                   2
                                               s   y
                                      y? y =            (x ? x)
                                               s xy
                                2
                  s xy         sy
                       2
                           =
                   s   x       s xy
                    2
                   sxy
                   2 2
                               =1
                  s s
                   x y

                の場合である                                             23
演習
? 回帰直線を求めよう

? height
  – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,
    157, 157, 144                    平均: 151.57
  – 和 2122          2 乗和 322338 分散: 50.2449
? weight
  – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36
  – 和 588 2 乗和 25226
                                         平均: 42
                                         分散: 37.8571
? 積和  89643

                                                             24

More Related Content

030 2変数の集計

  • 1. 2 変数の集計 統計学入門 2008.04 2010.05.18  演習問題にヒント追加 2011.05.11 一部修正 2012.05.08 抵抗線アニメーション付加 1
  • 2. 2 変量のデータ 番号 身長 体重 1 1 48 41 2 1 60 49 3 1 59 45 一般には 4 1 53 43 5 1 51 42 6 1 40 29 番号 X Y 7 1 56 49 1 x1 y1 8 1 37 31 2 x2 y2 9 1 49 47 3 x3 y3 1 0 1 60 47 4 x4 y4 1 1 1 51 42 5 x5 y5 1 2 1 57 39 1 3 1 57 48 1 4 1 44 36 n xn yn 2
  • 3. 2 変量データの分析 ? 1変量データとして – 「身長」の分析 ? 代表値 ばらつき グラフ表現 – 「体重」の分析 ? 代表値 ばらつき グラフ表現 ? 2 変量データとして – 「身長」と「体重」の関係 ? 散布図 ? 傾向線(回帰直線) ? 直線的な傾向の強さ(相関係数) 3
  • 4. 1 変量データとしての集計 ? 変量 X について – データ   x1, x2, ??? xn x1 + x2 + ? + xn x= – 平均値 n 1 n s x = ∑ ( xi ? x ) 2 2 – 分散   n i =1 ? 変量 Y について – データ   y1, y2, ??? yn y1 + y2 + ? + yn y= – 平均値 n n 1 = ∑ ( yi ? y ) 2 2 sy – 分散   n i =1 4
  • 5. 各変数ごとの要約 > (1var-analysis height) > (1var-analysis weight) fivnum (137 148.5 152 157 160) fivnum (29 40 42.5 47 49) mean 151.57142857142856 mean 42.000000000000008 S.D. 7.345477789500418 S.D. 6.385078759829887 5
  • 6. 平行箱ひげ図 > (boxplot (list height weight)) > (boxplot (list height height2)) 6
  • 7. 2 変量データとしての分析 ? X と Y との関連を調べる – 散布図 – 直線的な傾向 – 傾向線(回帰直線) – 直線的な傾向の強弱を数値化 ? 相関係数 7
  • 8. 散布図 (scatterplot scattergram) > plot(height, weight) x 軸   y 軸 ? (xi, yi) を平面上の点 の座標として、n 個の点をプロット したもの 8
  • 9. さまざまな散布 図 右上がり 右下がり 傾向なし 直線以外の関係 9
  • 10. 傾向線 ? 散布図に右上がり、ないしは右下がり の 直線的な傾向がある場合 ? 傾向を示す直線(傾向線)を引こう ? どんな基準で傾向線を決めるか? 10
  • 11. 抵抗線? (resistance line) ? x 軸の変数の値の大きさで n/3 個づつに3分 割 – X 軸の値が小さい  G1 グループ – X 軸の値が中位の  G2 グループ – X 軸の値が大きな  G3 グループ ? G1, G3 のグループで – X , Y の中央値(ないしは平均値)を計算 – G1 の中央値 XM1, YM1 – G3 の中央値  XM3, YM3 ? 傾き b = (YM1 - YM3)/( XM - XM3) ? 切片  上記の傾きの直線を上下し、直線より上側 の点の個数と下側の点の個数が同じになると11 ころ
  • 12. 抵抗線 G1 G2 G3 n n n 個 個 個 3 3 3 12
  • 13. 回帰直線 (regression line)   y=a+bx ? 最小2乗法 – 誤差の考え方 i 番目のデータ (xi, yi) につ いて ? データの y の値   yi yi 直線上の y の値   a+bxi = n n 2 乗誤差の和 ? Q(a, b) = ∑ ( yi ? yi ) 2 =∑ { yi ? (a + bxi )}2 i =1 i =1 minimize 13
  • 14. 误 差 14
  • 15. y=a+bx データ yi ( xi , yi ) 誤差 yi = a + bxi ? xi 15
  • 16. 回帰直線(つづき) ?Q ? n n = ∑ ?a ?a i =1 {yi ? (a + bxi )}2 = ∑ 2{yi ? (a + bxi )}(?1) = 0 i =1 n ∑{y i =1 i ? (a + bxi )} = 0 n n n ∑ y = ∑ a + b∑ x i =1 i i =1 i =1 i y = a + bx 16
  • 17. ?Q ? n n = ∑ ?b ?b i =1 {yi ? (a + bxi )}2 = ∑ 2{yi ? (a + bxi )}(? xi ) = 0 i =1 ?Q ? n ? n = ∑ {yi ? (a + bxi )} = 2 ∑ {yi ? ( y ? bx + bxi )}2 ?b ?b i =1 ?b i =1 ? n = ∑ ?b i =1 {( yi ? y ) ? b( xi ? x )}2 n = ∑ 2{( yi ? y ) ? b( xi ? x )}(?( xi ? x )) = 0 i =1 n n ∑(y i =1 i ? y )( xi ? x ) = b∑ ( xi ? x )( xi ? x ) i =1 n n 1 ∑ ( xi ? x )( yi ? y ) n ∑ ( xi ? x )( yi ? y ) sxy b = i =1 n = i =1 n = 2 1 sx ∑ ( xi ? x ) i =1 2 ∑ ( xi ? x ) n i =1 2 17
  • 18. 切片と傾き y = a + bx n 1 ∑ ( xi ? x )( yi ? y ) s xy n i =1 b= 2 = n sx 1 ∑ ( xi ? x ) n i =1 2 18
  • 19. 回帰直線 (regression line) ? 最小2乗法で求めた直線 ? ? ? y = a + bx a = y ? bx ? ? ? y = ( y ? bx ) + bx ? s xy b= 2 ? sx y ? y = b( x ? x ) s xy y ? y = 2 (x ? x) sx x = x のとき y = y 19
  • 20. 2本の回帰直线 身長 体重 身長 体重 20
  • 21. 2本の回帰直线 体重 ? 身長 (x) と体重 (y) の回帰直線 s xy 身長 y の (x の上への) y ? y = 2 (x ? x) sx 回帰直線 ? 体重 (x') と身長 (y') の回帰直線 sx' y ' 身長 y '? y ' = 2 ( x'? x ' ) sx' ? 記号を元の x, y に戻すと 体重 s xy x の (y の上への ) x ? x = 2 ( y ? y ) 回帰直線 sy 21
  • 22. 2本の回帰直线 ? y の回帰直線 s xy y ? y = 2 (x ? x) sx ? x の回帰直線 s xy x ? x = 2 ( y ? y) sy ( x, y ) = ( x , y ) ? いずれも         という点を 通る ( x, y ) = ( x , y ) ? 2本の回帰直线は         で 交わる 22
  • 23. 2本の回帰直线が等しくなるの s は s xy xy y? y = 2 (x ? x) x?x = 2 ( y ? y) s x s y 2 s y y? y = (x ? x) s xy 2 s xy sy 2 = s x s xy 2 sxy 2 2 =1 s s x y の場合である 23
  • 24. 演習 ? 回帰直線を求めよう ? height – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144 平均: 151.57 – 和 2122 2 乗和 322338 分散: 50.2449 ? weight – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36 – 和 588 2 乗和 25226 平均: 42 分散: 37.8571 ? 積和  89643 24