狠狠撸

狠狠撸Share a Scribd company logo
統計学入門
  相関係数
   Correlation Coefficient
2008.05
2009.05.27 式の誤りを修正
2009.06.02 R での計算
http://case.f7.ems.okayama-u.ac.jp/animation/scattergram.html
2011.05.31 演習問題データ変更
2012.05.23 アニメーション追加
直線的強さの尺度

Kendall の τ (タウ)係数
共分散
相関係数( Pearson )
順位相関係数
 Spearman の順位相関係数
 Kendall   の順位相関係数 τ
直線的強さの尺度

2つの目的
  右上がり、右下がりの区別 符号で
  直線的な傾向が強い  大きな値
  直線的な傾向が弱い  小さな値
 -0.988   -0.478   0.312
Kendall の τ 係数
Kendall の τ 係数

 平均でⅠ象限からⅣ象限に分割する
 Ⅰ 象限、Ⅲ象限のデータ数 K
 Ⅱ 象限、Ⅳ象限のデータ数 L     K+L=n

 右上がりの傾向のとき
      K が大きく、 L が小さい    
 0<K-L
 右下がりの傾向のとき
      L が大きく、 K が小さい     K-
 L<0
Kendall の τ 係数

 後のために、別の表現
  各ケースに +1 、ないしは -1 の重みwをつけ
  る
              ? + 1   , y ) ∈ I ,III
                         (x
  w( x, y ) = ?
              ?? 1   , y ) ∈ II ,IV
                        (x
  1 n                1
    ∑ w( xi , yi ) = n ( K ? L) = τ
  n i =1
τ 係数の問題点

4 つの点は同じ重み
 データが変化(追加
 、削除、修正)した       4
 時に、同じ象限に            3
  同じ象限に留まる
  別の象限に移りや
  すい

             1       2
点ごとに重みを変える
共分散
w( x, y ) = ( x ? x )( y ? y )


1 n                1 n
  ∑ w( xi , yi ) = n ∑ ( xi ? x )( yi ? y ) = sxy
n i =1               i =1

( s xy ) ≤ s s
     2     2 2
           x y
相関係数
               x?x y?y
 w( x, y ) = (     )(    )
                sx    sy
 1 n                1 n xi ? x yi ? y
   ∑ w( xi , yi ) = n ∑( s )( s )
 n i =1               i =1 x      y

  1 n
    ∑i =1 ( xi ? x )( yi ? y ) sxy
 =n                           =        = rxy
             sx s y             sx s y
相関係数の値
> cor(height, weight)
0.851211920646571
相関係数行列
   (iris データ )




(1.0000000000000006 -0.11756978413300196 0.8717537758865829 0.8179411262715756)
(-0.11756978413300196 1.0000000000000006 -0.4284401043305399 -0.36612593253643912)
(0.8717537758865829 -0.4284401043305399 0.9999999999999994 0.96286543140279552)
(0.8179411262715756 -0.36612593253643912 0.96286543140279552 1.0000000000000002))
相関係数の性質

 -1 ≦ r xy≦1


 完全相関 r xy = ±1
   1本の直線上にすべての点

 無相関  r xy =0
  相関(直線的な傾向)が無い
関係はあるが、无相関
演習(回帰直線の演習問題と同じデー
タ)
 相関係数、回帰直線を求めよう

 height
   148, 160, 159, 153, 151, 140, 156, 137, 149, 160,
   151, 157, 157, 144
   和 2122         2 乗和 322338
 weight
   41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48,
   36
   和 588 2 乗和 25226

 積和  89643
順位相関係数

データが順位で与えられる場合
 Spearman の順位相関係数
  通常の Pearson の相関係数を計算
  データが「順位」ということから???


 Kendall の順位相関係数
  全部に順位をつけるのが難しい場合
  対比較 (paired comparison)
順位データ (Spearman)

 n個の対象 O1 , O2 , ? , On
 に対して1からnまでの順位をつ
 ける
                      順位ということよ
 二人がつけた順位
  a , a ,?, a         り , a ,?, a
    1   2         n    a
                       1   2   n
   b1 , b2 , ? , bn
                      は1からnまでが
 の関連を求める              1回ずつ現れる
順位データの例

球団     A   B   対象    A     B
中日     3   2   O1    a1    b1
広島     2   6    O2    a2    b2
阪神             ???   ??    ??
       1   3          ?     ?
ヤクルト   5   5   ???   ??    ??
横浜     4   1          ?     ?
巨人     6   4   ???   ??    ??
                      ?     ?
a1 + a2 + ? + an 1 + 2 + ? + n n(n + 1) / 2 n + 1
a=                 =             =            =
           n               n          n          2



    1 n             1 n 2
sa = ∑ (ai ? a ) 2 = ∑ ai ? (a ) 2
 2

    n i =1          n i =1
  a12 + a2 + ? + an
          2         2
=                     ? (a ) 2
            n
  12 + 2 2 + ? + n 2 n + 1 2
=                     ?(       )
            n             2
  n(n + 1)(2n + 1) / 6 n + 1 2 (n + 1)(n ? 1)
=                      ?(        ) =
             n                2      12
n                n

∑ (ai ? bi ) = ∑ (ai ? a + a ? bi ) 2
i =1
             2

                 i =1
       n
= ∑ (ai ? a + b ? bi ) 2
     i =1
       n
= ∑ {(ai ? a ) 2 ? 2(ai ? a )(bi ? b ) + (bi ? b ) 2 }
     i =1
       n                 n                   n
= ∑ (ai ? a ) 2 ? 2∑ (ai ? a )(bi ? b ) + ∑ (bi ? b ) 2
     i =1               i =1                i =1

= nsa ? 2nsab + nsb
    2             2


                1 n
sab = {sa + sb ? ∑ (ai ? bi ) 2 } / 2
        2    2

                n i =1
  (n + 1)(n ? 1) 1 n
=               ? ∑ (ai ? bi ) 2
       12        2n i =1
sab
 rab =
          2 2
         sa sb


    (n + 1)(n ? 1) 1 n
                   ? ∑ (ai ? bi ) 2
         12          2n i =1
 =
       (n + 1)(n ? 1) (n + 1)(n ? 1)
     (               )(                )
            12               12
                         n
              6
 = 1?                   ∑ (ai ? bi )
       n(n + 1)(n ? 1) i =1
                                     2




                            n
                 6
rab = 1 ?                 ∑ (ai ? bi )
          n(n + 1)(n ? 1) i =1
                                       2
Spearman の順位相関係数
                             > cor(a, b)
> a<-c(3, 2, 1, 5, 4, 6)     [1] 0.02857143
> b<-c(2, 6, 3, 5, 1, 4)
                             > mean(a)
> a-b                        [1] 3.5
[1] 1 -4 -2 0 3 2            > mean(b)
> (a-b)^2                    [1] 3.5
[1] 1 16 4 0 9 4             > sd(a)
> sum((a-b)^2)               [1] 1.870829
[1] 34                       > sd(b)
> 1-6*sum((a-b)^2)/(5*6*7)   [1] 1.870829
[1] 0.02857143               > cov(a,b)
                             [1] 0.1
> 1/35                       > cov(a,b)/(sd(a)*sd(b))
[1] 0.02857143               [1] 0.02857143
6             34   1
rab   =1 ?         ×34 =1 ?    =
           6 ×7 ×5          35   35
                                                  n
                                       6
                      rab = 1 ?                 ∑ (ai ? bi ) 2
                                n(n + 1)(n ? 1) i =1

  球団        A    B    A-B        ( A-B)
                                      2

 中日         3    2    3-2             1
 広島         2    6    2-6            16
 阪神         1    3    1-3             4
ヤクル         5    5    5-5             0
  ト
  横浜        4    1    4-1             9
  巨人        6    4    6-4             4
対比較 (paired comparison)
   (Kendall の順位相関係数 )

 n個の対象 O1 , O2 ,? , On
 に対して1からnまでの順位をつけるのは大変

 n個から取り出した 2 個 (pair), O j )
                 (Oi            に対して
 二人で大小関係をつける
   Pair の組数                   n(n ? 1)
                   M = n C2 =
   二人の大小関係が一致した組み数   K           2
   二人の大小関係が不一致の組み数  L
   M=K+L  
                         ?M ≤ K ?L≤ M
    K?L     K?L                K ?L
 τ=     =                  1 ≤
                          ?         ≤1
     M    n(n ? 1) / 2          M
τ=(7-8)/15=-1/15
対比較
 中:                  球団    A       B


 広
                     中日    3       2
                     広島    2       6

 >:                  阪神
                    ヤクルト
                           1       3
                           5       5
 <                   横浜    4       1


 中:   広:
                     巨人    6       4


 阪    阪
 >:   >:
 <    >
 中:   広:   阪:
 ヤ    ヤ    ヤ
 <:   <:   <:
各種相関係数
> cor(a, b)                      > cor(height, weight)
[1] 0.02857143                   [1] 0.851212
                                 > cor(height, weight, method="pearson")
                                 [1] 0.851212
> cor(a, b, method="pearson")    > cor(height, weight, method="spearman")
[1] 0.02857143                   [1] 0.7433628
                                 > cor(height, weight, method="kendall")
> cor(a, b, method="spearman")
[1] 0.02857143                   > rank(height)
                                  [1] 4.0 13.5 12.0 8.0 6.5 2.0 9.0 1.0
                                     5.0 13.5 6.5 10.5 10.5 3.0
> cor(a, b, method="kendall")    > cor(rank(height), rank(weight))
[1] -0.06666667                  [1] 0.7433628
演習
次のデータから順位相関係数を求めよ
      球団    2006 年   2011.05.
             最終         31
      中日      1          1
      阪神      2         5
     ヤクルト     3         2
      巨人      4         4
      広島      5         3
      横浜      6         6
相関係数を当ててみよう
http://case.f7.ems.okayama-
u.ac.jp/simulation/scatter_java/index.html

 入門編
      -1.0, -0.8, -0.5, 0,
      0.5, 0.8, 1.0
 初級編
      -1.0(0.2)1.0
 中級編
      -1.0(0.1)1.0
 上級編
      -1.00(0.01)1.00

More Related Content

040 相関

  • 1. 統計学入門 相関係数    Correlation Coefficient 2008.05 2009.05.27 式の誤りを修正 2009.06.02 R での計算 http://case.f7.ems.okayama-u.ac.jp/animation/scattergram.html 2011.05.31 演習問題データ変更 2012.05.23 アニメーション追加
  • 2. 直線的強さの尺度 Kendall の τ (タウ)係数 共分散 相関係数( Pearson ) 順位相関係数 Spearman の順位相関係数 Kendall   の順位相関係数 τ
  • 3. 直線的強さの尺度 2つの目的 右上がり、右下がりの区別 符号で 直線的な傾向が強い  大きな値 直線的な傾向が弱い  小さな値 -0.988 -0.478 0.312
  • 4. Kendall の τ 係数
  • 5. Kendall の τ 係数 平均でⅠ象限からⅣ象限に分割する Ⅰ 象限、Ⅲ象限のデータ数 K Ⅱ 象限、Ⅳ象限のデータ数 L     K+L=n 右上がりの傾向のとき      K が大きく、 L が小さい     0<K-L 右下がりの傾向のとき      L が大きく、 K が小さい     K- L<0
  • 6. Kendall の τ 係数 後のために、別の表現 各ケースに +1 、ないしは -1 の重みwをつけ る ? + 1   , y ) ∈ I ,III (x w( x, y ) = ? ?? 1   , y ) ∈ II ,IV (x 1 n 1 ∑ w( xi , yi ) = n ( K ? L) = τ n i =1
  • 7. τ 係数の問題点 4 つの点は同じ重み データが変化(追加 、削除、修正)した 4 時に、同じ象限に 3 同じ象限に留まる 別の象限に移りや すい 1 2 点ごとに重みを変える
  • 8. 共分散 w( x, y ) = ( x ? x )( y ? y ) 1 n 1 n ∑ w( xi , yi ) = n ∑ ( xi ? x )( yi ? y ) = sxy n i =1 i =1 ( s xy ) ≤ s s 2 2 2 x y
  • 9. 相関係数 x?x y?y w( x, y ) = ( )( ) sx sy 1 n 1 n xi ? x yi ? y ∑ w( xi , yi ) = n ∑( s )( s ) n i =1 i =1 x y 1 n ∑i =1 ( xi ? x )( yi ? y ) sxy =n = = rxy sx s y sx s y
  • 11. 相関係数行列 (iris データ ) (1.0000000000000006 -0.11756978413300196 0.8717537758865829 0.8179411262715756) (-0.11756978413300196 1.0000000000000006 -0.4284401043305399 -0.36612593253643912) (0.8717537758865829 -0.4284401043305399 0.9999999999999994 0.96286543140279552) (0.8179411262715756 -0.36612593253643912 0.96286543140279552 1.0000000000000002))
  • 12. 相関係数の性質 -1 ≦ r xy≦1 完全相関 r xy = ±1   1本の直線上にすべての点 無相関  r xy =0 相関(直線的な傾向)が無い
  • 14. 演習(回帰直線の演習問題と同じデー タ) 相関係数、回帰直線を求めよう height 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144 和 2122 2 乗和 322338 weight 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36 和 588 2 乗和 25226 積和  89643
  • 15. 順位相関係数 データが順位で与えられる場合 Spearman の順位相関係数 通常の Pearson の相関係数を計算 データが「順位」ということから??? Kendall の順位相関係数 全部に順位をつけるのが難しい場合 対比較 (paired comparison)
  • 16. 順位データ (Spearman) n個の対象 O1 , O2 , ? , On に対して1からnまでの順位をつ ける 順位ということよ 二人がつけた順位 a , a ,?, a り , a ,?, a 1 2 n a 1 2 n b1 , b2 , ? , bn は1からnまでが の関連を求める 1回ずつ現れる
  • 17. 順位データの例 球団 A B 対象 A B 中日 3 2 O1 a1 b1 広島 2 6 O2 a2 b2 阪神 ??? ?? ?? 1 3 ? ? ヤクルト 5 5 ??? ?? ?? 横浜 4 1 ? ? 巨人 6 4 ??? ?? ?? ? ?
  • 18. a1 + a2 + ? + an 1 + 2 + ? + n n(n + 1) / 2 n + 1 a= = = = n n n 2 1 n 1 n 2 sa = ∑ (ai ? a ) 2 = ∑ ai ? (a ) 2 2 n i =1 n i =1 a12 + a2 + ? + an 2 2 = ? (a ) 2 n 12 + 2 2 + ? + n 2 n + 1 2 = ?( ) n 2 n(n + 1)(2n + 1) / 6 n + 1 2 (n + 1)(n ? 1) = ?( ) = n 2 12
  • 19. n n ∑ (ai ? bi ) = ∑ (ai ? a + a ? bi ) 2 i =1 2 i =1 n = ∑ (ai ? a + b ? bi ) 2 i =1 n = ∑ {(ai ? a ) 2 ? 2(ai ? a )(bi ? b ) + (bi ? b ) 2 } i =1 n n n = ∑ (ai ? a ) 2 ? 2∑ (ai ? a )(bi ? b ) + ∑ (bi ? b ) 2 i =1 i =1 i =1 = nsa ? 2nsab + nsb 2 2 1 n sab = {sa + sb ? ∑ (ai ? bi ) 2 } / 2 2 2 n i =1 (n + 1)(n ? 1) 1 n = ? ∑ (ai ? bi ) 2 12 2n i =1
  • 20. sab rab = 2 2 sa sb (n + 1)(n ? 1) 1 n ? ∑ (ai ? bi ) 2 12 2n i =1 = (n + 1)(n ? 1) (n + 1)(n ? 1) ( )( ) 12 12 n 6 = 1? ∑ (ai ? bi ) n(n + 1)(n ? 1) i =1 2 n 6 rab = 1 ? ∑ (ai ? bi ) n(n + 1)(n ? 1) i =1 2
  • 21. Spearman の順位相関係数 > cor(a, b) > a<-c(3, 2, 1, 5, 4, 6) [1] 0.02857143 > b<-c(2, 6, 3, 5, 1, 4) > mean(a) > a-b [1] 3.5 [1] 1 -4 -2 0 3 2 > mean(b) > (a-b)^2 [1] 3.5 [1] 1 16 4 0 9 4 > sd(a) > sum((a-b)^2) [1] 1.870829 [1] 34 > sd(b) > 1-6*sum((a-b)^2)/(5*6*7) [1] 1.870829 [1] 0.02857143 > cov(a,b) [1] 0.1 > 1/35 > cov(a,b)/(sd(a)*sd(b)) [1] 0.02857143 [1] 0.02857143
  • 22. 6 34 1 rab =1 ? ×34 =1 ? = 6 ×7 ×5 35 35 n 6 rab = 1 ? ∑ (ai ? bi ) 2 n(n + 1)(n ? 1) i =1 球団 A B A-B ( A-B) 2 中日 3 2 3-2 1 広島 2 6 2-6 16 阪神 1 3 1-3 4 ヤクル 5 5 5-5 0 ト 横浜 4 1 4-1 9 巨人 6 4 6-4 4
  • 23. 対比較 (paired comparison) (Kendall の順位相関係数 ) n個の対象 O1 , O2 ,? , On に対して1からnまでの順位をつけるのは大変 n個から取り出した 2 個 (pair), O j ) (Oi  に対して 二人で大小関係をつける Pair の組数  n(n ? 1) M = n C2 = 二人の大小関係が一致した組み数   K 2 二人の大小関係が不一致の組み数  L M=K+L   ?M ≤ K ?L≤ M K?L K?L K ?L τ= =   1 ≤ ? ≤1 M n(n ? 1) / 2 M
  • 24. τ=(7-8)/15=-1/15 対比較 中: 球団 A B 広 中日 3 2 広島 2 6 >: 阪神 ヤクルト 1 3 5 5 < 横浜 4 1 中: 広: 巨人 6 4 阪 阪 >: >: < > 中: 広: 阪: ヤ ヤ ヤ <: <: <:
  • 25. 各種相関係数 > cor(a, b) > cor(height, weight) [1] 0.02857143 [1] 0.851212 > cor(height, weight, method="pearson") [1] 0.851212 > cor(a, b, method="pearson") > cor(height, weight, method="spearman") [1] 0.02857143 [1] 0.7433628 > cor(height, weight, method="kendall") > cor(a, b, method="spearman") [1] 0.02857143 > rank(height) [1] 4.0 13.5 12.0 8.0 6.5 2.0 9.0 1.0     5.0 13.5 6.5 10.5 10.5 3.0 > cor(a, b, method="kendall") > cor(rank(height), rank(weight)) [1] -0.06666667 [1] 0.7433628
  • 26. 演習 次のデータから順位相関係数を求めよ 球団 2006 年 2011.05. 最終 31 中日 1 1 阪神 2 5 ヤクルト 3 2 巨人 4 4 広島 5 3 横浜 6 6
  • 27. 相関係数を当ててみよう http://case.f7.ems.okayama- u.ac.jp/simulation/scatter_java/index.html 入門編 -1.0, -0.8, -0.5, 0, 0.5, 0.8, 1.0 初級編 -1.0(0.2)1.0 中級編 -1.0(0.1)1.0 上級編 -1.00(0.01)1.00