狠狠撸

狠狠撸Share a Scribd company logo
変数同士の関連を
見ようよ
~21世紀の相関 (MIC) の話とか~
難波 修史
自己紹介
?難波 修史(なんば しゅうし)
?広島大学大学院教育学研究科D1
?感情表情の表出?認知の研究してます。
?R歴:ちょこちょこ
?twitter:@NSushi
Motivation
? データを分析する人達
(ひいては R users
何が見たいん?
=データ同士の関連を見たい
? 得られたデータAとBの項目に何らかの関連がみ
られる=相関がある。(?項目同士が独立
ピアソンの相関係数
? 2つの変数(X and Y)間にある線形な関係の強
弱を図る指標(-1~1)。
? 式
線形?(http://www.sqc-works.com/qc7-04.htmlより拝借
こんな感じに
2変数が直線の
関係を持つこと
(例:xが高いほどyが低くなる
Rでの実装
? x <- runif(10)
? y <- 3*x + 2 # plot(x, y) ↓ こんな感じ
? cor(x,y) # 結果は当然1
こんなのもあるはず
? t <- seq(-2*pi, 2*pi, 0.2)
? y1 <- sin(2*t)
? plot(t, y1) # これ→
非線形データでは
ピアソンの相関係
数では関連無し
世の中はすべて線形?(wikiより拝借
下段のように明らかにデータ同士に関連があっても
線形関係を検討するPearsonじゃわかんないです><
どうすんの?
そこで惭滨颁ですよ。
21世紀の相関なるものがある?
? Maximal Information Coefficient (Reshef et al., 2011) = 非線
形関係も含めた変数間の関連を見る指標
? 線形関係であればMIC ~= Pearsonの相関2
? Science誌にて報告
され、「21世紀の
相関」として推薦
される (右図
MICの哲学 (logics of blueより拝借
もしも2つの変数間
に相関があるなら
データを要約するよ
うにデータを分割す
るグリッドを引ける。
ちなみに詳細をわか
りやすく説明されて
る資料はこちら ↓
http://lectures.molgen.mpg
.de/algsysbio12/MINEPres
entation.pdf
MIC,つおい:ノイズなしの関連データに対する結果
あびゃー
すごーい
なんにでも
あてはまる
どんなデータにも概ね対応!
色=2変数間の
関連性
x軸=ノイズ
上=MIC
下=スピアマン
の順位相関係数
理想的
挙動!!
MICの実装
? library(minerva)
? mine(x, y) これだけ!!
Cor = -.19
ほかの指標
? MAS:単調性
? MEV:関数っぽさ
? MCN:複雑さ
? MIC-R2:非線形度合い
※詳しい内容は計算の仕方(グリッドの線の引き方やら相
互情報量やら)とも関わってくるのでminervaのHelpや上に
あげているわかりやすい資料などを参照ください
こいつらとあわせてMICを解釈して
データの関連に思いを馳せよう!!
データ生成の例
? n <- 100 #逆U字
? x <- runif(n, min = -1, max = 1)
? y <- sqrt(1 - x^2) + rnorm(n, 0, 0.05)
? plot(x, y)
? x1 <- runif(n, min = 0, max = 4) #なんかジグザグ
? y1 <- x1 - floor(x1) + rnorm(n, 0, 0.05)
? plot(x1, y1)
cor.test() と mine() の結果を見比
べて興奮したりしよう!!
補足
? MICはビッグデータを前提にしているの
で、nが少ない時はalphaを1.0に設定して
あげてネ!
? ※α = グリッドの分け方に関するパラメータ、
詳しくは論文とか、Help、読め
やったぜ!これでかつる!
21世紀の相関に関する
別のアプローチ
? HSIC (Hilbert-Schmidt Independence Criteria):独
立性の検定
? 独立性?
? 変数同士が関連を持つことを見たい
=変数同士が独立してるか否かを調べたい
=データを再生核ヒルベルト空間に
飛ばし、そこでの関係性を見る
ことで非線形であっても関係性を
見出せばええやん!!!
こんな資料が!
(http://www.slideshare.net/motivic/tokyo-r-lt-25759212
結果!
どうやらMICはノイズ
に弱いらしい!
ほんならHSIC
? データをなんかかっこいい次元にとばすらしい
ぜ!
? 友達に自慢しよう!
? ちゃんと自慢したい人は以下の論文を読もう!
※ぼくは諦めたぞ!!
Measuring Statistical Dependence with Hilbert-
Schmidt Norms (Gretton et al., Algorithmic
Learning Theory, 2005)
HSICの実装
? library(dHSIC) #hsicCCA, EDAでもいけるらしい
? X <- list(x, y) #さっきの逆U字型のやつ使ってます
? dhsic.test(X,method="gamma",kernel="gaussian",B
=100)
=関連してるぞ!!
※この辺、自信ないので、間違っ
てたらご指摘お願いします。
なるほど。
?つまりHSICをつかえばええのん?
は?負けてへんし
? MIC論文の著者がMICの限界を乗り越える
ためのMICに関する指標をいくつか提案
(Reshef et al. 2015; 実際の比較 Reshef et al. 2015)
? 関連を見るのにはMIC*(MICの母数値), MICe
(equicharacteristic matrixを用いたMIC*の推定値: このわけ
わからん行列の詳細はReshef et al. 2015のp12)
?TIC=独立性の検定にかかわる統計量
TICの実装
? git_hub版のminervaをインストールするん
じゃ(簡単!
? library(devtools)
? install_github(“cran/minerva”)
? ※もちろんネット環境でね!
TICの実装
? ※逆U字型のやつ使ってます。
高いほど2変数
が関連してる!
あれ?
? Reshef et al. (2015)の論文に
はMICeがたまんねえって書
いてあったけど、どう算出
すんのよ?
世界の変態を待ちましょう
(あなたが作ってもいいのよ
へー!2変数の関係を見る指
標っていろいろあるんだね!
でも…
やっぱ可視化が一番!
? 指標もいいけどまずはグラフやプロットで2変
数同士の関係を可視化しよう!
視覚的に2変数を眺めたら
関係性なんて一発やん!!
結論:可視化、大事
? やはりggplot2じゃっ
たか… 。
? 過去のHijiyama.Rで
発表されてる紀の定
先生の資料、つよい。
発表のまとめ
? 現状は最新版のminervaのmine関数で変数同士
の関連に思いをはせましょう。
? より素敵な指標に関しては世界の変態を待つ
か、待ちきれない変態は自分で作りましょう。
? 関係見るには可視化が一番だけどたくさん
データがあればとっかかりにMICを使える。
番外編
? http://www.exploredata.net/
? MINE: Maximal Information-based Nonparametric
Exploration MIC論文の著者によるサイト、
データセットなりJavaを介したRの関数なりが
あって興奮する。
? https://www.ncbi.nlm.nih.gov/pubmed/26283601
? CANOVA:非線形データの独立性を検討する
やつ。C++により作成されてる (Wang et al.
2015)。ちゃんと読んでない。
参考資料
? これまでのスライドに含まれてたURL
? http://logics-of-
blue.com/%E9%9D%9E%E7%B7%9A%E5%BD%
A2%E3%82%82ok%E3%81%AA%E7%9B%B8%
E9%96%A2%E4%BF%82%E6%95%B0%EF%BC
%9Amic/
? http://takehiko-i-
hayashi.hatenablog.com/entry/20130426/13669485
60
参考論文
? Reshef, D., Reshef, Y., Finucane, H., Grossman, S.,
McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher,
M., and Sabeti, P. (2011) Detecting Novel Associations
in Large Data Sets,Science, highwire 334, 1518–1524.
? Reshef, D. N., Reshef, Y. A., Sabeti, P. C., &
Mitzenmacher, M. M. (2015). An empirical study of
leading measures of dependence. arXiv preprint
arXiv:1505.02214.
? Reshef, Y. A., Reshef, D. N., Finucane, H. K., Sabeti, P.
C., and Mitzenmacher, M. M. (2015) Measuring
dependence powerfully and equitably.

More Related Content

変数同士の関连_惭滨颁