13. ? 情報ゲインは次式で表される。
3-1. 理論編:決定木
ΔI = P Q( )I Q( )? P Ai( )I Ai( )
i
∑
? ある質問で得る情報量を情報ゲインと呼ぶ。
質問Q
答A1
QP Q( ):
I Q( ):
前のノードからノード にくる確率
Qノード におけるエントロピー(関数)
答A2
14. 3-1. 理論編:決定木
? ?? のバリエーション
? ②Gini係数(系の不純度の指標)
? ①エントロピー(系の取りうる状態数の指標)
ΔI = P Q( )I Q( )? P Ai( )I Ai( )
i
∑
I A( )
I Q( )= 1? P A |Q( )( )
2
A
∑
高い:乱雑な状態
低い:整理整頓された状態
高い:純度が低い状態
低い:純度が高い状態
I Q( )= ? P A |Q( )logP A |Q( )
A
∑
↑大きいと純度が高い(2回続けて同じ目がでるサイコロは純度が高い!)
P k | A( ):ノードAで選択肢kが選ばれる確率※
色んな目がごっちゃにでるサイコロ
ぬるい
冷 温
? ?
25. 3-2. 理論編:ランダムフォレスト
?説明変数の重要度について
Ai :
N : 決定木の本数
OOBデータを決定木に使用し、正しく予想を行った時の正解率
Im =
1
N
Ai ? Bm( )i( )i=1
N
∑
Bm : OOBデータの説明変数mとなるデータをランダムに並び替え
決定木に使用し、本来正しくないはずの予想を行った時の正解率
説明変数mの重要度Im :
Out-Of-Bag(OOB:学習に使われなかった残りのデータ)
を使って、説明変数の重要度を計算できる