26. 情報ゲイン
? ある特徴を既知とした場合のエントロピーの差分
? 計算の簡単化
? 単語の頻度 => 出現したかどうかの二項値
? クラス毎に独立して特徴を選択
)|()()( xYHYHxGain ??
))(log)(log(
)log()(log)(
22
}1,0{
2
v
v
v
v
v
v
v
v
v
v
t
n
t
n
t
p
t
p
t
t
t
n
t
n
t
p
t
p
xGain
???
???
??
ポジティブサンプル数 ネガティブサンプル数
トータルサンプル数
対象特徴を固定した場合のサンプル数
46. リファレンス
1. First place code and documents
? https://www.kaggle.com/c/malware-
classification/forums/t/13897/first-place-code-and-documents
2. 2nd place code and documentation
? https://www.kaggle.com/c/malware-
classification/forums/t/13863/2nd-place-code-and-documentation
3. 3rd place code and documentation
? https://www.kaggle.com/c/malware-
classification/forums/t/14065/3rd-place-code-and-documentation
47. リファレンス
4. Beat the benchmark (~0.182) with RandomForest
? https://www.kaggle.com/c/malware-classification/forums/t/12490/beat-
the-benchmark-0-182-with-randomforest
5. Kaggle Ensembling Guide
? http://mlwave.com/kaggle-ensembling-guide
48. リファレンス
6. Masud, M. M., Khan, L., and Thuraisingham, B., “A
Scalable Multi-level Feature Extraction Technique to
Detect Malicious Executables,” Information Systems
Frontiers, Vol. 10, No. 1, pp. 33-45, (2008).
7. Nataraj, L., Yegneswaran, V., Porras, P. and Zhang, J. “A
Comparative Assessment of Malware Classification Using
Binary Texture Analysis and Dynamic Analysis,”
Proceedings of the 4th ACM Workshop on Security and
Artificial Intelligence, 21-30 (2011).