狠狠撸

狠狠撸Share a Scribd company logo
Rによる特徴抽出
第48回R勉強会@東京(#TokyoR)
@Keiku
2015/06/20
自己紹介
? Twitter:@Keiku
? お仕事:銀行のデータ分析コンサルタント
– 金融以外の業界のお仕事もしています
? 趣味:kaggle
– Masterを目指して日々頑張っています
– 最近は、KDDcup2015も頑張っています
データ分析プロセス出版!
? データ分析プロセス (シリーズ
Useful R 2) [単行本]
? 福島 真太朗 (著), 金 明哲 (編集)
? 発売日:2015/6/25
– 微力ながらレビューという形でお手
伝いさせて頂きました
データ分析プロセスの目次
? 第1章 データ分析のプロセス
? 第2章 基本的なデータ操作
? 第3章 前処理?変換
– 3.1 データの記述?要約
– 3.2 欠損値への対応
– 3.3 外れ値の検出と対応
– 3.4 連続データの離散化
– 3.5 属性選択
? 第4章 パターンの発見
? 第5章 データ分析の例
? 付録A 主な予測アルゴリズムの概要
? 付録B caretパッケージで利用できるアルゴリズム
? 付録C ELKIの使用方法
? 参考文献
? 索 引
属性抽出がない!?
紙面の都合上カットと
なった…_φ(?ω?` )?????
より実践的な属性抽出
の解説はある!
アジェンダ
? Rによる特徴抽出
? FeatureHashingパッケージのご紹介
? XgboostによるGBDT featureの生成
Rによる特徴抽出
? Scale変換
? Log変換、Box-Cox変換
? MinMaxScaler変換、パーセンタイル丸め
? PCA、SVD
? One-Hot encoding
? Hashing Trick
? TF-IDF
? K-means、KNN
? GBDT
? T-SNE
? RBM
手法の区分 変換 用途 パッケージ
統計量による変換 標準化、正規化、
MinMax標準化
NN、SVM hadley/scales、
caret::preProcess
統計量による変換 対数変換、Box-Cox変
換
ロバスト推定、不均衡
データ
hadley/scales、
caret::preProcess
次元圧縮 PCA、SVD ノイズ除去(画像認識)、
レコメンド
irlba
次元圧縮 T-SNE 高次元データの可視化 tsne
Hashing One-Hot Encoding カテゴリカルデータ model.matrix
caret::dummyVars
Hashing DocumentTermMatrix(T
F-IDF)
文書分類 tm、tau
Hashing Hashing Trick カテゴリカルデータ、
CTR予測
FeatureHashing
教師なし学習 K-meansなど 省略 省略
教師あり学習 GBDTなど CTR予測 xgboost
FeatureHashingパッケージ
? カテゴリカルデータをハッシングするパッケージ
– John likes to watch movies.
– Mary likes movies too.
– John also likes football.
? Hashing Trick
– 辞書を使うことなくハッシュ関数によりハッシュ値をインデックスとする
– カーネルトリックのように高次元な特徴ベクトル空間を陽に扱わない
– 詳しくは、PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Joh
n
like
s
to wat
ch
mo
vies
Mar
y
too also foo
tbal
l
1 2 3 4 5 6 7 8 9
John likes to watch movies Mary too also football
1 1 1 1 1 0 0 0 0
0 1 0 0 1 1 1 0 0
1 1 0 0 0 0 0 1 1
FeatureHashingパッケージのインストール
? インストール
– C++11が必要
Hash.model.matrixでHashing
? kaggle:Avazu(Click-Through Rate Prediction)
のデータ(5.9GB 40,428,967行、24列)で検証
xgboostでGBDT
? nthread=32、nround=100で、30分程度
? Submitしてみた
– Public Score:0.4056038 Private Score:0.4038650
– コンペ時の0.3897445(FTRL-Proximal)には及ばず
(余談)オンライン学習のアルゴリズムの実装
? FeatureHashingパッケージはCTR予測で用いられる
ことを想定したパッケージ(ぽい)
? CTR予測用のデータセットdata(ipinyou)がある
? 贵罢搁尝-笔谤辞虫颈尘补濒の実装もある
xgboostによるGBDT featureの生成
? Avazuの上位者は、GBDTによる特徴抽出+
Factorization Machinesというアプローチ
? GBDTによる特徴抽出
– predleaf=TRUEとするだけ
? Factorization MachinesはLIBFFMなどを使用
参考資料
? Pre-Processing http://topepo.github.io/caret/preprocess.html#cs
? PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
http://www.slideshare.net/pfi/pfi-seminar-20120315
? Feature Hashingを試す - Negative/Positive Thinking
http://d.hatena.ne.jp/jetbead/20141106/1415208665
? Feature Hashing - Wikipedia
https://ja.wikipedia.org/wiki/Feature_Hashing
? Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita
http://qiita.com/myui/items/f726ca3dcc48410abe45
? Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはな
し。 http://www.housecat442.com/?p=480
? 3 Idiots' Approach for Display Advertising Challenge - kaggle-2014-
criteo.pdf http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-
criteo.pdf

More Related Content

Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)