Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)4. データ分析プロセスの目次
? 第1章 データ分析のプロセス
? 第2章 基本的なデータ操作
? 第3章 前処理?変換
– 3.1 データの記述?要約
– 3.2 欠損値への対応
– 3.3 外れ値の検出と対応
– 3.4 連続データの離散化
– 3.5 属性選択
? 第4章 パターンの発見
? 第5章 データ分析の例
? 付録A 主な予測アルゴリズムの概要
? 付録B caretパッケージで利用できるアルゴリズム
? 付録C ELKIの使用方法
? 参考文献
? 索 引
属性抽出がない!?
紙面の都合上カットと
なった…_φ(?ω?` )?????
より実践的な属性抽出
の解説はある!
6. Rによる特徴抽出
? Scale変換
? Log変換、Box-Cox変換
? MinMaxScaler変換、パーセンタイル丸め
? PCA、SVD
? One-Hot encoding
? Hashing Trick
? TF-IDF
? K-means、KNN
? GBDT
? T-SNE
? RBM
手法の区分 変換 用途 パッケージ
統計量による変換 標準化、正規化、
MinMax標準化
NN、SVM hadley/scales、
caret::preProcess
統計量による変換 対数変換、Box-Cox変
換
ロバスト推定、不均衡
データ
hadley/scales、
caret::preProcess
次元圧縮 PCA、SVD ノイズ除去(画像認識)、
レコメンド
irlba
次元圧縮 T-SNE 高次元データの可視化 tsne
Hashing One-Hot Encoding カテゴリカルデータ model.matrix
caret::dummyVars
Hashing DocumentTermMatrix(T
F-IDF)
文書分類 tm、tau
Hashing Hashing Trick カテゴリカルデータ、
CTR予測
FeatureHashing
教師なし学習 K-meansなど 省略 省略
教師あり学習 GBDTなど CTR予測 xgboost
7. FeatureHashingパッケージ
? カテゴリカルデータをハッシングするパッケージ
– John likes to watch movies.
– Mary likes movies too.
– John also likes football.
? Hashing Trick
– 辞書を使うことなくハッシュ関数によりハッシュ値をインデックスとする
– カーネルトリックのように高次元な特徴ベクトル空間を陽に扱わない
– 詳しくは、PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Joh
n
like
s
to wat
ch
mo
vies
Mar
y
too also foo
tbal
l
1 2 3 4 5 6 7 8 9
John likes to watch movies Mary too also football
1 1 1 1 1 0 0 0 0
0 1 0 0 1 1 1 0 0
1 1 0 0 0 0 0 1 1
13. 参考資料
? Pre-Processing http://topepo.github.io/caret/preprocess.html#cs
? PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
http://www.slideshare.net/pfi/pfi-seminar-20120315
? Feature Hashingを試す - Negative/Positive Thinking
http://d.hatena.ne.jp/jetbead/20141106/1415208665
? Feature Hashing - Wikipedia
https://ja.wikipedia.org/wiki/Feature_Hashing
? Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita
http://qiita.com/myui/items/f726ca3dcc48410abe45
? Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはな
し。 http://www.housecat442.com/?p=480
? 3 Idiots' Approach for Display Advertising Challenge - kaggle-2014-
criteo.pdf http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-
criteo.pdf