1. FRaC: A Feature-Modeling Appraoch for Semi-Supervised and
Unsupervised Anomaly Detection.
Anomaly Detection Using an Ensemble of Feature Models.
FRaC: Feature Regression and Classification
20130318
Statistical Method Journal
2. Result
UCI machine learning repository
Rにも数多く収録されているデータセットの
図書館 iris
R has many data set from this library such as
data(iris).
FRaCを用いた学習が一番いい性能である場
合が多かった。
The number of the situations where FRaC was
the best performance method.
4. 教師 (あり / 半あり / なし) 学習
Supervised / Semi-supervised / Unsupervised ML
教師あり学習 Supervised ML
真偽のラベルがわかるtrainで学習する
Learning from train data whose labels T/F are known.
半教師あり学習 Semi-supervised ML
真偽の片方のラベルだけがあるtrainで学習する
Learning from train data whose labels are either only T/F.
教師なし学習 Unsupervised ML
真偽のラベルがわからないtrainで学習する
Learning from train data whose labels T/F are unknown.
Anomaly detection
5. 手法 algorithm
距離 distance-based
SVM Support Vector Machine
K-nearest neighbor
K-means clustering
密度 density-based
LOF Local Outlier Factor
他 etc
PCA Principal Component Analysis
Decision tree Random Forest
特徴 feature model approach
CFA Cross-Feature Analysis
FRaC Feature Regression and Classification
オススメ!! Recommend!!
6. Example data set
n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
7. SVM Support Vector Machine
超平面を引き、各点との距離を最大化す
る。
Make hyperplane to maximize distance from
each data point.
8. SVM Support Vector Machine
kernlab, e1071
教師なし学習なら、超平面
をひいたときに最も離れて
いる点をスコア化する(と思
う)。
On unsupervised ML, we
quantify the distance from the
hyperplane as anomaly score.
12. 主成分分析 PCA Principal Component Analysis
prcomp
もとの変数を相関のない別の
変数にする手続き。
an orthogonal transformation
to convert a set of observations
of possibly correlated variables
into a set of values of linearly
uncorrelated variables.
15. LOF Local Outlier Factor
Rlof
ある点のまわりMinPts個の点の密度を計算する。
Compute the density of MinPts points around a
certain point.
MinPts = 3
16. LOF Local Outlier Factor
MinPts = 3
1 付近は同一集団
Nomal data are around 1.
Anomaly scoreが大きいと外れ値
しかし閾値はわからない
Anomal data has large anomaly score
but threshold is unknown.
18. n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
尺度でも連続値でもいい
Nominal or continuous
i 番目を他のデータで予測する
Prdict ith data from the others
p番目の予測モデルでの特徴(?) predictor of type
実データと予測との誤差 The total error of a test set