狠狠撸

狠狠撸Share a Scribd company logo
FRaC: A Feature-Modeling Appraoch for Semi-Supervised and
Unsupervised Anomaly Detection.
Anomaly Detection Using an Ensemble of Feature Models.
FRaC: Feature Regression and Classification
20130318
Statistical Method Journal
Result
UCI machine learning repository
Rにも数多く収録されているデータセットの
図書館 iris
R has many data set from this library such as
data(iris).
FRaCを用いた学習が一番いい性能である場
合が多かった。
The number of the situations where FRaC was
the best performance method.
機械学習 Machine learning
手元のデータ(訓練データ)からパターンを抽
出し、新たなデータ(テストデータ)の回帰?
分類をすること。
To extract patterns from existed data (train) and
perform regression or classification of new data
(test).
教師 (あり / 半あり / なし) 学習
Supervised / Semi-supervised / Unsupervised ML
教師あり学習 Supervised ML
真偽のラベルがわかるtrainで学習する
Learning from train data whose labels T/F are known.
半教師あり学習 Semi-supervised ML
真偽の片方のラベルだけがあるtrainで学習する
Learning from train data whose labels are either only T/F.
教師なし学習 Unsupervised ML
真偽のラベルがわからないtrainで学習する
Learning from train data whose labels T/F are unknown.
Anomaly detection
手法 algorithm
距離 distance-based
SVM Support Vector Machine
K-nearest neighbor
K-means clustering
密度 density-based
LOF Local Outlier Factor
他 etc
PCA Principal Component Analysis
Decision tree Random Forest
特徴 feature model approach
CFA Cross-Feature Analysis
FRaC Feature Regression and Classification
オススメ!! Recommend!!
Example data set
n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
SVM Support Vector Machine
超平面を引き、各点との距離を最大化す
る。
Make hyperplane to maximize distance from
each data point.
SVM Support Vector Machine
kernlab, e1071
教師なし学習なら、超平面
をひいたときに最も離れて
いる点をスコア化する(と思
う)。
On unsupervised ML, we
quantify the distance from the
hyperplane as anomaly score.
SVM classification
何も考えずに分類したと
するとこうなる。たぶん
半分がT/Fと勝手に設定
されている。
If we classify the test data
as default settings, result is
like this. The half of data
are T/F.
Kernel? Tuning?
K-nearest neighbor
FNN
ある点に近いk個の点と
の距離を考える。
Compute the distance from
k points around a certain
point.
K-means clustering
kmeans
K個のクラスターを作る。
似ているものを集めるの
で、厳密には外れ値検出
ではない。
Make k clusters. Clustering is
a method gathering looking-
same samples. This is not
anomaly detection.
主成分分析 PCA Principal Component Analysis
prcomp
もとの変数を相関のない別の
変数にする手続き。
an orthogonal transformation
to convert a set of observations
of possibly correlated variables
into a set of values of linearly
uncorrelated variables.
決定木 decision tree
分岐した図。
maps observations about
an item to conclusions
about the item's target
value.
Random Forest
randomForest
決定木をたくさん作る分類器
A classifier to make many
decision trees.
LOF Local Outlier Factor
Rlof
ある点のまわりMinPts個の点の密度を計算する。
Compute the density of MinPts points around a
certain point.
MinPts = 3
LOF Local Outlier Factor
MinPts = 3
1 付近は同一集団
Nomal data are around 1.
Anomaly scoreが大きいと外れ値
しかし閾値はわからない
Anomal data has large anomaly score
but threshold is unknown.
Feature model approach
色々な外れ値検出法から算出されるanomaly
scoreを利用する(?)
Combine many anomaly scores computed from
other anomaly detection analysis (?).
CFA Cross-Feature Analysis (?)
FRaC Feature Regression and Classification
n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
尺度でも連続値でもいい
Nominal or continuous
i 番目を他のデータで予測する
Prdict ith data from the others
p番目の予測モデルでの特徴(?) predictor of type
実データと予測との誤差 The total error of a test set
nominal
continuous
Anomaly score
FRaC
色々な手法をパクるのが一番精度がいい(黒)
Decision tree, SVM, decision stump
SVM
LOF
KNN

More Related Content

20130318 統計手法勉強会 外れ値検出 FRaC