狠狠撸

狠狠撸Share a Scribd company logo
入門 異常検知
ーこれを読めば異常検知がわかるー
筑波大学 社会工学類4年
廣田菜月
異常検知の基本的なことについてお話します!
1
内容
2
? 異常ってなに?
? 異常が検知できたら何が嬉しい?
? どうやって異常を検知するの?
データの確率分布の学習方法と異常の定義
? 異常検知の流れ?ホテリング? ?
法?
そもそも異常って何?
3
4
異常とは?
「仲間から値が外れている」タイプの異常
外れ値 ”時系列的な”外れ値
<井手剛,杉山将.”時系列データのさまざまな異常の例”異常検知と変化検知.講談社,2016,P3>
5
異常とは?
「観測値のふるまいが変化した」タイプの異常
変化点 変化点or外れ値
<井手剛,杉山将.”時系列データのさまざまな異常の例”異常検知と変化検知.講談社,2016,P3>
異常が検知できたら何が嬉しい?
6
7
これが嬉しい!
製造の現場
製品の欠陥を捉える ー> 早急な対処が可能に.
ビジネスの現場
売上の変化を捉える ー> いち早く次の一手を打てる.
8
実際の応用例
? ネットワークへの侵入検知
? クレジットカードの不正使用の検知
? 疾病の流行の検知
? 流行トピックの検出
とにかく色々な分野で使われている.
知って損はない!
どうやって異常を検知するの?
9
10
異常検知における2つの問題
1. データの確率分布をどう学習するか.
2. 異常の度合いをどう定義するか.
問題1 データの確率分布をどう学習する?
11
12
データの性質に応じた学習手法がある
? 標本は正規分布に従う?従わない?
ー>ホテリング?2
法、ガウス過程回帰
? 多変数あるときはどうすれば良い?
ー>単純ベイズ法
? 外れ値?変化点?
ー>近傍法、部分空間法
とにかく手法はさまざま
13
重要なポイント
これらを考慮して手法を決定すべし!
? データの性質は?
? ラベルあり?なし?
? どんな异常を検出したい?
問題2 異常の度合いをどう定義する?
14
15
ラベルつきデータにおけるネイマン?ピアソン決定則
? = { ? 1 , ? 1 , { ? 2 , ? 2 , ‥‥, ? ? , ? ? }
?次元ベクトル?と異常かどうかを示すラベル?(異常なら? = 1)について
?個の標本を含む訓練データが与えられたとする
ネイマン?ピアソン決定則
ln
?(?′|?=1,?)
?(?′|?=0,?)
が所定の閾値を超えたらy=1と判定
?(?′
|? = ?, ?)
?(?′
|? = ?, ?)
異常時の分布
正常時の分布
?’
16
ラベルなしデータにおけるシャノン情報量
? = {? 1
, ? 2
, ‥‥, ?(?)
}
?次元ベクトル?について
?個の標本を含む訓練データが与えられたとする
シャノン情報量
異常度?(?’)=?ln ? (?’|?)
?(?′
|? = ?, ?)
正常時の分布
?’
出現確率の高い観測値は異常度が低い.
17
異常検知における2つの問題
1. データの確率分布をどう学習するか.
ー>データの性質によって手法が異なります!
2. 異常の度合いをどう定義するか.
ー>異常の定義に当てはめればいいだけ!
実際に異常を検知してみよう!
?ホテリング? ?
法による異常検知?
18
まず、どんな時に使うの?
19
20
重要なポイント(再挙)
これらを考慮して手法を決定すべし!
? データの性質は?
? ラベルあり?なし?
? どんな异常を検出したい?
21
ホテリングのT2法の場合
? データの性質は?
ー> 各標本が独立に次の確率密度関数(正規分布)に従う.
? ラベルあり?なし? ー> なくてOK
? どんな異常を検出したい ー> 外れ値の検出
?(?|?, ∑) ≡
Σ
?
1
2
2 ?
?
2
ex p ?
1
2
? ? ? ? Σ ?1 ? ? ?
1.データの確率分布を学習しよう
22
23
ホテリングのT2法による異常検知
各標本が独立に次の確率密度関数(正規分布)に従う.
?(?|?, ∑) ≡
Σ
?
1
2
2 ?
?
2
exp ?
1
2
? ? ? ? Σ ?1 ? ? ?
?(観測値),?(次元)は既知のもの.
?(平均), ∑(共分散行列)が決まればデータの確率分布を学習できる.
パラメータμ,Σを決める
24
25
パラメータを決める(最尤推定)
? 共分散行列Σ 、平均?をデータ?から決めるために最尤推定を行う
?の対数尤度 ? ?, Σ ? = ln
?=1
?
? ?(n)
?, Σ =
?=1
?
ln ? ?(n)
?, Σ
? これを最大化するような?, Σがこの場合の最尤推定である
? =
1
?
??1
?
?(n)
Σ ≡
1
?
?=1
?
?(n)
? ? ?(n)
? ?
?
相加平均
26
データ?を表現する確率密度関数が得られた!
? ? ? = ? ? ?, Σ
2.異常度を計算しよう
27
28
ホテリングのT2法における異常度&異常判定
異常度 ? ?′
= (?′
? ?)?
Σ ?1
(?′
? ?)
※観測値に関係のない定数を無視
観測値?′の異常度? ?′ > 設定した閾値? ?? のとき異常
? 異常度の定義に当てはめる
? 異常判定
自分で決めることができます!
まとめ
29
30
異常検知とは?
データの性質を考慮して手法を決定することが大事!
手法は既に整っている.
1. データの確率分布をどう学習するか
2. 異常ないし変化の度合いをどう定義するか
2つの問題に向き合うこと!
異常検知と変化検知
31
Chapter1 異常検知?変化検知の基本的な考え方
Chapter2 ホテリングのT2法による異常検知
Chapter3 単純ベイス法による異常検知
Chapter4 近傍法による異常検知
Chapter5 混合分布モデルによる遂次更新型異常検知
Chapter6 サポートベクトルデータ記述法による異常検知
Chapter7 方向データの異常検知
Chapter8 ガウス過程回帰による異常検知
Chapter9 部分空間法による変化検知
Chapter10 疎構造学習による異常検知
Chapter11 密度比推定による異常検知
Chapter12 密度比推定による変化検知
今
回
の
内
容
井手剛,杉山将.異常検知と変化検知.
講談社,2016,178P

More Related Content

入門 異常検知 -これを読めば異常検知がわかる-

Editor's Notes

  • #16: 一番一般的な枠组み
  • #20: 一番一般的な枠组み