狠狠撸

异常行动検出入門
- 行動データ時系列のデータマイニング -

@yokkuns 里　洋平
2011/08/27 第16回R勉強会＠東京（Tokyo.R#16）

本日の内容
●
异常行动検出

AGENDA
●
自己绍介
●
异常行动検出
●
サイバー犯罪の検出
●
ナイーブベイズによる异常行动検出
● 异常行动検出エンジン AccessTracer
●
応用例
●
最后に

自己绍介

● 名前 : 里洋平
● ID : yokkuns
● 職業 : データマイニングエンジニア
● 出身 : 種子島

罢辞办测辞.搁を主催しています

参加ありがとうございます！

http://groups.google.com/group/r-study-tokyo

Japan.R 今年もやります！

异常行动検出

3つの基本的な異常検出の中の一つ
機能入力対象確率モデル検出対象応用

はずれ値検出多次元ベクトル独立モデル外れ値不正検出
侵入検知
故障検知
変化点検出多次元時系列時系列モデル時系列上の攻撃検出
急激な変化ワーム検出
バースト的異常障害予兆検出
异常行动検出セッション行動モデル異常セッションなりすまし検出
時系列異常行動パターン障害予兆検出
不審行動検出

セッション時系列データを扱う異常検出

※セッション : ある一まとまりの行動履歴

サイバー犯罪の検出

大量のログから不正行為や不審行為を
自動的に検出することが求められている

1 サーバにアクセス
1 コピー 2 ファイルをコピーいつもと
2 リネーム
3 ファイルを開く
学習 3 ファイルをリネーム
違う行動
4 ファイルを圧縮
4 ファイルを閉じる
5 他フォルダに移動
5 メールに添付し送付
6 ファイルを削除
を検出
6 ファイルを開く

防犯や犯罪が
起こった際の調査の
ために大量のログが
蓄積されている

通常業務情報漏洩行為

ナイーブベイズによる异常行动検出
特定のユーザに関するセッションの発生確率が
他のユーザに比べて優位に小さくなった時にアラート

訓練データ

ユーザuのユーザu以外の
コマンド出現パターンコマンド出現パターン
出現確率

a b c ... 出現確率 a b c ...

P ? u ( x 1,. .. , x N )
スコアリング P u ( x 1,. .. , x N )

异常行动検出エンジン AccessTracer
●
ナイーブベイズでは”動き”を捉える事が出来ない
●
珍しいコマンドが出た時にアラートを出すにとどまっている
●
コマンドの出現頻度だけを見るとなんら変わりなくても、
発生する時間的順序がいつもと違っているという異常など

异常行动検出エンジンAccessTracer
●
”動き”を確率モデルで表現
●
非定常な環境の元手も精度良く異常行動を検出する

础肠肠别蝉蝉罢谤补肠别谤の基本原理1

セッション時系列から行動パターンを学習
セッション単位で異常スコアリングを行う

セッション列

HMM混合モデル HMM混合モデル
の忘却型学習 ???? の忘却型学習
M1（混合数1） MN（混合数N）

動的モデル選択による
最適なモデル系列の選択

各セッションの
異常スコア計算

础肠肠别蝉蝉罢谤补肠别谤の基本原理2

AccessTracerの基本的な流れ
隠れマルコフモデルの混合分布による行动モデリング

複数の混合隠れマルコフモデルのオンライン忘却型学習

動的モデル選択による最適混合数の決定

スコアリング

行动モデリング

各セッションはK個の成分を持つ
隠れマルコフモデルに従って生起されていると仮定
セッションyjの発生確率
K
P ( y j ｜ θ)= ∑k =1 π k P k ( y j ｜ θk )

P k ( y j ｜ θ k )=∑(s γ k?∏ a k (st ｜ s t?1 , ... , s t?n )?∏ bk ( y t ｜ st )
1,. .. , s T )
j

状態ベクトルの状態変数のシンボルの
初期確率分布遷移確率出力確率

状態系列 S t?1 St S t +1

出力系列 y t ?1 yt y t +1
隠れマルコフモデル

厂顿贬惭アルゴリズム

混合隠れマルコフモデルをオンラインで忘却型学習


E-Step : メンバーシップ確率の更新

メンバーシップ確率


M-Step : 各パラメータの更新

混合係数

状態ベクトルの
初期確率分布

状態変数の
遷移確率

シンボルの状態確率
出力確率
Baum–Welch
で求める

動的モデル選択
学習されたモデルの中で最適な混合数を持つものを選択
最適な混合数の時間的変化は行動パターンの構造的な変化

データ
y 1, ... , y t?1 y t ?1 ,... , y n

モデル1 モデル2 時間

=> 観測データを説明する最適なモデル系列を選択
( M 1, ... , M 1, M 2, ... , M 2)

異常スコアリング

各セッションの異常スコアを以下のように定義

1 ( j?1)
Score ( y j )=? log P ( y j ｜ θ )
Tj
または

1 ( j?1) 1
Score( y j )=? log P ( y j ｜ θ )? compress( y j )
Tj Tj



1 ( j?1)
Tj
またはシャノン情報量
対数損失

1 ( j?1) 1
Tj Tj

ユニバーサル符号化を
行った時の符号長
高い規則性をもつ系列 => 小
ランダムな系列 => 大



1 ( j?1)
Tj
または

1 ( j?1) 1
Tj Tj

ユニバーサル統計検定量

閾値の動的最適化

異常スコアのヒストグラムをオンライン忘却型学習
裾確率がρを超えない最大のスコアを閾値とする

閾値
確率

累積確率がρ未満

応用例1 : なりすまし検出

UNIXコマンド列からのなりすまし検出問題

隠れマルコフなりすましの
モデルパターンを同定
なりすまし
パターン開始検出パターン2個
1個

行動
パターン
の数

異常
スコア

ユーザのコマンドなりすましのコマンド

図 : http://fbi-award.jp/sentan/jusyou/2005/nec.pdf

応用例2 : syslogからの障害検知

syslogにAccessTracerを適用
システムロックアップの予兆を2 日前に発見

図 : http://fbi-award.jp/sentan/jusyou/2005/nec.pdf

搁での実装するには
Rで隠れマルコフモデル
贬惭惭パッケージ


HMMの初期化

initHMM(States, Symbols, startProbs=NULL,
transProbs=NULL, emissionProbs=NULL)

●States : 状態変数のベクトル
●Symbols : イベントシンボルのベクトル

●startProbs : 状態変数の初期確率のベクトル

●transProbs : 状態変数の遷移確率

●emissionProbs : 状態変数からのイベントシンボルの出力確率


HMMのパラメータ推定
forward型推定
forward(hmm, observation)

●hmm : HMMモデルオブジェクト
●observation : 観測されたイベントシンボルのベクトル


backward型推定
backward(hmm, observation)




baumWelch(hmm, observation, maxIterations=100, ...)


●maxIterations : Baum - Welchアルゴリズムの反復の最大数

贬惭惭パッケージ実行例


forward型推定


backward型推定

叠补耻尘-奥别濒肠丑アルゴリズム

最后に

次回以降の
発表者を募集しています！

最后に

データマイニングエンジニア
募集しています！

yohei0511@gmail.com

ご清聴ありがとうございました

狠狠撸

异常行动検出入門 – 行動データ時系列のデータマイニング –

Recommended

More Related Content

What's hot (20)

Viewers also liked (7)

Similar to 异常行动検出入門 – 行動データ時系列のデータマイニング – (20)

More from Yohei Sato (20)

Recently uploaded (11)

异常行动検出入門 – 行動データ時系列のデータマイニング –