狠狠撸

狠狠撸Share a Scribd company logo
搁で异常検知
                 @yokkuns : 里 洋平
                 第2回 Japan.R LT
                   2011.11.26




2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
里 洋平
                 ? ID : @yokkuns
                 ? 名前 : 里 洋平
                 ? 職業 : データマイニング
                      エンジニア




2011年11月28日月曜日
動画レコメンド




2011年11月28日月曜日
市場予測




2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                         Anomaly detection
                     複数時系列から異常な振る舞いを検知する

                                                                           C
                                                                           A
        時系列のモデリング             複数時系列の异常検知                                   B

      時系列A                            時系列A

                                                                       異常な振る舞い
      時系列B


      時系列C                    時系列B           時系列C

                                異常な振る舞いの時系列を検出




                 例1:トラフィック异常検知                 例2:CM効果のノイズ除去

                    トラフィックA                         ケースA
                                                             CM効果
                    トラフィックB                         ケースB

                    トラフィックC    調査                   ケースC

                      異常な振る舞いをしている                  異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                 除外して、CMの効果を算出する
                                                                                 85
2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                     Anomaly detection
                 新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000

  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                          -117.0000                    -3.0000


                                                t
                                      4/ 週
                                      4/ 1 週
                                      4/ 8 週
                                       5/ 週
                                          2週

                                      5/ 週
                                      5/ 6 週
                                      5/ 3 週
                                       6/ 週
                                      6/ 週
                                      6/ 3 週
                                      6/ 0 週
                                       7/ 週
                                      7/ 週
                                      7/ 1 週
                                      7/ 週
                                            週
                                          4



                                        25


                                          9



                                        30
                                          6



                                        27
                                          4


                                        18
                                        25
                                  4/

                                        1
                                        1



                                       5/

                                        1
                                        2




                                        1
                                        2




                                        1
                                                             86
2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                      TV Commercial Effects
                 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出

                                                 イベン
             CM時系列                                   ト

                                        新規
                                        登録


                             CM                  ARPPU




                                        ARPU

            各KPIの時系列
                                                         その他
                                                         外部
                                  継続率
                                                         要因




                                               ケース




                                                           87

2011年11月28日月曜日
Tokyo.R 主催




          ◆ 数少ない社会人中心のRコミュニティ
          ◆ 2010年に設立し、現在第19回まで開催
          ◆ 様々な業種?職種の方が参加

2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
异常検知
    大量のデータから異常なデータや変化を検出する




2011年11月28日月曜日
セキュリティ
                 コンピュータウィルスやDos攻撃




2011年11月28日月曜日
障害対応
                 障害の原因特定




2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
学习
                 過去データからモデルを構築する




2011年11月28日月曜日
予测と観测
                 モデルによる予測値と観測値の差を見る


                             モデルによる予測




                              予测と観测の差

                                観測结果
2011年11月28日月曜日
异常スコア算出
      過去の予测と観测の差と比較して今回の差は異常か否か



                      モデルによる予測




                        予测と観测の差

                         観測结果
2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
搁で简易版実装
         過去データでARモデルを構築
  残差を過去の残差の標準偏差で割った値を異常スコアとする




2011年11月28日月曜日
搁で简易版実装
         過去データでARモデルを構築
  残差を過去の残差の標準偏差で割った値を異常スコアとする
                      ARモデルの構築と予測




                          過去の残差




2011年11月28日月曜日
搁で简易版実装
                 時系列データyを用意しシミュレーション




2011年11月28日月曜日
搁で简易版実装
                 時系列データyを用意しシミュレーション
                         51~100個目のデータで异常検知を実行



                         学习データ

                          新しいデータ




                                   结果をデータフレムに整形




2011年11月28日月曜日
结果
                 過去に比べ急激に下がった時に検知

                         異常発生!
                                    観測値
                                    予測値

            異常発生!
                                 異常発生!




                                    異常スコア




2011年11月28日月曜日
AGENDA
             ? 自己紹介
             ? 异常検知概要
              ? 异常検知とは
              ? 考え方
             ? 搁で简易版実装
2011年11月28日月曜日
次回以降の
    発表者を募集しています


2011年11月28日月曜日

More Related Content

What's hot (6)

搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?
数理的に组み込みソフトを开発する方法入门
数理的に组み込みソフトを开発する方法入门数理的に组み込みソフトを开発する方法入门
数理的に组み込みソフトを开発する方法入门
Toshiyuki Fujikura
?
搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?
数理的に组み込みソフトを开発する方法入门
数理的に组み込みソフトを开発する方法入门数理的に组み込みソフトを开発する方法入门
数理的に组み込みソフトを开発する方法入门
Toshiyuki Fujikura
?

Viewers also liked (19)

Japan r2 openingJapan r2 opening
Japan r2 opening
Yohei Sato
?
Ml4nlp04 1
Ml4nlp04 1Ml4nlp04 1
Ml4nlp04 1
Yohei Sato
?
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Yohei Sato
?
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
?
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
Yohei Sato
?
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレード
Yohei Sato
?
Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?
Japan r2 openingJapan r2 opening
Japan r2 opening
Yohei Sato
?
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Yohei Sato
?
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
?
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
Yohei Sato
?
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレード
Yohei Sato
?
Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?

More from Yohei Sato (7)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Yohei Sato
?
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
?
Tokyo r15 异常検知入門
Tokyo r15 异常検知入門Tokyo r15 异常検知入門
Tokyo r15 异常検知入門
Yohei Sato
?
Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 傾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Yohei Sato
?
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
?
Tokyo r15 异常検知入門
Tokyo r15 异常検知入門Tokyo r15 异常検知入門
Tokyo r15 异常検知入門
Yohei Sato
?

Japan r2 lt_yokkuns

  • 1. 搁で异常検知 @yokkuns : 里 洋平 第2回 Japan.R LT 2011.11.26 2011年11月28日月曜日
  • 2. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 3. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 4. 里 洋平 ? ID : @yokkuns ? 名前 : 里 洋平 ? 職業 : データマイニング エンジニア 2011年11月28日月曜日
  • 7. 活動例(抜粋): Time Series Analysis Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の异常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック异常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2011年11月28日月曜日
  • 8. 活動例(抜粋): Time Series Analysis Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1 週 4/ 8 週 5/ 週 2週 5/ 週 5/ 6 週 5/ 3 週 6/ 週 6/ 週 6/ 3 週 6/ 0 週 7/ 週 7/ 週 7/ 1 週 7/ 週 週 4 25 9 30 6 27 4 18 25 4/ 1 1 5/ 1 2 1 2 1 86 2011年11月28日月曜日
  • 9. 活動例(抜粋): Time Series Analysis TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPPU ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2011年11月28日月曜日
  • 10. Tokyo.R 主催 ◆ 数少ない社会人中心のRコミュニティ ◆ 2010年に設立し、現在第19回まで開催 ◆ 様々な業種?職種の方が参加 2011年11月28日月曜日
  • 11. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 12. 异常検知 大量のデータから異常なデータや変化を検出する 2011年11月28日月曜日
  • 13. セキュリティ コンピュータウィルスやDos攻撃 2011年11月28日月曜日
  • 14. 障害対応 障害の原因特定 2011年11月28日月曜日
  • 15. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 16. 学习 過去データからモデルを構築する 2011年11月28日月曜日
  • 17. 予测と観测 モデルによる予測値と観測値の差を見る モデルによる予測 予测と観测の差 観測结果 2011年11月28日月曜日
  • 18. 异常スコア算出 過去の予测と観测の差と比較して今回の差は異常か否か モデルによる予測 予测と観测の差 観測结果 2011年11月28日月曜日
  • 19. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 20. 搁で简易版実装 過去データでARモデルを構築 残差を過去の残差の標準偏差で割った値を異常スコアとする 2011年11月28日月曜日
  • 21. 搁で简易版実装 過去データでARモデルを構築 残差を過去の残差の標準偏差で割った値を異常スコアとする ARモデルの構築と予測 過去の残差 2011年11月28日月曜日
  • 22. 搁で简易版実装 時系列データyを用意しシミュレーション 2011年11月28日月曜日
  • 23. 搁で简易版実装 時系列データyを用意しシミュレーション 51~100個目のデータで异常検知を実行 学习データ 新しいデータ 结果をデータフレムに整形 2011年11月28日月曜日
  • 24. 结果 過去に比べ急激に下がった時に検知 異常発生! 観測値 予測値 異常発生! 異常発生! 異常スコア 2011年11月28日月曜日
  • 25. AGENDA ? 自己紹介 ? 异常検知概要 ? 异常検知とは ? 考え方 ? 搁で简易版実装 2011年11月28日月曜日
  • 26. 次回以降の 発表者を募集しています 2011年11月28日月曜日