狠狠撸

狠狠撸Share a Scribd company logo
A Near-linear Time Approximation
 for Angle-based Outlier Detection
in High-dimensional Data [KDD’12]




             by N. Pham & R. Pagh Univ. of Copenhagen

             発表者:数理情報学専攻 修士2年 山田直敬
                                                 1
発表の流れ
1. Outlier Detection in High-dimensional data
   - 高次元では次元の呪いによる性能悪化が発生する

2. Angle-based Outlier Detection (ABOD)
    - 距離や密度による手法よりも高次元でロバストな手法

3. A Near Linear Time Approximation for ABOD
    - ABODの計算量は O(dn3). 近似でこれを大幅に高速化
                             本論文のcontribution


                                                2
1.
Outlier Detection
in High dimensional data

                           3
次元の呪い
  図:次元数増加に伴う距離の同質化 [2]




                         次元数: 順に
                         2, 4,
                         20, 50
                         横軸 : マハラノビス距離の値
                         縦軸:観測頻度




?高次元化が進むと,距離の近接性が意味を成さなくなる.
?実際              となる. [1]

?データは非常にスパース. ほとんどの点が外れ値になる.          4
高次元データに対する外れ値検出手法
    図: 外れ値検知の代表的な手法 (出典 : 第一回授業の配布資料)




 ●次元の呪いにより, 距離やk-近傍を用いる手法は性能悪化
 ●次元についてスケールしない計算を含む(凸包, LOF etc...)
→ 次元の呪い & 計算の非効率化 を回避する手法が必要
                                   5
  アプローチ:ロバストな距離関数を定義 or 射影
2.
Angle-based Outlier Detection


                                6
Angle-Based Outlier Detection
                                 by Kriegel+ ’08 [1]
  発想
   ?角度は高次元においてマハラノビス距離よりもロバスト
          e.g. コサイン類似度は文書に対しても良く用いられる.

     ?外れ値では他の二点間との角度がどれも似ている
               図: 外れ値、正常値、境界点での角度の分布




                     縦軸:
                     角度(rad)

           Outlier Factorを角度の分散としてモデル化
                                                       7
出典: [3]
Angle-Based Outlier Detection(cont.)

?角度の分散をoutlier factorとしてモデル化する.
?点pにおいては




                              *
                          と書ける.
?一点のABODを求めるためにnC2 回角度を評価している.



?ABOD値が小さければ外れ値として検出する.
                                       8
ABOD vs. LOF (Local Outlier Factor)
  ?人工データによる実験. 5つの混合ガウス+10個のoutlier
  ?precision recallともにABODが上回る.




                                           9
出典: [1]
础叠翱顿の欠点
   ?全ての点でABODを求めるための計算量は O(dn3).
   ?データ数 n の増加に対してスケールしない.




                                   10
出典: [1]より見やすく編集
3.
A Near Linear Approximation for
Angle-based Outlier Detection
[main part]

                                  11
概要
? ABODの高速化.
? 角度の分散を直接計算するかわりに不偏推定
  量で評価する.
  – 不偏推定量: 期待値が真の値と一致するような統計
    量
  – 今回の設定では推定量の分散も小さいことが示さ
    れた.
? random projection, AMS sketchを利用.
? 並列化も容易. 計算量は”near linear”
  – O(tn(d + log n + s1s2))
  – t : random proj.の回数, s : sketchの回数
                                         12
Angle-based Outlier Factor
?先程同様,点p での角度を分散を外れ値のスコアに用いる.
定義 :
 Given: d 次元Euclid空間上の点集合S (|S |=n )と点p ∈S.
異なる適当な2点 a,b ∈ S {p }に対して, ベクトル a-p, b-p が
なす角を Oapb とする. このとき Oapbの分散をスコアとする.




  但し,

        mean of angle


                                      である.
                                          13
用いる手法
? Random Hyperplane Projection
  – ランダムな超平面でデータを2分割する.
  – MOA1 の不偏推定量を求める.


? AMS Sketch
  – モーメント統計量の近似を行う.
  – MOA2 を近似する


                                 14
Random Hyperplane Projection 1/2
?t 個のランダムベクトル               をとる.
?これらの各成分は独立に標準正規分布          に従う.
?それぞれの ri を法線に持つ超平面でデータを分割する.


           ri

       p




                                     15
Random Hyperplane Projection 1/2
?t 個のランダムベクトル               をとる.
?これらの各成分は独立に標準正規分布          に従う.
?それぞれの ri を法線に持つ超平面でデータを分割する.


           ri



                p




                                     16
Random Hyperplane Projection 1/2
?t 個のランダムベクトル                 をとる.
?これらの各成分は独立に標準正規分布            に従う.
?それぞれの ri を法線に持つ超平面にデータを分割する


             ri
         b

                  a
         p

                      この状況で角度を考えてみる
                                      17
Random Hyperplane Projection 2/2

?各i =1,...,t で ランダムベクトルri , 適当な二点a,b について
確率変数 Xapb(i) を次のように定義する.


                                    ri

?X が 1となるのは                    b

                かつ                       a
  a-p, b-p が超平面で分離              p
  されているとき のみ

?それが起こる確率は, 任意のi,a,b,pに対して

           =
                                             18
AMS Sketch 1/2
?高次元ベクトルとランダムビットの内積(Sketch)は
 2次のモーメント統計量を近似する性質を持つ.

?高次元ベクトル w = (               ) に対して
 各座標で独立*なランダムビットベクトル

 を取り内積を取ったもの                      を
 AMS Sketch という.

?           とすると                  .

    ここで、                 が成り立つ

                                      19
AMS Sketch 2/2
?ベクトルの外積 uv に対するSketchも次のように与えられる.

     2つのランダムビット              を用いて




     とする. すなわち, u,v のそれぞれのAMSスケッチの外積が
     外積 uv のスケッチである.


?       とすると             :フロベニウスノルム2

    このとき                     が成立.

                                    20
础叠翱顿の近似
?Random Hyperplane Projection における関係

           =                           を利用.

?                         の推定量 F1 は,




                                         超平面を
                                         跨ぐ回数

                           Lp 超平面の下(左)側の点
                                        21
                           Rp 超平面の上(右)側の点
础叠翱顿の近似
                                  ri
?|Lp||Rp| は超平面を跨ぐ回数
                              b

                                       a
                              p

? t 回の平均をとることでより精度が高まる.




? F1(p) はMOA1(p)の不偏推定量
?しかも分散も小さいことが示されている. (Chernoff bound)
?L,Rはsortで得る. F1 を求める計算量はO(t n (d+log n) )   22
础叠翱顿の近似
?MOA2の不偏推定量 F2 を求める.

 詳細はフクザツなので割愛




?分散が3/4 と F1 のように小さくはない
 → 何度か繰り返して平均をとることで精度を上げる.

?任意の精度ε> 0 を高確率 1-δ で達成するためには
 s1= 32π4/ε2 , s2 = O(log(1/δ)) として
 s1s2 回 F2を計算する必要がある.

?AMSはO(n). ここの計算量は O( tn s1s2 )       23
础叠翱顿の近似 擬似コード




?計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 )が支配的
?t =O(log n) で十分. t回のprojectionは独立.並列化可能.
?s1s2も精度次第
                  → 並列化込みでnear linearを実現 !
                                                     24
人工データによる実験

       5000
1000




              ※ABODの実験と同じ人工データ
                            25
実データによる実験




?どれも100次元程度
?緑のFastVOAが提案手法, 青, 赤がナイーブな解

?ABODでPRが良いデータでFastVOAで劣化
?ABODがダメなデータにはそこそこの性能          26
実データによる実験




?CPU timeではかなり高速化を実現している (t=100)   27
まとめ 感想

?高次元において距離ベースでの外れ値検出が困難である
 という問題へのアプローチ
?比較的ロバストなAngle-based Outlier detectionに注目
 計算量をnear linear に改善
?手法がクール ( random projection, AMS sketch)
?不偏推定量を使っている. &
 精度の保証が理論的に示されていて良い.

?実験結果 precision-recallはいまひとつ…
?必要な精度を決めるノウハウが別途必要そう(ε,δ)
etc...

                                        28
References [年代順]
1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based
   outlier detection in high-dimensional data. In KDD
   2008.

1. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier
   detection techniques. In tutorial at KDD 2010.

1. N. Pham & R. Pagh. A Near-linear Time
   Approximation Algorithm for Angle-based Outlier
   Detection in High-dimensional Data. In KDD 2012.

                                                    29

More Related Content

What's hot (20)

深层学习の数理
深层学习の数理深层学习の数理
深层学习の数理
Taiji Suzuki
?
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
Keio Robotics Association
?
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
Takuya Akiba
?
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
?
スペクトラルグラフ理论入门
スペクトラルグラフ理论入门スペクトラルグラフ理论入门
スペクトラルグラフ理论入门
irrrrr
?
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
?
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
?
机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)
Satoshi Hara
?
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
?
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Toshiki Sakai
?
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
?
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
?
摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉
Deep Learning JP
?
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
?
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
Shiga University, RIKEN
?
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
?
深层学习の数理
深层学习の数理深层学习の数理
深层学习の数理
Taiji Suzuki
?
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
Takuya Akiba
?
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
?
スペクトラルグラフ理论入门
スペクトラルグラフ理论入门スペクトラルグラフ理论入门
スペクトラルグラフ理论入门
irrrrr
?
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
?
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
?
机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)
Satoshi Hara
?
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
?
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Toshiki Sakai
?
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
?
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
?
摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉
Deep Learning JP
?
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
?
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
Shiga University, RIKEN
?
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
?

Similar to Angle-Based Outlier Detection周辺の論文紹介 (20)

Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
?
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
Computational Materials Science Initiative
?
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620
RCCSRENKEI
?
搁で颈蝉辞尘补辫(多様体学习のはなし)
搁で颈蝉辞尘补辫(多様体学习のはなし)搁で颈蝉辞尘补辫(多様体学习のはなし)
搁で颈蝉辞尘补辫(多様体学习のはなし)
Kohta Ishikawa
?
PRML4.3
PRML4.3PRML4.3
PRML4.3
hiroki yamaoka
?
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
. .
?
ロマ数16 simizut
ロマ数16 simizutロマ数16 simizut
ロマ数16 simizut
Tatsuki SHIMIZU
?
第叁回统计学勉强会蔼东大驹场
第叁回统计学勉强会蔼东大驹场第叁回统计学勉强会蔼东大驹场
第叁回统计学勉强会蔼东大驹场
Daisuke Yoneoka
?
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
Koji Kitano
?
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
Morpho, Inc.
?
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
Yo Ehara
?
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
?
双方向パストレーシングレンダラ别诲耻产辫迟解説
双方向パストレーシングレンダラ别诲耻产辫迟解説双方向パストレーシングレンダラ别诲耻产辫迟解説
双方向パストレーシングレンダラ别诲耻产辫迟解説
h013
?
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
t2tarumi
?
PRML2.3.8~2.5 狠狠撸s in charge
PRML2.3.8~2.5 狠狠撸s in chargePRML2.3.8~2.5 狠狠撸s in charge
PRML2.3.8~2.5 狠狠撸s in charge
Junpei Matsuda
?
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
Naoki Hayashi
?
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
Teppei Kurita
?
Icp3.2 takmin
Icp3.2 takminIcp3.2 takmin
Icp3.2 takmin
Takuya Minagawa
?
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
?
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
CMSI計算科学技術特論A (2015) 第10回 行列計算における高速アルゴリズム1
Computational Materials Science Initiative
?
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620
RCCSRENKEI
?
搁で颈蝉辞尘补辫(多様体学习のはなし)
搁で颈蝉辞尘补辫(多様体学习のはなし)搁で颈蝉辞尘补辫(多様体学习のはなし)
搁で颈蝉辞尘补辫(多様体学习のはなし)
Kohta Ishikawa
?
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
. .
?
第叁回统计学勉强会蔼东大驹场
第叁回统计学勉强会蔼东大驹场第叁回统计学勉强会蔼东大驹场
第叁回统计学勉强会蔼东大驹场
Daisuke Yoneoka
?
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
骋笔鲍による多倍长整数乗算の高速化手法の提案とその评価
Koji Kitano
?
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
顿别尘辞蝉补颈肠颈苍驳(デモザイキング)
Morpho, Inc.
?
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
Yo Ehara
?
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
?
双方向パストレーシングレンダラ别诲耻产辫迟解説
双方向パストレーシングレンダラ别诲耻产辫迟解説双方向パストレーシングレンダラ别诲耻产辫迟解説
双方向パストレーシングレンダラ别诲耻产辫迟解説
h013
?
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
t2tarumi
?
PRML2.3.8~2.5 狠狠撸s in charge
PRML2.3.8~2.5 狠狠撸s in chargePRML2.3.8~2.5 狠狠撸s in charge
PRML2.3.8~2.5 狠狠撸s in charge
Junpei Matsuda
?
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
【学会発表】尝顿础におけるベイズ汎化误差の厳密な渐近形【滨叠滨厂2020】
Naoki Hayashi
?
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
論文解説:スマホカメラを用いたBRDFパラメータ取得技術(非DNN)「Two-Shot SVBRDF Capture for Stationary Mat...
Teppei Kurita
?

Recently uploaded (15)

LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
CRI Japan, Inc.
?
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
Matsushita Laboratory
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
Matsushita Laboratory
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
shomayama0221
?
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
Matsushita Laboratory
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
LoRaWANプッシュボタン PB05-L カタログ A4サイズ Draginoカタログ両面
CRI Japan, Inc.
?
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
顿贰滨惭2025冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲厂丑颈苍办补飞补.辫诲蹿
Matsushita Laboratory
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
田中瑠彗,东冈秀树,松下光范「手技疗法指导における动作指示の违いが指圧动作に及ぼす影响」
Matsushita Laboratory
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
自宅でも出来る!!VCF構築-概要編-JapanVMUG Spring Meeting with NEC
shomayama0221
?
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
顿贰滨惭2025冲厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援.辫诲蹿
Matsushita Laboratory
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?

Angle-Based Outlier Detection周辺の論文紹介

  • 1. A Near-linear Time Approximation for Angle-based Outlier Detection in High-dimensional Data [KDD’12] by N. Pham & R. Pagh Univ. of Copenhagen 発表者:数理情報学専攻 修士2年 山田直敬 1
  • 2. 発表の流れ 1. Outlier Detection in High-dimensional data - 高次元では次元の呪いによる性能悪化が発生する 2. Angle-based Outlier Detection (ABOD) - 距離や密度による手法よりも高次元でロバストな手法 3. A Near Linear Time Approximation for ABOD - ABODの計算量は O(dn3). 近似でこれを大幅に高速化 本論文のcontribution 2
  • 3. 1. Outlier Detection in High dimensional data 3
  • 4. 次元の呪い 図:次元数増加に伴う距離の同質化 [2] 次元数: 順に 2, 4, 20, 50 横軸 : マハラノビス距離の値 縦軸:観測頻度 ?高次元化が進むと,距離の近接性が意味を成さなくなる. ?実際 となる. [1] ?データは非常にスパース. ほとんどの点が外れ値になる. 4
  • 5. 高次元データに対する外れ値検出手法 図: 外れ値検知の代表的な手法 (出典 : 第一回授業の配布資料) ●次元の呪いにより, 距離やk-近傍を用いる手法は性能悪化 ●次元についてスケールしない計算を含む(凸包, LOF etc...) → 次元の呪い & 計算の非効率化 を回避する手法が必要 5 アプローチ:ロバストな距離関数を定義 or 射影
  • 7. Angle-Based Outlier Detection by Kriegel+ ’08 [1] 発想 ?角度は高次元においてマハラノビス距離よりもロバスト e.g. コサイン類似度は文書に対しても良く用いられる. ?外れ値では他の二点間との角度がどれも似ている 図: 外れ値、正常値、境界点での角度の分布 縦軸: 角度(rad) Outlier Factorを角度の分散としてモデル化 7 出典: [3]
  • 8. Angle-Based Outlier Detection(cont.) ?角度の分散をoutlier factorとしてモデル化する. ?点pにおいては * と書ける. ?一点のABODを求めるためにnC2 回角度を評価している. ?ABOD値が小さければ外れ値として検出する. 8
  • 9. ABOD vs. LOF (Local Outlier Factor) ?人工データによる実験. 5つの混合ガウス+10個のoutlier ?precision recallともにABODが上回る. 9 出典: [1]
  • 10. 础叠翱顿の欠点 ?全ての点でABODを求めるための計算量は O(dn3). ?データ数 n の増加に対してスケールしない. 10 出典: [1]より見やすく編集
  • 11. 3. A Near Linear Approximation for Angle-based Outlier Detection [main part] 11
  • 12. 概要 ? ABODの高速化. ? 角度の分散を直接計算するかわりに不偏推定 量で評価する. – 不偏推定量: 期待値が真の値と一致するような統計 量 – 今回の設定では推定量の分散も小さいことが示さ れた. ? random projection, AMS sketchを利用. ? 並列化も容易. 計算量は”near linear” – O(tn(d + log n + s1s2)) – t : random proj.の回数, s : sketchの回数 12
  • 13. Angle-based Outlier Factor ?先程同様,点p での角度を分散を外れ値のスコアに用いる. 定義 : Given: d 次元Euclid空間上の点集合S (|S |=n )と点p ∈S. 異なる適当な2点 a,b ∈ S {p }に対して, ベクトル a-p, b-p が なす角を Oapb とする. このとき Oapbの分散をスコアとする. 但し, mean of angle である. 13
  • 14. 用いる手法 ? Random Hyperplane Projection – ランダムな超平面でデータを2分割する. – MOA1 の不偏推定量を求める. ? AMS Sketch – モーメント統計量の近似を行う. – MOA2 を近似する 14
  • 15. Random Hyperplane Projection 1/2 ?t 個のランダムベクトル をとる. ?これらの各成分は独立に標準正規分布 に従う. ?それぞれの ri を法線に持つ超平面でデータを分割する. ri p 15
  • 16. Random Hyperplane Projection 1/2 ?t 個のランダムベクトル をとる. ?これらの各成分は独立に標準正規分布 に従う. ?それぞれの ri を法線に持つ超平面でデータを分割する. ri p 16
  • 17. Random Hyperplane Projection 1/2 ?t 個のランダムベクトル をとる. ?これらの各成分は独立に標準正規分布 に従う. ?それぞれの ri を法線に持つ超平面にデータを分割する ri b a p この状況で角度を考えてみる 17
  • 18. Random Hyperplane Projection 2/2 ?各i =1,...,t で ランダムベクトルri , 適当な二点a,b について 確率変数 Xapb(i) を次のように定義する. ri ?X が 1となるのは b かつ a a-p, b-p が超平面で分離 p されているとき のみ ?それが起こる確率は, 任意のi,a,b,pに対して = 18
  • 19. AMS Sketch 1/2 ?高次元ベクトルとランダムビットの内積(Sketch)は 2次のモーメント統計量を近似する性質を持つ. ?高次元ベクトル w = ( ) に対して 各座標で独立*なランダムビットベクトル を取り内積を取ったもの を AMS Sketch という. ? とすると . ここで、 が成り立つ 19
  • 20. AMS Sketch 2/2 ?ベクトルの外積 uv に対するSketchも次のように与えられる. 2つのランダムビット を用いて とする. すなわち, u,v のそれぞれのAMSスケッチの外積が 外積 uv のスケッチである. ? とすると :フロベニウスノルム2 このとき が成立. 20
  • 21. 础叠翱顿の近似 ?Random Hyperplane Projection における関係 = を利用. ? の推定量 F1 は, 超平面を 跨ぐ回数 Lp 超平面の下(左)側の点 21 Rp 超平面の上(右)側の点
  • 22. 础叠翱顿の近似 ri ?|Lp||Rp| は超平面を跨ぐ回数 b a p ? t 回の平均をとることでより精度が高まる. ? F1(p) はMOA1(p)の不偏推定量 ?しかも分散も小さいことが示されている. (Chernoff bound) ?L,Rはsortで得る. F1 を求める計算量はO(t n (d+log n) ) 22
  • 23. 础叠翱顿の近似 ?MOA2の不偏推定量 F2 を求める. 詳細はフクザツなので割愛 ?分散が3/4 と F1 のように小さくはない → 何度か繰り返して平均をとることで精度を上げる. ?任意の精度ε> 0 を高確率 1-δ で達成するためには s1= 32π4/ε2 , s2 = O(log(1/δ)) として s1s2 回 F2を計算する必要がある. ?AMSはO(n). ここの計算量は O( tn s1s2 ) 23
  • 24. 础叠翱顿の近似 擬似コード ?計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 )が支配的 ?t =O(log n) で十分. t回のprojectionは独立.並列化可能. ?s1s2も精度次第 → 並列化込みでnear linearを実現 ! 24
  • 25. 人工データによる実験 5000 1000 ※ABODの実験と同じ人工データ 25
  • 28. まとめ 感想 ?高次元において距離ベースでの外れ値検出が困難である という問題へのアプローチ ?比較的ロバストなAngle-based Outlier detectionに注目 計算量をnear linear に改善 ?手法がクール ( random projection, AMS sketch) ?不偏推定量を使っている. & 精度の保証が理論的に示されていて良い. ?実験結果 precision-recallはいまひとつ… ?必要な精度を決めるノウハウが別途必要そう(ε,δ) etc... 28
  • 29. References [年代順] 1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based outlier detection in high-dimensional data. In KDD 2008. 1. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier detection techniques. In tutorial at KDD 2010. 1. N. Pham & R. Pagh. A Near-linear Time Approximation Algorithm for Angle-based Outlier Detection in High-dimensional Data. In KDD 2012. 29