狠狠撸

外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム須子統太　松嶋敏泰　平澤茂一（早稲田大学）

1. 研究背景統計解析における外れ値 ? 少量でも解析結果に大きく影響外れ値の取り扱い外れ値から何かしらの知識を得る正常値のデータ構造を知ることが目的（パラメータ推定，予測など） ? いずれの場合も外れ値の検出に主眼が置かれてきた外れ値の発生モデルを仮定しないモデルを仮定する -> [Box’68] [Abraham’78] における回帰モデルベイズ基準に基づく最適な予測方法を示し計算量を削減した近似アルゴリズムを提案

3. 外れ値データのモデル化混合分布によるモデル化 [Box’68][Abraham’78] モデルの制約 [Box’68] 回帰係数（平均）が同じで分散が定数倍 [Abraham’78] 分散が同じで回帰係数（平均）が異なる本研究回帰係数（平均），分散ともに独立正常値のモデル外れ値のモデル分散，回帰係数が違う通常の線形回帰モデル：外れ値の出現する確率（既知）

4. 予測問題予測損失関数二乗誤差損失　　　　のモデル　　　　（予測対象は外れ値にならない） ?説明変数と目的変数の n 個の組　　　　　　　 ? n+1 個目の説明変数を予測簡単の為，今回はこちらのみ考える

5. ベイズ最適な予測法の導出ベイズ最適な予測事前分布　　　　　　　　　　　　　を仮定隠れ変数の導入（i番目のデータが正常値）（i番目のデータが外れ値）：外れ値の出現パターン（全部で 2 n 個）

5. ベイズ最適な予測法の導出通常の線形回帰モデルに対するベイズ最適な予測値 ? 自然共役な事前分布を仮定すると　　 t 分布の期待値として解析的に計算可能 [Bernardo’94] z n における全ての正常値のデータの組全ての z n について事後確率で重み付け ? 外れ値を検出する必要はない 2 n 個の z n についての重み付け計算が必要 ? O (2 n ) の計算量

6. 近似予測アルゴリズム計算量削減のアイディア事後確率　　　　　　　の大きい z n だけを重み付たい　　　　　　　　の計算自体が O (2 n ) の計算量 ? 近似的に事後確率の大きい z n の集合を求める EM アルゴリズムによる推定値　　を計算　　（尤度関数の極大値）　　　　　　　　　を利用　　 (EM アルゴリズムの途中で計算される値 )

6. 近似予測アルゴリズムアルゴリズム Step1: EMアルゴリズムにより　　　　　　　を計算 Step2: 　　を次式で求める ? 値が小さいほど　　が間違えている可能性が高い

6. 近似予測アルゴリズム Step3: z n の集合　　　　　を求める（ A は固定） N =7, A =3 の場合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i

6. 近似予測アルゴリズム Step3: z n の集合　　　　　を求める（ A は固定） N =7, A =3 の場合 ( , 0 , 1 , 0 , , , 0 ) 0 1 0 1 0 1 0 か 1 のどちらかを取る ? 2 A 個の z n の集合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i

6. 近似予測アルゴリズム Step4: 次式で予測値を計算重み付ける z n の集合が Z n から　　　　　へ変わった以外は全て同じ計算

7. シミュレーションによる評価シミュレーション 1 　データ数が少ない場合（データ数 13 ）重み付け数の変化による二乗誤差正確な事後確率を計算し，事後確率が大きい順に重み付けた場合近似アルゴリズムにより A = 0,1,2, ??? ,13 とした場合シミュレーション 2 データ数を増やした場合【実験条件】 α=0.1 ，事前分布に従いランダムにパラメータを発生実験回数 30000 回の平均【比較対象】 ?外れ値を全て知っていると仮定したもとでベイズ予測 ? EM アルゴリズムにより求めた推定値　　　をビルドインして予測

7.1. シミュレーション 1 （データ数 13 ，正確な事後確率の高い順に重み付け）

7.1. シミュレーション 1 （データ数 13 ，重み付け数変化） A =1 A =13 （ベイズ最適） A =11 A =12

7.1. シミュレーション 2 （データ数大，データ数変化）

8. 考察近似アルゴリズムは A がある一定の値になると収束し，ベイズ最適な予測に近づく．　? A を上手く決める事で，計算量を削減しつつ，高精度な予測が可能データ数にあまり依存せず， A を決める事ができそう　?データ数によって計算量が急激に増えない近似アルゴリズムはデータ数が少ない段階から比較的安定して高精度の予測を行っている　?データ数が比較的少ない時より有効

9. まとめと今後の課題まとめ外れ値データの発生を含む回帰モデルに対する予測問題を扱ったベイズ最適な予測法を導出計算量を削減した近似アルゴリズムを提案シミュレーションにより有効性を示した今後の課題事後確率の高い z n の集合を求める他の方法との比較

予备资料：贰惭反復回数

狠狠撸

ma92007id395

Recommended

More Related Content

What's hot (20)

Similar to ma92007id395 (14)

More from matsushimalab (20)

ma92007id395