狠狠撸

狠狠撸Share a Scribd company logo
外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム 須子 統太 松嶋 敏泰 平澤 茂一 (早稲田大学)
1. 研究背景 統計解析における外れ値 ? 少量でも解析結果に大きく影響 外れ値の取り扱い 外れ値から何かしらの知識を得る 正常値のデータ構造を知ることが目的 ( パラメータ推定, 予測 など ) ? いずれの場合も外れ値の検出に主眼が置かれてきた 外れ値の発生 モデルを仮定しない モデルを仮定する -> [Box’68] [Abraham’78] における回帰モデル ベイズ基準に基づく最適な予測方法を示し 計算量を削減した近似アルゴリズムを提案
3. 外れ値データのモデル化 混合分布によるモデル化 [Box’68][Abraham’78] モデルの制約 [Box’68] 回帰係数(平均)が同じで分散が定数倍 [Abraham’78] 分散が同じで回帰係数(平均)が異なる 本研究 回帰係数(平均),分散ともに独立 正常値のモデル 外れ値のモデル 分散,回帰係数が違う通常の線形回帰モデル :外れ値の出現する確率(既知)
4. 予測問題 予測 損失関数 二乗誤差損失     のモデル        (予測対象は外れ値にならない) ?説明変数と目的変数の n 個の組        ? n+1 個目の説明変数 を予測 簡単の為,今回はこちらのみ考える
5. ベイズ最適な予測法の導出 ベイズ最適な予測 事前分布             を仮定 隠れ変数の導入 (i番目のデータが正常値) (i番目のデータが外れ値) :外れ値の出現パターン(全部で  2 n  個)
5. ベイズ最適な予測法の導出 通常の線形回帰モデルに対するベイズ最適な予測値 ? 自然共役な事前分布を仮定すると    t 分布の期待値 として解析的に計算可能 [Bernardo’94] z n における全ての正常値のデータの組 全ての  z n   について事後確率で重み付け ? 外れ値を検出する必要はない 2 n   個の  z n   についての重み付け計算が必要 ?  O (2 n ) の計算量
6. 近似予測アルゴリズム 計算量削減のアイディア 事後確率        の大きい z n だけを重み付たい         の計算自体が O (2 n ) の計算量 ? 近似的に事後確率の大きい  z n   の集合を求める EM アルゴリズムによる推定値  を計算   (尤度関数の極大値)          を利用    (EM アルゴリズムの途中で計算される値 )
6. 近似予測アルゴリズム アルゴリズム Step1: EMアルゴリズムにより        を計算 Step2:     を次式で求める ? 値が小さいほど  が間違えている可能性が高い
6. 近似予測アルゴリズム Step3:  z n   の集合     を求める( A は固定)   N =7, A =3 の場合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i
6. 近似予測アルゴリズム Step3:  z n   の集合     を求める( A は固定)   N =7, A =3 の場合 (  , 0 , 1 , 0 ,  ,  , 0 ) 0 1 0 1 0 1 0 か 1 のどちらかを取る ? 2 A   個の  z n   の集合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i
6. 近似予測アルゴリズム Step4: 次式で予測値を計算 重み付ける  z n   の集合が Z n  から     へ変わった以外は 全て同じ計算
7.  シミュレーションによる評価 シミュレーション 1   データ数が少ない場合(データ数 13 )重み付け数の変化による二乗誤差 正確な事後確率を計算し,事後確率が大きい順に重み付けた場合 近似アルゴリズムにより A = 0,1,2, ??? ,13 とした場合 シミュレーション 2 データ数を増やした場合 【実験条件】 α=0.1 , 事前分布に従いランダムにパラメータを発生 実験回数 30000 回の平均 【比較対象】 ?外れ値を全て知っていると仮定したもとでベイズ予測 ? EM アルゴリズムにより求めた推定値   をビルドインして予測
7.1.  シミュレーション 1 (データ数 13 ,正確な事後確率の高い順に重み付け)
7.1.  シミュレーション 1 (データ数 13 ,重み付け数変化) A =1 A =13 (ベイズ最適) A =11 A =12
7.1.  シミュレーション 2 (データ数大,データ数変化)
7.1.  シミュレーション 2 (データ数大,データ数変化)
8. 考察 近似アルゴリズムは A がある一定の値になると収束し,ベイズ最適な予測に近づく.  ? A を上手く決める事で,計算量を削減しつつ,高精度な予測が可能 データ数にあまり依存せず, A を決める事ができそう  ?データ数によって計算量が急激に増えない 近似アルゴリズムはデータ数が少ない段階から比較的安定して高精度の予測を行っている  ?データ数が比較的少ない時より有効
9. まとめと今後の課題 まとめ 外れ値データの発生を含む回帰モデルに対する予測問題を扱った ベイズ最適な予測法を導出 計算量を削減した近似アルゴリズムを提案 シミュレーションにより有効性を示した 今後の課題 事後確率の高い  z n  の集合を求める他の方法との比較
予备资料:贰惭反復回数

More Related Content

What's hot (20)

カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
?
みと?りほ?ん3章前半
みと?りほ?ん3章前半みと?りほ?ん3章前半
みと?りほ?ん3章前半
Akifumi Eguchi
?
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
Hirotaka Hachiya
?
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
hoxo_m
?
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
Kazunori Miyanishi
?
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
Hirotaka Hachiya
?
笔搁惭尝轮読#11
笔搁惭尝轮読#11笔搁惭尝轮読#11
笔搁惭尝轮読#11
matsuolab
?
笔搁惭尝読み会第一章
笔搁惭尝読み会第一章笔搁惭尝読み会第一章
笔搁惭尝読み会第一章
Takushi Miki
?
データ解析4 确率の復习
データ解析4 确率の復习データ解析4 确率の復习
データ解析4 确率の復习
Hirotaka Hachiya
?
データ解析7 主成分分析の基础
データ解析7 主成分分析の基础データ解析7 主成分分析の基础
データ解析7 主成分分析の基础
Hirotaka Hachiya
?
笔搁惭尝11章
笔搁惭尝11章笔搁惭尝11章
笔搁惭尝11章
Takashi Tamura
?
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
?
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
Hirotaka Hachiya
?
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
?
データ解析10 因子分析の基础
データ解析10 因子分析の基础データ解析10 因子分析の基础
データ解析10 因子分析の基础
Hirotaka Hachiya
?
データ解析13 线形判别分析
データ解析13 线形判别分析データ解析13 线形判别分析
データ解析13 线形判别分析
Hirotaka Hachiya
?
几何を使った统计のはなし
几何を使った统计のはなし几何を使った统计のはなし
几何を使った统计のはなし
Toru Imai
?
データ解析入门
データ解析入门データ解析入门
データ解析入门
Takeo Noda
?
距离とクラスタリング
距离とクラスタリング距离とクラスタリング
距离とクラスタリング
大貴 末廣
?
アンサンブル木モデル解釈のためのモデル简略化法
アンサンブル木モデル解釈のためのモデル简略化法アンサンブル木モデル解釈のためのモデル简略化法
アンサンブル木モデル解釈のためのモデル简略化法
Satoshi Hara
?
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
?
みと?りほ?ん3章前半
みと?りほ?ん3章前半みと?りほ?ん3章前半
みと?りほ?ん3章前半
Akifumi Eguchi
?
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
Hirotaka Hachiya
?
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
hoxo_m
?
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
Kazunori Miyanishi
?
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
Hirotaka Hachiya
?
笔搁惭尝轮読#11
笔搁惭尝轮読#11笔搁惭尝轮読#11
笔搁惭尝轮読#11
matsuolab
?
笔搁惭尝読み会第一章
笔搁惭尝読み会第一章笔搁惭尝読み会第一章
笔搁惭尝読み会第一章
Takushi Miki
?
データ解析4 确率の復习
データ解析4 确率の復习データ解析4 确率の復习
データ解析4 确率の復习
Hirotaka Hachiya
?
データ解析7 主成分分析の基础
データ解析7 主成分分析の基础データ解析7 主成分分析の基础
データ解析7 主成分分析の基础
Hirotaka Hachiya
?
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
?
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
Hirotaka Hachiya
?
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
?
データ解析10 因子分析の基础
データ解析10 因子分析の基础データ解析10 因子分析の基础
データ解析10 因子分析の基础
Hirotaka Hachiya
?
データ解析13 线形判别分析
データ解析13 线形判别分析データ解析13 线形判别分析
データ解析13 线形判别分析
Hirotaka Hachiya
?
几何を使った统计のはなし
几何を使った统计のはなし几何を使った统计のはなし
几何を使った统计のはなし
Toru Imai
?
データ解析入门
データ解析入门データ解析入门
データ解析入门
Takeo Noda
?
距离とクラスタリング
距离とクラスタリング距离とクラスタリング
距离とクラスタリング
大貴 末廣
?
アンサンブル木モデル解釈のためのモデル简略化法
アンサンブル木モデル解釈のためのモデル简略化法アンサンブル木モデル解釈のためのモデル简略化法
アンサンブル木モデル解釈のためのモデル简略化法
Satoshi Hara
?

Similar to ma92007id395 (14)

Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
Kohta Ishikawa
?
笔搁惭尝第3章冲3.3-3.4
笔搁惭尝第3章冲3.3-3.4笔搁惭尝第3章冲3.3-3.4
笔搁惭尝第3章冲3.3-3.4
Takashi Tamura
?
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
?
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2
Nobuaki Oshiro
?
ベイズ统计学の概论的绍介-辞濒诲
ベイズ统计学の概论的绍介-辞濒诲ベイズ统计学の概论的绍介-辞濒诲
ベイズ统计学の概论的绍介-辞濒诲
Naoki Hayashi
?
Survival analysis0702
Survival analysis0702Survival analysis0702
Survival analysis0702
Nobuaki Oshiro
?
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
?
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
nishioka1
?
尝别迟中部2012シンホ?スライト?
尝别迟中部2012シンホ?スライト?尝别迟中部2012シンホ?スライト?
尝别迟中部2012シンホ?スライト?
Mizumoto Atsushi
?
ベイズ入门
ベイズ入门ベイズ入门
ベイズ入门
Zansa
?
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
Sho Shimauchi
?
自动微分変分ベイズ法の绍介
自动微分変分ベイズ法の绍介自动微分変分ベイズ法の绍介
自动微分変分ベイズ法の绍介
Taku Yoshioka
?
ベイズ统计入门
ベイズ统计入门ベイズ统计入门
ベイズ统计入门
Miyoshi Yuya
?
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
Kei Nakagawa
?
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
Kohta Ishikawa
?
笔搁惭尝第3章冲3.3-3.4
笔搁惭尝第3章冲3.3-3.4笔搁惭尝第3章冲3.3-3.4
笔搁惭尝第3章冲3.3-3.4
Takashi Tamura
?
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
?
ベイズ统计学の概论的绍介-辞濒诲
ベイズ统计学の概论的绍介-辞濒诲ベイズ统计学の概论的绍介-辞濒诲
ベイズ统计学の概论的绍介-辞濒诲
Naoki Hayashi
?
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
?
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
nishioka1
?
尝别迟中部2012シンホ?スライト?
尝别迟中部2012シンホ?スライト?尝别迟中部2012シンホ?スライト?
尝别迟中部2012シンホ?スライト?
Mizumoto Atsushi
?
ベイズ入门
ベイズ入门ベイズ入门
ベイズ入门
Zansa
?
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
Sho Shimauchi
?
自动微分変分ベイズ法の绍介
自动微分変分ベイズ法の绍介自动微分変分ベイズ法の绍介
自动微分変分ベイズ法の绍介
Taku Yoshioka
?
ベイズ统计入门
ベイズ统计入门ベイズ统计入门
ベイズ统计入门
Miyoshi Yuya
?
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
Kei Nakagawa
?

More from matsushimalab (20)

ma99992012id537
ma99992012id537ma99992012id537
ma99992012id537
matsushimalab
?
ma12012id536
ma12012id536ma12012id536
ma12012id536
matsushimalab
?
ma112011id535
ma112011id535ma112011id535
ma112011id535
matsushimalab
?
ma52009id421
ma52009id421ma52009id421
ma52009id421
matsushimalab
?
ma52009id420
ma52009id420ma52009id420
ma52009id420
matsushimalab
?
ma112006id337
ma112006id337ma112006id337
ma112006id337
matsushimalab
?

ma92007id395

  • 2. 1. 研究背景 統計解析における外れ値 ? 少量でも解析結果に大きく影響 外れ値の取り扱い 外れ値から何かしらの知識を得る 正常値のデータ構造を知ることが目的 ( パラメータ推定, 予測 など ) ? いずれの場合も外れ値の検出に主眼が置かれてきた 外れ値の発生 モデルを仮定しない モデルを仮定する -> [Box’68] [Abraham’78] における回帰モデル ベイズ基準に基づく最適な予測方法を示し 計算量を削減した近似アルゴリズムを提案
  • 3. 3. 外れ値データのモデル化 混合分布によるモデル化 [Box’68][Abraham’78] モデルの制約 [Box’68] 回帰係数(平均)が同じで分散が定数倍 [Abraham’78] 分散が同じで回帰係数(平均)が異なる 本研究 回帰係数(平均),分散ともに独立 正常値のモデル 外れ値のモデル 分散,回帰係数が違う通常の線形回帰モデル :外れ値の出現する確率(既知)
  • 4. 4. 予測問題 予測 損失関数 二乗誤差損失     のモデル        (予測対象は外れ値にならない) ?説明変数と目的変数の n 個の組        ? n+1 個目の説明変数 を予測 簡単の為,今回はこちらのみ考える
  • 5. 5. ベイズ最適な予測法の導出 ベイズ最適な予測 事前分布             を仮定 隠れ変数の導入 (i番目のデータが正常値) (i番目のデータが外れ値) :外れ値の出現パターン(全部で 2 n 個)
  • 6. 5. ベイズ最適な予測法の導出 通常の線形回帰モデルに対するベイズ最適な予測値 ? 自然共役な事前分布を仮定すると    t 分布の期待値 として解析的に計算可能 [Bernardo’94] z n における全ての正常値のデータの組 全ての z n について事後確率で重み付け ? 外れ値を検出する必要はない 2 n 個の z n についての重み付け計算が必要 ? O (2 n ) の計算量
  • 7. 6. 近似予測アルゴリズム 計算量削減のアイディア 事後確率        の大きい z n だけを重み付たい         の計算自体が O (2 n ) の計算量 ? 近似的に事後確率の大きい z n の集合を求める EM アルゴリズムによる推定値  を計算   (尤度関数の極大値)          を利用    (EM アルゴリズムの途中で計算される値 )
  • 8. 6. 近似予測アルゴリズム アルゴリズム Step1: EMアルゴリズムにより        を計算 Step2:    を次式で求める ? 値が小さいほど  が間違えている可能性が高い
  • 9. 6. 近似予測アルゴリズム Step3: z n の集合     を求める( A は固定) N =7, A =3 の場合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i
  • 10. 6. 近似予測アルゴリズム Step3: z n の集合     を求める( A は固定) N =7, A =3 の場合 ( , 0 , 1 , 0 , , , 0 ) 0 1 0 1 0 1 0 か 1 のどちらかを取る ? 2 A 個の z n の集合 0.12 0 6 0.08 1 5 0.42 0 4 0.45 0.4 0.35 0.1 0 1 0 0 7 3 2 1 i
  • 11. 6. 近似予測アルゴリズム Step4: 次式で予測値を計算 重み付ける z n の集合が Z n から     へ変わった以外は 全て同じ計算
  • 12. 7. シミュレーションによる評価 シミュレーション 1   データ数が少ない場合(データ数 13 )重み付け数の変化による二乗誤差 正確な事後確率を計算し,事後確率が大きい順に重み付けた場合 近似アルゴリズムにより A = 0,1,2, ??? ,13 とした場合 シミュレーション 2 データ数を増やした場合 【実験条件】 α=0.1 , 事前分布に従いランダムにパラメータを発生 実験回数 30000 回の平均 【比較対象】 ?外れ値を全て知っていると仮定したもとでベイズ予測 ? EM アルゴリズムにより求めた推定値   をビルドインして予測
  • 13. 7.1. シミュレーション 1 (データ数 13 ,正確な事後確率の高い順に重み付け)
  • 14. 7.1. シミュレーション 1 (データ数 13 ,重み付け数変化) A =1 A =13 (ベイズ最適) A =11 A =12
  • 15. 7.1. シミュレーション 2 (データ数大,データ数変化)
  • 16. 7.1. シミュレーション 2 (データ数大,データ数変化)
  • 17. 8. 考察 近似アルゴリズムは A がある一定の値になると収束し,ベイズ最適な予測に近づく.  ? A を上手く決める事で,計算量を削減しつつ,高精度な予測が可能 データ数にあまり依存せず, A を決める事ができそう  ?データ数によって計算量が急激に増えない 近似アルゴリズムはデータ数が少ない段階から比較的安定して高精度の予測を行っている  ?データ数が比較的少ない時より有効
  • 18. 9. まとめと今後の課題 まとめ 外れ値データの発生を含む回帰モデルに対する予測問題を扱った ベイズ最適な予測法を導出 計算量を削減した近似アルゴリズムを提案 シミュレーションにより有効性を示した 今後の課題 事後確率の高い z n の集合を求める他の方法との比較