狠狠撸

狠狠撸Share a Scribd company logo
データフュージョン
                  徹底入門

                        @yokkuns: 里 洋平
                      yohei0511@gmail.com
                2012.06.23 第19回TokyoWebmining


2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
自己绍介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年6月23日土曜日
活動例: 勉強会の主催?執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年6月23日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2012年6月23日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年6月23日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年6月23日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移
  モデル構築
                                                       3.0000




                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                  4/ 週
                                  4/ 1週
                                  4/ 8週
                                   5/ 週
                                   5/ 週
                                  5/ 週
                                  5/ 週
                                  5/ 週
                                   6/ 週
                                  6/ 週
                                  6/ 週
                                  6/ 週
                                   7/ 週
                                  7/ 週
                                  7/ 週
                                  7/ 8週
                                        週
                                      4



                                    25
                                      2
                                      9
                                    16
                                    23
                                    30
                                      6
                                    13
                                    20
                                    27
                                      4
                                    11


                                    25
                                    1
                                    1




                                    1
                                   4/




                                                                 86
2012年6月23日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial E?ects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
データフュージョンとは
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ?

                             購買履歴データ?      欠測?


                               欠測?      市場調査データ?




                市場調査データ?         共通で得られている変数?




2012年6月23日土曜日
マルチデータソースとシングルソースデータ
       複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ
     ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか
       などの問題に対して解析を行うためには、シングルソースデータが必要




                シングルソースデータ      マルチソースデータ




            広告接触        購買?   広告接触     購買




2012年6月23日土曜日
シングルソースデータの入手は困難①
  テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある
     そのすべてを1人の人から同時に調査する事は不可能




2012年6月23日土曜日
シングルソースデータの入手は困难②
   広告接触データは市場調査、購買履歴データはPOSシステムなど
      シングルソースデータで情報が得られる事は少ない




                購買履歴データ?   市場調査データ?




2012年6月23日土曜日
シングルソースデータの入手は困难③
        実績データの代わりに「購買有無」「広告接触」を調査する事で
     シングルソースデータを得る事は可能だが、月単位でしか得られない
           実績データにおいて得られる日時単位の測定とは大きく乖離




         購買有無?       広告接触?       購買履歴データ?




                                日時単位の情報
                月単位の情報


2012年6月23日土曜日
マルチソースデータをシングルソースデータに
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ?

                             購買履歴データ?      欠測?


                               欠測?      市場調査データ?




                市場調査データ?         共通で得られている変数?




2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
欠测データ
        観測出来ない方のデータを欠測してると考える
   因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

                        因果推論
                  処置群          対照群

 介入を受けた
                処置群のデータ?       欠測?
  場合の結果                                              データ融合
介入を受けない
 場合の結果
                  欠測?      対照群のデータ?             購買履歴データ   市場調査データ


                                               購買履歴調査の
                                       購買履歴                  欠測?
 共変量項目            共通で得られている変数?                   データ?

                                                          市場調査の
                                       質問紙項目     欠測?
                                                          回答データ?
                        選択バイアス
                  選択者          非選択者

                                       共変量項目      共通で得られている変数?
  従属変数          選択者のデータ?   非選択者のデータ?



 共変量項目             共通で得られている変数?



2012年6月23日土曜日
欠測の分類


  ◆ 各変数レベルでの記入漏れや無回答


  ◆ 打ち切りや切断


  ◆ パネルデータでの脱落または摩耗


  ◆ 調査や測定全体への無回答や不参加、測定不能


2012年6月23日土曜日
欠测のメカニズム


     ◆ 完全にランダムな欠測
         ?欠測するかどうかはモデリングに用いている変数には依存しない


     ◆ ランダムな欠測
         ?欠測するかどうかは、欠測値には依存せず観測値に依存する


     ◆ ランダムでない欠測
         ?欠測するかどうかは欠測値そのものの値や観測していない他の変数
            にも依存する




2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                  処置群        対照群

                処置群のデータ?

                           対照群のデータ?




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

                処置群のデータ?

                           対照群のデータ?




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

     介入を受けた
                処置群のデータ?       欠測?
     場合の結果

    介入を受けない
     場合の結果
                  欠測?      対照群のデータ?




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる



                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群
                                      期待値が等しい!
     介入を受けた
                処置群のデータ?       欠測?    ?対照群が介入を受けていた場合の期待値と
     場合の結果                            介入を受けた処置群の期待値は同じ

    介入を受けない
     場合の結果
                  欠測?      対照群のデータ?   ?処置群が介入を受けない場合の期待値と
                                      介入を受けなかった対照群の期待値は同じ




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                  処置群         対照群

                処置群のデータ?

                            対照群のデータ?




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群         対照群

                処置群のデータ?

                            対照群のデータ?




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方




                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群         対照群

     介入を受けた
                処置群のデータ?      欠測?
     場合の結果

    介入を受けない
     場合の結果
                  欠測?       対照群のデータ?




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた因果効果の考え方
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない



                     処置群と対照群の割当
                    (コントロール出来ない)



                   処置群         対照群
                                        期待値が違う!
     介入を受けた                             ?対照群が介入を受けていた場合の期待値と
                 処置群のデータ?      欠測?
     場合の結果                              介入を受けた処置群の期待値が異なる

    介入を受けない
     場合の結果
                   欠測?       対照群のデータ?   ?処置群が介入を受けない場合の期待値と
                                        介入を受けなかった対照群の期待値が異なる




            因果効果            処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠测データを用いた解析: 倾向スコア

                実験出来ないデータの因果関係を解析する



                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群        対照群
                                      共変量で割当をモデリング
     介入を受けた
                処置群のデータ?     欠測?
     場合の結果                              倾向スコアの算出
    介入を受けない
     場合の結果
                  欠測?      対照群のデータ?


     共変量項目         共通で得られている変数?
                                       倾向スコアを用いた調整
                                      ◇マッチング
                                      ◇層別解析
                                      ◇共分散分析


2012年6月23日土曜日
欠测データを用いた解析: 倾向スコア

                割当によって観測出来ない潜在的変数を考える




                  処置群         対照群             z=1   z=0

 介入を受けた
                処置群のデータ?      欠測?                    ?
  場合の結果

介入を受けない
                  欠測?       対照群のデータ?           ?     ?
 場合の結果




                             y1とy0は両方存在するが
                           割当によって観測出来ないと考える
2012年6月23日土曜日
欠测データを用いた解析: 倾向スコア

                          割当変数zと求めたい因果効果



                      処置群と対照群の割当                          z


                   処置群              対照群             z=1       z=0

 介入を受けた
                処置群のデータ?            欠測?                        ?
  場合の結果

介入を受けない
                   欠測?            対照群のデータ?           ?         ?
 場合の結果




           処置群での平均介入効果
            average treatment             z=1の時のy1とy0の差を知りたいが
           e?ect on the treated              どちらか一方は観測出来ない
2012年6月23日土曜日
欠测データを用いた解析: 倾向スコア

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                      z


                  処置群          対照群              z=1       z=0

 介入を受けた
                処置群のデータ?       欠測?                         ?
  場合の結果

介入を受けない
                  欠測?       対照群のデータ?             ?         ?
 場合の結果




  共変量項目               共通で得られている変数?



     強く無視出来る
       割当条件       :                    共変量の値が等しい時は
                                       割当はランダムという仮定

                  :
     共変量の影響を
    除去した因果効果

2012年6月23日土曜日
欠测データを用いた解析: 倾向スコア

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                   z


                  処置群          対照群           z=1       z=0

 介入を受けた
                処置群のデータ?       欠測?                      ?
  場合の結果

介入を受けない
                  欠測?       対照群のデータ?          ?         ?
 場合の結果




  共変量項目               共通で得られている変数?


                                       共変量が同じならz=1のy0の期待値を
     強く無視出来る
       割当条件       :                     z=0の時のy0の期待値で代用出来る


                  :
     共変量の影響を
    除去した因果効果

2012年6月23日土曜日
倾向スコア

                対象者の群1へ割り当てられる確率




                第i対象者の割当変数の値

                第i対象者の共変量の値

2012年6月23日土曜日
倾向スコアの推定

           プロビット回帰やロジスティック回帰で推定する




2012年6月23日土曜日
倾向スコアを用いた調整



    ? マッチング
        ?   2つの群で倾向スコアが等しい(近い)対象者をペアにしてその差の
            平均を因果効果とする

    ? 層別解析
        ?   倾向スコアの大小によっていくつかのサブクラスに分け、その各クラ
            スで処置群と対照群の平均の計算と、全体としての効果の推定量を計
            算する

    ? 共分散分析
        ?   割当変数と倾向スコアを説明変数とした線形の回帰分析を行う




2012年6月23日土曜日
倾向スコアを用いた調整

                倾向スコアの逆数による重み付け平均




2012年6月23日土曜日
倾向スコアを用いた調整
                倾向スコアの逆数を重みづけたyの期待値は
                    y1の周辺平均の不偏推定量




2012年6月23日土曜日
倾向スコアを用いた調整

                因果効果の推定値とその分散が計算出来る


                       因果効果



                     因果効果の分散




2012年6月23日土曜日
欠测データでの選択バイアスの補正

                選択されるか否かをモデル化し、バイアスを補正する


                         欠测データによる選択バイアスの解析の表現

                      選択されるか否か
                    (コントロール出来ない)




                   選択者        非選択者


    従属変数         選択者のデータ?   非選択者のデータ?      選択 をモデリング
                                          母集団の期待値を推定

   共変量項目            共通で得られている変数?        ?共変量や従属変数を用いて 選択 を
                                         モデリング
                                        ?選択者のデータを補正して、母集団の??
                                         期待値を推定する


2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
欠测データを用いたデータフュージョンの考え方
                欠測が発生しているシングルソースデータとして考え
                 のりしろとなる共変量を用いてデータを結合する


                                   のりしろとなる
                 購買履歴データ?          共通項目で結合

                  共変量?         購買履歴データ    市場調査データ



                              購買履歴データ?       欠測?


                                欠測?      市場調査データ?
                 市場調査データ?


                   共変量?           共通で得られている変数?




2012年6月23日土曜日
前提条件
        欠测のメカニズムは 欠測値には依存しない ランダムな欠測
           共変量を条件づけた場合には、各目的変数は独立


  ◆ ランダムな欠測
        ?購買履歴データには男女の両方が含まれているのに、広告接触データには
          男性のデータしか含まれていない、というなかたよりがない



  ◆ 条件付き独立
        ?共変量を条件づけた場合には各目的変数は独立になる。




2012年6月23日土曜日
データフュージョンの各手法
                   大きく4つの手法が提案されている
                近年は、セミパラメトリックモデルが熱い!(?)

  ◆ マッチング


  ◆ 潜在変数モデリング


  ◆ 回帰モデル


  ◆ セミパラメトリックモデル


2012年6月23日土曜日
マッチング
          共変量に関して最も近くなるような
   データAとデータBの対象者をペアを作り、同一調査対象と見なす




                共変量が近いペア    【問題点】
                            1.推定精度が高くない可能性がある
                                共変量を増やす事で誤差を減少出来る
                                共変量は倾向スコアでまとめる
                            2.マッチングに利用しない対象者データが無駄になる
                            3.確率的な変動を考慮できず統計的な性質が明確でない
          広告接触        購買       リサンプリングや多重代入法で解決
                            4.個人情報保護法などの観点からの問題が生じる可能性
    広告接触については、データAの対象者から
   購買については、データBの対象者から得られる




2012年6月23日土曜日
潜在変数モデリング
          通常の多変量解析において一部の変数が欠測しているデータに対して
                 潜在変数モデルを利用する事で欠測の問題を回避する
                共通因子や潜在クラスを仮定して、データフュージョンを行う



                   購買履歴データ           欠測

                             共変量

                     潜在             潜在
                     クラス            クラス




                     欠測            市場調査データ



2012年6月23日土曜日
回帰モデル
                  ロジスティック回帰モデルなどを用いて
                共変量から目的とする欠測変数を直接推定する




                                        回帰モデル




                                    マッチング




2012年6月23日土曜日
セミパラメトリックモデル
                共変量の情報を最大限に生かして予測を行うためには
                   セミパラメトリックな回帰手法が望ましい


  ◆ カーネルマッチング
       ?カーネル回帰モデルで欠測変数を推定する
       ?通常のマッチングでは予測に使うデータは1つまたは数個だけだが、
        カーネルマッチングでは、カーネルによる重みで全て利用する



  ◆ ディリクレ過程混合モデル
       ?回帰の混合モデルにおいて要素数Kを事前に決定するのではなく
        データから決定するモデル



2012年6月23日土曜日
ディリクレ过程混合モデリング
          ロジスティック回帰の混合モデルにおいて
     要素数Kを事前に決定するのではなくデータから決定するモデル




2012年6月23日土曜日
AGENDA

      ◆ 自己绍介

      ◆ データフュージョンとは

      ◆ 欠测データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
データフュージョンとは
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ?

                             購買履歴データ?      欠測?


                               欠測?      市場調査データ?




                市場調査データ?         共通で得られている変数?




2012年6月23日土曜日
参考資料


  ◆ Rで学ぶ倾向スコア解析入門
        http://www.slideshare.net/yokkuns/r-9387843




  ◆ 選択バイアス入門
        http://www.slideshare.net/yokkuns/tokyor22-selection-bias




  ◆ data fusion についてのメモ - BOD
        http://d.hatena.ne.jp/dichika/20110907/1315359207




2012年6月23日土曜日
罢辞办测辞.搁の次回以降の

     発表者?LTを募集しています!



2012年6月23日土曜日
ご清聴ありがとうございました!




2012年6月23日土曜日

More Related Content

What's hot (20)

Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
?
IROS2020 survey
IROS2020 surveyIROS2020 survey
IROS2020 survey
robotpaperchallenge
?
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
AGIRobots
?
Maxout networks
Maxout networksMaxout networks
Maxout networks
Junya Saito
?
贰惭アルゴリズム
贰惭アルゴリズム贰惭アルゴリズム
贰惭アルゴリズム
Sotetsu KOYAMADA(小山田創哲)
?
オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?
Kouji Kozaki
?
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
Tomoki Hayashi
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
?
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
?
グラフィカルモデル入门
グラフィカルモデル入门グラフィカルモデル入门
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
?
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Daiyu Hatakeyama
?
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
Shiga University, RIKEN
?
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
?
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
Masaki Tsuda
?
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
Hiroshi Shimizu
?
构造方程式モデルによる因果探索と非ガウス性
构造方程式モデルによる因果探索と非ガウス性构造方程式モデルによる因果探索と非ガウス性
构造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
?
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
YuMaruyama
?
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよういろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
Tomoki Yoshida
?
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
?
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
础迟迟别苍迟颈辞苍の基础から罢谤补苍蝉蹿辞谤尘别谤の入门まで
AGIRobots
?
オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?
Kouji Kozaki
?
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
Tomoki Hayashi
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
?
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
?
グラフィカルモデル入门
グラフィカルモデル入门グラフィカルモデル入门
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
?
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Daiyu Hatakeyama
?
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
Shiga University, RIKEN
?
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
?
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
搁厂迟补苍と厂丑颈苍测厂迟补苍によるベイズ统计モデリング入门
Masaki Tsuda
?
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
厂迟补苍と搁でベイズ统计モデリング読书会 导入编(1章~3章)
Hiroshi Shimizu
?
构造方程式モデルによる因果探索と非ガウス性
构造方程式モデルによる因果探索と非ガウス性构造方程式モデルによる因果探索と非ガウス性
构造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
?
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
YuMaruyama
?
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよういろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
いろんなハ?ンテ?ィットアルコ?リス?ムを理解しよう
Tomoki Yoshida
?

Similar to Tokyowebmining19 data fusion (11)

异常行动検出入门(改)
异常行动検出入门(改)异常行动検出入门(改)
异常行动検出入门(改)
Yohei Sato
?
倾向スコア解析とUplift Modelling
倾向スコア解析とUplift Modelling倾向スコア解析とUplift Modelling
倾向スコア解析とUplift Modelling
Yohei Sato
?
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
Yohei Sato
?
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
Yohei Sato
?
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
Yohei Sato
?
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
Yohei Sato
?
搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?
异常行动検出入门(改)
异常行动検出入门(改)异常行动検出入门(改)
异常行动検出入门(改)
Yohei Sato
?
倾向スコア解析とUplift Modelling
倾向スコア解析とUplift Modelling倾向スコア解析とUplift Modelling
倾向スコア解析とUplift Modelling
Yohei Sato
?
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
Yohei Sato
?
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
Yohei Sato
?
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
Yohei Sato
?
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
Yohei Sato
?
搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?

More from Yohei Sato (19)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
?
Japan r2 openingJapan r2 opening
Japan r2 opening
Yohei Sato
?
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Yohei Sato
?
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
?
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Yohei Sato
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?
Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生Tokyor35 人工テ?ータの発生
Tokyor35 人工テ?ータの発生
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
?
Japan r2 openingJapan r2 opening
Japan r2 opening
Yohei Sato
?
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Rて?学ふ? 倾向スコア解析入門 - 無作為割り当てか?出来ない時の因果効果推定 -
Yohei Sato
?
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
?
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Yohei Sato
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?

Tokyowebmining19 data fusion

  • 1. データフュージョン 徹底入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.06.23 第19回TokyoWebmining 2012年6月23日土曜日
  • 2. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 3. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 4. 自己绍介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年6月23日土曜日
  • 5. 活動例: 勉強会の主催?執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年6月23日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年6月23日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年6月23日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年6月23日土曜日
  • 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 モデル構築 3.0000 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年6月23日土曜日
  • 10. 活動例: 時系列解析と影響分析 TV Commercial E?ects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年6月23日土曜日
  • 11. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 12. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ? 購買履歴データ? 欠測? 欠測? 市場調査データ? 市場調査データ? 共通で得られている変数? 2012年6月23日土曜日
  • 13. マルチデータソースとシングルソースデータ 複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか などの問題に対して解析を行うためには、シングルソースデータが必要 シングルソースデータ マルチソースデータ 広告接触 購買? 広告接触 購買 2012年6月23日土曜日
  • 14. シングルソースデータの入手は困難① テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある そのすべてを1人の人から同時に調査する事は不可能 2012年6月23日土曜日
  • 15. シングルソースデータの入手は困难② 広告接触データは市場調査、購買履歴データはPOSシステムなど シングルソースデータで情報が得られる事は少ない 購買履歴データ? 市場調査データ? 2012年6月23日土曜日
  • 16. シングルソースデータの入手は困难③ 実績データの代わりに「購買有無」「広告接触」を調査する事で シングルソースデータを得る事は可能だが、月単位でしか得られない 実績データにおいて得られる日時単位の測定とは大きく乖離 購買有無? 広告接触? 購買履歴データ? 日時単位の情報 月単位の情報 2012年6月23日土曜日
  • 17. マルチソースデータをシングルソースデータに 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ? 購買履歴データ? 欠測? 欠測? 市場調査データ? 市場調査データ? 共通で得られている変数? 2012年6月23日土曜日
  • 18. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 19. 欠测データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ? 欠測? 場合の結果 データ融合 介入を受けない 場合の結果 欠測? 対照群のデータ? 購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測? 共変量項目 共通で得られている変数? データ? 市場調査の 質問紙項目 欠測? 回答データ? 選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数? 従属変数 選択者のデータ? 非選択者のデータ? 共変量項目 共通で得られている変数? 2012年6月23日土曜日
  • 20. 欠測の分類 ◆ 各変数レベルでの記入漏れや無回答 ◆ 打ち切りや切断 ◆ パネルデータでの脱落または摩耗 ◆ 調査や測定全体への無回答や不参加、測定不能 2012年6月23日土曜日
  • 21. 欠测のメカニズム ◆ 完全にランダムな欠測 ?欠測するかどうかはモデリングに用いている変数には依存しない ◆ ランダムな欠測 ?欠測するかどうかは、欠測値には依存せず観測値に依存する ◆ ランダムでない欠測 ?欠測するかどうかは欠測値そのものの値や観測していない他の変数 にも依存する 2012年6月23日土曜日
  • 22. 欠测データを用いた因果効果の考え方 処置群 対照群 処置群のデータ? 対照群のデータ? 因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 23. 欠测データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 処置群のデータ? 対照群のデータ? 因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 24. 欠测データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 介入を受けた 処置群のデータ? 欠測? 場合の結果 介入を受けない 場合の結果 欠測? 対照群のデータ? 因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 25. 欠测データを用いた因果効果の考え方 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 期待値が等しい! 介入を受けた 処置群のデータ? 欠測? ?対照群が介入を受けていた場合の期待値と 場合の結果 介入を受けた処置群の期待値は同じ 介入を受けない 場合の結果 欠測? 対照群のデータ? ?処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値は同じ 因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 26. 欠测データを用いた因果効果の考え方 処置群 対照群 処置群のデータ? 対照群のデータ? 因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 27. 欠测データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 処置群のデータ? 対照群のデータ? 因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 28. 欠测データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 介入を受けた 処置群のデータ? 欠測? 場合の結果 介入を受けない 場合の結果 欠測? 対照群のデータ? 因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 29. 欠测データを用いた因果効果の考え方 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 期待値が違う! 介入を受けた ?対照群が介入を受けていた場合の期待値と 処置群のデータ? 欠測? 場合の結果 介入を受けた処置群の期待値が異なる 介入を受けない 場合の結果 欠測? 対照群のデータ? ?処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値が異なる 因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 30. 欠测データを用いた解析: 倾向スコア 実験出来ないデータの因果関係を解析する 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 共変量で割当をモデリング 介入を受けた 処置群のデータ? 欠測? 場合の結果 倾向スコアの算出 介入を受けない 場合の結果 欠測? 対照群のデータ? 共変量項目 共通で得られている変数? 倾向スコアを用いた調整 ◇マッチング ◇層別解析 ◇共分散分析 2012年6月23日土曜日
  • 31. 欠测データを用いた解析: 倾向スコア 割当によって観測出来ない潜在的変数を考える 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ? 欠測? ? 場合の結果 介入を受けない 欠測? 対照群のデータ? ? ? 場合の結果 y1とy0は両方存在するが 割当によって観測出来ないと考える 2012年6月23日土曜日
  • 32. 欠测データを用いた解析: 倾向スコア 割当変数zと求めたい因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ? 欠測? ? 場合の結果 介入を受けない 欠測? 対照群のデータ? ? ? 場合の結果 処置群での平均介入効果 average treatment z=1の時のy1とy0の差を知りたいが e?ect on the treated どちらか一方は観測出来ない 2012年6月23日土曜日
  • 33. 欠测データを用いた解析: 倾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ? 欠測? ? 場合の結果 介入を受けない 欠測? 対照群のデータ? ? ? 場合の結果 共変量項目 共通で得られている変数? 強く無視出来る 割当条件 : 共変量の値が等しい時は 割当はランダムという仮定 : 共変量の影響を 除去した因果効果 2012年6月23日土曜日
  • 34. 欠测データを用いた解析: 倾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ? 欠測? ? 場合の結果 介入を受けない 欠測? 対照群のデータ? ? ? 場合の結果 共変量項目 共通で得られている変数? 共変量が同じならz=1のy0の期待値を 強く無視出来る 割当条件 : z=0の時のy0の期待値で代用出来る : 共変量の影響を 除去した因果効果 2012年6月23日土曜日
  • 35. 倾向スコア 対象者の群1へ割り当てられる確率 第i対象者の割当変数の値 第i対象者の共変量の値 2012年6月23日土曜日
  • 36. 倾向スコアの推定 プロビット回帰やロジスティック回帰で推定する 2012年6月23日土曜日
  • 37. 倾向スコアを用いた調整 ? マッチング ? 2つの群で倾向スコアが等しい(近い)対象者をペアにしてその差の 平均を因果効果とする ? 層別解析 ? 倾向スコアの大小によっていくつかのサブクラスに分け、その各クラ スで処置群と対照群の平均の計算と、全体としての効果の推定量を計 算する ? 共分散分析 ? 割当変数と倾向スコアを説明変数とした線形の回帰分析を行う 2012年6月23日土曜日
  • 38. 倾向スコアを用いた調整 倾向スコアの逆数による重み付け平均 2012年6月23日土曜日
  • 39. 倾向スコアを用いた調整 倾向スコアの逆数を重みづけたyの期待値は y1の周辺平均の不偏推定量 2012年6月23日土曜日
  • 40. 倾向スコアを用いた調整 因果効果の推定値とその分散が計算出来る 因果効果 因果効果の分散 2012年6月23日土曜日
  • 41. 欠测データでの選択バイアスの補正 選択されるか否かをモデル化し、バイアスを補正する 欠测データによる選択バイアスの解析の表現 選択されるか否か (コントロール出来ない) 選択者 非選択者 従属変数 選択者のデータ? 非選択者のデータ? 選択 をモデリング 母集団の期待値を推定 共変量項目 共通で得られている変数? ?共変量や従属変数を用いて 選択 を モデリング ?選択者のデータを補正して、母集団の?? 期待値を推定する 2012年6月23日土曜日
  • 42. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 43. 欠测データを用いたデータフュージョンの考え方 欠測が発生しているシングルソースデータとして考え のりしろとなる共変量を用いてデータを結合する のりしろとなる 購買履歴データ? 共通項目で結合 共変量? 購買履歴データ 市場調査データ 購買履歴データ? 欠測? 欠測? 市場調査データ? 市場調査データ? 共変量? 共通で得られている変数? 2012年6月23日土曜日
  • 44. 前提条件 欠测のメカニズムは 欠測値には依存しない ランダムな欠測 共変量を条件づけた場合には、各目的変数は独立 ◆ ランダムな欠測 ?購買履歴データには男女の両方が含まれているのに、広告接触データには 男性のデータしか含まれていない、というなかたよりがない ◆ 条件付き独立 ?共変量を条件づけた場合には各目的変数は独立になる。 2012年6月23日土曜日
  • 45. データフュージョンの各手法 大きく4つの手法が提案されている 近年は、セミパラメトリックモデルが熱い!(?) ◆ マッチング ◆ 潜在変数モデリング ◆ 回帰モデル ◆ セミパラメトリックモデル 2012年6月23日土曜日
  • 46. マッチング 共変量に関して最も近くなるような データAとデータBの対象者をペアを作り、同一調査対象と見なす 共変量が近いペア 【問題点】 1.推定精度が高くない可能性がある 共変量を増やす事で誤差を減少出来る 共変量は倾向スコアでまとめる 2.マッチングに利用しない対象者データが無駄になる 3.確率的な変動を考慮できず統計的な性質が明確でない 広告接触 購買 リサンプリングや多重代入法で解決 4.個人情報保護法などの観点からの問題が生じる可能性 広告接触については、データAの対象者から 購買については、データBの対象者から得られる 2012年6月23日土曜日
  • 47. 潜在変数モデリング 通常の多変量解析において一部の変数が欠測しているデータに対して 潜在変数モデルを利用する事で欠測の問題を回避する 共通因子や潜在クラスを仮定して、データフュージョンを行う 購買履歴データ 欠測 共変量 潜在 潜在 クラス クラス 欠測 市場調査データ 2012年6月23日土曜日
  • 48. 回帰モデル ロジスティック回帰モデルなどを用いて 共変量から目的とする欠測変数を直接推定する 回帰モデル マッチング 2012年6月23日土曜日
  • 49. セミパラメトリックモデル 共変量の情報を最大限に生かして予測を行うためには セミパラメトリックな回帰手法が望ましい ◆ カーネルマッチング ?カーネル回帰モデルで欠測変数を推定する ?通常のマッチングでは予測に使うデータは1つまたは数個だけだが、 カーネルマッチングでは、カーネルによる重みで全て利用する ◆ ディリクレ過程混合モデル ?回帰の混合モデルにおいて要素数Kを事前に決定するのではなく データから決定するモデル 2012年6月23日土曜日
  • 50. ディリクレ过程混合モデリング ロジスティック回帰の混合モデルにおいて 要素数Kを事前に決定するのではなくデータから決定するモデル 2012年6月23日土曜日
  • 51. AGENDA ◆ 自己绍介 ◆ データフュージョンとは ◆ 欠测データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 52. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ? 購買履歴データ? 欠測? 欠測? 市場調査データ? 市場調査データ? 共通で得られている変数? 2012年6月23日土曜日
  • 53. 参考資料 ◆ Rで学ぶ倾向スコア解析入門 http://www.slideshare.net/yokkuns/r-9387843 ◆ 選択バイアス入門 http://www.slideshare.net/yokkuns/tokyor22-selection-bias ◆ data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/1315359207 2012年6月23日土曜日
  • 54. 罢辞办测辞.搁の次回以降の 発表者?LTを募集しています! 2012年6月23日土曜日