狠狠撸

狠狠撸Share a Scribd company logo
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会




     拟似ミクロデータについて
     ~作成方法と主な性質~
          (独)統計センター
         情報技術部統計技術研究課
             坂下信之

                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


 本日の内容
   1.(独)統計センターとは?
   2.擬似ミクロデータ開発の背景
   3.擬似ミクロデータの作成方法
   4.擬似ミクロデータの性質
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


1.(独)統計センターとは?



  公的統計にお
  ける統計セン
  ターの位置づ
  け
  (実際はもう
  少し複雑)

                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


1.(独)統計センターとは?

  より細かく見ると……




  (実際はもう
  少し複雑)
                    新たな展開
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


1.(独)統計センターとは?
新たな展開
    平成21年4月1日 新統計法全面施行
      「行政のための統計」から
    「社会の情報基盤としての統計」へ
  オーダーメード集計及び匿名データの
      作成及び提供を開始
              二次利用の充実
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


2.擬似ミクロデータ開発の背景
          統計データの二次利用
               行政機関との共同研究など
   調査票情報
               高度な公益性を有する研究など
 オーダーメード集
     計    学術研究目的または高等教育目的
  匿名データ


           利用上に制約がある
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


2.擬似ミクロデータ開発の背景
                          擬似ミクロデータ
     個別データ                      集計表                擬似ミクロデータ
 一連                 年収                       年収                年収
        性別   年齢                                    性別   年齢
 番号                (万円)     性別   年齢    度数    平均               (万円)
                                            (万円)
 0001   1     20      0                            1     20     40
                            1     20    3     40
 0002   1     20     20                            1     20     40
                            1     22    3    100
 0003   1     20    100                            1     20     40
                            :      :    :      :
 0004   1     22     80                            1     22    100
 0005   1     22    120                            1     22    100
 0006   1     22    100     統計法の枠外                 1     22    100
 :      :      :      :                            :      :      :



                          集計表から逆に作成
                                                          独立行政法人
                                                          統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


2.擬似ミクロデータ開発の背景
            擬似ミクロデータ

           集計表から逆に作成

       集計表ベースの情報しかない

    個別データとの関係は断たれている

                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
元になるデータ

        平成16年全国消費実態調査

       「二人以上の勤労者世帯」の
       約32,000レコードから作成
 オーダーメード集計、匿名データの
 質的(離散)変数13項目、量的(連続)
      作成及び提供を開始
  変数183項目及び乗率(ウエイト)
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
                          集計表の作成
     個別データ                              集計表
 一連                 年収                              年収    年収
        性別   年齢                    性別   年齢    度数    平均    標準
 番号                (万円)
                                                   (万円)   偏差
 0001   1     20      0    質的変数の
                                   1     20    3     40   74.8
 0002   1     20     20    組合せによ
                                   1     22    3    100   25.0
 0003   1     20    100    るクロス表
                                   :      :    :      :
 0004   1     22     80     にする
 0005   1     22    120
 0006   1     22    100
 :      :      :      :



セルごとに量的変数を集計(平均、標準偏差)
                                                   独立行政法人
                                                   統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
         さらに相関係数行列を作成
         年間収入      消費支出     食料           住居           光熱?水道

 年間収入      1.00      0.42        0.46         -0.05      0.32
 消費支出      0.42      1.00        0.43         0.28       0.25
 食料        0.46      0.43        1.00         -0.06      0.44
 住居        -0.05     0.28        -0.06        1.00      -0.07
 光熱?水道     0.32      0.25        0.44         -0.07      1.00

      これらの数値により分布を記述
                                                       独立行政法人
                                                       統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
            相関係数行列とは?
         年間収入       消費支出      食料           住居            光熱?水道

 年間収入     114,244    27,256        4,353        -1,031       865
 消費支出     27,256     36,864        2,312        3,279        384
 食料         4,353     2,312         784          -102         99
 住居        -1,031     3,279        -102         3,721        -34
 光熱?水道       865       384           99           -34         64

      分散共分散行列を標準化したもの
                                                          独立行政法人
                                                          統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
             多変量正規分布
                    収入×支出           r=0.42
 多変量正規分布
 は、平均と分散
 共分散行列、又           μ(支出)= 340
 は平均、分散と           V(支出)=37000
 相関係数行列で
  記述できる。                 μ(収入)=   730
                         V(収入)=114000
                                        独立行政法人
                                        統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
乱数による近似
    各セルの中で多変量正規分布を仮定

 元データから得られるパラメータにより
     多変量正規乱数を発生

        年間収入       消費支出      多変量正規分
                             布のパラメー
 年間収入    114,244    27,256   タがあれば元
                             のデータを近
 消費支出    27,256     36,864
                             似できる。

                                      独立行政法人
                                      統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題1:分布の当てはまり

    経済データは正規分布よりも
  対数正規分布が当てはまることが多い
  各変数を対数変換して正規分布を適用



                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題2:ゼロ値

 量的変数は0でない時は対数正規分布が当
    てはまるが、0に特異に集中

    無視すると元と異なった分布になる



                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題2:ゼロ値

    ゼロとなるデータを除外して
  平均、標準偏差、相関係数行列を算出
 発生した乱数を元と同じ率でゼロにする



                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題3:小さなセル

 度数1又は2のセルは、相関係数行列が計
  算できないか元と同じデータになる

 全国消費実態調査の結果表では秘匿対象
例



                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題3:小さなセル




  結果表では
  度数(標本数)1,2のセルが秘匿されている。



                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
課題3:小さなセル
  ?擬似ミクロデータでは……
  該当が多いため丸ごと削除はできない

 いずれかの質的属性を不詳に置換してま
  とめ、度数3以上になるようにする

         不祥にする質的属性は、
       使用頻度に基づいて選定する
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


3.擬似ミクロデータの作成方法
       いずれかの質的属性を不詳に置換してまとめ、
                      度数3以上になるようにする
一連         就業?    年収             就業?        一連         就業?    年収
    性別                      性別         度数       性別
番号         非就業   (万円)            非就業        番号         非就業   (万円)
0001 1      1       90      1     1     3   0001 1      1       90
                            1     3     1
0002   1    1         100   1     4     2   0002   1    1           100
                            :     :     :
0003   1    1         100                   0003   1    1           100

0004   1    3         20                    0004   1    V            20

0005   1    4           0        就業?        0005   1    V             0
                            性別         度数
                                 非就業
0006   1    4         100   1     1     3   0006   1    V           100
                            1     V     3
 :     :    :     :         :           :    :     :    :       :
                                                       独立行政法人
                                                       統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


4.擬似ミクロデータの性質
(1) 基本的な性質

 2次以下のモーメントから得られる統計値
    については元の統計をほぼ再現

  平均、標準偏差(分散)、相関係数……
     3次以上のモーメントについては
         「保証しない」
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

i) 基本統計量
               平均                                           標準偏差
               元デー          擬似ミ          差                      元デー          擬似ミ           差
                タ            クロ                                  タ            クロ
                            データ                                              データ
年間収入               740.18       729.81   -0.01   年間収入               358.18       337.69   -0.06
 収入総額          971,789.24   946,779.03   -0.03    収入総額          541,290.74   473,480.73   -0.13
  実収入          502,133.73   497,655.92   -0.01     実収入          280,695.92   261,558.27   -0.07
  実収入以外の収入     391,823.98   372,130.47   -0.05     実収入以外の収入     353,922.37   263,445.65   -0.26
  繰入金           77,831.53    76,992.65   -0.01     繰入金           87,036.21    98,947.04    0.14
 支出総額          971,789.24   946,779.03   -0.03    支出総額          541,290.74   473,480.73   -0.13
  実支出          415,809.39   403,746.63   -0.03     実支出          224,419.69   219,290.60   -0.02
   消費支出        339,199.37   328,139.70   -0.03      消費支出        194,501.15   192,447.21   -0.01
    食料          73,738.54    72,883.42   -0.01       食料          30,149.02    28,064.49   -0.07
    住居          19,387.99    17,687.21   -0.09       住居          52,962.36    60,587.32    0.14
    光熱?水道       19,395.36    19,237.81   -0.01       光熱?水道        8,009.23     7,690.12   -0.04
    家具?家事用品      9,783.81     9,204.04   -0.06       家具?家事用品     15,977.65    14,933.13   -0.07
    被服及び履物      14,649.44    14,137.63   -0.03       被服及び履物      18,837.04    19,823.09    0.05
    保健医療        11,936.01    11,366.36   -0.05       保健医療        19,763.39    19,284.07   -0.02
    交通?通信       50,740.68    47,960.92   -0.05       交通?通信       85,021.69    84,654.38    0.00
    教育          22,332.15    22,269.65    0.00       教育          51,989.72    64,157.45    0.23
    教養娯楽        32,472.95    31,389.49   -0.03       教養娯楽        32,161.60    32,723.04    0.02
    その他の消費支出    84,762.44    82,003.18   -0.03       その他の消費支出    95,898.83   102,040.97    0.06
    非消費支出       76,610.02    75,606.93   -0.01       非消費支出       56,199.75    66,378.49    0.18
    実支出以外の支出   475,947.80   464,318.09   -0.02       実支出以外の支出   394,805.29   334,227.09   -0.15
    繰越金         80,032.04    78,714.31   -0.02       繰越金         96,421.45   118,055.82    0.22
                                                                               独立行政法人
                                                                              統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

ii) ヒストグラム
         実収入以外の収入                 教育
    元データ       擬似ミクロデータ    元データ          擬似ミクロデータ




           交通?通信                  消費支出
    元データ        擬似ミクロデータ   元データ          擬似ミクロデータ




                                            独立行政法人
                                            統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

iii) 相関係数
                               実収入                                                           家具?                                        その他               実支出
               年間収     収入総                          支出総     消費支                          光熱?            被服及 保健医 交通?                 教養娯     非消費
                           実収入 以外の 繰入金                  実支出              食料      住居          家事用                             教育         の消費               以外の 繰越金
                入       額                            額       出                            水道            び履物  療   通信                  楽       支出
                                収入                                                            品                                          支出               支出
    年間収入        1.00
    収入総額        0.60    1.00
    実収入         0.66    0.78   1.00
    実収入以外の収入    0.35    0.85   0.36
                                1.00
    繰入金         0.19    0.26   0.14
                                0.04 1.00
    支出総額        0.60    1.00   0.78
                                0.85 0.26           1.00
元   実支出         0.60    0.73   0.56
                                0.63 0.17           0.73   1.00

デ   消費支出
    食料
                0.49
                0.47
                        0.66
                        0.42
                               0.45
                                0.61
                               0.37
                                0.31
                                     0.16
                                     0.17
                                                    0.66
                                                    0.42
                                                           0.97
                                                           0.52
                                                                  1.00
                                                                  0.50    1.00
ー   住居
    光熱?水道
               -0.02
                0.32
                        0.11
                        0.24
                               0.00
                                0.16
                               0.22
                                0.16
                                     0.01
                                     0.11
                                                    0.11
                                                    0.24
                                                           0.24
                                                           0.28
                                                                  0.28
                                                                  0.27
                                                                         -0.03
                                                                          0.44
                                                                                  1.00
                                                                                 -0.07    1.00
タ   家具?家事用品     0.15    0.25   0.12
                                0.26 0.09           0.25   0.26   0.27    0.17    0.07    0.101.00
    被服及び履物      0.30    0.30   0.24
                                0.24 0.10           0.30   0.39   0.38    0.29    0.02    0.120.16      1.00
    保健医療        0.11    0.16   0.10
                                0.15 0.07           0.16   0.24   0.25    0.15    0.01    0.070.08      0.09   1.00
    交通?通信       0.14    0.33   0.15
                                0.37 0.04           0.33   0.54   0.57    0.12    0.01    0.050.05      0.10   0.06   1.00
    教育          0.18    0.23   0.15
                                0.23 0.03           0.23   0.37   0.39    0.24   -0.03    0.190.02      0.09   0.04   0.07   1.00
    教養娯楽        0.32    0.35   0.27
                                0.30 0.12           0.35   0.44   0.42    0.32    0.02    0.100.15      0.26   0.10   0.10   0.09    1.00
    その他の消費支出    0.39    0.46   0.38
                                0.37 0.12           0.46   0.66   0.66    0.21    0.01    0.130.12      0.19   0.11   0.12   0.04    0.161.00
    非消費支出       0.70    0.63   0.70
                                0.38 0.12           0.63   0.62   0.43    0.35   -0.02    0.190.12      0.26   0.08   0.17   0.14    0.290.34  1.00
    実支出以外の支出    0.44    0.90   0.72
                                0.79 0.04           0.90   0.40   0.32    0.25    0.01    0.140.18      0.17   0.08   0.14   0.11    0.220.23  0.49        1.00
    繰越金         0.16    0.24   0.13
                                0.06 0.86           0.24   0.13   0.12    0.13    0.02    0.100.07      0.07   0.05   0.02   0.02    0.080.10  0.10        0.01 1.00
                               実収入                                                           家具?                                        その他               実支出
               年間収     収入総                          支出総     消費支                          光熱?            被服及 保健医 交通?                 教養娯       非消費
                           実収入 以外の 繰入金                  実支出              食料      住居          家事用                             教育         の消費               以外の 繰越金
                入       額                            額       出                            水道            び履物  療   通信                  楽         支出
                                収入                                                            品                                          支出               支出
    年間収入        1.00
    収入総額        0.58    1.00
    実収入         0.63    0.85   1.00
擬   実収入以外の収入    0.38    0.83   0.48   1.00

似   繰入金
    支出総額
                0.12
                0.58
                        0.32
                        1.00
                               0.15
                               0.85
                                      0.05
                                      0.83
                                             1.00
                                             0.32   1.00
ミ   実支出
    消費支出
                0.52
                0.42
                        0.71
                        0.63
                               0.59
                               0.49
                                      0.64
                                      0.60
                                             0.14
                                             0.14
                                                    0.71
                                                    0.63
                                                           1.00
                                                           0.96   1.00
ク   食料          0.46    0.40   0.36   0.32   0.13   0.40   0.45   0.43    1.00
ロ   住居
    光熱?水道
               -0.05
                0.32
                        0.08
                        0.25
                               0.04
                               0.23
                                      0.09
                                      0.18
                                             0.03
                                             0.09
                                                    0.08
                                                    0.25
                                                           0.24
                                                           0.26
                                                                  0.28
                                                                  0.25
                                                                         -0.06
                                                                          0.44
                                                                                  1.00
                                                                                 -0.07    1.00
デ   家具?家事用品     0.12    0.15   0.11   0.14   0.04   0.15   0.19   0.19    0.15    0.00    0.10   1.00

ー   被服及び履物
    保健医療
                0.21
                0.07
                        0.23
                        0.13
                               0.19
                               0.09
                                      0.20
                                      0.13
                                             0.06
                                             0.04
                                                    0.23
                                                    0.13
                                                           0.29
                                                           0.19
                                                                  0.28
                                                                  0.20
                                                                          0.20
                                                                          0.11
                                                                                  0.01
                                                                                  0.00
                                                                                          0.08
                                                                                          0.06
                                                                                                 0.12
                                                                                                 0.05
                                                                                                        1.00
                                                                                                        0.05   1.00
タ   交通?通信
    教育
                0.12
                0.14
                        0.30
                        0.24
                               0.17
                               0.18
                                      0.35
                                      0.24
                                             0.04
                                             0.02
                                                    0.30
                                                    0.24
                                                           0.50
                                                           0.38
                                                                  0.54
                                                                  0.41
                                                                          0.10
                                                                          0.18
                                                                                 -0.01
                                                                                 -0.02
                                                                                          0.05
                                                                                          0.16
                                                                                                 0.03
                                                                                                 0.01
                                                                                                        0.06
                                                                                                        0.04
                                                                                                               0.04
                                                                                                               0.02
                                                                                                                      1.00
                                                                                                                      0.04   1.00
    教養娯楽        0.26    0.30   0.24   0.28   0.06   0.30   0.35   0.34    0.26   -0.01    0.06   0.12   0.18   0.07   0.07   0.05    1.00
    その他の消費支出    0.33    0.44   0.38   0.37   0.11   0.44   0.63   0.65    0.17   -0.02    0.11   0.07   0.11   0.06   0.09   0.04    0.10   1.00
    非消費支出       0.50    0.50   0.52   0.35   0.07   0.50   0.53   0.26    0.24   -0.04    0.14   0.07   0.14   0.05   0.09   0.07    0.18   0.21   1.00
    実支出以外の支出    0.45    0.85   0.77   0.74   0.07   0.85   0.32   0.25    0.25   -0.05    0.15   0.08   0.13   0.05   0.09   0.09    0.18   0.18   0.35    1.00
    繰越金         0.10    0.28   0.14   0.05   0.82   0.28   0.07   0.07    0.09    0.00    0.08   0.03   0.03   0.02   0.01   0.00    0.02   0.06   0.04    0.00   1.00


                                                                                                                                                      独立行政法人
                                                                                                                                                      統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

iv) 散布図
      年間収入(x)×非消費支出(y)       実収入(x)×非消費支出(y)
    元データ        擬似ミクロデータ   元データ        擬似ミクロデータ




       実支出(x)×消費支出(y)           住居(x)×教育(y)
    元データ        擬似ミクロデータ   元データ         擬似ミクロデータ




                                          独立行政法人
                                          統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

v) クロス集計表
                        世帯人員2人、年間収入階級別1世帯当たり1か月間の支出
                                                                        年 間 収 入 階 級 (万円)
               平 均      200 未満     200            300            400        500        600        800        1000       1250       1500 以上
                                          ~ 300          ~ 400        ~ 500      ~ 600      ~ 800      ~1000      ~1250      ~1500
    食料         60,984     38,439         46,341         51,449       55,430     59,147     64,313     68,487     71,419     81,540     92,303
元   住居         23,905     25,703         22,623         23,331       26,316     24,298     22,386     24,143     27,417     22,171     15,331
デ   光熱?水道      15,096     12,304         13,709         14,515       14,544     14,654     15,349     15,822     16,155     16,640     20,022
    家具?家事用品     9,286      4,398          5,549          7,483        7,368      8,698     10,255     12,056     10,972     13,492     14,796
ー   被服及び履物     13,654      5,904          6,825          7,955        8,821     11,513     14,737     17,283     22,484     26,940     37,843
タ   保健医療       11,134      5,501          8,175          9,444       10,006     11,713     11,314     13,163     12,805     14,661     16,623
    交通?通信      45,703     20,996         25,966         32,570       38,339     46,288     46,286     55,709     63,407     78,109     81,492
    教育          1,213      3,641          2,530          1,260          836      1,153        785        697      1,940        887      1,142
    教養娯楽       30,863     11,051         16,564         18,288       23,541     26,479     34,068     37,126     51,438     56,794     67,421
    その他の消費支出   89,539     27,955         38,910         51,071       60,584     76,484     97,967    120,000    153,095    163,964    208,602
                                                                        年 間 収 入 階 級 (万円)
               平 均      200 未満     200            300            400        500        600        800        1000       1250       1500 以上
擬                                         ~ 300          ~ 400        ~ 500      ~ 600      ~ 800      ~1000      ~1250      ~1500
似 食料           60,342     40,970         44,783         50,789       55,577     59,450     62,807     68,987     72,671     77,010     87,092
ミ 住居           22,241     23,467         25,408         22,322       24,755     24,034     19,762     25,761     15,321     15,644      9,864
ク 光熱?水道        15,062     12,565         13,113         14,135       14,410     15,090     15,190     16,060     16,440     17,481     19,122
ロ 家具?家事用品
  被服及び履物
                8,550
               13,215
                           4,413
                           7,535
                                          6,072
                                          6,748
                                                         7,048
                                                         7,746
                                                                      7,472
                                                                      9,586
                                                                                 8,272
                                                                                11,361
                                                                                            9,069
                                                                                           14,166
                                                                                                       9,775
                                                                                                      18,306
                                                                                                                 10,675
                                                                                                                 20,846
                                                                                                                            13,353
                                                                                                                            24,587
                                                                                                                                       13,103
                                                                                                                                       29,413
デ 保健医療         10,386      7,824          7,702          8,618        9,970      9,575     10,846     12,150     12,488     13,335     13,873
ー 交通?通信        43,772     23,271         24,048         34,239       35,225     44,714     46,207     53,821     61,657     59,127     79,587
タ 教育            1,337      4,640          4,141          1,196        1,489        830        744        398        634          0     10,052
    教養娯楽       30,194     11,654         15,620         19,395       23,153     28,587     32,610     40,740     43,390     50,752     60,672
    その他の消費支出   85,264     26,578         38,004         52,043       59,657     77,723     90,088   116,778     142,395   160,150     216,446




                                                                                                                          独立行政法人
                                                                                                                          統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会

vi) 線形回帰
                   用途項目の1か月当たり支出金額(円)=f(消費支出(円))
                         消費支出                           定数                        調整済
                                                                         決定係数               F値
                係数       標準誤差       P値        係数        標準誤差     P値               決定係数
    食料         0.07681    0.00075   0.000    47,683.0    294.2   0.000   0.2456    0.2456   10,425
    住居         0.07649    0.00146   0.000    -6,558.3    571.0   0.000   0.0789    0.0789    2,744
元   光熱?水道      0.01123    0.00022   0.000    15,585.8     86.6   0.000   0.0744    0.0744    2,574
デ   家具?家事用品    0.02205    0.00044   0.000     2,305.1    172.9   0.000   0.0720    0.0720    2,486
ー   被服及び履物     0.03669    0.00050   0.000     2,202.6    195.8   0.000   0.1436    0.1435    5,368
タ   保健医療       0.02551    0.00055   0.000     3,284.6    214.9   0.000   0.0630    0.0630    2,153
    交通?通信      0.25071    0.00200   0.000   -34,299.9    782.4   0.000   0.3289    0.3289   15,699
    教育         0.10323    0.00138   0.000   -12,682.5    538.7   0.000   0.1491    0.1491    5,613
    教養娯楽       0.06986    0.00084   0.000     8,775.9    327.5   0.000   0.1785    0.1785    6,959
    その他の消費支出   0.32741    0.00206   0.000   -26,296.4    805.5   0.000   0.4410    0.4410   25,262
                         消費支出                           定数                        調整済
                                                                         決定係数               F値
                係数       標準誤差       P値        係数        標準誤差     P値               決定係数
擬   食料         0.06232    0.00074   0.000    52,433.5    280.3   0.000   0.1826    0.1826    7,156
似   住居         0.08949    0.00169   0.000   -11,679.6    641.7   0.000   0.0808    0.0808    2,815
ミ   光熱?水道      0.01002    0.00022   0.000    15,951.0     82.2   0.000   0.0628    0.0628    2,147
ク   家具?家事用品    0.01509    0.00043   0.000     4,251.4    161.8   0.000   0.0378    0.0378    1,259
ロ   被服及び履物     0.02908    0.00055   0.000     4,594.6    210.1   0.000   0.0797    0.0797    2,774
デ   保健医療       0.01958    0.00055   0.000     4,940.7    208.9   0.000   0.0382    0.0382    1,271
ー   交通?通信      0.23652    0.00207   0.000   -29,652.4    788.4   0.000   0.2891    0.2891   13,023
タ   教育         0.13728    0.00170   0.000   -22,777.2    645.8   0.000   0.1696    0.1695    6,539
    教養娯楽       0.05808    0.00089   0.000    12,331.1    339.7   0.000   0.1167    0.1166    4,230
    その他の消費支出   0.34253    0.00226   0.000   -30,392.9    860.4   0.000   0.4173    0.4173   22,934




                                                                                    独立行政法人
                                                                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


4.擬似ミクロデータの性質
(2) 留意点

  作成上の前提や操作による特性に注意

    セルの中では対数正規分布

    度数1、2のセルは存在しない

    ゼロ値処理の影響
                                    独立行政法人
                                    統計センター
2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会


4.擬似ミクロデータの性質
(3) 擬似ミクロデータの使い方

     教育(演習)用のものであって、
       実証研究向けではない

  「擬似ミクロデータ分析コンテスト」

     頑張ってください
                                    独立行政法人
                                    統計センター
拟似ミクロデータについて
拟似ミクロデータについて
Ad

Recommended

Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
?
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
?
搁による繰り返しの并列処理
搁による繰り返しの并列処理
wada, kazumi
?
2018搁ユーザ会用
2018搁ユーザ会用
wada, kazumi
?
Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017
wada, kazumi
?
Ⅲ. 資料編 2017
Ⅲ. 資料編 2017
wada, kazumi
?
Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017
wada, kazumi
?
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017
wada, kazumi
?
2017搁ユーザ会用
2017搁ユーザ会用
wada, kazumi
?
搁デモ03冲データ分析编2016
搁デモ03冲データ分析编2016
wada, kazumi
?
搁デモ02冲入出力编2016
搁デモ02冲入出力编2016
wada, kazumi
?
搁デモ01冲はじめの一歩2016
搁デモ01冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ分析编2016
统计环境搁冲データ分析编2016
wada, kazumi
?
统计环境搁冲はじめの一歩2016
统计环境搁冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ入出力编2016
统计环境搁冲データ入出力编2016
wada, kazumi
?
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
wada, kazumi
?
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編
wada, kazumi
?
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモ
wada, kazumi
?
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
?
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモ
wada, kazumi
?
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモ
wada, kazumi
?
搁プログラミング01 はじめの一歩
搁プログラミング01 はじめの一歩
wada, kazumi
?
搁での迟谤测関数によるエラー処理
搁での迟谤测関数によるエラー処理
wada, kazumi
?
搁による大规模データのプロット
搁による大规模データのプロット
wada, kazumi
?
搁による富士山関数の描き方
搁による富士山関数の描き方
wada, kazumi
?
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
wada, kazumi
?
基本统计量について
基本统计量について
wada, kazumi
?
マハラノビス距离とユークリッド距离の违い
マハラノビス距离とユークリッド距离の违い
wada, kazumi
?

More Related Content

More from wada, kazumi (20)

2017搁ユーザ会用
2017搁ユーザ会用
wada, kazumi
?
搁デモ03冲データ分析编2016
搁デモ03冲データ分析编2016
wada, kazumi
?
搁デモ02冲入出力编2016
搁デモ02冲入出力编2016
wada, kazumi
?
搁デモ01冲はじめの一歩2016
搁デモ01冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ分析编2016
统计环境搁冲データ分析编2016
wada, kazumi
?
统计环境搁冲はじめの一歩2016
统计环境搁冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ入出力编2016
统计环境搁冲データ入出力编2016
wada, kazumi
?
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
wada, kazumi
?
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編
wada, kazumi
?
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモ
wada, kazumi
?
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
?
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモ
wada, kazumi
?
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモ
wada, kazumi
?
搁プログラミング01 はじめの一歩
搁プログラミング01 はじめの一歩
wada, kazumi
?
搁での迟谤测関数によるエラー処理
搁での迟谤测関数によるエラー処理
wada, kazumi
?
搁による大规模データのプロット
搁による大规模データのプロット
wada, kazumi
?
搁による富士山関数の描き方
搁による富士山関数の描き方
wada, kazumi
?
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
wada, kazumi
?
基本统计量について
基本统计量について
wada, kazumi
?
マハラノビス距离とユークリッド距离の违い
マハラノビス距离とユークリッド距离の违い
wada, kazumi
?
2017搁ユーザ会用
2017搁ユーザ会用
wada, kazumi
?
搁デモ03冲データ分析编2016
搁デモ03冲データ分析编2016
wada, kazumi
?
搁デモ02冲入出力编2016
搁デモ02冲入出力编2016
wada, kazumi
?
搁デモ01冲はじめの一歩2016
搁デモ01冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ分析编2016
统计环境搁冲データ分析编2016
wada, kazumi
?
统计环境搁冲はじめの一歩2016
统计环境搁冲はじめの一歩2016
wada, kazumi
?
统计环境搁冲データ入出力编2016
统计环境搁冲データ入出力编2016
wada, kazumi
?
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
wada, kazumi
?
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編
wada, kazumi
?
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモ
wada, kazumi
?
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
?
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモ
wada, kazumi
?
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモ
wada, kazumi
?
搁プログラミング01 はじめの一歩
搁プログラミング01 はじめの一歩
wada, kazumi
?
搁での迟谤测関数によるエラー処理
搁での迟谤测関数によるエラー処理
wada, kazumi
?
搁による大规模データのプロット
搁による大规模データのプロット
wada, kazumi
?
搁による富士山関数の描き方
搁による富士山関数の描き方
wada, kazumi
?
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
搁による辫谤颈苍肠辞尘辫関数を使わない主成分分析
wada, kazumi
?
基本统计量について
基本统计量について
wada, kazumi
?
マハラノビス距离とユークリッド距离の违い
マハラノビス距离とユークリッド距离の违い
wada, kazumi
?

拟似ミクロデータについて

  • 1. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 拟似ミクロデータについて ~作成方法と主な性質~ (独)統計センター 情報技術部統計技術研究課 坂下信之 独立行政法人 統計センター
  • 2. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 本日の内容 1.(独)統計センターとは? 2.擬似ミクロデータ開発の背景 3.擬似ミクロデータの作成方法 4.擬似ミクロデータの性質 独立行政法人 統計センター
  • 3. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 1.(独)統計センターとは? 公的統計にお ける統計セン ターの位置づ け (実際はもう 少し複雑) 独立行政法人 統計センター
  • 4. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 1.(独)統計センターとは? より細かく見ると…… (実際はもう 少し複雑) 新たな展開 独立行政法人 統計センター
  • 5. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 1.(独)統計センターとは? 新たな展開 平成21年4月1日 新統計法全面施行 「行政のための統計」から 「社会の情報基盤としての統計」へ オーダーメード集計及び匿名データの 作成及び提供を開始 二次利用の充実 独立行政法人 統計センター
  • 6. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 2.擬似ミクロデータ開発の背景 統計データの二次利用 行政機関との共同研究など 調査票情報 高度な公益性を有する研究など オーダーメード集 計 学術研究目的または高等教育目的 匿名データ 利用上に制約がある 独立行政法人 統計センター
  • 7. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 2.擬似ミクロデータ開発の背景 擬似ミクロデータ 個別データ 集計表 擬似ミクロデータ 一連 年収 年収 年収 性別 年齢 性別 年齢 番号 (万円) 性別 年齢 度数 平均 (万円) (万円) 0001 1 20 0 1 20 40 1 20 3 40 0002 1 20 20 1 20 40 1 22 3 100 0003 1 20 100 1 20 40 : : : : 0004 1 22 80 1 22 100 0005 1 22 120 1 22 100 0006 1 22 100 統計法の枠外 1 22 100 : : : : : : : 集計表から逆に作成 独立行政法人 統計センター
  • 8. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 2.擬似ミクロデータ開発の背景 擬似ミクロデータ 集計表から逆に作成 集計表ベースの情報しかない 個別データとの関係は断たれている 独立行政法人 統計センター
  • 9. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 元になるデータ 平成16年全国消費実態調査 「二人以上の勤労者世帯」の 約32,000レコードから作成 オーダーメード集計、匿名データの 質的(離散)変数13項目、量的(連続) 作成及び提供を開始 変数183項目及び乗率(ウエイト) 独立行政法人 統計センター
  • 10. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 集計表の作成 個別データ 集計表 一連 年収 年収 年収 性別 年齢 性別 年齢 度数 平均 標準 番号 (万円) (万円) 偏差 0001 1 20 0 質的変数の 1 20 3 40 74.8 0002 1 20 20 組合せによ 1 22 3 100 25.0 0003 1 20 100 るクロス表 : : : : 0004 1 22 80 にする 0005 1 22 120 0006 1 22 100 : : : : セルごとに量的変数を集計(平均、標準偏差) 独立行政法人 統計センター
  • 11. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 さらに相関係数行列を作成 年間収入 消費支出 食料 住居 光熱?水道 年間収入 1.00 0.42 0.46 -0.05 0.32 消費支出 0.42 1.00 0.43 0.28 0.25 食料 0.46 0.43 1.00 -0.06 0.44 住居 -0.05 0.28 -0.06 1.00 -0.07 光熱?水道 0.32 0.25 0.44 -0.07 1.00 これらの数値により分布を記述 独立行政法人 統計センター
  • 12. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 相関係数行列とは? 年間収入 消費支出 食料 住居 光熱?水道 年間収入 114,244 27,256 4,353 -1,031 865 消費支出 27,256 36,864 2,312 3,279 384 食料 4,353 2,312 784 -102 99 住居 -1,031 3,279 -102 3,721 -34 光熱?水道 865 384 99 -34 64 分散共分散行列を標準化したもの 独立行政法人 統計センター
  • 13. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 多変量正規分布 収入×支出 r=0.42 多変量正規分布 は、平均と分散 共分散行列、又 μ(支出)= 340 は平均、分散と V(支出)=37000 相関係数行列で 記述できる。 μ(収入)= 730 V(収入)=114000 独立行政法人 統計センター
  • 14. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 乱数による近似 各セルの中で多変量正規分布を仮定 元データから得られるパラメータにより 多変量正規乱数を発生 年間収入 消費支出 多変量正規分 布のパラメー 年間収入 114,244 27,256 タがあれば元 のデータを近 消費支出 27,256 36,864 似できる。 独立行政法人 統計センター
  • 15. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題1:分布の当てはまり 経済データは正規分布よりも 対数正規分布が当てはまることが多い 各変数を対数変換して正規分布を適用 独立行政法人 統計センター
  • 16. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題2:ゼロ値 量的変数は0でない時は対数正規分布が当 てはまるが、0に特異に集中 無視すると元と異なった分布になる 独立行政法人 統計センター
  • 17. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題2:ゼロ値 ゼロとなるデータを除外して 平均、標準偏差、相関係数行列を算出 発生した乱数を元と同じ率でゼロにする 独立行政法人 統計センター
  • 18. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題3:小さなセル 度数1又は2のセルは、相関係数行列が計 算できないか元と同じデータになる 全国消費実態調査の結果表では秘匿対象 例 独立行政法人 統計センター
  • 19. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題3:小さなセル 結果表では 度数(標本数)1,2のセルが秘匿されている。 独立行政法人 統計センター
  • 20. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 課題3:小さなセル ?擬似ミクロデータでは…… 該当が多いため丸ごと削除はできない いずれかの質的属性を不詳に置換してま とめ、度数3以上になるようにする 不祥にする質的属性は、 使用頻度に基づいて選定する 独立行政法人 統計センター
  • 21. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 3.擬似ミクロデータの作成方法 いずれかの質的属性を不詳に置換してまとめ、 度数3以上になるようにする 一連 就業? 年収 就業? 一連 就業? 年収 性別 性別 度数 性別 番号 非就業 (万円) 非就業 番号 非就業 (万円) 0001 1 1 90 1 1 3 0001 1 1 90 1 3 1 0002 1 1 100 1 4 2 0002 1 1 100 : : : 0003 1 1 100 0003 1 1 100 0004 1 3 20 0004 1 V 20 0005 1 4 0 就業? 0005 1 V 0 性別 度数 非就業 0006 1 4 100 1 1 3 0006 1 V 100 1 V 3 : : : : : : : : : : 独立行政法人 統計センター
  • 22. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 4.擬似ミクロデータの性質 (1) 基本的な性質 2次以下のモーメントから得られる統計値 については元の統計をほぼ再現 平均、標準偏差(分散)、相関係数…… 3次以上のモーメントについては 「保証しない」 独立行政法人 統計センター
  • 23. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 i) 基本統計量 平均 標準偏差 元デー 擬似ミ 差 元デー 擬似ミ 差 タ クロ タ クロ データ データ 年間収入 740.18 729.81 -0.01 年間収入 358.18 337.69 -0.06  収入総額 971,789.24 946,779.03 -0.03  収入総額 541,290.74 473,480.73 -0.13   実収入 502,133.73 497,655.92 -0.01   実収入 280,695.92 261,558.27 -0.07   実収入以外の収入 391,823.98 372,130.47 -0.05   実収入以外の収入 353,922.37 263,445.65 -0.26   繰入金 77,831.53 76,992.65 -0.01   繰入金 87,036.21 98,947.04 0.14  支出総額 971,789.24 946,779.03 -0.03  支出総額 541,290.74 473,480.73 -0.13   実支出 415,809.39 403,746.63 -0.03   実支出 224,419.69 219,290.60 -0.02    消費支出 339,199.37 328,139.70 -0.03    消費支出 194,501.15 192,447.21 -0.01     食料 73,738.54 72,883.42 -0.01     食料 30,149.02 28,064.49 -0.07     住居 19,387.99 17,687.21 -0.09     住居 52,962.36 60,587.32 0.14     光熱?水道 19,395.36 19,237.81 -0.01     光熱?水道 8,009.23 7,690.12 -0.04     家具?家事用品 9,783.81 9,204.04 -0.06     家具?家事用品 15,977.65 14,933.13 -0.07     被服及び履物 14,649.44 14,137.63 -0.03     被服及び履物 18,837.04 19,823.09 0.05     保健医療 11,936.01 11,366.36 -0.05     保健医療 19,763.39 19,284.07 -0.02     交通?通信 50,740.68 47,960.92 -0.05     交通?通信 85,021.69 84,654.38 0.00     教育 22,332.15 22,269.65 0.00     教育 51,989.72 64,157.45 0.23     教養娯楽 32,472.95 31,389.49 -0.03     教養娯楽 32,161.60 32,723.04 0.02     その他の消費支出 84,762.44 82,003.18 -0.03     その他の消費支出 95,898.83 102,040.97 0.06     非消費支出 76,610.02 75,606.93 -0.01     非消費支出 56,199.75 66,378.49 0.18     実支出以外の支出 475,947.80 464,318.09 -0.02     実支出以外の支出 394,805.29 334,227.09 -0.15     繰越金 80,032.04 78,714.31 -0.02     繰越金 96,421.45 118,055.82 0.22 独立行政法人 統計センター
  • 24. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 ii) ヒストグラム 実収入以外の収入 教育 元データ 擬似ミクロデータ 元データ 擬似ミクロデータ 交通?通信 消費支出 元データ 擬似ミクロデータ 元データ 擬似ミクロデータ 独立行政法人 統計センター
  • 25. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 iii) 相関係数 実収入 家具? その他 実支出 年間収 収入総 支出総 消費支 光熱? 被服及 保健医 交通? 教養娯 非消費 実収入 以外の 繰入金 実支出 食料 住居 家事用 教育 の消費 以外の 繰越金 入 額 額 出 水道 び履物 療 通信 楽 支出 収入 品 支出 支出 年間収入 1.00 収入総額 0.60 1.00 実収入 0.66 0.78 1.00 実収入以外の収入 0.35 0.85 0.36 1.00 繰入金 0.19 0.26 0.14 0.04 1.00 支出総額 0.60 1.00 0.78 0.85 0.26 1.00 元 実支出 0.60 0.73 0.56 0.63 0.17 0.73 1.00 デ 消費支出 食料 0.49 0.47 0.66 0.42 0.45 0.61 0.37 0.31 0.16 0.17 0.66 0.42 0.97 0.52 1.00 0.50 1.00 ー 住居 光熱?水道 -0.02 0.32 0.11 0.24 0.00 0.16 0.22 0.16 0.01 0.11 0.11 0.24 0.24 0.28 0.28 0.27 -0.03 0.44 1.00 -0.07 1.00 タ 家具?家事用品 0.15 0.25 0.12 0.26 0.09 0.25 0.26 0.27 0.17 0.07 0.101.00 被服及び履物 0.30 0.30 0.24 0.24 0.10 0.30 0.39 0.38 0.29 0.02 0.120.16 1.00 保健医療 0.11 0.16 0.10 0.15 0.07 0.16 0.24 0.25 0.15 0.01 0.070.08 0.09 1.00 交通?通信 0.14 0.33 0.15 0.37 0.04 0.33 0.54 0.57 0.12 0.01 0.050.05 0.10 0.06 1.00 教育 0.18 0.23 0.15 0.23 0.03 0.23 0.37 0.39 0.24 -0.03 0.190.02 0.09 0.04 0.07 1.00 教養娯楽 0.32 0.35 0.27 0.30 0.12 0.35 0.44 0.42 0.32 0.02 0.100.15 0.26 0.10 0.10 0.09 1.00 その他の消費支出 0.39 0.46 0.38 0.37 0.12 0.46 0.66 0.66 0.21 0.01 0.130.12 0.19 0.11 0.12 0.04 0.161.00 非消費支出 0.70 0.63 0.70 0.38 0.12 0.63 0.62 0.43 0.35 -0.02 0.190.12 0.26 0.08 0.17 0.14 0.290.34 1.00 実支出以外の支出 0.44 0.90 0.72 0.79 0.04 0.90 0.40 0.32 0.25 0.01 0.140.18 0.17 0.08 0.14 0.11 0.220.23 0.49 1.00 繰越金 0.16 0.24 0.13 0.06 0.86 0.24 0.13 0.12 0.13 0.02 0.100.07 0.07 0.05 0.02 0.02 0.080.10 0.10 0.01 1.00 実収入 家具? その他 実支出 年間収 収入総 支出総 消費支 光熱? 被服及 保健医 交通? 教養娯 非消費 実収入 以外の 繰入金 実支出 食料 住居 家事用 教育 の消費 以外の 繰越金 入 額 額 出 水道 び履物 療 通信 楽 支出 収入 品 支出 支出 年間収入 1.00 収入総額 0.58 1.00 実収入 0.63 0.85 1.00 擬 実収入以外の収入 0.38 0.83 0.48 1.00 似 繰入金 支出総額 0.12 0.58 0.32 1.00 0.15 0.85 0.05 0.83 1.00 0.32 1.00 ミ 実支出 消費支出 0.52 0.42 0.71 0.63 0.59 0.49 0.64 0.60 0.14 0.14 0.71 0.63 1.00 0.96 1.00 ク 食料 0.46 0.40 0.36 0.32 0.13 0.40 0.45 0.43 1.00 ロ 住居 光熱?水道 -0.05 0.32 0.08 0.25 0.04 0.23 0.09 0.18 0.03 0.09 0.08 0.25 0.24 0.26 0.28 0.25 -0.06 0.44 1.00 -0.07 1.00 デ 家具?家事用品 0.12 0.15 0.11 0.14 0.04 0.15 0.19 0.19 0.15 0.00 0.10 1.00 ー 被服及び履物 保健医療 0.21 0.07 0.23 0.13 0.19 0.09 0.20 0.13 0.06 0.04 0.23 0.13 0.29 0.19 0.28 0.20 0.20 0.11 0.01 0.00 0.08 0.06 0.12 0.05 1.00 0.05 1.00 タ 交通?通信 教育 0.12 0.14 0.30 0.24 0.17 0.18 0.35 0.24 0.04 0.02 0.30 0.24 0.50 0.38 0.54 0.41 0.10 0.18 -0.01 -0.02 0.05 0.16 0.03 0.01 0.06 0.04 0.04 0.02 1.00 0.04 1.00 教養娯楽 0.26 0.30 0.24 0.28 0.06 0.30 0.35 0.34 0.26 -0.01 0.06 0.12 0.18 0.07 0.07 0.05 1.00 その他の消費支出 0.33 0.44 0.38 0.37 0.11 0.44 0.63 0.65 0.17 -0.02 0.11 0.07 0.11 0.06 0.09 0.04 0.10 1.00 非消費支出 0.50 0.50 0.52 0.35 0.07 0.50 0.53 0.26 0.24 -0.04 0.14 0.07 0.14 0.05 0.09 0.07 0.18 0.21 1.00 実支出以外の支出 0.45 0.85 0.77 0.74 0.07 0.85 0.32 0.25 0.25 -0.05 0.15 0.08 0.13 0.05 0.09 0.09 0.18 0.18 0.35 1.00 繰越金 0.10 0.28 0.14 0.05 0.82 0.28 0.07 0.07 0.09 0.00 0.08 0.03 0.03 0.02 0.01 0.00 0.02 0.06 0.04 0.00 1.00 独立行政法人 統計センター
  • 26. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 iv) 散布図 年間収入(x)×非消費支出(y) 実収入(x)×非消費支出(y) 元データ 擬似ミクロデータ 元データ 擬似ミクロデータ 実支出(x)×消費支出(y) 住居(x)×教育(y) 元データ 擬似ミクロデータ 元データ 擬似ミクロデータ 独立行政法人 統計センター
  • 27. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 v) クロス集計表 世帯人員2人、年間収入階級別1世帯当たり1か月間の支出 年 間 収 入 階 級 (万円) 平 均 200 未満 200 300 400 500 600 800 1000 1250 1500 以上 ~ 300 ~ 400 ~ 500 ~ 600 ~ 800 ~1000 ~1250 ~1500 食料 60,984 38,439 46,341 51,449 55,430 59,147 64,313 68,487 71,419 81,540 92,303 元 住居 23,905 25,703 22,623 23,331 26,316 24,298 22,386 24,143 27,417 22,171 15,331 デ 光熱?水道 15,096 12,304 13,709 14,515 14,544 14,654 15,349 15,822 16,155 16,640 20,022 家具?家事用品 9,286 4,398 5,549 7,483 7,368 8,698 10,255 12,056 10,972 13,492 14,796 ー 被服及び履物 13,654 5,904 6,825 7,955 8,821 11,513 14,737 17,283 22,484 26,940 37,843 タ 保健医療 11,134 5,501 8,175 9,444 10,006 11,713 11,314 13,163 12,805 14,661 16,623 交通?通信 45,703 20,996 25,966 32,570 38,339 46,288 46,286 55,709 63,407 78,109 81,492 教育 1,213 3,641 2,530 1,260 836 1,153 785 697 1,940 887 1,142 教養娯楽 30,863 11,051 16,564 18,288 23,541 26,479 34,068 37,126 51,438 56,794 67,421 その他の消費支出 89,539 27,955 38,910 51,071 60,584 76,484 97,967 120,000 153,095 163,964 208,602 年 間 収 入 階 級 (万円) 平 均 200 未満 200 300 400 500 600 800 1000 1250 1500 以上 擬 ~ 300 ~ 400 ~ 500 ~ 600 ~ 800 ~1000 ~1250 ~1500 似 食料 60,342 40,970 44,783 50,789 55,577 59,450 62,807 68,987 72,671 77,010 87,092 ミ 住居 22,241 23,467 25,408 22,322 24,755 24,034 19,762 25,761 15,321 15,644 9,864 ク 光熱?水道 15,062 12,565 13,113 14,135 14,410 15,090 15,190 16,060 16,440 17,481 19,122 ロ 家具?家事用品 被服及び履物 8,550 13,215 4,413 7,535 6,072 6,748 7,048 7,746 7,472 9,586 8,272 11,361 9,069 14,166 9,775 18,306 10,675 20,846 13,353 24,587 13,103 29,413 デ 保健医療 10,386 7,824 7,702 8,618 9,970 9,575 10,846 12,150 12,488 13,335 13,873 ー 交通?通信 43,772 23,271 24,048 34,239 35,225 44,714 46,207 53,821 61,657 59,127 79,587 タ 教育 1,337 4,640 4,141 1,196 1,489 830 744 398 634 0 10,052 教養娯楽 30,194 11,654 15,620 19,395 23,153 28,587 32,610 40,740 43,390 50,752 60,672 その他の消費支出 85,264 26,578 38,004 52,043 59,657 77,723 90,088 116,778 142,395 160,150 216,446 独立行政法人 統計センター
  • 28. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 vi) 線形回帰 用途項目の1か月当たり支出金額(円)=f(消費支出(円)) 消費支出 定数 調整済 決定係数 F値 係数 標準誤差 P値 係数 標準誤差 P値 決定係数 食料 0.07681 0.00075 0.000 47,683.0 294.2 0.000 0.2456 0.2456 10,425 住居 0.07649 0.00146 0.000 -6,558.3 571.0 0.000 0.0789 0.0789 2,744 元 光熱?水道 0.01123 0.00022 0.000 15,585.8 86.6 0.000 0.0744 0.0744 2,574 デ 家具?家事用品 0.02205 0.00044 0.000 2,305.1 172.9 0.000 0.0720 0.0720 2,486 ー 被服及び履物 0.03669 0.00050 0.000 2,202.6 195.8 0.000 0.1436 0.1435 5,368 タ 保健医療 0.02551 0.00055 0.000 3,284.6 214.9 0.000 0.0630 0.0630 2,153 交通?通信 0.25071 0.00200 0.000 -34,299.9 782.4 0.000 0.3289 0.3289 15,699 教育 0.10323 0.00138 0.000 -12,682.5 538.7 0.000 0.1491 0.1491 5,613 教養娯楽 0.06986 0.00084 0.000 8,775.9 327.5 0.000 0.1785 0.1785 6,959 その他の消費支出 0.32741 0.00206 0.000 -26,296.4 805.5 0.000 0.4410 0.4410 25,262 消費支出 定数 調整済 決定係数 F値 係数 標準誤差 P値 係数 標準誤差 P値 決定係数 擬 食料 0.06232 0.00074 0.000 52,433.5 280.3 0.000 0.1826 0.1826 7,156 似 住居 0.08949 0.00169 0.000 -11,679.6 641.7 0.000 0.0808 0.0808 2,815 ミ 光熱?水道 0.01002 0.00022 0.000 15,951.0 82.2 0.000 0.0628 0.0628 2,147 ク 家具?家事用品 0.01509 0.00043 0.000 4,251.4 161.8 0.000 0.0378 0.0378 1,259 ロ 被服及び履物 0.02908 0.00055 0.000 4,594.6 210.1 0.000 0.0797 0.0797 2,774 デ 保健医療 0.01958 0.00055 0.000 4,940.7 208.9 0.000 0.0382 0.0382 1,271 ー 交通?通信 0.23652 0.00207 0.000 -29,652.4 788.4 0.000 0.2891 0.2891 13,023 タ 教育 0.13728 0.00170 0.000 -22,777.2 645.8 0.000 0.1696 0.1695 6,539 教養娯楽 0.05808 0.00089 0.000 12,331.1 339.7 0.000 0.1167 0.1166 4,230 その他の消費支出 0.34253 0.00226 0.000 -30,392.9 860.4 0.000 0.4173 0.4173 22,934 独立行政法人 統計センター
  • 29. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 4.擬似ミクロデータの性質 (2) 留意点 作成上の前提や操作による特性に注意 セルの中では対数正規分布 度数1、2のセルは存在しない ゼロ値処理の影響 独立行政法人 統計センター
  • 30. 2013年3月29日 Let‘s データ分析 第一回ミクロデータ分析コンテスト 説明会 4.擬似ミクロデータの性質 (3) 擬似ミクロデータの使い方 教育(演習)用のものであって、 実証研究向けではない 「擬似ミクロデータ分析コンテスト」 頑張ってください 独立行政法人 統計センター