狠狠撸

狠狠撸Share a Scribd company logo
2016/09/29 統計解析ソフト「R」の基礎
データ分析編の目的
ここでは、データ入出力編で作成した、
擬似ミクロデータのRデータフレームを用
いて、より実践的なデータの分析を行う
ためのデータの取り扱い方法や、基本的
な可視化の方法を学ぶ
2
目 次
I. 分析の対象
II. 仮説による分析
1. 仮説設定
2. データの下調べと前処理
3. 詳細分析① エンゲル係数が高いと米?
4. 詳細分析② 世帯の人数が多いと米?
5. 詳細分析③ 主食による世帯収入の差異
III. 探索的な分析
1. 全データでCART
2. 説明変数を削ってCART
3. 世帯主の年齢階級についての分析
3
演習一覧
A. 主食分類符号の作成
B. 円グラフ、帯グラフ、棒グラフ
C. プロット図の保存と加工(手作業の場合)
D. プロット図の保存(コードによる場合)
E. 主食別支出総額と食料支出の散布図
F. 主食別エンゲル係数の基本統計量
G. 複雑な棒グラフ
H. 世帯人員数の棒グラフ
I. 主食別世帯人員数のクロス表
J. クロス表を棒グラフに
K. 比率で見ると
L. 散布図行列を眺める
M. aov関数による一元配置分散分析
N. 対数変換でデータを正規化
O. 決定木で構造を探る
P. 全データでCART
Q. 説明変数を削ってCART
R. 世帯主の年齢階級の分析 4
演習用コードファイル:
Rデモ03_データ分析編.r
I. 分析の対象
擬似ミクロデータは、平成16年全国消費実態調査の
二人以上の勤労者世帯を想定して作成され、世帯属性
等についての14項目と、支出?収入についての183項
目を持つ大規模なデータセットで、様々な分析の可能
性を持っている。
ここでは、主食の違いについて着目し、分析を行う。
擬似ミクロデータの穀類の消費支出には、米、パン、
麺類、その他の穀類の四つの内訳がある。ここでは、
穀類の消費額に占める割合が最も多いものが主食であ
ると考え、それが、米か、パンか、麺類かに影響を与
える要因について分析してみよう。
5
II-1. 仮説の設定
データを触る前に、主食が米かパンか、ある
いは麺類なのかということに影響を与えるかも
しれない要因をまず考える
① エンゲル係数が大きいと米?
② 世帯の人数が多いと米?
③ 主食により世帯の収入に差異がある?
自分でも仮説を考えてみよう!
II. 仮説に基づく分析
6
II-2. データの下調べと前処理
i. データ読み込み
データ入出力編で作成した、擬似ミクロデータの
ワークスペースファイル giji.RData をロード
ii. 主食分類符号の作成 [演習A]
iii. 概要の把握
穀物の消費支出に占める、米、パン、麺類、雑穀の
割合
? 円グラフの作成 [演習B.1]
? 帯グラフの作成 [演習B.2]
? 棒グラフの作成 [演習B.3]
? プロット図の保存と加工(手作業の場合) [演習C]
? プロット図の保存(コードによる場合) [演習D]
? 散布図の作成 [演習E] 7
演習A. 主食分類符号の作成
1) 作業領域ファイルgiji.RDataを読み込む
2) 主食分類符号を作成するためのデータ項目である穀類
Youto039とその内訳のYouto040~Youto043の内容を
まず確認
3) 穀類の中で最も金額の多いものを
主食とみなし、分類符号f.MDを
作成する
8
変数名 内容
Youto039 穀類
Youto040 米
Youto041 パン
Youto042 めん類
Youto043 他の穀類
主食分類符号 f.MD
1 米 2 パン 3 麺類 4 その他 不詳
18535 12538 939 15 0
演習B.1 円グラフの作成
9
主食 米 パン 麺類 他の穀類
世帯数 18535 12538 939 15
比率% 57.87 39.15 2.93 0.05
金額(千円) 11296 79467 44027 9536
比率% 45.92 32.30 17.90 3.88
演習B.2 帯グラフの作成
10
演習B.3 棒グラフの作成
11
演習C. 図の保存と加工(手作業)
i. グラフィックウインドウをクリックしてアクティ
ブ化
ii. メニューバーから「ファイル」
=> 「別名で保存」
=> ファイル形式を選択 (pngやemfなど)
=> ファイル名と置き場所を指定
※ 単純にコピペもできるが、日本語が化ける
※ 余白を削ったり、文字を加えたりなどの加工は、
ペイントで
※ jpegは加工で汚れるので、pngがお勧め
※ emf形式ファイルは、プロット図を要素に分解し
て加工することができる
12
演習D. 図の保存(コード)
# 先の円グラフ二つをA4横サイズのpng形式で保存
png(filename=“主食の割合.png”, width=2339,
height=1654, pointsize = 32)
# 各種プロットコード
dev.off() # ファイルのクローズ
13
横サイズ
縦サイズ 文字の大きさ
※ png()の他、bmp()、pdf()やemf形式のwin.metafile()、
jpeg()がある。
※ widthとheightの数値が逆ならA4縦、短辺だけ倍の数
値にすればA3サイズ。
II-3. エンゲル係数が高いと米?
i. 主食別支出総額と食料支出の散布図
基本の散布図 [演習E.1]
常用対数軸で格子を加える [演習E.2]
透過プロット [演習E.3]
ii. 主食別エンゲル係数の基本統計量
[演習F]
iii. 複雑な棒グラフ [演習G]
主食分類符号別のエンゲル係数の中央値
と平均値
14
食料費の支出総額に対する割合はエンゲ
ル係数(Engel‘s coefficient)と呼ばれ、世帯
の所得水準が高くなるに従って減少する
というエンゲルの法則はよく知られてい
る [竹内 et al. (1989) 統計学辞典, 東洋経済新報社 ]
食料費 Youto038
消費支出 Youto037
×100 [%]
エンゲル係数
15
演習E.1 基本の散布図
エンゲル係数は、支出総額(Youto037) に占める食料
費(Youto038)の割合
金額データの場合、扇形に
広がり、原点近くのデータ
密度が濃い場合が多い
対数化すると
密度が濃い部
分が薄まる
数が少ないデー
タは後から描く
16
演習E.2 常用対数軸で格子を加える
17
密度が濃いところを延ば
してもデータが多すぎる
透過プロット
演習E.3 透過プロット
18
密度が濃いところは色が重なって濃くなる
主食毎の差異については、この散布図からはよくわからない
演習F. 主食分類符号別エンゲル係数の
基本統計量
?主食別のデータサイズがかなり差があるので、
最小値や最大値は単純に比較はできない
?中央値や平均値が注目ポイント
米 パン 麺 その他 合計
最小値 1.41 0.92 3.57 4.20 0.92
第一四分位 18.81 18.25 17.84 15.62 18.55
中央値 24.37 23.35 22.83 17.77 23.90
平均値 25.08 23.95 23.87 20.42 24.60
第三四分位値 30.64 28.93 29.33 25.90 29.89
最大値 96.08 75.63 54.60 42.28 96.08
データサイズ 18535 12538 939 15 32027
19
演習G. 複雑な棒グラフ
主食の違いにより、エンゲル係数の平均や中央値に差異がみられ、
米が主食の場合が最もエンゲル係数が高い。
20
II-4. 世帯の人数が多いと米?
i. 世帯人員数の棒グラフ作成 [演習H]
ii. 主食別世帯人員数のクロス表作成 [演習I]
iii. クロス表の棒グラフ化 [演習J]
iv. 比率で見ると [演習K]
21
演習H. 世帯人員数の棒グラフ
世帯人員(人) 2 3 4 5 6 7 8 9 10
世帯数 7438 8537 9944 4405 1214 390 81 15 3
四人の世帯が最も多い。
22
演習I. 主食別世帯人員数のクロス表
 
世帯人員 米 パン 麺類 その他
2 4605 2551 279 3
3 4811 3436 281 9
4 5149 4544 248 3
5 2703 1608 94 0
6 890 297 27 0
7 290 90 10 0
8 69 12 0 0
9 15 0 0 0
10 3 0 0 0
主食の別
23
演習J. クロス表を棒グラフに
少なくとも2~4人の世帯では、人数が増えるとむしろパン主食が増えている24
演習K. 比率で見ると
2~4人の世帯では、人数が増えるとむしろパン主食の世帯の割合が多い。
5人以上の世帯では、世帯の人数が増えると米主食の世帯の割合が増えている。 25
II-5. 主食による世帯収入の差異
i. 散布図行列を眺める [演習L]
ii. 一元配置分散分析 [演習M]
iii. 対数変換でデータを正規化 [演習N]
iv. 決定木で構造を探る [演習O]
26
演習L. 散布図行列を眺める
世帯収入の内訳は、経常収入と特別収入と実収入以外の収入からなる
27
> rs1 <- aov(f.MD ~ GSyunyu)
> summary(rs1)
Df Sum Sq Mean Sq F value Pr(>F)
GSyunyu 3 29 9.636 31.54 <2e-16 ***
Residuals 32023 9783 0.306
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
演習M. aov関数による一元配置分散分析
P値が小さいので、主食の別により収入データの平
均値に有意差はある。
ただし、この分析法は、データの正規性を仮定し
ているが、データはあまり正規分布に近くない。
P値
対数化してみる
28
演習N. 対数変換でデータを正規化
正規分布データは楕円形になる
29
> rs2 <- aov(f.MD[f.G] ~ log10(GSyunyu[f.G, ]))
> summary(rs2)
Df Sum Sq Mean Sq F value Pr(>F)
log10(GSyunyu[f.G, ]) 3 51 17.118 55.9 <2e-16 ***
Residuals 30913 9467 0.306
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
対数化データによる一元配置分散分析
やはりP値は非常に小さいので、主食の別により収入データの(幾何)平均
に有意差がある。
P値
金額データなどは、対数化により正規分布に近づけること
ができる。ただし、対数化するとゼロ値は-Inf(マイナス無
限大)、マイナス値はNaN(非数)になるので除く。
30
演習O. 決定木で構造を探る
世帯収入の内訳となる経常収入、特別収入と実収入以
外の収入という三変数を用いて、主食の違い f.MD の分
類を試みる。
外部パッケージrpartとpartykitは予めインストールして
おく。(「R はじめの一歩」、スライド27参照)
31
> require(rpart) # rpart
> require(partykit) # 決定木のプロットに必要
> ct2 <- rpart(f.MD ~., dat= as.data.frame(GSyunyu),
method="class", control = rpart.control(cp = 0.001))
目的変数は f.MD、説明変数は行列Gsyunyuにまとめた三変数。
method=“class”で分類木を指定し、cpの値で枝分かれの程度をコントロール。
cpのデフォルトは0.01で小さくすると枝分かれしやすい。
決定木とは
決定木は、データマイニングなどで広く使わ
れている分析手法。様々な種類が存在するが、
ここではCART(Classification and regression
trees)の分類木を使用する。
決定木は、分類後のデータの差異を最も大き
くするような分類方法の発見を助け、それをわ
かりやすく可視化することができる。
? 回帰木: 目的変数が連続値
? 分類木: 目的変数がカテゴリデータ
32
CARTの結果
分散分析の結果から、主食の
違いにより収入項目に何らか
の差異はあるものと思われる。
CARTの結果も、米とパンが分
類されているので、同じこと
を示唆はしている。ただし、
この分類結果について、何か
もっともらしい説明をみつけ
ることは難しい
33
f.MDの値
1: 米
f.MDの値
2: パン
III. 探索的な分析
1. 全データでCART [演習P]
2. 説明変数を削ってCART [演習Q]
3. 世帯主の年齢階級
? 単純な表の作成 [演習R.1]
? 因子水準の修正 [演習R.2]
? 棒グラフ作成 [演習R.3]
? 年齢階級と主食の別のクロス表作成 [演習R.4]
? クロス表からの複雑な棒グラフ [演習R.5]
34
目的変数: 主食の別
説明変数: 全変数項目
演習P. 全データでCART
結果は、米Youto040
と、パンYouto041に
よる分類。
ある意味当然の結果
であるが、当然すぎ
て意味がない。
説明変数から
Youto040~
Youto043を削る
35
主食の別 f.MD
1: 米
2: パン
3: めん類
4: その他の穀類
演習Q. 説明変数を削ってCART
世帯主の年齢五歳階級
菓子
穀類
世帯主の年齢階級が最も影響が
大きいという結果に。続いて穀
類(主食)Youto039 への支出が
多いと米が主食。
世帯主が若い場合、穀類(主
食)の支出が多く、さらに菓子
Youto067 への支出が少なければ
パンが主食。
世帯主の年齢が高い場合、穀
類への支出が多ければパン、低
ければ米。
36
演習R. 世帯主の年齢階級の分析
1. 単純な表の作成
2. 因子水準の修正
3. 棒グラフ作成
4. 年齢階級と主食の別のクロス表
作成
5. クロス表からの複雑な棒グラフ
37
R.3 棒グラフ作成
△1 24歳未満
△2 25~29歳
△3 30~34歳
△4 35~39歳
△5 40~44歳
△6 45~49歳
△7 50~54歳
△8 55~59歳
△9 60~64歳
10 65~69歳
11 70~74歳
12 75歳以上
VV 不詳
38
R.4 年齢階級と主食の別クロス表
24歳未満 25~29歳 30~34歳 35~39歳 40~44歳 45~49歳 50~54歳
米 23 275 796 1167 1850 2336 3052
パン 30 550 1641 2289 1946 1479 1159
麺類 15 62 114 102 97 123 77
その他 0 0 6 0 0 0 6
55~59歳 60~64歳 65~69歳 70~74歳 75歳以上 不詳
米 3406 1656 480 105 21 3368
パン 730 313 80 7 5 2309
麺類 52 21 6 3 0 267
その他 0 3 0 0 0 0
年齢階級
39
R.5 クロス表からの複雑な棒グラフ
主食が米の世帯とパンの世帯の年齢階級の分布が異なることが確認できた
40
付 録
色指定の方法
? 番号指定
1 黒 2 赤 3 緑 4 青 5 水色
6 紫 7 黄 8 灰 9 黒 10 赤 …
? 色名指定
colors() で一覧表示
? 16進数カラーコード
http://research.stowers-
institute.org/efg/R/Color/Chart/ColorChart.pdf
42
既存のカラーパレット
n <- 16 # 色数指定
rainbow(n) # 虹色
cm.colors(n) # 薄い水色から薄いマゼンタまでのグラデーション
topo.colors(n) # 青 -> 緑 -> 黄 -> オレンジ
terrain.colors(n) # 緑->黄->オレンジ->ピンク->白
heat.colors(n)
gray.colors(n=10) # 白黒の濃淡
gray(1:10/10) # 白黒の濃淡
blues9 # 青系のグラデーションで引数はない
43
拡張メタファイルの利用方法
? 拡張メタファイルの拡張子はemf
? Windowsのドロー形式ファイルの一種
? ドロー形式では、プロットは図形の集合で表され、
次の手順で要素を分解して編集することができる
① Rのプロット図をemfファイルとして保存
② 例えばパワーポイントで、「挿入」=> 「図」 =>
ファイル選択 => 「OK」
③ 「描画ツール」=> 「配置」タブの中にあるグルー
プ化アイコンをクリック
④ グループ化解除
44
[演習] emfファイルを作成し、パワーポイ
ントのスライド上に挿入、グループ化を
解除してパーツをいじってみましょう
※ 残念ながらグループ化を解除すると日本語は化けます 45
1 3 5 7 9 11
VV
05001500
2500
3500
??
?p?“
–?
????‘?
46

More Related Content

统计环境搁冲データ分析编2016

Editor's Notes

  • #13: emf: ウィンドウズ メタファイル
  • #18: リサンプリングで间引きする手もある
  • #23: ご饭は一人分炊くのも数人分炊くのもあまり手间は変わらない
  • #46: 残念ながら、日本语は文字化けする模様