狠狠撸

狠狠撸Share a Scribd company logo
「Rによるやさしい統計学」第18章

人工データの発生
@yokkuns: 里 洋平
yohei0511@gmail.com
2013.11.09 第35回Tokyo.R

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
里 洋平 (@yokkuns)
■元Webエンジニアのデータサイエンティスト
■TokyoRの主催者

2013年11月9日土曜日
執筆しました

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
なぜ人工データを発生させるのか?
統計学やデータ解析自体の研究?学習の際に
特定の条件を満たすようなデータが欲しい

?シミュレーション実験
?例題用の仮想データ
勉強会とか執筆とか
?データ解析手法を試すために都合の良いデータ
...

2013年11月9日土曜日
どんな人工データが作れるのか
特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ
② 母集団分布を指定した多変量データ
③ 統計モデルを指定した多変量データ
例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
確率分布に従う乱数の生成
乱数を生成する関数一覧
確率分布

関数名

引数としてしていする母数

正規分布

rnorm

mean, sd

一様分布

runif

min, max

ベータ分布

rbeta

shape1, shape2, ncp

二項分布

rbiom

size, prob

コーシー分布

rcauchy

location, scale

カイ二乗分布

rchisq

df, ncp

指数分布

rexp

rate

F分布

rf

df1, df2, cnp

ガンマ分布

rgamma

prob

...

...

...

2013年11月9日土曜日
実行例: 正規分布
rnorm関数

2013年11月9日土曜日
実行例: 一様分布
runif関数

2013年11月9日土曜日
実行例: 任意の離散的確率分布
runif関数による乱数とcut関数を用いて
任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日
統計学の法則?定理の検証
統計学を勉強してると謎の法則とか定理が出てくる
人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

2013年11月9日土曜日
大数の法則とは
ある母集団から無作為抽出された標本データの平均は
サンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/
2013年11月9日土曜日
正規分布によるシミュレーション
rnorm関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
二項分布によるシミュレーション
rbiom関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
中心極限定理とは
標本平均と真の平均との誤差は
サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signi?/
index.htm
2013年11月9日土曜日
正規分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を1,000回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
相関関係

http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM
2013年11月9日土曜日
任意の母相関を持つ2変数データの生成(方法1)
分散の等しい母集団から独立に無作為抽出された
2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
線形回帰分析とは
観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html
2013年11月9日土曜日
線形回帰分析の仮定
線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html
2013年11月9日土曜日
回帰分析モデルに基づく人工データの生成
回帰係数と切片を固定し、xとeを乱数で生成する事で
回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日
人工データに対して回帰分析を実行

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
■ LT募集しています!

http://www.japanr.org/information/2013/11/03/lt/

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
ご清聴ありがとうございました!

2013年11月9日土曜日

More Related Content

What's hot (20)

03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門
Shuhei Ichikawa
?
1 1.はじめに
1 1.はじめに1 1.はじめに
1 1.はじめに
logics-of-blue
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
顺序データでもベイズモデリング
顺序データでもベイズモデリング顺序データでもベイズモデリング
顺序データでもベイズモデリング
. .
?
混合モデルを使って反復测定分散分析をする
混合モデルを使って反復测定分散分析をする混合モデルを使って反復测定分散分析をする
混合モデルを使って反復测定分散分析をする
Masaru Tokuoka
?
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
Hiroshi Shimizu
?
心理学者のための骋濒尘尘?阶层ベイズ
心理学者のための骋濒尘尘?阶层ベイズ心理学者のための骋濒尘尘?阶层ベイズ
心理学者のための骋濒尘尘?阶层ベイズ
Hiroshi Shimizu
?
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
logics-of-blue
?
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
. .
?
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
Shiga University, RIKEN
?
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
logics-of-blue
?
星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章
Shuyo Nakatani
?
R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01
akira_11
?
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Prunus 1350
?
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
takehikoihayashi
?
ベイズ统计学の概论的绍介
ベイズ统计学の概论的绍介ベイズ统计学の概论的绍介
ベイズ统计学の概论的绍介
Naoki Hayashi
?
2 2.尤度と最尤法
2 2.尤度と最尤法2 2.尤度と最尤法
2 2.尤度と最尤法
logics-of-blue
?
优れた研究论文の书き方
优れた研究论文の书き方优れた研究论文の书き方
优れた研究论文の书き方
Masanori Kado
?
ベイズ统计入门
ベイズ统计入门ベイズ统计入门
ベイズ统计入门
Miyoshi Yuya
?
03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門
Shuhei Ichikawa
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
顺序データでもベイズモデリング
顺序データでもベイズモデリング顺序データでもベイズモデリング
顺序データでもベイズモデリング
. .
?
混合モデルを使って反復测定分散分析をする
混合モデルを使って反復测定分散分析をする混合モデルを使って反復测定分散分析をする
混合モデルを使って反復测定分散分析をする
Masaru Tokuoka
?
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
搁で因子分析 商用ソフトで実行できない因子分析のあれこれ
Hiroshi Shimizu
?
心理学者のための骋濒尘尘?阶层ベイズ
心理学者のための骋濒尘尘?阶层ベイズ心理学者のための骋濒尘尘?阶层ベイズ
心理学者のための骋濒尘尘?阶层ベイズ
Hiroshi Shimizu
?
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
logics-of-blue
?
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
MCMCサンプルの使い方 ~見る?決める?探す?発生させる~
. .
?
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
Shiga University, RIKEN
?
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
logics-of-blue
?
星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章
Shuyo Nakatani
?
R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01
akira_11
?
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Prunus 1350
?
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
takehikoihayashi
?
ベイズ统计学の概论的绍介
ベイズ统计学の概论的绍介ベイズ统计学の概论的绍介
ベイズ统计学の概论的绍介
Naoki Hayashi
?
优れた研究论文の书き方
优れた研究论文の书き方优れた研究论文の书き方
优れた研究论文の书き方
Masanori Kado
?
ベイズ统计入门
ベイズ统计入门ベイズ统计入门
ベイズ统计入门
Miyoshi Yuya
?

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?
搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
Yohei Sato
?
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Yohei Sato
?
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
Yohei Sato
?
异常行动検出入门(改)
异常行动検出入门(改)异常行动検出入门(改)
异常行动検出入门(改)
Yohei Sato
?
Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
?
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
?
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
?
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
贰补蝉测贬迟尘濒搁别辫辞谤迟の绍介
Yohei Sato
?
ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例ドリコムの分析环境とデータサイエンス活用事例
ドリコムの分析环境とデータサイエンス活用事例
Yohei Sato
?
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
?
搁て?レホ?ートメール
搁て?レホ?ートメール搁て?レホ?ートメール
搁て?レホ?ートメール
Yohei Sato
?
搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル搁て?阶层ヘ?イス?モテ?ル
搁て?阶层ヘ?イス?モテ?ル
Yohei Sato
?
搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル搁て?ヒ?ホ?ットテーフ?ル
搁て?ヒ?ホ?ットテーフ?ル
Yohei Sato
?
第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション第3回Japan rハ?ネルテ?ィスカッション
第3回Japan rハ?ネルテ?ィスカッション
Yohei Sato
?
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
?
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
Yohei Sato
?
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Yohei Sato
?
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
Yohei Sato
?
异常行动検出入门(改)
异常行动検出入门(改)异常行动検出入门(改)
异常行动検出入门(改)
Yohei Sato
?

Tokyor35 人工テ?ータの発生