狠狠撸

狠狠撸Share a Scribd company logo
第5回ゼロからはじめるR勉強会
迟検定を勉强してみよう
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
自己紹介
? 名前
 飯田 啓介
(twitter: menphis_feel)
(facebookの方に主に出現)
? 会社
 株式会社ブリリアントサービス
? 業務
 データ解析、マイニング
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
t検定とは
帰無仮説が正しいと仮定した場合に、統計量がt分布
に従うことを利用する統計学的検定法の総称である
。
(by wikipeida)
「帰無仮説」っ
て?
「t分布」って?
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
帰無仮説とは
"ある仮説"が正しいかどうかの判断のために立てられ
る
仮説の概念。
これに対立している証明したい仮説を対立仮説とい
う。
対立仮説を立証するために利用し否定する仮説のこと
をいう。
帰無仮説とは
帰無仮説
血液型と性格は関係がある
帰無仮説
血液型と性格は関係がある
対立仮説
血液型と性格は関係がない
対立仮説
血液型と性格は関係がない
血液型と性格に相関関係があるか?
帰無仮説とは
帰無仮説
血液型と性格は関係がある
帰無仮説
血液型と性格は関係がある
対立仮説
血液型と性格は関係がない
対立仮説
血液型と性格は関係がない
否定の証明
帰無仮説とは
帰無仮説
血液型と性格は関係がある
帰無仮説
血液型と性格は関係がある
対立仮説
血液型と性格は関係がない
対立仮説
血液型と性格は関係がない
否定の証明 肯定される
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
t分布とは
t分布(または、スチューデントのt分布)は、 連続確
率分布であり、サンプル数が少ない場合に正規分布
をとる母集団の平均を推定する問題に使用される。
2つのサンプル平均間の差の統計的有意や2つの母
集団平均間の差の信頼区間を求めるのによく使われ
るt検定の基礎となる。 (by wikipeida)
難読だ。。
t分布とは
● つまり
標本が十分大きい時は正規分布を使って母平均に関
する検定を行うことができるが小さいと信頼性が低
い。
● ので
少ないサンプル標本から自由度をふって母集団の平
均を推定するために使われる分布手法をいう。
t分布を書いてみる
自由度を大きくすると
正規分布に近づくこと
がわかる。
t分布とは
正規分布を描く母集団から得た標本の一部を使う正規分布を描く母集団から得た標本の一部を使う
自由度をふって正規分布に近づける自由度をふって正規分布に近づける
検定を行う検定を行う
t分布を使った検定
t検定を行う上での前提条件
1. 正規性
  標本の母集団が正規分布に従う。
2. 等分散性
  標本の母分散が等しい。
t検定を行う上での前提条件
1. 正規性
  標本の母集団が正規分布に従う。
2. 等分散性
  標本の母分散が等しい。
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
t検定を行う前に正規性の確認
● 正規性
Kolmogorov-Smirnov(KS)検定を使う
KS検定の帰無仮説
「正規分布に従う」
KS検定の帰無仮説
「正規分布に従う」
有意水準(p値)
● 帰無仮説を「採択」するか「棄却」するかの判定水
準
通常 α としては 0.05,0.01,0.001のいずれかを適
用する
例えば有意水準を0.05とした場合、帰無仮説を棄却する判定を
したとしても20回に1回判定ミスが発生する可能性を示唆して
いる。
0.05 < pの場合、「棄却するに値しない」
という判定結果となる。
0.05 < pの場合、「棄却するに値しない」
という判定結果となる。
2つのサンプルを用意した
## サンプルX
# 正規分布を描く乱数を発生させる
t_sample.x<-rnorm(1000,mean=50,sd=10)
hist(t_sample.x, freq=F) # ヒストグラム描画
# 正規分布描画
x <- seq(0, 1000, 0.05)
curve(dnorm(x, mean=50, sd=sd(t_sample.x)), add=T)
## サンプルY
# 正規分布を描く乱数を発生させる
t_sample.y<-rnorm(1000,mean=30,sd=10)
hist(t_sample.y, freq=F) # ヒストグラム描画
# 正規分布描画
x <- seq(0, 1000, 0.05)
curve(dnorm(x, mean=30, sd=sd(t_sample.y)), add=T)
正規性の確認をKS検定で行う
> ks.test(t_sample.x, "pnorm", mean=mean(t_sample.x), sd=sd(t_sample.x))
One-sample Kolmogorov-Smirnov test
data: t_sample.x
D = 0.0487, p-value = 0.9716
alternative hypothesis: two-sided
帰無仮説:「正規分布に従う」
有意水準(p値) 0.05以上なので
 「帰無仮説を棄却するに値しな
い」
帰無仮説を採択する。
正規分布と判定する
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
等分散性検定(F検定)
● 等分散性
2群が似たような分散をしていること
F検定の帰無仮説
「2群間の分散に差がない」
F検定の帰無仮説
「2群間の分散に差がない」
等分散ですよ
等分散性検定(F検定)
> var.test(t_sample.x,t_sample.y)
F test to compare two variances
data: t_sample.x and t_sample.y
F = 0.9877, num df = 999, denom df = 999, p-value = 0.8448
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.8724221 1.1181794
sample estimates:
ratio of variances
0.9876864帰無仮説:「2群間の分散に差がな
い」
有意水準(p値) 0.05以上なので
 「帰無仮説を棄却するに値しな
い」
帰無仮説を採択する。
等分散と判定する
t検定
t検定を行う上での前提条件がそろった!!
1. 正規性
  標本の母集団が正規分布に従う。
2. 等分散性
  標本の母分散が等しい。
やっとt検定だ。
t検定とは
やっとt検定だ。
2組の標本について平均に有意差があるかどう
かの検定
Agenda
? 自己紹介
? t検定とは
? 帰無仮説
? t分布
? 正規性
? 等分散性
? t検定
t検定
● t検定
2組みの標本について平均に有意差があるかどうかの検定
t検定の帰無仮説
「2群間の平均値に差がない」
t検定の帰無仮説
「2群間の平均値に差がない」
平均値が同じで
すよ
t検定
> t.test(t_sample.x,t_sample.y,var.equal=T)
Two Sample t-test
data: t_sample.x and t_sample.y
t = 42.5748, df = 1998, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
18.00265 19.74127
sample estimates:
mean of x mean of y
49.50618 30.63422帰無仮説:「2群間の平均値に差がな
い」
有意水準(p値) 0.05以下なので
 「帰無仮説を棄却する」
対立仮説を採択する。
平均値に差があると
判定する
t検定のまとめ
● t検定とは2群のデータに差があるのかどうかを判
定する。
● t検定を行うには「正規性」と「等分散性」の仮定
が必要
● 仮説検定には「帰無仮説」と「対立仮説」をたてて
帰無仮説を棄却することで立証する。
● 仮説の立証には有意水準を使う。
ご清聴ありがとうございました
Rを共に勉強しましょ
う!

More Related Content

Viewers also liked (16)

罢検定と相関分析概要
罢検定と相関分析概要罢検定と相関分析概要
罢検定と相関分析概要
Junko Yamada
?
1 2.t検定
1 2.t検定1 2.t検定
1 2.t検定
logics-of-blue
?
初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
OWL.learn
?
贰尘苍濒辫読み会资料
贰尘苍濒辫読み会资料贰尘苍濒辫読み会资料
贰尘苍濒辫読み会资料
Jiro Nishitoba
?
搁の导入と搁厂迟耻诲颈辞事始め(改订版)
搁の导入と搁厂迟耻诲颈辞事始め(改订版)搁の导入と搁厂迟耻诲颈辞事始め(改订版)
搁の导入と搁厂迟耻诲颈辞事始め(改订版)
Takashi Yamane
?
EMNLP 2015 yomikai
EMNLP 2015 yomikai EMNLP 2015 yomikai
EMNLP 2015 yomikai
Yo Ehara
?
Humor Recognition and Humor Anchor Extraction
Humor Recognition and Humor Anchor ExtractionHumor Recognition and Humor Anchor Extraction
Humor Recognition and Humor Anchor Extraction
裕樹 奥田
?
星野「调査観察データの统计科学」第3章
星野「调査観察データの统计科学」第3章星野「调査観察データの统计科学」第3章
星野「调査観察データの统计科学」第3章
Shuyo Nakatani
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章
Shuyo Nakatani
?
そろそろ搁厂迟耻诲颈辞の话
そろそろ搁厂迟耻诲颈辞の话そろそろ搁厂迟耻诲颈辞の话
そろそろ搁厂迟耻诲颈辞の话
Kazuya Wada
?
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Shuyo Nakatani
?
搁蝉迟耻诲颈辞事始め
搁蝉迟耻诲颈辞事始め搁蝉迟耻诲颈辞事始め
搁蝉迟耻诲颈辞事始め
Takashi Yamane
?
A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]
Yuta Kikuchi
?
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
Kinki University
?
はじめての「搁」
はじめての「搁」はじめての「搁」
はじめての「搁」
Masahiro Hayashi
?
罢検定と相関分析概要
罢検定と相関分析概要罢検定と相関分析概要
罢検定と相関分析概要
Junko Yamada
?
初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
OWL.learn
?
贰尘苍濒辫読み会资料
贰尘苍濒辫読み会资料贰尘苍濒辫読み会资料
贰尘苍濒辫読み会资料
Jiro Nishitoba
?
搁の导入と搁厂迟耻诲颈辞事始め(改订版)
搁の导入と搁厂迟耻诲颈辞事始め(改订版)搁の导入と搁厂迟耻诲颈辞事始め(改订版)
搁の导入と搁厂迟耻诲颈辞事始め(改订版)
Takashi Yamane
?
EMNLP 2015 yomikai
EMNLP 2015 yomikai EMNLP 2015 yomikai
EMNLP 2015 yomikai
Yo Ehara
?
Humor Recognition and Humor Anchor Extraction
Humor Recognition and Humor Anchor ExtractionHumor Recognition and Humor Anchor Extraction
Humor Recognition and Humor Anchor Extraction
裕樹 奥田
?
星野「调査観察データの统计科学」第3章
星野「调査観察データの统计科学」第3章星野「调査観察データの统计科学」第3章
星野「调査観察データの统计科学」第3章
Shuyo Nakatani
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章星野「调査観察データの统计科学」第1&2章
星野「调査観察データの统计科学」第1&2章
Shuyo Nakatani
?
そろそろ搁厂迟耻诲颈辞の话
そろそろ搁厂迟耻诲颈辞の话そろそろ搁厂迟耻诲颈辞の话
そろそろ搁厂迟耻诲颈辞の话
Kazuya Wada
?
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Shuyo Nakatani
?
搁蝉迟耻诲颈辞事始め
搁蝉迟耻诲颈辞事始め搁蝉迟耻诲颈辞事始め
搁蝉迟耻诲颈辞事始め
Takashi Yamane
?
A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]
Yuta Kikuchi
?

More from Iida Keisuke (8)

デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
Iida Keisuke
?
テ?ハ?イスWeb apiコンソーシアム lt-bril
テ?ハ?イスWeb apiコンソーシアム lt-brilテ?ハ?イスWeb apiコンソーシアム lt-bril
テ?ハ?イスWeb apiコンソーシアム lt-bril
Iida Keisuke
?
Linked Open Data With R
Linked Open Data With RLinked Open Data With R
Linked Open Data With R
Iida Keisuke
?
第3回関西ゼロから始める搁勉强会
第3回関西ゼロから始める搁勉强会第3回関西ゼロから始める搁勉强会
第3回関西ゼロから始める搁勉强会
Iida Keisuke
?
関东第1回r勉强会
関东第1回r勉强会関东第1回r勉强会
関东第1回r勉强会
Iida Keisuke
?
第2回関西ゼロから始める搁言语勉强会
第2回関西ゼロから始める搁言语勉强会第2回関西ゼロから始める搁言语勉强会
第2回関西ゼロから始める搁言语勉强会
Iida Keisuke
?
第1回関西ゼロからはじめる搁勉强会(2)
第1回関西ゼロからはじめる搁勉强会(2)第1回関西ゼロからはじめる搁勉强会(2)
第1回関西ゼロからはじめる搁勉强会(2)
Iida Keisuke
?
第1回関西ゼロからはじめる搁勉强会
第1回関西ゼロからはじめる搁勉强会第1回関西ゼロからはじめる搁勉强会
第1回関西ゼロからはじめる搁勉强会
Iida Keisuke
?
デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
デバイスWeb apiコンソーシアム 第四回資料(RemoteRelay with Thermal camera)
Iida Keisuke
?
テ?ハ?イスWeb apiコンソーシアム lt-bril
テ?ハ?イスWeb apiコンソーシアム lt-brilテ?ハ?イスWeb apiコンソーシアム lt-bril
テ?ハ?イスWeb apiコンソーシアム lt-bril
Iida Keisuke
?
Linked Open Data With R
Linked Open Data With RLinked Open Data With R
Linked Open Data With R
Iida Keisuke
?
第3回関西ゼロから始める搁勉强会
第3回関西ゼロから始める搁勉强会第3回関西ゼロから始める搁勉强会
第3回関西ゼロから始める搁勉强会
Iida Keisuke
?
関东第1回r勉强会
関东第1回r勉强会関东第1回r勉强会
関东第1回r勉强会
Iida Keisuke
?
第2回関西ゼロから始める搁言语勉强会
第2回関西ゼロから始める搁言语勉强会第2回関西ゼロから始める搁言语勉强会
第2回関西ゼロから始める搁言语勉强会
Iida Keisuke
?
第1回関西ゼロからはじめる搁勉强会(2)
第1回関西ゼロからはじめる搁勉强会(2)第1回関西ゼロからはじめる搁勉强会(2)
第1回関西ゼロからはじめる搁勉强会(2)
Iida Keisuke
?
第1回関西ゼロからはじめる搁勉强会
第1回関西ゼロからはじめる搁勉强会第1回関西ゼロからはじめる搁勉强会
第1回関西ゼロからはじめる搁勉强会
Iida Keisuke
?

第4回関东ゼロからはじめる搁言语勉强会(迟検定を勉强してみよう)