狠狠撸

狠狠撸Share a Scribd company logo
第 4 章
常態分佈
第一節 常態分 的特性 (佈 1 )
? 如果調 台灣查 1000 位成年男性的身高,將會
發現身高特別高和特別低的人佔極少數,絕大
多數的人身高都在中間(例如 170 公分)附近
。
? 如果這 1000 人的平均身高是 170 公分,那麼
身高離 170 公分越遠的人,所佔的比例就越
少。簡單的說,大略呈現以 170 公分為中心,
並往兩旁遞減的分 圖。如下圖所示。佈
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185 190
身 高
人數
第一節 常態分 的特性 (佈 2 )
? 如果調 的是體重、收入、智力等變項,也很查
可能出現類似上圖的分 。佈
? 上圖的分 是間斷的,可是理論上身高是連續佈
的,因為任何兩個人之間,存在第三個人,其
身高介在他們之間。
? 如果調 更多的人(如查 10 萬人),那麼上圖
的長條圖中間斷現象逐漸會消除。一旦調 人查
數非常之大,那麼上圖的長條圖會變成平滑的
曲線圖,如下圖中的平滑曲線所示。
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185 190
身 高
人數
第一節 常態分 的特性 (佈 3 )
? 上圖的平滑線左右對稱,好像一座山,或者類
似「銅鐘」的形狀。也就是中間最高,往兩旁
遞減,這就是所謂的常態分 (佈 normal
distribution )。
? 由於是左右對稱,且由中間往兩旁遞減,因此
中心點最高的位置就是平均數,也就是 數、眾
和中位數,三者合而為一。
? 常態分 是連續的曲線,但是現實中,並沒有佈
連續的曲線存在。頂多只是類似常態分 ,可佈
是當樣本數很大時,會越接近常態分 。佈
第一節 常態分 的特性 (佈 4 )
? 早在 18 世紀就有數學家和天文學家開始探討
這樣的一條曲線。德國天文家兼數學家高斯
( Carl Friedrich Gauss , 1777-1855 )利用常
態分 研究天文學觀察中誤差的分 情形,因佈 佈
此常態分 又稱高斯分佈 佈。
? 後來高登爵士( Sir Francis Galton, 1822-
1911 )將高斯分 用於心理測驗的研究中。佈
? 另一位著名的數學和統計學家 Karl Pearson
( 1857-1936 )將高斯分 稱為常態分 。佈 佈
第一節 常態分 的特性 (佈 5 )
? 這條曲線的數學函數為
? 其中? = 3.1416 , e 是自然對數之底
2.7183 , X 介在正負無限大,?是平均數,?
是標準差。一旦確定平均數和標準差後,帶入
公式算得 f(X) 。
( )
2
2
1
2
2
1
,;
?
?
?
?
?
? ?
?
== σ
?
πσ
σ?
X
eXfY
第一節 常態分 的特性 (佈 6 )
? 要決定常態分 的形狀,就必須知道平均數佈 ?
和變異數??
(或者標準差?)。常態分 取決佈
於兩個參數( parameter ):?和??
。
? 只要設定這兩個參數,就可以畫出那條常態分
曲線。只要佈 ?或??
不同,曲線就不同。
? 這也就是為何在上述公式裡,表明
? 其中分號後面代表的就是決定這個函數的參數。
假如變數 X 服從常態分 ,平均數為佈 ?,變異
數為? 2
,則寫成: X ~ N(?, σ2
) ,其中 ~ 表示
服從, N 表示常態分 。佈
),;( 2
σ?Xf
第一節 常態分 的特性 (佈 7 )
? 下圖(機率密度函數圖, probability density
function plot )呈現三條常態分 曲線,其中佈 A
曲線的平均數和標準差分別為 170 和 5 , B 曲
線的平均數和標準差分別為 175 和 5 , C 曲線
的平均數和標準差分別為 170 和 10 。
? 比較 A 和 B ,可以發現當平均數不同而標準差
相同時,整個曲線只是位移而已。
? 比較 A 和 C 可以發現如果標準差不同,整個圖
形就改變了,即使他們的平均數相同。例如 C
便得比 A 來得平坦多了,那是因為 C 的標準差
遠比 A 來得大所致。
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
140 145 150 155 160 165 170 175 180 185 190 195 200
f(X)
A: ? = 170, σ = 5
C: ? = 170, σ = 10
B: ? = 175, σ = 5
第一節 常態分 的特性 (佈 8 )
? 如果是間斷變項,例如骰子出現的點數,那麼
就可以說出現 3 點的機率( probability )是
1/6 ,即 p(X = 3) = 1/6 。
? 換做連續變項,不宜宣稱 X 等於某個 的機率值
。
? 假如把身高當作連續變項,那麼身高是 170 公
分整的機率是多少?嚴格的說,在連續變項中
任何一點出現的機率都是 0 ,因此 170 公分整
的機率等於 0 。
第一節 常態分 的特性 (佈 9 )
? 連續變項既然無點出現的機率,改稱為機率密
度( probability density )。在平均數為 170 ,
標準差為 5 的常態分 中佈 170 的機率密度等於
? ( ) 0798.0
25
1
170
2
5
170170
2
1
==
?
?
?
?
?
? ?
?
ef
π
第一節 常態分 的特性佈
( 10 )
? 機率密度函數圖只能看出各個點的機率密度,
但機率密度無多大意義,因此該圖並不實用。
? 對使用者而言,不關心 170 公分的機率密度,
而是關心 170 公分以下的機率,或是 165 至
175 的機率,因此應該換另外一個能 呈現這夠
種意義的圖。
? 就數學而言,要得到這樣的圖,必須透過積分
以計算某段區間的面積。令整個曲線所涵蓋面
積為 1 ,那麼某段區間所佔的面積就是該區段
的機率。
第一節 常態分 的特性佈
( 11 )
? 下圖呈現常態分 (平均數佈 170 ,標準差 5 )
的累積分 函數圖(佈 cumulative distribution
function )。
? 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此,輕易算得機率了。
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
140 145 150 155 160 165 170 175 180 185 190 195 200
身 高
F(X)累積分佈函數
第一節 常態分 的特性佈
( 12 )
? 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此算得機率。
? 不過畢竟要如此計算機率,必須先有此累積分
函數圖。可惜,通常不易獲得該圖。此外用佈
畫線的方式也只能得到粗略的數 。值
第一節 常態分 的特性佈
( 13 )
? 一般的統計學教科書的附錄裡,都可以 到常查
態分 的機率密度函數和累積分 函數。佈 佈
? Excel 的函數 NORMDIST 和 NORMINV ,直
接可以 詢。 例如要 詢平均數為查 查 170 ,變異
數為 25 的常態分 ,寫成佈 N(170, 25) , 170 的
機 率 密 度 , 就 鍵 入
「 =NORMDIST(170,170,5,FALSE) 」得機率密
度為 0.0798 。
? 其中 NORMDIST 就是 詢常態分 的函數,查 佈
第一個 170 就是要 的數 ,第二個查 值 170 為該
常態分 的平均數,佈 5 是標準差, FALSE 表
示要 的是機率密度。查
第一節 常態分 的特性佈
( 14 )
? 若要 負無限大到查 170 的機率(同樣是 N(170,
25) ),鍵入
? 「 =NORMDIST(170,170,5,TRUE) 」 , 其 中
TRUE 表示要 的是累積機率,得到查 0.5 。這
表示在平均數為 170 ,變異數為 25 的常態分
中,負無限大到佈 170 的機率就是 0.5 ,也就
是說 170 左邊的面積佔 0.5 。
第一節 常態分 的特性佈
( 15 )
? 假 如 我 們 會 想 知 道 中 間 的 80% ( 或
90% , 95% 等)的成年男子的身高介在那裡至
那裡之間。如果身高是平均數 170 ,標準差 5
的常態分 ,那麼佈 80% 的成年男子的身高將介
於 170± 某個範圍。以平均數 170 為中心點,
左右兩邊各佔 40% ,合計 80% 。
? 這可利用下圖的累積分 函數圖窺知。在佈 Y 軸
上的 0.1 和 0.9 處往右劃至曲線,再往下劃至 X
軸即得,分別為 164 和 176 。身高在 164 和
176 之間的人佔 80% 。
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
140 145 150 155 160 165 170 175 180 185 190 195 200
身 高
F(X)累積分佈函數
第一節 常態分 的特性佈
( 16 )
? 上圖的作法等於在計算累積分 函數的反函數佈
, Excel 提供了這項函數 NORMINV 。
? 我們要算從分 的左邊起算,面積為佈 0.1 的數
是多少,以及面積為值 0.9 的數 為多少。值
? 鍵入「 =NORMINV(0.1,170,5) 」得 163.59 ,
這表示在平均數為 170 ,標準差為 5 的常態分
中,左邊起算到佈 163.59 的面積為 0.1 。
? 鍵入「 =NORMINV(0.9,170,5) 」得 176.41 ,
這表示從左邊起算至 176.41 的面積為 0.9 。因
此在 163.59 到 176.41 的數 占的面積為值 0.8 。
第一節 常態分 的特性佈
( 17 )
? 例子 1
? 如果全國成年男性的身高為常態分 (嚴格的佈
說是非常近似常態分 ),平均數為佈 170 ,標
準差為 5 。身高在平均數上下 0.5 個標準差的
人約佔多少?在平均數上下 1 個標準差的人約
佔多少?在平均數上下 1.645 個標準差、上下
1.96 個標準差、上下 3 個標準差的人約佔多少
?
第一節 常態分 的特性佈
( 18 )
? 作法
? 已知 1 個標準差為 5 ,因此在平均數上下 0.5
個標準差的數 就是值 170±2.5 。即 167.5 和
172.5 。
? 從負無限大到 167.5 的面積為 0.31 ,這可以利
用 NORMDIST 函 數 求 得 , 鍵 入
「 =NORMDIST(167.5,170,5,TRUE) 」 。 由 於
常態分 是左右對稱,因此從佈 172.5 到無限大
的面積也是 0.31 。扣除兩邊面積各 0.31 後,
中間 167.5 到 172.5 的面積就是 0.38 。
第一節 常態分 的特性佈
( 19 )
? 平均數上下 1 個標準差的數 為值 165 和 175 。
從負無限大到 165 的面積為 0.16 ,從負無限大
到 175 的面積為 0.84 。因此在平均數上下 1
個標準差之間的面積 0.68 。
? 平均數上下 1.645 個標準差的數 為值 161.775
和 178.225 。從負無限大到 161.775 的面積為
0.05 ,從負無限大到 178.225 的面積為 0.95 。
因此在平均數上下 1.645 個標準差之間的面
積就是 0.90 。
第一節 常態分 的特性佈
( 20 )
? 平均數上下 1.96 個標準差的數 為值 160.2 和
179.8 。從負無限大到 160.2 的面積為 0.025 ,
從負無限大到 179.8 的面積為 0.975 。 平均數
上下 1.96 個標準差之間的面積就是 0.95 。
? 平均數上下 3 個標準差的數 為值 155 和 185 。
從負無限大到 155 的面積為 0.0014 ,從負無限
大到 185 的面積為 0.9987 。因此在平均數上下
3 個標準差之間的面積就是 0.9973 。
第一節 常態分 的特性佈
( 21 )
? 對任何的常態分 而言,平均數上下佈 0.5 個標
準差之間的面積為 0.38 ;上下 1 個標準差之
間的面積為 0.68 ;上下 1.645 個標準差之間的
面積為 0.90 ;上下 1.96 個標準差之間的面積
為 0.95 ; 上 下 3 個 標 準 差 之 間 的 面 積 為
0.997 。
第一節 常態分 的特性佈
( 22 )
? 例子 2
? 假設某廠牌汽車電池的壽命是常態分 ,平均佈
數為 800 天,標準差為 100 天。現隨機抽取一
個汽車電池,其壽命小於 500 天的機率有多大
?大於 1000 天的機率有多大?介於 700 天至
900 天的機率有多大?
? 如果該公司想訂定一個保固期,在保固期限內
可以免費更換電池,公司最多可以承擔 1% 的
免費更換,保固期應該定多久?
第一節 常態分 的特性佈
( 23 )
? 作法
? 鍵入「 =NORMDIST(500,800,100,TRUE) 」得
0.001 ,因此小於 500 天的機率為 0.001 。
? 鍵入「 =NORMDIST(1000,800,100,TRUE) 」得
0.977 ,這是小於 1000 天的機率。大於 1000
天的機率為 1 – 0.977 = 0.023 。
第一節 常態分 的特性佈
( 24 )
? 鍵入「 =NORMDIST(700,800,100,TRUE) 」得
0.159 。 鍵 入 「 =NORMDIST(900,800,100,
TRUE) 」得 0.841 。介於 700 天到 900 天的機
率就是 0.841 – 0.159 = 0.683 。
? 由於最多承擔 1% 的免費更換,等於要找到一
個電池壽命的天數, 其左邊的面積為 1% 。鍵
入「 =NORMINV(0.01,800,100) 」得 567 天。
電池壽命小於 567 天的機率為 1% 。
第二節 標準常態分佈( 1 )
? 標準常態分 (佈 standard normal distribution )
,又稱 Z 分 ,就是將平均數訂為佈 0 ,變異數
訂為 1 的常態分 。佈
? 任何常態分 都可以換做標準常態分 ,只要佈 佈
它的 減去平均數再除以標準差。即值
σ
??
=
X
Z
第二節 標準常態分佈( 2 )
? 此 Z 變項所形成的分 稱為標準常態分 ,又佈 佈
稱 Z 分 。此分 的機率密度函數為:佈 佈
( ) 2
2
2
1
Z
eZf
?
=
π
( ) 2
2
2
1
Z
eZf
?
=
π
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
Z
f(Z)
Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈
Z 分 的機率密度函數圖佈
Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈
Z 分 的累積分 函數圖佈 佈
0
0.2
0.4
0.6
0.8
1
-3 -2 -1 0 1 2 3
Z
F(Z)累積分佈函數
第二節 標準常態分佈( 3 )
? 對 Z 分 而言,其 介於佈 值 ±0.5 的機率為
38% ;其 介於值 ±1 的機率為 68% ;介於
±1.645 的機率為 90% ,介於 ±1.96 的機率為
95% ,介於 ±3 的機率為 99.7% 。
? 定義 zα/2
為 Z 分 「右邊」起算面積為佈 ?? 2 的
z ,如下圖所示,由於值 Z 分 左右對稱於佈
0 ,因此
? z1?α/2
= - zα/2
? Z 介於 - zα/2
是 zα/2
的機率為 1- α :
? P(- zα/2
< Z < zα/2
) = 1- α
颁丑04高斯分佈
第二節 標準常態分佈( 4 )
? 利用 Excel 計算 Z 分 的累積分 函數及其反佈 佈
函數,除了可以援用上述常態分 的函數佈
NORMDIST 和 NORMINV 外(此時請鍵入平
均數 0 ,標準差 1 。)還可以利用
NORMSDIST 和 NORMSINV 。
? 不過若要計算 Z 分 的機率密度函數,還得用佈
NORMDIST ,因為 NORMSDIST 只能計算累
積分 函數。佈
第二節 標準常態分佈( 5 )
? 在進行線性轉換之前, X 變項是常態分 ,由佈
於線性轉換不會改變其分 形狀,因此佈 Z 變項
仍是常態分 。佈
? 如果 X 變項原本就不是常態分 ,即使進行線佈
性轉換成為 Z 變項,並不使得 Z 變項變為常態
。
第三節 峰度與偏態 ( 1 )
? 峰度( kurtosis )和偏態( skewness )常被分
別用於描述資料分 的高度和左右對稱性。佈
? 常態分 的峰度等於佈 0 。如果資料的峰度大於
0 ,那麼該資料的分 較高聳且狹窄,稱為高佈
狹峰分 (佈 platykurtic distribution )。
? 如果峰度小於 0 ,資料的分 較平坦且 闊,佈 寬
稱為低闊峰分 (佈 leptokurtic distribution )。
常態分佈
高狹峰分佈
低闊峰分佈
第三節 峰度與偏態 ( 2 )
? 峰度的公式是
? 如果是樣本的話,峰度為:
3
)(
4
4
?
?
σ
?XE
( )
( )( )( )
( )
( )( )32
13
321
1
24
??
?
?
?
?
?
?
?
?
?
?
??
?
?
??
?
? ?
???
+
∑ NN
N
S
XX
NNN
NN i
第三節 峰度與偏態 ( 3 )
? Excel 資料分析的「敘述統計」功能可計算峰
度。
? 或利用 KURT 的函數。例如資料為 1, 2, 3, 4, 5,
6, 7 ,鍵入「 =KURT(1,2,3,4,5,6,7) 」就得峰
度 -1.2 。該 小於值 0 ,因為 1 到 7 這些 的分值
比常態分 來得平坦。佈 佈
? 如果數 換為值 1, 2, 2, 2, 2, 2, 3 ,此 7 個 的分值
中間非常 峭(佈 陡 2 的次數非常多),鍵入
「 =KURT(1,2,2,2,2,2,3) 」得峰度為 3 。
第三節 峰度與偏態 ( 4 )
? 偏態也和峰度一樣在描述資料分 的形狀,如佈
果分數往右邊延伸,其偏態 會大於值 0 ,故稱
正偏態或右偏態。
? 如果分數往左邊延伸,偏態 小於值 0 ,故稱負
偏態或左偏態;如果對稱分 ,偏態 等於佈 值
0 。
? 第三章變異量數的圖 2(c) 就是負(左)偏態,
2(d) 則是正(右)偏態。
第三節 峰度與偏態 ( 5 )
? 偏態的公式為
? 如果是樣本的話,則是:
3
3
)(
σ
??XE
( )( )
3
21
∑ ??
?
?
??
?
? ?
?? S
XX
NN
N i
第三節 峰度與偏態 ( 6 )
? Excel 的 SKEW 的函數可用來計算偏態。
? 例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入
「 =SKEW(1,2,3,4,5,6,7) 」得偏態為 0 。
? 數 換為值 1, 1, 1, 1, 2, 3, 4 ,此 7 個 左邊(數值
較小者)較多,右邊較少,因此是右偏態。值
鍵入「 =SKEW(1,1,1,1,2,3,4) 」得偏態為
1.15 。
? 如果是 1, 2, 3, 4, 4, 4, 4 ,此 7 個 右邊(數值 值
較大者)較多,左邊較少,因此是左偏態,鍵
入「 =SKEW(1,2,3,4,4,4,4) 」得偏態為 -1.15 。

More Related Content

颁丑04高斯分佈

  • 2. 第一節 常態分 的特性 (佈 1 ) ? 如果調 台灣查 1000 位成年男性的身高,將會 發現身高特別高和特別低的人佔極少數,絕大 多數的人身高都在中間(例如 170 公分)附近 。 ? 如果這 1000 人的平均身高是 170 公分,那麼 身高離 170 公分越遠的人,所佔的比例就越 少。簡單的說,大略呈現以 170 公分為中心, 並往兩旁遞減的分 圖。如下圖所示。佈
  • 3. 0 10 20 30 40 50 60 70 80 90 150 155 160 165 170 175 180 185 190 身 高 人數
  • 4. 第一節 常態分 的特性 (佈 2 ) ? 如果調 的是體重、收入、智力等變項,也很查 可能出現類似上圖的分 。佈 ? 上圖的分 是間斷的,可是理論上身高是連續佈 的,因為任何兩個人之間,存在第三個人,其 身高介在他們之間。 ? 如果調 更多的人(如查 10 萬人),那麼上圖 的長條圖中間斷現象逐漸會消除。一旦調 人查 數非常之大,那麼上圖的長條圖會變成平滑的 曲線圖,如下圖中的平滑曲線所示。
  • 5. 0 10 20 30 40 50 60 70 80 90 150 155 160 165 170 175 180 185 190 身 高 人數
  • 6. 第一節 常態分 的特性 (佈 3 ) ? 上圖的平滑線左右對稱,好像一座山,或者類 似「銅鐘」的形狀。也就是中間最高,往兩旁 遞減,這就是所謂的常態分 (佈 normal distribution )。 ? 由於是左右對稱,且由中間往兩旁遞減,因此 中心點最高的位置就是平均數,也就是 數、眾 和中位數,三者合而為一。 ? 常態分 是連續的曲線,但是現實中,並沒有佈 連續的曲線存在。頂多只是類似常態分 ,可佈 是當樣本數很大時,會越接近常態分 。佈
  • 7. 第一節 常態分 的特性 (佈 4 ) ? 早在 18 世紀就有數學家和天文學家開始探討 這樣的一條曲線。德國天文家兼數學家高斯 ( Carl Friedrich Gauss , 1777-1855 )利用常 態分 研究天文學觀察中誤差的分 情形,因佈 佈 此常態分 又稱高斯分佈 佈。 ? 後來高登爵士( Sir Francis Galton, 1822- 1911 )將高斯分 用於心理測驗的研究中。佈 ? 另一位著名的數學和統計學家 Karl Pearson ( 1857-1936 )將高斯分 稱為常態分 。佈 佈
  • 8. 第一節 常態分 的特性 (佈 5 ) ? 這條曲線的數學函數為 ? 其中? = 3.1416 , e 是自然對數之底 2.7183 , X 介在正負無限大,?是平均數,? 是標準差。一旦確定平均數和標準差後,帶入 公式算得 f(X) 。 ( ) 2 2 1 2 2 1 ,; ? ? ? ? ? ? ? ? == σ ? πσ σ? X eXfY
  • 9. 第一節 常態分 的特性 (佈 6 ) ? 要決定常態分 的形狀,就必須知道平均數佈 ? 和變異數?? (或者標準差?)。常態分 取決佈 於兩個參數( parameter ):?和?? 。 ? 只要設定這兩個參數,就可以畫出那條常態分 曲線。只要佈 ?或?? 不同,曲線就不同。 ? 這也就是為何在上述公式裡,表明 ? 其中分號後面代表的就是決定這個函數的參數。 假如變數 X 服從常態分 ,平均數為佈 ?,變異 數為? 2 ,則寫成: X ~ N(?, σ2 ) ,其中 ~ 表示 服從, N 表示常態分 。佈 ),;( 2 σ?Xf
  • 10. 第一節 常態分 的特性 (佈 7 ) ? 下圖(機率密度函數圖, probability density function plot )呈現三條常態分 曲線,其中佈 A 曲線的平均數和標準差分別為 170 和 5 , B 曲 線的平均數和標準差分別為 175 和 5 , C 曲線 的平均數和標準差分別為 170 和 10 。 ? 比較 A 和 B ,可以發現當平均數不同而標準差 相同時,整個曲線只是位移而已。 ? 比較 A 和 C 可以發現如果標準差不同,整個圖 形就改變了,即使他們的平均數相同。例如 C 便得比 A 來得平坦多了,那是因為 C 的標準差 遠比 A 來得大所致。
  • 11. 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 140 145 150 155 160 165 170 175 180 185 190 195 200 f(X) A: ? = 170, σ = 5 C: ? = 170, σ = 10 B: ? = 175, σ = 5
  • 12. 第一節 常態分 的特性 (佈 8 ) ? 如果是間斷變項,例如骰子出現的點數,那麼 就可以說出現 3 點的機率( probability )是 1/6 ,即 p(X = 3) = 1/6 。 ? 換做連續變項,不宜宣稱 X 等於某個 的機率值 。 ? 假如把身高當作連續變項,那麼身高是 170 公 分整的機率是多少?嚴格的說,在連續變項中 任何一點出現的機率都是 0 ,因此 170 公分整 的機率等於 0 。
  • 13. 第一節 常態分 的特性 (佈 9 ) ? 連續變項既然無點出現的機率,改稱為機率密 度( probability density )。在平均數為 170 , 標準差為 5 的常態分 中佈 170 的機率密度等於 ? ( ) 0798.0 25 1 170 2 5 170170 2 1 == ? ? ? ? ? ? ? ? ef π
  • 14. 第一節 常態分 的特性佈 ( 10 ) ? 機率密度函數圖只能看出各個點的機率密度, 但機率密度無多大意義,因此該圖並不實用。 ? 對使用者而言,不關心 170 公分的機率密度, 而是關心 170 公分以下的機率,或是 165 至 175 的機率,因此應該換另外一個能 呈現這夠 種意義的圖。 ? 就數學而言,要得到這樣的圖,必須透過積分 以計算某段區間的面積。令整個曲線所涵蓋面 積為 1 ,那麼某段區間所佔的面積就是該區段 的機率。
  • 15. 第一節 常態分 的特性佈 ( 11 ) ? 下圖呈現常態分 (平均數佈 170 ,標準差 5 ) 的累積分 函數圖(佈 cumulative distribution function )。 ? 如果要計算 170 公分以下的機率,就直接從 170 處往上劃至該曲線,然後往左劃,即可算 得。同理,要計算任何一個區段(如 165 至 175 )的面積,也可如此,輕易算得機率了。
  • 16. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 140 145 150 155 160 165 170 175 180 185 190 195 200 身 高 F(X)累積分佈函數
  • 17. 第一節 常態分 的特性佈 ( 12 ) ? 如果要計算 170 公分以下的機率,就直接從 170 處往上劃至該曲線,然後往左劃,即可算 得。同理,要計算任何一個區段(如 165 至 175 )的面積,也可如此算得機率。 ? 不過畢竟要如此計算機率,必須先有此累積分 函數圖。可惜,通常不易獲得該圖。此外用佈 畫線的方式也只能得到粗略的數 。值
  • 18. 第一節 常態分 的特性佈 ( 13 ) ? 一般的統計學教科書的附錄裡,都可以 到常查 態分 的機率密度函數和累積分 函數。佈 佈 ? Excel 的函數 NORMDIST 和 NORMINV ,直 接可以 詢。 例如要 詢平均數為查 查 170 ,變異 數為 25 的常態分 ,寫成佈 N(170, 25) , 170 的 機 率 密 度 , 就 鍵 入 「 =NORMDIST(170,170,5,FALSE) 」得機率密 度為 0.0798 。 ? 其中 NORMDIST 就是 詢常態分 的函數,查 佈 第一個 170 就是要 的數 ,第二個查 值 170 為該 常態分 的平均數,佈 5 是標準差, FALSE 表 示要 的是機率密度。查
  • 19. 第一節 常態分 的特性佈 ( 14 ) ? 若要 負無限大到查 170 的機率(同樣是 N(170, 25) ),鍵入 ? 「 =NORMDIST(170,170,5,TRUE) 」 , 其 中 TRUE 表示要 的是累積機率,得到查 0.5 。這 表示在平均數為 170 ,變異數為 25 的常態分 中,負無限大到佈 170 的機率就是 0.5 ,也就 是說 170 左邊的面積佔 0.5 。
  • 20. 第一節 常態分 的特性佈 ( 15 ) ? 假 如 我 們 會 想 知 道 中 間 的 80% ( 或 90% , 95% 等)的成年男子的身高介在那裡至 那裡之間。如果身高是平均數 170 ,標準差 5 的常態分 ,那麼佈 80% 的成年男子的身高將介 於 170± 某個範圍。以平均數 170 為中心點, 左右兩邊各佔 40% ,合計 80% 。 ? 這可利用下圖的累積分 函數圖窺知。在佈 Y 軸 上的 0.1 和 0.9 處往右劃至曲線,再往下劃至 X 軸即得,分別為 164 和 176 。身高在 164 和 176 之間的人佔 80% 。
  • 21. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 140 145 150 155 160 165 170 175 180 185 190 195 200 身 高 F(X)累積分佈函數
  • 22. 第一節 常態分 的特性佈 ( 16 ) ? 上圖的作法等於在計算累積分 函數的反函數佈 , Excel 提供了這項函數 NORMINV 。 ? 我們要算從分 的左邊起算,面積為佈 0.1 的數 是多少,以及面積為值 0.9 的數 為多少。值 ? 鍵入「 =NORMINV(0.1,170,5) 」得 163.59 , 這表示在平均數為 170 ,標準差為 5 的常態分 中,左邊起算到佈 163.59 的面積為 0.1 。 ? 鍵入「 =NORMINV(0.9,170,5) 」得 176.41 , 這表示從左邊起算至 176.41 的面積為 0.9 。因 此在 163.59 到 176.41 的數 占的面積為值 0.8 。
  • 23. 第一節 常態分 的特性佈 ( 17 ) ? 例子 1 ? 如果全國成年男性的身高為常態分 (嚴格的佈 說是非常近似常態分 ),平均數為佈 170 ,標 準差為 5 。身高在平均數上下 0.5 個標準差的 人約佔多少?在平均數上下 1 個標準差的人約 佔多少?在平均數上下 1.645 個標準差、上下 1.96 個標準差、上下 3 個標準差的人約佔多少 ?
  • 24. 第一節 常態分 的特性佈 ( 18 ) ? 作法 ? 已知 1 個標準差為 5 ,因此在平均數上下 0.5 個標準差的數 就是值 170±2.5 。即 167.5 和 172.5 。 ? 從負無限大到 167.5 的面積為 0.31 ,這可以利 用 NORMDIST 函 數 求 得 , 鍵 入 「 =NORMDIST(167.5,170,5,TRUE) 」 。 由 於 常態分 是左右對稱,因此從佈 172.5 到無限大 的面積也是 0.31 。扣除兩邊面積各 0.31 後, 中間 167.5 到 172.5 的面積就是 0.38 。
  • 25. 第一節 常態分 的特性佈 ( 19 ) ? 平均數上下 1 個標準差的數 為值 165 和 175 。 從負無限大到 165 的面積為 0.16 ,從負無限大 到 175 的面積為 0.84 。因此在平均數上下 1 個標準差之間的面積 0.68 。 ? 平均數上下 1.645 個標準差的數 為值 161.775 和 178.225 。從負無限大到 161.775 的面積為 0.05 ,從負無限大到 178.225 的面積為 0.95 。 因此在平均數上下 1.645 個標準差之間的面 積就是 0.90 。
  • 26. 第一節 常態分 的特性佈 ( 20 ) ? 平均數上下 1.96 個標準差的數 為值 160.2 和 179.8 。從負無限大到 160.2 的面積為 0.025 , 從負無限大到 179.8 的面積為 0.975 。 平均數 上下 1.96 個標準差之間的面積就是 0.95 。 ? 平均數上下 3 個標準差的數 為值 155 和 185 。 從負無限大到 155 的面積為 0.0014 ,從負無限 大到 185 的面積為 0.9987 。因此在平均數上下 3 個標準差之間的面積就是 0.9973 。
  • 27. 第一節 常態分 的特性佈 ( 21 ) ? 對任何的常態分 而言,平均數上下佈 0.5 個標 準差之間的面積為 0.38 ;上下 1 個標準差之 間的面積為 0.68 ;上下 1.645 個標準差之間的 面積為 0.90 ;上下 1.96 個標準差之間的面積 為 0.95 ; 上 下 3 個 標 準 差 之 間 的 面 積 為 0.997 。
  • 28. 第一節 常態分 的特性佈 ( 22 ) ? 例子 2 ? 假設某廠牌汽車電池的壽命是常態分 ,平均佈 數為 800 天,標準差為 100 天。現隨機抽取一 個汽車電池,其壽命小於 500 天的機率有多大 ?大於 1000 天的機率有多大?介於 700 天至 900 天的機率有多大? ? 如果該公司想訂定一個保固期,在保固期限內 可以免費更換電池,公司最多可以承擔 1% 的 免費更換,保固期應該定多久?
  • 29. 第一節 常態分 的特性佈 ( 23 ) ? 作法 ? 鍵入「 =NORMDIST(500,800,100,TRUE) 」得 0.001 ,因此小於 500 天的機率為 0.001 。 ? 鍵入「 =NORMDIST(1000,800,100,TRUE) 」得 0.977 ,這是小於 1000 天的機率。大於 1000 天的機率為 1 – 0.977 = 0.023 。
  • 30. 第一節 常態分 的特性佈 ( 24 ) ? 鍵入「 =NORMDIST(700,800,100,TRUE) 」得 0.159 。 鍵 入 「 =NORMDIST(900,800,100, TRUE) 」得 0.841 。介於 700 天到 900 天的機 率就是 0.841 – 0.159 = 0.683 。 ? 由於最多承擔 1% 的免費更換,等於要找到一 個電池壽命的天數, 其左邊的面積為 1% 。鍵 入「 =NORMINV(0.01,800,100) 」得 567 天。 電池壽命小於 567 天的機率為 1% 。
  • 31. 第二節 標準常態分佈( 1 ) ? 標準常態分 (佈 standard normal distribution ) ,又稱 Z 分 ,就是將平均數訂為佈 0 ,變異數 訂為 1 的常態分 。佈 ? 任何常態分 都可以換做標準常態分 ,只要佈 佈 它的 減去平均數再除以標準差。即值 σ ?? = X Z
  • 32. 第二節 標準常態分佈( 2 ) ? 此 Z 變項所形成的分 稱為標準常態分 ,又佈 佈 稱 Z 分 。此分 的機率密度函數為:佈 佈 ( ) 2 2 2 1 Z eZf ? = π ( ) 2 2 2 1 Z eZf ? = π
  • 33. 0 0.1 0.2 0.3 0.4 0.5 -3 -2 -1 0 1 2 3 Z f(Z) Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈 Z 分 的機率密度函數圖佈
  • 34. Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈 Z 分 的累積分 函數圖佈 佈 0 0.2 0.4 0.6 0.8 1 -3 -2 -1 0 1 2 3 Z F(Z)累積分佈函數
  • 35. 第二節 標準常態分佈( 3 ) ? 對 Z 分 而言,其 介於佈 值 ±0.5 的機率為 38% ;其 介於值 ±1 的機率為 68% ;介於 ±1.645 的機率為 90% ,介於 ±1.96 的機率為 95% ,介於 ±3 的機率為 99.7% 。 ? 定義 zα/2 為 Z 分 「右邊」起算面積為佈 ?? 2 的 z ,如下圖所示,由於值 Z 分 左右對稱於佈 0 ,因此 ? z1?α/2 = - zα/2 ? Z 介於 - zα/2 是 zα/2 的機率為 1- α : ? P(- zα/2 < Z < zα/2 ) = 1- α
  • 37. 第二節 標準常態分佈( 4 ) ? 利用 Excel 計算 Z 分 的累積分 函數及其反佈 佈 函數,除了可以援用上述常態分 的函數佈 NORMDIST 和 NORMINV 外(此時請鍵入平 均數 0 ,標準差 1 。)還可以利用 NORMSDIST 和 NORMSINV 。 ? 不過若要計算 Z 分 的機率密度函數,還得用佈 NORMDIST ,因為 NORMSDIST 只能計算累 積分 函數。佈
  • 38. 第二節 標準常態分佈( 5 ) ? 在進行線性轉換之前, X 變項是常態分 ,由佈 於線性轉換不會改變其分 形狀,因此佈 Z 變項 仍是常態分 。佈 ? 如果 X 變項原本就不是常態分 ,即使進行線佈 性轉換成為 Z 變項,並不使得 Z 變項變為常態 。
  • 39. 第三節 峰度與偏態 ( 1 ) ? 峰度( kurtosis )和偏態( skewness )常被分 別用於描述資料分 的高度和左右對稱性。佈 ? 常態分 的峰度等於佈 0 。如果資料的峰度大於 0 ,那麼該資料的分 較高聳且狹窄,稱為高佈 狹峰分 (佈 platykurtic distribution )。 ? 如果峰度小於 0 ,資料的分 較平坦且 闊,佈 寬 稱為低闊峰分 (佈 leptokurtic distribution )。
  • 41. 第三節 峰度與偏態 ( 2 ) ? 峰度的公式是 ? 如果是樣本的話,峰度為: 3 )( 4 4 ? ? σ ?XE ( ) ( )( )( ) ( ) ( )( )32 13 321 1 24 ?? ? ? ? ? ? ? ? ? ? ? ?? ? ? ?? ? ? ? ??? + ∑ NN N S XX NNN NN i
  • 42. 第三節 峰度與偏態 ( 3 ) ? Excel 資料分析的「敘述統計」功能可計算峰 度。 ? 或利用 KURT 的函數。例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入「 =KURT(1,2,3,4,5,6,7) 」就得峰 度 -1.2 。該 小於值 0 ,因為 1 到 7 這些 的分值 比常態分 來得平坦。佈 佈 ? 如果數 換為值 1, 2, 2, 2, 2, 2, 3 ,此 7 個 的分值 中間非常 峭(佈 陡 2 的次數非常多),鍵入 「 =KURT(1,2,2,2,2,2,3) 」得峰度為 3 。
  • 43. 第三節 峰度與偏態 ( 4 ) ? 偏態也和峰度一樣在描述資料分 的形狀,如佈 果分數往右邊延伸,其偏態 會大於值 0 ,故稱 正偏態或右偏態。 ? 如果分數往左邊延伸,偏態 小於值 0 ,故稱負 偏態或左偏態;如果對稱分 ,偏態 等於佈 值 0 。 ? 第三章變異量數的圖 2(c) 就是負(左)偏態, 2(d) 則是正(右)偏態。
  • 44. 第三節 峰度與偏態 ( 5 ) ? 偏態的公式為 ? 如果是樣本的話,則是: 3 3 )( σ ??XE ( )( ) 3 21 ∑ ?? ? ? ?? ? ? ? ?? S XX NN N i
  • 45. 第三節 峰度與偏態 ( 6 ) ? Excel 的 SKEW 的函數可用來計算偏態。 ? 例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入 「 =SKEW(1,2,3,4,5,6,7) 」得偏態為 0 。 ? 數 換為值 1, 1, 1, 1, 2, 3, 4 ,此 7 個 左邊(數值 較小者)較多,右邊較少,因此是右偏態。值 鍵入「 =SKEW(1,1,1,1,2,3,4) 」得偏態為 1.15 。 ? 如果是 1, 2, 3, 4, 4, 4, 4 ,此 7 個 右邊(數值 值 較大者)較多,左邊較少,因此是左偏態,鍵 入「 =SKEW(1,2,3,4,4,4,4) 」得偏態為 -1.15 。