颁丑04高斯分佈2. 第一節 常態分 的特性 (佈 1 )
? 如果調 台灣查 1000 位成年男性的身高,將會
發現身高特別高和特別低的人佔極少數,絕大
多數的人身高都在中間(例如 170 公分)附近
。
? 如果這 1000 人的平均身高是 170 公分,那麼
身高離 170 公分越遠的人,所佔的比例就越
少。簡單的說,大略呈現以 170 公分為中心,
並往兩旁遞減的分 圖。如下圖所示。佈
4. 第一節 常態分 的特性 (佈 2 )
? 如果調 的是體重、收入、智力等變項,也很查
可能出現類似上圖的分 。佈
? 上圖的分 是間斷的,可是理論上身高是連續佈
的,因為任何兩個人之間,存在第三個人,其
身高介在他們之間。
? 如果調 更多的人(如查 10 萬人),那麼上圖
的長條圖中間斷現象逐漸會消除。一旦調 人查
數非常之大,那麼上圖的長條圖會變成平滑的
曲線圖,如下圖中的平滑曲線所示。
6. 第一節 常態分 的特性 (佈 3 )
? 上圖的平滑線左右對稱,好像一座山,或者類
似「銅鐘」的形狀。也就是中間最高,往兩旁
遞減,這就是所謂的常態分 (佈 normal
distribution )。
? 由於是左右對稱,且由中間往兩旁遞減,因此
中心點最高的位置就是平均數,也就是 數、眾
和中位數,三者合而為一。
? 常態分 是連續的曲線,但是現實中,並沒有佈
連續的曲線存在。頂多只是類似常態分 ,可佈
是當樣本數很大時,會越接近常態分 。佈
7. 第一節 常態分 的特性 (佈 4 )
? 早在 18 世紀就有數學家和天文學家開始探討
這樣的一條曲線。德國天文家兼數學家高斯
( Carl Friedrich Gauss , 1777-1855 )利用常
態分 研究天文學觀察中誤差的分 情形,因佈 佈
此常態分 又稱高斯分佈 佈。
? 後來高登爵士( Sir Francis Galton, 1822-
1911 )將高斯分 用於心理測驗的研究中。佈
? 另一位著名的數學和統計學家 Karl Pearson
( 1857-1936 )將高斯分 稱為常態分 。佈 佈
8. 第一節 常態分 的特性 (佈 5 )
? 這條曲線的數學函數為
? 其中? = 3.1416 , e 是自然對數之底
2.7183 , X 介在正負無限大,?是平均數,?
是標準差。一旦確定平均數和標準差後,帶入
公式算得 f(X) 。
( )
2
2
1
2
2
1
,;
?
?
?
?
?
? ?
?
== σ
?
πσ
σ?
X
eXfY
9. 第一節 常態分 的特性 (佈 6 )
? 要決定常態分 的形狀,就必須知道平均數佈 ?
和變異數??
(或者標準差?)。常態分 取決佈
於兩個參數( parameter ):?和??
。
? 只要設定這兩個參數,就可以畫出那條常態分
曲線。只要佈 ?或??
不同,曲線就不同。
? 這也就是為何在上述公式裡,表明
? 其中分號後面代表的就是決定這個函數的參數。
假如變數 X 服從常態分 ,平均數為佈 ?,變異
數為? 2
,則寫成: X ~ N(?, σ2
) ,其中 ~ 表示
服從, N 表示常態分 。佈
),;( 2
σ?Xf
10. 第一節 常態分 的特性 (佈 7 )
? 下圖(機率密度函數圖, probability density
function plot )呈現三條常態分 曲線,其中佈 A
曲線的平均數和標準差分別為 170 和 5 , B 曲
線的平均數和標準差分別為 175 和 5 , C 曲線
的平均數和標準差分別為 170 和 10 。
? 比較 A 和 B ,可以發現當平均數不同而標準差
相同時,整個曲線只是位移而已。
? 比較 A 和 C 可以發現如果標準差不同,整個圖
形就改變了,即使他們的平均數相同。例如 C
便得比 A 來得平坦多了,那是因為 C 的標準差
遠比 A 來得大所致。
12. 第一節 常態分 的特性 (佈 8 )
? 如果是間斷變項,例如骰子出現的點數,那麼
就可以說出現 3 點的機率( probability )是
1/6 ,即 p(X = 3) = 1/6 。
? 換做連續變項,不宜宣稱 X 等於某個 的機率值
。
? 假如把身高當作連續變項,那麼身高是 170 公
分整的機率是多少?嚴格的說,在連續變項中
任何一點出現的機率都是 0 ,因此 170 公分整
的機率等於 0 。
13. 第一節 常態分 的特性 (佈 9 )
? 連續變項既然無點出現的機率,改稱為機率密
度( probability density )。在平均數為 170 ,
標準差為 5 的常態分 中佈 170 的機率密度等於
? ( ) 0798.0
25
1
170
2
5
170170
2
1
==
?
?
?
?
?
? ?
?
ef
π
14. 第一節 常態分 的特性佈
( 10 )
? 機率密度函數圖只能看出各個點的機率密度,
但機率密度無多大意義,因此該圖並不實用。
? 對使用者而言,不關心 170 公分的機率密度,
而是關心 170 公分以下的機率,或是 165 至
175 的機率,因此應該換另外一個能 呈現這夠
種意義的圖。
? 就數學而言,要得到這樣的圖,必須透過積分
以計算某段區間的面積。令整個曲線所涵蓋面
積為 1 ,那麼某段區間所佔的面積就是該區段
的機率。
15. 第一節 常態分 的特性佈
( 11 )
? 下圖呈現常態分 (平均數佈 170 ,標準差 5 )
的累積分 函數圖(佈 cumulative distribution
function )。
? 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此,輕易算得機率了。
17. 第一節 常態分 的特性佈
( 12 )
? 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此算得機率。
? 不過畢竟要如此計算機率,必須先有此累積分
函數圖。可惜,通常不易獲得該圖。此外用佈
畫線的方式也只能得到粗略的數 。值
18. 第一節 常態分 的特性佈
( 13 )
? 一般的統計學教科書的附錄裡,都可以 到常查
態分 的機率密度函數和累積分 函數。佈 佈
? Excel 的函數 NORMDIST 和 NORMINV ,直
接可以 詢。 例如要 詢平均數為查 查 170 ,變異
數為 25 的常態分 ,寫成佈 N(170, 25) , 170 的
機 率 密 度 , 就 鍵 入
「 =NORMDIST(170,170,5,FALSE) 」得機率密
度為 0.0798 。
? 其中 NORMDIST 就是 詢常態分 的函數,查 佈
第一個 170 就是要 的數 ,第二個查 值 170 為該
常態分 的平均數,佈 5 是標準差, FALSE 表
示要 的是機率密度。查
19. 第一節 常態分 的特性佈
( 14 )
? 若要 負無限大到查 170 的機率(同樣是 N(170,
25) ),鍵入
? 「 =NORMDIST(170,170,5,TRUE) 」 , 其 中
TRUE 表示要 的是累積機率,得到查 0.5 。這
表示在平均數為 170 ,變異數為 25 的常態分
中,負無限大到佈 170 的機率就是 0.5 ,也就
是說 170 左邊的面積佔 0.5 。
20. 第一節 常態分 的特性佈
( 15 )
? 假 如 我 們 會 想 知 道 中 間 的 80% ( 或
90% , 95% 等)的成年男子的身高介在那裡至
那裡之間。如果身高是平均數 170 ,標準差 5
的常態分 ,那麼佈 80% 的成年男子的身高將介
於 170± 某個範圍。以平均數 170 為中心點,
左右兩邊各佔 40% ,合計 80% 。
? 這可利用下圖的累積分 函數圖窺知。在佈 Y 軸
上的 0.1 和 0.9 處往右劃至曲線,再往下劃至 X
軸即得,分別為 164 和 176 。身高在 164 和
176 之間的人佔 80% 。
22. 第一節 常態分 的特性佈
( 16 )
? 上圖的作法等於在計算累積分 函數的反函數佈
, Excel 提供了這項函數 NORMINV 。
? 我們要算從分 的左邊起算,面積為佈 0.1 的數
是多少,以及面積為值 0.9 的數 為多少。值
? 鍵入「 =NORMINV(0.1,170,5) 」得 163.59 ,
這表示在平均數為 170 ,標準差為 5 的常態分
中,左邊起算到佈 163.59 的面積為 0.1 。
? 鍵入「 =NORMINV(0.9,170,5) 」得 176.41 ,
這表示從左邊起算至 176.41 的面積為 0.9 。因
此在 163.59 到 176.41 的數 占的面積為值 0.8 。
23. 第一節 常態分 的特性佈
( 17 )
? 例子 1
? 如果全國成年男性的身高為常態分 (嚴格的佈
說是非常近似常態分 ),平均數為佈 170 ,標
準差為 5 。身高在平均數上下 0.5 個標準差的
人約佔多少?在平均數上下 1 個標準差的人約
佔多少?在平均數上下 1.645 個標準差、上下
1.96 個標準差、上下 3 個標準差的人約佔多少
?
24. 第一節 常態分 的特性佈
( 18 )
? 作法
? 已知 1 個標準差為 5 ,因此在平均數上下 0.5
個標準差的數 就是值 170±2.5 。即 167.5 和
172.5 。
? 從負無限大到 167.5 的面積為 0.31 ,這可以利
用 NORMDIST 函 數 求 得 , 鍵 入
「 =NORMDIST(167.5,170,5,TRUE) 」 。 由 於
常態分 是左右對稱,因此從佈 172.5 到無限大
的面積也是 0.31 。扣除兩邊面積各 0.31 後,
中間 167.5 到 172.5 的面積就是 0.38 。
25. 第一節 常態分 的特性佈
( 19 )
? 平均數上下 1 個標準差的數 為值 165 和 175 。
從負無限大到 165 的面積為 0.16 ,從負無限大
到 175 的面積為 0.84 。因此在平均數上下 1
個標準差之間的面積 0.68 。
? 平均數上下 1.645 個標準差的數 為值 161.775
和 178.225 。從負無限大到 161.775 的面積為
0.05 ,從負無限大到 178.225 的面積為 0.95 。
因此在平均數上下 1.645 個標準差之間的面
積就是 0.90 。
26. 第一節 常態分 的特性佈
( 20 )
? 平均數上下 1.96 個標準差的數 為值 160.2 和
179.8 。從負無限大到 160.2 的面積為 0.025 ,
從負無限大到 179.8 的面積為 0.975 。 平均數
上下 1.96 個標準差之間的面積就是 0.95 。
? 平均數上下 3 個標準差的數 為值 155 和 185 。
從負無限大到 155 的面積為 0.0014 ,從負無限
大到 185 的面積為 0.9987 。因此在平均數上下
3 個標準差之間的面積就是 0.9973 。
27. 第一節 常態分 的特性佈
( 21 )
? 對任何的常態分 而言,平均數上下佈 0.5 個標
準差之間的面積為 0.38 ;上下 1 個標準差之
間的面積為 0.68 ;上下 1.645 個標準差之間的
面積為 0.90 ;上下 1.96 個標準差之間的面積
為 0.95 ; 上 下 3 個 標 準 差 之 間 的 面 積 為
0.997 。
28. 第一節 常態分 的特性佈
( 22 )
? 例子 2
? 假設某廠牌汽車電池的壽命是常態分 ,平均佈
數為 800 天,標準差為 100 天。現隨機抽取一
個汽車電池,其壽命小於 500 天的機率有多大
?大於 1000 天的機率有多大?介於 700 天至
900 天的機率有多大?
? 如果該公司想訂定一個保固期,在保固期限內
可以免費更換電池,公司最多可以承擔 1% 的
免費更換,保固期應該定多久?
29. 第一節 常態分 的特性佈
( 23 )
? 作法
? 鍵入「 =NORMDIST(500,800,100,TRUE) 」得
0.001 ,因此小於 500 天的機率為 0.001 。
? 鍵入「 =NORMDIST(1000,800,100,TRUE) 」得
0.977 ,這是小於 1000 天的機率。大於 1000
天的機率為 1 – 0.977 = 0.023 。
30. 第一節 常態分 的特性佈
( 24 )
? 鍵入「 =NORMDIST(700,800,100,TRUE) 」得
0.159 。 鍵 入 「 =NORMDIST(900,800,100,
TRUE) 」得 0.841 。介於 700 天到 900 天的機
率就是 0.841 – 0.159 = 0.683 。
? 由於最多承擔 1% 的免費更換,等於要找到一
個電池壽命的天數, 其左邊的面積為 1% 。鍵
入「 =NORMINV(0.01,800,100) 」得 567 天。
電池壽命小於 567 天的機率為 1% 。
31. 第二節 標準常態分佈( 1 )
? 標準常態分 (佈 standard normal distribution )
,又稱 Z 分 ,就是將平均數訂為佈 0 ,變異數
訂為 1 的常態分 。佈
? 任何常態分 都可以換做標準常態分 ,只要佈 佈
它的 減去平均數再除以標準差。即值
σ
??
=
X
Z
32. 第二節 標準常態分佈( 2 )
? 此 Z 變項所形成的分 稱為標準常態分 ,又佈 佈
稱 Z 分 。此分 的機率密度函數為:佈 佈
( ) 2
2
2
1
Z
eZf
?
=
π
( ) 2
2
2
1
Z
eZf
?
=
π
34. Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈
Z 分 的累積分 函數圖佈 佈
0
0.2
0.4
0.6
0.8
1
-3 -2 -1 0 1 2 3
Z
F(Z)累積分佈函數
35. 第二節 標準常態分佈( 3 )
? 對 Z 分 而言,其 介於佈 值 ±0.5 的機率為
38% ;其 介於值 ±1 的機率為 68% ;介於
±1.645 的機率為 90% ,介於 ±1.96 的機率為
95% ,介於 ±3 的機率為 99.7% 。
? 定義 zα/2
為 Z 分 「右邊」起算面積為佈 ?? 2 的
z ,如下圖所示,由於值 Z 分 左右對稱於佈
0 ,因此
? z1?α/2
= - zα/2
? Z 介於 - zα/2
是 zα/2
的機率為 1- α :
? P(- zα/2
< Z < zα/2
) = 1- α
37. 第二節 標準常態分佈( 4 )
? 利用 Excel 計算 Z 分 的累積分 函數及其反佈 佈
函數,除了可以援用上述常態分 的函數佈
NORMDIST 和 NORMINV 外(此時請鍵入平
均數 0 ,標準差 1 。)還可以利用
NORMSDIST 和 NORMSINV 。
? 不過若要計算 Z 分 的機率密度函數,還得用佈
NORMDIST ,因為 NORMSDIST 只能計算累
積分 函數。佈
38. 第二節 標準常態分佈( 5 )
? 在進行線性轉換之前, X 變項是常態分 ,由佈
於線性轉換不會改變其分 形狀,因此佈 Z 變項
仍是常態分 。佈
? 如果 X 變項原本就不是常態分 ,即使進行線佈
性轉換成為 Z 變項,並不使得 Z 變項變為常態
。
39. 第三節 峰度與偏態 ( 1 )
? 峰度( kurtosis )和偏態( skewness )常被分
別用於描述資料分 的高度和左右對稱性。佈
? 常態分 的峰度等於佈 0 。如果資料的峰度大於
0 ,那麼該資料的分 較高聳且狹窄,稱為高佈
狹峰分 (佈 platykurtic distribution )。
? 如果峰度小於 0 ,資料的分 較平坦且 闊,佈 寬
稱為低闊峰分 (佈 leptokurtic distribution )。
41. 第三節 峰度與偏態 ( 2 )
? 峰度的公式是
? 如果是樣本的話,峰度為:
3
)(
4
4
?
?
σ
?XE
( )
( )( )( )
( )
( )( )32
13
321
1
24
??
?
?
?
?
?
?
?
?
?
?
??
?
?
??
?
? ?
???
+
∑ NN
N
S
XX
NNN
NN i
42. 第三節 峰度與偏態 ( 3 )
? Excel 資料分析的「敘述統計」功能可計算峰
度。
? 或利用 KURT 的函數。例如資料為 1, 2, 3, 4, 5,
6, 7 ,鍵入「 =KURT(1,2,3,4,5,6,7) 」就得峰
度 -1.2 。該 小於值 0 ,因為 1 到 7 這些 的分值
比常態分 來得平坦。佈 佈
? 如果數 換為值 1, 2, 2, 2, 2, 2, 3 ,此 7 個 的分值
中間非常 峭(佈 陡 2 的次數非常多),鍵入
「 =KURT(1,2,2,2,2,2,3) 」得峰度為 3 。
43. 第三節 峰度與偏態 ( 4 )
? 偏態也和峰度一樣在描述資料分 的形狀,如佈
果分數往右邊延伸,其偏態 會大於值 0 ,故稱
正偏態或右偏態。
? 如果分數往左邊延伸,偏態 小於值 0 ,故稱負
偏態或左偏態;如果對稱分 ,偏態 等於佈 值
0 。
? 第三章變異量數的圖 2(c) 就是負(左)偏態,
2(d) 則是正(右)偏態。
44. 第三節 峰度與偏態 ( 5 )
? 偏態的公式為
? 如果是樣本的話,則是:
3
3
)(
σ
??XE
( )( )
3
21
∑ ??
?
?
??
?
? ?
?? S
XX
NN
N i
45. 第三節 峰度與偏態 ( 6 )
? Excel 的 SKEW 的函數可用來計算偏態。
? 例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入
「 =SKEW(1,2,3,4,5,6,7) 」得偏態為 0 。
? 數 換為值 1, 1, 1, 1, 2, 3, 4 ,此 7 個 左邊(數值
較小者)較多,右邊較少,因此是右偏態。值
鍵入「 =SKEW(1,1,1,1,2,3,4) 」得偏態為
1.15 。
? 如果是 1, 2, 3, 4, 4, 4, 4 ,此 7 個 右邊(數值 值
較大者)較多,左邊較少,因此是左偏態,鍵
入「 =SKEW(1,2,3,4,4,4,4) 」得偏態為 -1.15 。