狠狠撸

狠狠撸Share a Scribd company logo
簡單線性迴歸模型 18.1  前言 18.2  簡單線性迴歸模型 18.3  簡單線性迴歸模型的估計量 18.4  簡單線性迴歸模型的驗証 18.5  迴歸模型的殘差分析
1  前言    本章介绍「简单线性迴归模型」的理论,主要从「為什麼」的观点来探讨,其包括简单线性迴归的模型、模型的估计、模型的验証等。文中也强调并叙述利用线性迴归分析技术所应注意的课题。虽然本章是针对简单线性迴归模型的理论,但其理念亦可用到「复线性迴归模型」。「复线性迴归模型」将另闢章节讨论。
2  簡單線性迴歸模型 簡單線性迴歸模型是假設『 依變數  Y  之期望值為自變數  X  之線性函數 』,即所有  Y i  之期望值均落在一直線上,此稱之為『迴歸線性假設( The linearity of regresssion )或迴歸共線假設』。  《圖 18.2-1 》簡單線性迴歸模型
3  簡單線性迴歸模型的估計量 簡單線性迴歸分析的目的,是要瞭解是否能用自變數  X  來解釋依變數  Y  ,亦即變數  X  和  Y  的關係是否密切,而足以適當地用一種線性方程式來表示。 換言之,即是要求出一條經過這  n  個點(資料對)的最適線性方程式(稱之為 線性迴歸方程式或迴歸直線 ),即可由變數  X  的值求出  Y  的值。 一般求出此線性迴歸方程式的方法是利用最小平方法:即是利用這  n  個點,求出未知參數  α  和  β  的估計量,分別表示為 α  和  β 。
4  簡單線性迴歸模型的驗証   依變數是要被預測的變數,也是迴歸問題的中心,由於依變數的結果無法事先預知,因此必須利用其他變數(因素)來解釋它。    要找出適當的變數,首先必須要確立此變數與依變數是否有因果關係?因果關係愈強愈佳。    除了因果關係的考慮外,下一步即要選擇關係密切者。這可利用圖示法來判斷,若圖形顯示兩個變數成「非水平的狹窄帶狀」關係時,此變數應是一適當的自變數,而且圖形愈狹窄愈佳。  4.1  首先確立依變數,並找出適當的自變數
4.2  求出簡單線性迴歸方程式 將所收集到的資料代入 (1) 式中,求出截距  a  和斜率  b ,即可獲得簡單線性迴歸方程式。  ..... (1) 簡單線性迴歸方程式:
4.3  檢定參數 ( 理論的截距和斜率 ) 斜率的檢定 虛無假設: β = 0 對立假設: β≠0  1 截距的推論檢定 虛無假設: α = 0 對立假設: α ≠0  2
4.4  判定簡單線性迴歸模型的適合性 判定係數 若「迴歸變異」愈趨近於「總變異」,則表示依變數的變化能由迴歸模型來解釋,此時表示此迴歸模型極合適。「迴歸變異」與「總變異」的比值稱為判定係數 ,表為  R 2 , 0≤R 2 ≤1 。  2 模型適合性的檢定 虛無假設:迴歸模型不適合 (解釋能力極低或斜率為零) 對立假設:迴歸模型適合 (解釋能力高或斜率不為零 )   1
4.5  檢定模型的假設   如果可以獲得合適的線性迴歸方程式,但此迴歸模型是否滿足各項的假設呢?因為迴歸模型的建立是根基於這些假設。顯然,若其偏離假設太遠,則此迴歸模型就有問題,所以有必要去檢視這些假設是否成立。這些假設的檢視稱為殘差分析,請見本章 18.5 節的討論。
4.6  利用簡單線性迴歸模型作預測 在某特定值時之期望值的預測 ( 1-r ) %  的信賴區間的估計值為: 1 《圖 18.4-1 》個別反應值的預測圖示  在某特定值時之個別反應值的預測 ( 1-r ) %  的信賴區間的估計值為: 2
5  迴歸模型的殘差分析   判定假設的正確性,先假定「迴歸模型的假設是正確,然後再利用現有的資料去驗証其正確性」。此現有的資料就是殘差,因為所有變化的資料均在殘差內,所以利用分析殘差的結果來判斷假設的正確性是合理可行的,此謂之「殘差分析」。   但必須知道「即使所有的假設均通過驗証,也不能完全斷言迴歸模式是正確無誤,而僅能表示以現有的資料,並不能判定其不合理」。   要分析殘差以驗証假設,可用圖示法來分析: A.  繪殘差次數分配圖,判定是否為常態分配。 B.  依收集資料的順序,繪殘差點圖。 C.  繪殘差  e i   與迴歸估計值  y i   的對應圖。 D.  繪殘差  e i  與自變數  X (即  x i )的對應圖。
5.1  殘差相關變數和意義 未標準化的預測量(估計量: PRED ) 估計量為    , i=1 、 2 、 ... 、 n 估計值為     , i=1 、 2 、 ... 、 n  1 Leverage  值( Hat  矩陣對角元素  h  i : LEVER ) 2 預測值的標準差( SPERED ) 3
標準化的預測量( ZPRED ) 4 未標準化的殘差( RESID ) 5 標準化殘差( ZRESID ) 6 Studentized 殘差( SRESID ) 7
調整的預測量( ADJPRED ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 8 刪除型殘差( Deleted residual : DRESID ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 9 Studentized  刪除型殘差( SDRESID ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 10
Mahalanobis 距離( MAHAL ) 11 Cook- 距離( COOK ) 12 Durbin-Watson  統計量( DW : DURBIN ) 13
5.2  驗証常態分配   要驗証誤差變數是否具常態分配,可繪殘差次數分配圖,由該圖可概略判斷母群體的誤差變數是否是常態分配?且其平均數(期望值)是否為零。   另一種方法是利用「常態點圖( normal plot )」,將每個殘差分別描繪在圖上。若誤差變數是常態分配,則圖上點之連線應近似一直線。
5.3  驗証變異數(標準差)相等 《圖 18.5-1 》標準常態分配機率圖  繪標準化殘差次數分配圖 1 繪殘差  e i   與迴歸估計值  y i  的對應圖 2 繪殘差  e i   與自變數  X  的對應圖 3
5.4  驗証線性假設 若自變數只有一個,則可繪依變數和自變數的散佈圖,檢視此圖是否近似直線。若否,就不應該以此兩變數作簡單迴歸分析。 繪「殘差  e i   與迴歸估計值  y i   的對應圖」和「殘差  e i   與自變數  X  的對應圖」。若圖型顯示不成一「以零為中心的水平帶狀」時,也表示其關係並非線性。此時也可利用將依變數轉換的方式處理(如取對數或開根號等)。  1 2
5.5  驗証獨立性   依收集資料的先後順序,繪殘差點圖。若資料是彼此獨立時,殘差應會隨機散佈在圖上,換言之,殘差應不會成群出現在零線(即原點)的某一方,否則表示非獨立。除了圖示法外,亦可利用  Durbin-Watson  統計量,或其他無母數分析法,如「符號檢定( sign-test )」等來檢定獨立性,有興趣的讀者可參考相關書籍。
5.6  例外值 (Outliers) 的處理 《圖 18.5-3 》殘差的例外值
5.7  資料轉換 適合簡單線性迴歸模型。 1 簡單線性迴歸模型不顯著,可再加入其他自變數於模型內(複迴歸分析)。 2
簡單線性迴歸模型雖可用,但適合度不高,可作對數轉換或二次曲線模型。 3 簡單線性迴歸模型不適用,可作開根號轉換或二次曲線模型。 4

More Related Content

簡單線性迴歸模型 Regression(4 1)

  • 1. 簡單線性迴歸模型 18.1 前言 18.2 簡單線性迴歸模型 18.3 簡單線性迴歸模型的估計量 18.4 簡單線性迴歸模型的驗証 18.5 迴歸模型的殘差分析
  • 2. 1 前言   本章介绍「简单线性迴归模型」的理论,主要从「為什麼」的观点来探讨,其包括简单线性迴归的模型、模型的估计、模型的验証等。文中也强调并叙述利用线性迴归分析技术所应注意的课题。虽然本章是针对简单线性迴归模型的理论,但其理念亦可用到「复线性迴归模型」。「复线性迴归模型」将另闢章节讨论。
  • 3. 2 簡單線性迴歸模型 簡單線性迴歸模型是假設『 依變數 Y 之期望值為自變數 X 之線性函數 』,即所有 Y i 之期望值均落在一直線上,此稱之為『迴歸線性假設( The linearity of regresssion )或迴歸共線假設』。 《圖 18.2-1 》簡單線性迴歸模型
  • 4. 3 簡單線性迴歸模型的估計量 簡單線性迴歸分析的目的,是要瞭解是否能用自變數 X 來解釋依變數 Y ,亦即變數 X 和 Y 的關係是否密切,而足以適當地用一種線性方程式來表示。 換言之,即是要求出一條經過這 n 個點(資料對)的最適線性方程式(稱之為 線性迴歸方程式或迴歸直線 ),即可由變數 X 的值求出 Y 的值。 一般求出此線性迴歸方程式的方法是利用最小平方法:即是利用這 n 個點,求出未知參數 α 和 β 的估計量,分別表示為 α 和 β 。
  • 5. 4 簡單線性迴歸模型的驗証   依變數是要被預測的變數,也是迴歸問題的中心,由於依變數的結果無法事先預知,因此必須利用其他變數(因素)來解釋它。   要找出適當的變數,首先必須要確立此變數與依變數是否有因果關係?因果關係愈強愈佳。   除了因果關係的考慮外,下一步即要選擇關係密切者。這可利用圖示法來判斷,若圖形顯示兩個變數成「非水平的狹窄帶狀」關係時,此變數應是一適當的自變數,而且圖形愈狹窄愈佳。 4.1 首先確立依變數,並找出適當的自變數
  • 6. 4.2 求出簡單線性迴歸方程式 將所收集到的資料代入 (1) 式中,求出截距 a 和斜率 b ,即可獲得簡單線性迴歸方程式。 ..... (1) 簡單線性迴歸方程式:
  • 7. 4.3 檢定參數 ( 理論的截距和斜率 ) 斜率的檢定 虛無假設: β = 0 對立假設: β≠0 1 截距的推論檢定 虛無假設: α = 0 對立假設: α ≠0 2
  • 8. 4.4 判定簡單線性迴歸模型的適合性 判定係數 若「迴歸變異」愈趨近於「總變異」,則表示依變數的變化能由迴歸模型來解釋,此時表示此迴歸模型極合適。「迴歸變異」與「總變異」的比值稱為判定係數 ,表為 R 2 , 0≤R 2 ≤1 。 2 模型適合性的檢定 虛無假設:迴歸模型不適合 (解釋能力極低或斜率為零) 對立假設:迴歸模型適合 (解釋能力高或斜率不為零 ) 1
  • 9. 4.5 檢定模型的假設   如果可以獲得合適的線性迴歸方程式,但此迴歸模型是否滿足各項的假設呢?因為迴歸模型的建立是根基於這些假設。顯然,若其偏離假設太遠,則此迴歸模型就有問題,所以有必要去檢視這些假設是否成立。這些假設的檢視稱為殘差分析,請見本章 18.5 節的討論。
  • 10. 4.6 利用簡單線性迴歸模型作預測 在某特定值時之期望值的預測 ( 1-r ) % 的信賴區間的估計值為: 1 《圖 18.4-1 》個別反應值的預測圖示 在某特定值時之個別反應值的預測 ( 1-r ) % 的信賴區間的估計值為: 2
  • 11. 5 迴歸模型的殘差分析   判定假設的正確性,先假定「迴歸模型的假設是正確,然後再利用現有的資料去驗証其正確性」。此現有的資料就是殘差,因為所有變化的資料均在殘差內,所以利用分析殘差的結果來判斷假設的正確性是合理可行的,此謂之「殘差分析」。   但必須知道「即使所有的假設均通過驗証,也不能完全斷言迴歸模式是正確無誤,而僅能表示以現有的資料,並不能判定其不合理」。   要分析殘差以驗証假設,可用圖示法來分析: A. 繪殘差次數分配圖,判定是否為常態分配。 B. 依收集資料的順序,繪殘差點圖。 C. 繪殘差 e i 與迴歸估計值 y i 的對應圖。 D. 繪殘差 e i 與自變數 X (即 x i )的對應圖。
  • 12. 5.1 殘差相關變數和意義 未標準化的預測量(估計量: PRED ) 估計量為    , i=1 、 2 、 ... 、 n 估計值為    , i=1 、 2 、 ... 、 n 1 Leverage 值( Hat 矩陣對角元素 h i : LEVER ) 2 預測值的標準差( SPERED ) 3
  • 13. 標準化的預測量( ZPRED ) 4 未標準化的殘差( RESID ) 5 標準化殘差( ZRESID ) 6 Studentized 殘差( SRESID ) 7
  • 14. 調整的預測量( ADJPRED ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 8 刪除型殘差( Deleted residual : DRESID ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 9 Studentized 刪除型殘差( SDRESID ) 估計量為         , i=1 、 2 、 ... 、 n 估計值為         , i=1 、 2 、 ... 、 n 10
  • 15. Mahalanobis 距離( MAHAL ) 11 Cook- 距離( COOK ) 12 Durbin-Watson 統計量( DW : DURBIN ) 13
  • 16. 5.2 驗証常態分配   要驗証誤差變數是否具常態分配,可繪殘差次數分配圖,由該圖可概略判斷母群體的誤差變數是否是常態分配?且其平均數(期望值)是否為零。   另一種方法是利用「常態點圖( normal plot )」,將每個殘差分別描繪在圖上。若誤差變數是常態分配,則圖上點之連線應近似一直線。
  • 17. 5.3 驗証變異數(標準差)相等 《圖 18.5-1 》標準常態分配機率圖 繪標準化殘差次數分配圖 1 繪殘差 e i 與迴歸估計值 y i 的對應圖 2 繪殘差 e i 與自變數 X 的對應圖 3
  • 18. 5.4 驗証線性假設 若自變數只有一個,則可繪依變數和自變數的散佈圖,檢視此圖是否近似直線。若否,就不應該以此兩變數作簡單迴歸分析。 繪「殘差 e i 與迴歸估計值 y i 的對應圖」和「殘差 e i 與自變數 X 的對應圖」。若圖型顯示不成一「以零為中心的水平帶狀」時,也表示其關係並非線性。此時也可利用將依變數轉換的方式處理(如取對數或開根號等)。 1 2
  • 19. 5.5 驗証獨立性   依收集資料的先後順序,繪殘差點圖。若資料是彼此獨立時,殘差應會隨機散佈在圖上,換言之,殘差應不會成群出現在零線(即原點)的某一方,否則表示非獨立。除了圖示法外,亦可利用 Durbin-Watson 統計量,或其他無母數分析法,如「符號檢定( sign-test )」等來檢定獨立性,有興趣的讀者可參考相關書籍。
  • 20. 5.6 例外值 (Outliers) 的處理 《圖 18.5-3 》殘差的例外值
  • 21. 5.7 資料轉換 適合簡單線性迴歸模型。 1 簡單線性迴歸模型不顯著,可再加入其他自變數於模型內(複迴歸分析)。 2