狠狠撸

第 10 章簡單線性迴歸：最小平方法

本章綜覽變異數分析不適合用來說明當某變數變動一單位時，另一變數變動的情形。本章將介紹另一種方法：迴歸分析 (regression analysis) 。迴歸分析 : 以數學和統計方法來確認一組變數中的系統性部分，並依此解釋過去的現象和預測未來。介紹單一變數的簡單線性迴歸模型 (simple linear regression model) 、最小平方法及其代數性質、衡量迴歸模型好壞的配適度指標等。

簡單線性迴歸模型簡單線性迴歸模型：利用一個線性模型來捕捉 {( X i , Y i ), i =1,.., n } 這組雙變量隨機變數中 Y i 的系統性部分 g ( X i ) 。利用條件均數： E( Y | X ) = g ( X )=α+β X ，其中 α ， β 為未知參數，需要我們去估計。可以將 Y 表示為 Y = α+β X + U , 其中 U 代表不能由 α+β X 所描述的 Y 行為，亦即 Y 與線性模型之間的誤差。

簡單線性迴歸模型迴歸模型中的變數 Y 稱作應變數 (dependent variable 或 regressand) 變數 X 稱作解釋變數 (explanatory variable 或 regressor) 。參數 α 和 β 稱作迴歸係數 (regression coefficient) 。 α : 截距項， β : 斜率。線性迴歸中的「線性」二字是指模型為參數 ( 而非變數 ) 的線性函數。 α + β X 2 , α + β log X 是線性迴歸模型。 α + X β 不是線性迴歸模型。

最小平方法估計迴歸係數最常用的方法之一就是普通最小平方 (ordinary least squares) ，又簡稱為最小平方法。最小平方法的「認定條件」是： X i , i=1,2,…,n 之值不為常數。除了上述認定條件之外，本章亦不對 ( X i , Y i ) 的隨機機制作任何限制。

最小平方法找 α 和 β 使模型誤差 U i 的平方和極小。採用誤差平方和是為了避免正負誤差之間互相抵銷。目標函數如下：最小平方法所找的就是使誤差平方和 ( 或其平均 ) 最小的那條直線。如果目標函數改變 ( 如 U i 的絕對值之和 ) ，就會產生不同的迴歸線。

簡單線性迴歸模型 Y X 可能的迴歸線誤差誤差

最小平方法為使目標函數之值最小，必須解出以下的一階條件 (first order condition) 。這兩個一階條件又稱作標準方程式 (normal equations) 。

最小平方法可從標準方程式中求出 α 和 β 的解，稱作最小平方估計式 (ordinary least squares estimator ，簡稱 OLS estimator) ，一般以若 X i 為常數，，則根本無法計算，這是為什麼需要「認定條件」的原因。

最小平方法將最小平方估計式代入設定的線性模型就可得到一條截距為，斜率為的直線，稱作估計的迴歸線 (estimated regression line) 。斜率係數估計式衡量 X 的邊際效果：當 X 變動一單位時，估計的迴歸線會預測應變數 Y 將變動個單位。截距係數則表示當 X 為 0 時，估計的迴歸線所預測的應變數 Y 。將樣本中的變數 X i 代入估計的迴歸線，即可求得估計的應變數。

最小平方法應變數 Y i 與估計所得到的應變數之間的差距稱為最小平方法的第 i 個殘差 (residual) 。估計的應變數之實現值稱為配適值 (fitted value) ，殘差的實現值稱為殘差值 (residual value) 。

最小平方法的代數性質在 Y i = α + β X i +U i 的典型模型設定下，最小平方法的殘差具有以下三種性質：以上的三條式子為一階條件的結果。在典型模型設定下，給定一組樣本觀察值之後，估計的迴歸線必然通過這一點。

简单线性迴归模型之比较

配適度的衡量不同的解釋變數可能都適合描述應變數 Y 的系統性部分。如果可以衡量迴歸線的配適度 (goodness of fit) ，就可以選擇配適度較高的迴歸線來描述應變數的系統性部分。所以配適度的衡量指標就可以作為比較不同迴歸模型的基準。例如：用坪數來解釋房價的配適度比用房間數來解釋房價的配適度高時，則前者是比較好的模型。

配適度的衡量 -- 平方和的分解以下為不受資料衡量單位影響的配適度指標的推導過程 : 上式中第一項稱為總平方和 (TSS) ，第二項為迴歸平方和 (RSS) ，第三項為殘差平方和 (ESS) 。

配適度的衡量 -- 平方和總平方和 : 應變數 Y i 在樣本平均數周圍之總變動量。迴歸平方和 : 估計的應變數 Y i 在其樣本平均數周圍之總變動量，也就是迴歸模型所能描述的變動量。殘差平方和 : 最小平方法殘差的總變動量，即是迴歸模型無法捕捉的變動量。

配適度的衡量 -- 自由度由於總平方和的計算中用到了樣本平均數，等於在資料中加了一個限制條件，故總平方和的自由度為 n-1 。殘差來自最小平方法，必須服從兩條標準方程式的規範，因此損失了兩個自由度，故殘差平方和的自由度為 n-2 。總平方和自由度與殘差平方和自由度之差即為迴歸平方和之自由度，此處為 1 。

配適度的衡量 -- 判定係數判定係數 (coefficient of determination) ：線性迴歸中最常用的配適度指標。它衡量迴歸模型所能捕捉的變動量佔 Y i 總變動量中的比例，通常以 R 2 來代表。判定係數又分成置中的與非置中的判定係數兩種。

配適度的衡量 -- 判定係數的性質 R 2 愈高代表迴歸模型所能捕捉到應變數的變動量佔總變動量的比例愈高，故配適度較佳。當 R 2 =1 ，迴歸平方和等於總平方和，此時迴歸模型沒有任何殘差，稱作完全配適 (perfect fit) 。當 R 2 =0 ，殘差平方和等於總平方和，此時迴歸模型對應變數並無任何解釋能力。若欲利用判定係數來比較不同模型的配適能力，這些模型必須有相同的應變數。

配適度的衡量 -- 判定係數的性質 Y i 的位置和比例變動均不會影響置中的判定係數。 Y i 的位置變動會改變非置中的判定係數，而比例變動則不會影響非置中的判定係數。 X i 單獨的變動對置中的或非置中的判定係數均無影響。計算簡單線性迴歸模型的配適度也就是衡量應變數與解釋變數之間的線性關聯度。

實例分析欲分析廣告費用 ( X ) 如何影響公司的營業額 ( Y ) 。取得一組 10 家公司的年營業額和年度廣告費用的樣本資料如右表。

實例分析設立模型為有截距項的迴歸模型，則

實例分析下圖為估計的迴歸線圖，可驗證估計的迴歸線確實通過平均值的 (11.17,62.5) 。

實例分析根據估計的迴歸線也可以計算出配適值與殘差值。

實例分析當公司年營業額與年度廣告費用增加或衡量單位改變時，利用最小平方法所得到的估計值與置中的判定係數綜合於下表。不论资料发生位置变动或比例改变，置中的判定係数都不受影响。

狠狠撸

Ch10 簡單線性迴歸最小平方法

More Related Content

Ch10 簡單線性迴歸最小平方法

狠狠撸

Ch10 簡單線性迴歸 最小平方法

More Related Content

Ch10 簡單線性迴歸 最小平方法

Ch10 簡單線性迴歸最小平方法

Ch10 簡單線性迴歸最小平方法