4. 簡單線性迴歸模型 簡單線性迴歸模型:利用一個線性模型來捕捉 {( X i , Y i ), i =1,.., n } 這組雙變量隨機變數中 Y i 的系統性部分 g ( X i ) 。 利用條件均數: E( Y | X ) = g ( X )=α+β X , 其中 α , β 為未知參數 , 需要我們去估計。 可以將 Y 表示為 Y = α+β X + U , 其中 U 代表不能由 α+β X 所描述的 Y 行為,亦即 Y 與線性模型之間的誤差。
6. 最小平方法 估計迴歸係數最常用的方法之一就是 普通最小平方 (ordinary least squares) ,又簡稱為 最小平方法 。 最小平方法的「認定條件」是: X i , i=1,2,…,n 之值不為常數。 除了上述認定條件之外,本章亦不對 ( X i , Y i ) 的隨機機制作任何限制。
7. 最小平方法 找 α 和 β 使模型誤差 U i 的平方和極小。採用誤差平方和是為了避免正負誤差之間互相抵銷。 目標函數如下: 最小平方法所找的就是使誤差平方和 ( 或其平均 ) 最小的那條直線。 如果目標函數改變 ( 如 U i 的絕對值之和 ) ,就會產生不同的迴歸線。
10. 最小平方法 可從標準方程式中求出 α 和 β 的解,稱作最小平方估計式 (ordinary least squares estimator ,簡稱 OLS estimator) ,一般以 若 X i 為常數, ,則 根本無法計算,這是為什麼需要「認定條件」的原因 。
11. 最小平方法 將最小平方估計式 代入設定的線性模型就可得到一條截距為 ,斜率為 的直線, 稱作 估計的迴歸線 (estimated regression line) 。 斜率係數估計式 衡量 X 的邊際效果:當 X 變動一單位時,估計的迴歸線會預測應變數 Y 將變動 個單位 。 截距係數 則表示當 X 為 0 時,估計的迴歸線所預測的應變數 Y 。 將樣本中的變數 X i 代入估計的迴歸線,即可求得估計的應變數。
12. 最小平方法 應變數 Y i 與估計所得到的應變數 之間的差距稱為最小平方法的第 i 個殘差 (residual) 。 估計的應變數之實現值稱為配適值 (fitted value) ,殘差的實現值稱為殘差值 (residual value) 。
13. 最小平方法的代數性質 在 Y i = α + β X i +U i 的典型模型設定下,最小平方法的殘差具有以下三種性質: 以上的三條式子為一階條件的結果。 在典型模型設定下 , 給定一組樣本觀察值之後,估計的迴歸線必然通過 這一點。
19. 配適度的衡量 -- 判定係數 判定係數 (coefficient of determination) : 線性迴歸中最常用的配適度指標。它衡量迴歸模型所能捕捉的變動量佔 Y i 總變動量中的比例,通常以 R 2 來代表。 判定係數又分成 置中的 與 非置中 的判定係數兩種 。
20. 配適度的衡量 -- 判定係數的性質 R 2 愈高代表迴歸模型所能捕捉到應變數的變動量佔總變動量的比例愈高,故配適度較佳。 當 R 2 =1 ,迴歸平方和等於總平方和,此時迴歸模型沒有任何殘差,稱作 完全配適 (perfect fit) 。 當 R 2 =0 ,殘差平方和等於總平方和,此時迴歸模型對應變數並無任何解釋能力。 若欲利用判定係數來比較不同模型的配適能力,這些模型必須有相同的應變數 。
21. 配適度的衡量 -- 判定係數的性質 Y i 的位置和比例變動均不會影響置中的判定係數。 Y i 的位置變動會改變非置中的判定係數,而比例變動則不會影響非置中的判定係數。 X i 單獨的變動對置中的或非置中的判定係數均無影響。 計算簡單線性迴歸模型的配適度也就是衡量應變數與解釋變數之間的線性關聯度。
22. 實例分析 欲分析廣告費用 ( X ) 如何影響公司的營業額 ( Y ) 。取得一組 10 家公司的年營業額和年度廣告費用的樣本資料如右表。