1. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:1
PHN TCH H畛I QUI TUY畉N TNH N GI畉N
17.1 Ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh
Ph但n t鱈ch h畛i qui tuy畉n t鱈ch 董n gi畉n (Simple Linear Regression Analysis) l
t狸m s畛 li棚n h畛 gi畛a 2 bi畉n s畛 li棚n t畛c: bi畉n 畛c l畉p (bi畉n d畛 o叩n) tr棚n tr畛c honh x
v畛i bi畉n ph畛 thu畛c (bi畉n k畉t c畛c) tr棚n tr畛c tung y. Sau 坦 v畉 m畛t 動畛ng th畉ng h畛i
qui v t畛 ph動董ng tr狸nh 動畛ng th畉ng ny ta c坦 th畛 d畛 o叩n 動畛c bi畉n y (v鱈 d畛: c但n
n畉ng) khi 達 c坦 x (v鱈 d畛: tu畛i)
V鱈 d畛 1: Ta c坦 1 m畉u g畛m 6 tr畉 t畛 1-6 tu畛i, c坦 c但n n畉ng nh動 b畉ng sau:
Tu畛i C但n n畉ng (kg)
1 10
2 12
3 14
4 16
5 18
6 20
N畛i c叩c c畉p (x,y) ny ta th畉y c坦 d畉ng 1 ph動董ng tr狸nh b畉c nh畉t: y=2x+8
(trong 坦 2 l 畛 d畛c v 8 l i畛m c畉t tr棚n tr畛c tung y khi x=0). Trong th畛ng k棚
ph動董ng tr狸nh 動畛ng th畉ng (b畉c nh畉t) ny 動畛c vi畉t d動畛i d畉ng:
y= x + [1]
2. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:2
但y l ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh, trong 坦 g畛i l 畛 d畛c (slope) v l ch畉n
(intercept), i畛m c畉t tr棚n tr畛c tung khi x=0.
Th畛c ra ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh ny ch畛 c坦 tr棚n l箪 thuy畉t, ngh挑a l c叩c tr畛 s畛
c畛a xi (i=1,2,3,4,5,6) v yi t動董ng 畛ng, li棚n h畛 v畛i nhau 100% (ho畉c h畛 s畛 t動董ng
quan R=1)
Trong th畛c t畉 hi畉m khi c坦 s畛 li棚n h畛 100% ny m th動畛ng c坦 s畛 sai l畛ch gi畛a tr畛
s畛 quan s叩t yi v tr畛 s畛 yi 動畛c o叩n n畉m tr棚n 動畛ng h畛i qui.
17.1.1 M担 h狸nh h畛i qui tuy畉n t鱈nh
V鱈 d畛 2: Ta c坦 1 m畉u g畛m 6 tr畉 em kh叩c c坦 c但n n畉ng theo b畉ng sau:
Tu畛i C但n n畉ng (kg)
1 11
2 11
3 14
4 16
5 18
6 20
Khi v畉 動畛ng th畉ng h畛i qui, ta th畉y c叩c tr畛 s畛 quan s叩t y3, y4, y5, y6 n畉m tr棚n 動畛ng
th畉ng, c嘆n y1 v y2 kh担ng n畉m tr棚n 動畛ng th畉ng ny v s畛 li棚n h畛 gi畛a xi v yi
3. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:3
kh担ng c嘆n l 100% m ch畛 c嘆n 97% v狸 c坦 s畛 sai l畛ch t畉i y1 v y2. S畛 sai l畛ch ny
trong th畛ng k棚 g畛i l ph畉n d動 (residual) ho畉c errors.
G畛i y1, y2, y3, y4, y5, y6 l tr畛 s畛 quan s叩t v y1, y2, y3, y4, y5, y6 l tr畛 s畛 動畛c o叩n
n畉m tr棚n 動畛ng h畛i qui, 1, 2, 3, 4, 5, 6 l ph畉n d動.
Nh動 v畉y 1= y1 y1
2 = y2 y2
3 = y3 y3
4 = y4 y4
5 = y5 y5
6 = y6 y6
Khi 坦 ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh 動畛c vi畉t d動畛i d畉ng t畛ng qu叩t nh動 sau:
y= 硫xi + i+ i [2]
Nh動 v畉y n畉u ph畉n d動 i cng nh畛 s畛 li棚n h畛 gi畛a x,y cng l畛n v ng動畛c l畉i. Ph畉n
li棚n h畛 c嘆n 動畛i g畛i l ph畉n h畛i qui. M担 h狸nh h畛i qui tuy畉n t鱈ch 動畛c m担 t畉 nh動 sau:
D畛 li畛u= H畛i qui (Regression) + Ph畉n d動 (Residual)
17.1.2 働畛c t鱈nh h畛 s畛 t動董ng quan v ch畉n
Mu畛n v畉 動畛c ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh c畉n ph畉i 動畛c t鱈nh 動畛c 畛 d畛c
v ch畉n tr棚n tr畛c tung.
V鱈 d畛 3: N畉u ch炭ng ta ch畛n m畛t m畉u th畛c t畉 g畛m 30 em t畛 1-6 tu畛i v k畉t qu畉 c但n
n畉ng t動董ng 畛ng c畛a 30 em 動畛c v畉 trong bi畛u 畛 sau:
4. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:4
L炭c ny ta kh担ng th畛 n畛i 30 i畛m tr棚n bi畛u 畛 m ph畉i v畉 1 動畛ng th畉ng i cng
g畉n v畛i t畉t c畉 c叩c i畛m cng t畛t. Nh動 v畉y 3 動畛ng th畉ng 畛 bi畛u 畛 ta ch畛n 動畛ng
th畉ng no?. Nguy棚n t畉c ch畛n 動畛ng th畉ng no i g畉n c畉 30 i畛m, c坦 ngh挑a lm sao
畛 t畛ng c叩c ph畉n d動 i nh畛 nh畉t:
i= (yi- 硫x 留)
v t畛ng b狸nh ph動董ng c畛a ph畉n d動:
(i)2
= (yi- 硫x 留)2
但y l ph動董ng tr狸nh b畉c 2 theo x. Trong to叩n h畛c, mu畛n t狸m tr畛 c畛c ti畛u c畛a 1
ph動董ng tr狸nh b畉c 2, ng動畛i ta l畉y 畉o hm v cho 畉o hm tri畛t ti棚u (b畉ng 0) s畉 t狸m
動畛c tr畛 c畛c ti畛u c畛a x. Gi畉i ph動董ng tr狸nh ny, ta s畉 t鱈nh 動畛c 2 th担ng s畛 v v
t畛 2 th担ng s畛 ny ta s畉 v畉 動畛c 動畛ng th畉ng h畛i qui. Ph動董ng ph叩p ny trong to叩n
h畛c g畛i l ph動董ng ph叩p b狸nh ph動董ng nh畛 nh畉t (least square method).
Gi畉i ph動董ng tr狸nh tr棚n ta c坦:
= r
Sy
Sx
(r l h畛 s畛 t動董ng quan; Sy l 畛 l畛ch chu畉n c畛a y v Sx l 畛 l畛ch chu畉n c畛a x)
r =
1
n-1
(
xi- x
Sx
) (
yi- y
Sy
)
= y - x
v ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh c畛a y theo x (b狸nh ph動董ng nh畛 nh畉t) l:
y = 硫xi +
17.2 Ph但n t鱈ch h畛i qui tuy畉n t鱈nh trong SPSS
Nh畉p s畛 li畛u tu畛i v c但n n畉ng c但n 動畛c c畛a 30 tr畉 1-6 tu畛i vo SPSS:
C畛t 1: tu畛i; c畛t 2: c但n n畉ng
5. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:5
Vo menu: >Analyze> Regression> Linear
10. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:10
Vo mn h狸nh Curve Estimation
Nh畉p chuy畛n BEDAYNTM (B畛 dy n畛i trung m畉c) vo 担 Dependent (s) v
CHOLESTEROL vo 担 Variable. 叩nh d畉u nh叩y vo c叩c 担 Include
constant in equation, 担 Plot models v 担 Linear (n畉u mu畛n 動畛c l動畛ng s畛
li棚n h畛 gi畛a 2 bi畉n theo d畉ng ph動董ng tr狸nh b畉c 2 th狸 叩nh th棚m d畉u nh叩y
vo 担 Quadratic). Nh畉n OK, ta c坦 bi畛u 畛 sau:
11. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:11
但y l ph動董ng tr狸nh h畛i qui tuy畉n t鱈nh v畛i y= 0,748 + 0,062x
Gi畉 畛nh x ( cholesterol m叩u) l m畛t bi畉n c畛 畛nh, kh担ng c坦 sai s坦t trong o
l動畛ng. Gi畉 畛nh ny kh担ng c坦 v畉n 畛 n畉u b畛nh nh但n 動畛c o 畛 m畛t ph嘆ng
th鱈 nghi畛m chu畉n.
C叩c gi畉 畛nh c嘆n l畉i th畛c hi畛n trong SPSS nh動 sau:
Vo menu: Analyze> Regression> Linear...
12. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:12
Vo mn h狸nh Linear, Nh畉p chuy畛n BEDAYNTM qua 担 Dependent v
CHOLESTEROL qua 担 Independent(s)
Nh畉n n炭t Plots, m畛 h畛p tho畉i Plots:
Nh畉p chuy畛n ph畉n d動 *ZRESID vo 担 X (tr畛c honh) v gi叩 tr畛 d畛 o叩n
vo 担 Y (tr畛c tung) 畛 xem ph但n d動 c坦 ph但n b畛 ng畉u nhi棚n v ph動董ng sai
c坦 c畛 畛nh cho m畛i tr畛 c畛a xi. Nh畉n d畉u nh叩y vo 担 Histogram v 担 Normal
probability plot 畛 xem ph畉n d動 c坦 ph但n ph畛i chu畉n.
13. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:13
Nh畉n Continue, sau 坦 nh畉n OK cho k畉t qu畉 sau:
Nh動 v畉y ph畉n d動 c坦 trung b狸nh (mean)=0 v 畛 l畛ch chu畉n (SD)=0,394
Bi畛u 畛 ph但n b畛 ph畉n d動 c坦 d畉ng h狸nh chu担ng 畛u 2 b棚n, tr畛 trung b狸nh
g畉n b畉ng zero v SD g畉n b畉ng 1. Nh動 v畉y gi畉 畛nh ph畉n d動 c坦 ph但n ph畛i
chu畉n kh担ng b畛 vi ph畉m.
Ho畉c xem bi畛u 畛 P-P plot so s叩nh gi畛a ph但n ph畛i t鱈ch l滴y c畛a ph畉n d動
quan s叩t (Observed Cum Prob) tr棚n tr畛c honh v ph但n ph畛i t鱈ch l滴y k畛
14. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:14
v畛ng (Expected Cum Prob) tr棚n tr畛c tung. N畉u c叩c i畛m 畛u n畉m g畉n
動畛ng ch辿o th狸 ph但n ph畛i ph畉n d動 動畛c coi nh動 g畉n chu畉n.
Cu畛i c湛ng 畛 xem gi畉 畛nh c叩c ph動董ng sai kh担ng 畛i v畛i m畛i gi叩 tr畛 c畛a x
(cholesterol m叩u) ho畉c g畛i l homoscedasticity. N畉u c叩c tr畛 ph畉n d動
ph但n t叩n ng畉u nhi棚n quanh gi叩 tr畛 zero (動畛ng ngang) th狸 coi nh動 ph動董ng
sai kh担ng thay 畛i, v gi畉 畛nh v畛 homoscedasticity kh担ng b畛 vi ph畉m.
15. TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:15
N畉u ph動董ng sai thay 畛i (l畛n d畉n ho畉c nh畛 d畉n theo gi叩 tr畛 c畛a x) th狸 g畛i l
Heteroscedascity (gi畉 畛nh v畛 ph動董ng sai c畛 畛nh b畛 vi ph畉m). V鱈 d畛 nh動 h狸nh
d動畛i 但y:
T坦m l畉i, v畛i v鱈 d畛 tr棚n c叩c gi畉 畛nh c畛a ph但n t鱈ch h畛i qui tuy畉n t鱈nh 畛u th畛a
m達n v ta c坦 th畛 k畉t lu畉n l b畛 dy n畛i trung m畉c 畛ng m畉ch c畉nh c坦 li棚n h畛
tuy畉n t鱈nh v畛i n畛ng 畛 cholesterol m叩u theo ph動董ng tr狸nh :
Y (B畛 dy n畛i trung m畉c)= 0,062 X cholesterol + 0,748.
Nh動 v畉y c畛 n畛ng 畛 cholesterol tng l棚n 1 mmol/L th狸 b畛 dy n畛i trung m畉c
畛ng m畉ch c畉nh tng l棚n 0,062mm.
Ti li畛u tham kh畉o:
1. McClave J T and Sincich T. 2000. Simple linear regression in Statistics, 8th
edition, Prentice-Hall, USA, pp. 505-557.
2. Moore D. S. and McCabe G. P. 1999. Looking at Data-Relationships (Chapter
2), in Introduction to the Practice of Statistics, W.H. Freeman and Company,
New York, pp. 102-145.