際際滷

際際滷Share a Scribd company logo
PEMILIHAN
MODEL REGRESI TERBAIK
M.K. Analisa Regresi (S1)
M_14-15
REVIEW
Prinsip pemilihan model terbaik
r.e.v.i.e.w
Postulated Model  ARB
1 1 2 2 ...o p pY X X X    ワ     
Apakah postulated model tersebut
THE BEST?
Perhatikan ilustrasi sebagai berikut
Y
X1
Varians yang TIDAK bisa
Dijelaskan oleh by X1 and X2
Varians yang
Dijelaskan oleh X1
Varians yang dijelaskan oleh X2
X2
Varians yang dijelaskan oleh
X1 and X2
Y
X1 X2
THE IDEA : A good model
tinggiR _2
rendahs _2
SIGNIFIKAN
SIGNIFIKAN
METODE PEMILIHAN MODEL TERBAIK
 All-Possible
 Best-Subsets Regression
 Backward Elimination
 Forward Selection
 Stepwise Regression
 Principle Component
Regression
 Ridge Regression
 Latent Root Regression
 Stagewise Regression
SIFATNYA ITERATIF :
SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset dari
variabel independen
di EVALUASI
BERUSAHA
MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN
Prinsip dasar : Mengatasai
MULTIKOLINIERITAS
Dasar : CENTERING dan
SCALLING
MODEL TERBAIK
SELEKSI VARIABEL
 All Possible
Regression
 Best-Subsets
Regression
 Backward
Elimination
 Forward Selection
 Stepwise Regression
SIFATNYA ITERATIF :
SATU VARIABEL
INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
Setiap subset dari
variabel independen
di EVALUASI dengan
KRITERIA tertentu
Procedure
CONTOH
 DATA PADA APENDIKS B
 X1 = Kandungan 3CaO-Al2O3
 X2 = Kandungan 3CaO  SiO2
 X3 = 4 CaO Al2O3.Fe2O3
 X4 = 2CaO.SiO2
 Y = Kandungan panas yang terjadi (calori)
Kuliah pemilihan model_terbaik_m14_dan_15
PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION
 Seluruh model yang mungkin dibuat dibandingkan
 Kriteria model terbaik :
1. Nilai 檎族
2. Nilai 壊族
3. Statistik, Cp
BEST SUBSET REGRESSION
 Dipilih Best Regression pada masing-masing kelompok K
 Kriteria model terbaik :
1. Nilai 檎族
2. Nilai Ra族
3. Statistik, Cp
NILAI Cp MALLOWS
 Besaran Cp Mallows adalah sebagai berikut :
 Dimana SSRes(p) adalah Sum of Square
Residual dari model yang memuat p parameter
 P adalah jumlah parameter termasuk B0
 S2 adalah Mean Square Residual
 Kriteria E(Cp) = p
)2(/Re 2
pnssSSC PP
CONTOH
ALL POSSIBLE REGRESSION, 檎族
CONTOH
ALL POSSIBLE REGRESSION, 壊族
KONSEP, 壊族
KONSEP, 壊族
CONTOH
ALL POSSIBLE REGRESSION, Cp
CONTOH
ALL POSSIBLE
REGRESSION,
Cp
PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION
 Seluruh model yang mungkin dibuat dibandingkan
 Kriteria model terbaik :
1. Nilai 檎族
2. Nilai 壊族
3. Statistik, Cp
BEST SUBSET REGRESSION
 Dipilih Best Regression pada masing-masing kelompok K
 Kriteria model terbaik :
1. Nilai 檎族
2. Nilai Ra族
3. Statistik, Cp
Contoh : BEST SUBSET SELECTION
 Kriteria : 2 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
4 56.9 35.3 5.0 24.894 X X X X
 KRITERIA : 3 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
1 2.9 0.0 9.0 31.859 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
2 55.7 46.9 1.2 22.566 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
3 55.8 41.0 3.2 23.772 X X X
4 56.9 35.3 5.0 24.894 X X X X
Contoh : BEST SUBSET SELECTION
BACWARD ELIMINATION
The worst predictor variables are eliminated, one by one
Mengeluarkan variabel satu per satu; dari yang
paling tidak berpengaruh
FORWARD SELECTION
The best predictor variables are entered, one by one.
Variabel yang mempunyai pengaruh paling
kuat, satu persatu dimasukkan dalam model
.
STEPWISE METHOD
Menggabungkan metode forward dan backward
dengan korelasi partial
PEMILIHAN MODEL TERBAIK (2)
PROSEDUR : BACKWARD
Definisi :
Metode eliminasi langkah mundur dimana pada metode ini
semua variabel X dimasukkan dalam persamaan terlebih
dahulu. Lalu, dikeluarkan satu per satu, dimulai dari yang
paling tidak signifikan. Berhenti, saat TIDAK ADA lagi yang
dikeluarkan dari model
Langkah-langkah manual :
1. Menghitung regresi var Y dengan semua var X pilih
yang signifikan.
2. Bandingkan Fhit. dengan Ftabel, dimana:
a. Fhit < Ftabel, maka buang variabel yang
mengakibatkan Fhit dan regresikan kembali.
b. Fhit > Ftabel, maka ambil persamaan regresi
tersebut.
PROSEDUR : FORWARD
 Kebalikan dari backward
 Berpikir F-Sequential
 Berpikir Mundur
 Jadi konsep F-Partial
PROSEDUR : FORWARD
Contoh : Metode Backward
CONTOH
BACKWARD
(1)
Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.05
Response is Y on 4 predictors, with N = 13
Step 1 2 3 4
Constant 223.8 162.0 146.0 143.8
X1 -1.4 -0.9
T-Value -0.43 -0.39
P-Value 0.681 0.706
X2 -0.7
T-Value -0.23
P-Value 0.821
X3 -1.3 -0.8 -0.2
T-Value -0.46 -0.43 -0.19
P-Value 0.661 0.680 0.853
X4 -2.09 -1.45 -1.38 -1.38
T-Value -0.75 -3.27 -3.55 -3.72
P-Value 0.476 0.010 0.005 0.003
S 24.9 23.6 22.5 21.5
R-Sq 56.90 56.60 55.87 55.71
R-Sq(adj) 35.35 42.14 47.05 51.69
Mallows C-p 5.0 3.1 1.2 -0.8
Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.8
Response is Y on 4 predictors, with N = 13
Step 1 2
Constant 223.8 162.0
X1 -1.4 -0.9
T-Value -0.43 -0.39
P-Value 0.681 0.706
X2 -0.7
T-Value -0.23
P-Value 0.821
X3 -1.3 -0.8
T-Value -0.46 -0.43
P-Value 0.661 0.680
X4 -2.09 -1.45
T-Value -0.75 -3.27
P-Value 0.476 0.010
S 24.9 23.6
R-Sq 56.90 56.60
R-Sq(adj) 35.35 42.14
Mallows C-p 5.0 3.1
CONTOH
BACKWARD
(2)
CONTOH : FORWARD
Stepwise Regression: Y versus X1, X2, X3, X4
Forward selection. Alpha-to-Enter: 0.05
Response is Y on 4 predictors, with N = 13
Step 1
Constant 143.8
X4 -1.38
T-Value -3.72
P-Value 0.003
S 21.5
R-Sq 55.71
R-Sq(adj) 51.69
Mallows C-p -0.8
PROSEDUR : STEPWISE
Definisi :
Metode eliminasi langkah maju dimana pada metode ini variabel
yang dimasukkan terlebih dahulu adalah variabel Y yang memiliki
korelasi terbesar dengan variabel X.
Langkah-langkah manual :
1. Menghitung korelasi var Y dengan semua var X pilih yang
paling besar.
2. Regresikan var Y dengan var Xi lakukan uji F.
3. Menghitung koef.korelasi parsial antara var Y dgn var Xi dengan
var X yang tidak masuk model pilih yang paling besar.
4. Regresikan var Y dengan var X yang masuk model
lakukan uji F.
5. Lakukan sampai semua var X yang paling akhir dianalisis
ANALISIS RESIDUAL
CONTOH : STEPWISE
Kuliah pemilihan model_terbaik_m14_dan_15
CONTOH
 DATA PADA APENDIKS B
 X1 = Kandungan 3CaO-Al2O3
 X2 = Kandungan 3CaO  SiO2
 X3 = 4 CaO Al2O3.Fe2O3
 X4 = 2CaO.SiO2
 Y = Kandungan panas yang terjadi (calori)
METODE PEMILIHAN MODEL TERBAIK
 All-Possible
 Best-Subsets Regression
 Backward Elimination
 Forward Selection
 Stepwise Regression
 Principle Component
Regression
 Ridge Regression
 Latent Root Regression
 Stagewise Regression
SIFATNYA ITERATIF :
SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset dari
variabel independen
di EVALUASI
BERUSAHA
MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN
Prinsip dasar : Mengatasai
MULTIKOLINIERITAS
Dasar : CENTERING dan
SCALLING
KONSEP :
Berusaha memasukkan semua variabel
 PRINCIPAL COMPONENT REGRESSION
 RIDGE REGRESSION/GULUD REGRESSION
 LATEN ROOT REGRESSION
 STAGEWISE REGRESSION
TIDAK SEMUA DIJELASKAN,
HANYA PRINSIP-PRINSIP NYA SAJA
DIBAHAS LEBIH LANJUT DI MK LAIN
PRINCIPAL COMPONENT
REGRESSION
: Principle Component Regression
 Terdapat p variabel bebas yang mempunyai
mulikolinieritas
Metode regresi yang memasukkan seluruh variabel
independen dan mengakomodasi adanya
kolinieritas/multikolinieritas antar variabel independen
dengan cara mengelompokkan variabel yang saling
berkorelasi cukup tinggi dalam sebuah variabel baru.
 Sehingga mereduksi banyaknya dimensi regresi dan
antar variabel baru tersebut tidak saling berkorelasi
cukup tinggi.
Definisi
1. Melakukan standarisasi/pembakuan data variabel
independent xj :
2. Membuat matrik korelasi antar variabel independen
3. Membangkitkan variabel baru yang saling independent
PC1 = a11z1 + a12z2 +  + a1kzk
PC2 = a21z1 + a22z2 +  + a2kzk
......
PCk = ak1z1 + ak2z2 +  + akkzk
atau
PCj =ajTz, nilai a adalah eigen-vector dari eigenvalue ke-j dari matriks
korelasi antar variabel independent
Banyaknya PC ditentukan berdasarkan kriteria :
Eigen value  1, atau
Proporsi kumulatif eigen value : dengan k = banyaknya
variabel independen
4. Melakukan regresi y dengan skor PC
5. Menyatakan model regresi Y dengan PC ke dalam
model Y dengan z, kemudian x.
j
jj
j
s
xx
z


%75

k
j
j
Langkah-langkah PCR
x1 x2 x3 x4 y
7 26 6 60 78.5
1 29 15 52 74.3
11 56 8 20 104.3
11 31 8 47 87.6
7 52 6 33 95.9
11 55 9 22 109.2
3 71 17 6 102.7
1 31 22 44 72.5
2 54 18 22 93.1
21 47 4 26 115.9
1 40 23 34 83.8
11 66 9 12 113.3
10 68 8 12 109.4
Contoh Soal : DATA APPENDIKS B
Pilih Model Regresi
Terbaik!
Deteksi Multikolinieritas :
The regression equation is
y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4
Predictor Coef SE Coef T P VIF
Constant 62.41 70.07 0.89 0.399
x1 1.5511 0.7448 2.08 0.071 38.5
x2 0.5102 0.7238 0.70 0.501 254.4
x3 0.1019 0.7547 0.14 0.896 46.9
x4 -0.1441 0.7091 -0.20 0.844 282.5
S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%
Analysis of Variance
Source DF SS MS F P
Regression 4 2667.90 666.97 111.48 0.000
Residual Error 8 47.86 5.98
Total 12 2715.76
Source DF Seq SS
x1 1 1450.08
x2 1 1207.78
x3 1 9.79
x4 1 0.25
Menunjukkan
Adanya
MULTIKO-
LINIERITAS
ANALISIS RESIDUAL
Deteksi Multikolinieritas :
The regression equation is
y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4
Predictor Coef SE Coef T P VIF
Constant 62.41 70.07 0.89 0.399
x1 1.5511 0.7448 2.08 0.071 38.5
x2 0.5102 0.7238 0.70 0.501 254.4
x3 0.1019 0.7547 0.14 0.896 46.9
x4 -0.1441 0.7091 -0.20 0.844 282.5
S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%
Analysis of Variance
Source DF SS MS F P
Regression 4 2667.90 666.97 111.48 0.000
Residual Error 8 47.86 5.98
Total 12 2715.76
Source DF Seq SS
x1 1 1450.08
x2 1 1207.78
x3 1 9.79
x4 1 0.25
Menunjukkan
Adanya
MULTIKO-
LINIERITAS
Konsep
Variance Inflationary Factor
VIFj is used to measure collinearity:
If VIFj > 5 or 10 , xj is highly correlated with
the other explanatory variables
R2
j is the coefficient of determination when the jth
independent variable is regressed against the
remaining k  1 independent variables
2
1
1
j
j
R
VIF
Standarisasi x  z
y z1 z2 z3 z4
78.5 -0.07846 -1.42369 -0.90072 1.79231
74.3 -1.09845 -1.2309 0.5044 1.31436
104.3 0.60153 0.50422 -0.58847 -0.59744
87.6 0.60153 -1.10237 -0.58847 1.01564
95.9 -0.07846 0.24717 -0.90072 0.17923
109.2 0.60153 0.43996 -0.43235 -0.47795
102.7 -0.75846 1.46818 0.81665 -1.43385
72.5 -1.09845 -1.10237 1.59728 0.83641
93.1 -0.92845 0.3757 0.97278 -0.47795
115.9 2.30152 -0.07415 -1.21297 -0.23897
83.8 -1.09845 -0.524 1.7534 0.23897
113.3 0.60153 1.14686 -0.43235 -1.07539
109.4 0.43154 1.27539 -0.58847 -1.07539
j
jj
j
s
xx
z
Matriks korelasi
z1 z2 z3 z4
z1 1 0.22858 -0.82413 -0.24545
z2 0.22858 1 -0.13924 -0.97295
z3 -0.82413 -0.13924 1 0.02954
z4 -0.24545 -0.97295 0.02954 1
Eigen value & eigen vektor
Eigenvalue 2.2357 1.5761 0.1866 0.0016
Proportion 0.559 0.394 0.047 0.000
Cumulative 0.559 0.953 1.000 1.000
Variable PC1 PC2 PC3 PC4
z1 0.476 0.509 0.676 0.241
z2 0.564 -0.414 -0.314 0.642
z3 -0.394 -0.605 0.638 0.268
z4 -0.548 0.451 -0.195 0.677
Komponen utama
PC1 = 0.476 z1 + 0.564z2 -0.394z3  0.548z4
PC2 = 0.509z1  0.414z2  0.605z3 + 0.451 z4
Nilai dari
variabel zi
dimasukkan
Pada
Persamaan
tersebut
Case PC1 PC2
1 -1,46724 1,90303
2 -2,13583 0,23835
3 1,12987 0,18388
4 -0,65989 1,57677
5 0,35876 0,48354
6 0,96664 0,16994
7 0,9307 -2,13482
8 -2,23214 -0,69167
9 -0,35152 -1,43224
10 1,66254 1,8281
11 -1,64018 -1,29511
12 1,69259 -0,39225
13 1,74568 -0,43752
Pemilihan Model
Analisis Regresi : Y dengan PC1
The regression equation is
y = 95,4 + 9,88 PC1
Predictor Coef SE Coef T P
Constant 95,4231 0,8163 116,90 0,000
PC1 9,8831 0,5682 17,39 0,000
S = 2,943 R-Sq = 96,5% R-Sq(adj) = 96,2%
Analysis of Variance
Source DF SS MS F P
Regression 1 2620,5 2620,5 302,53 0,000
Residual Error 11 95,3 8,7
Total 12 2715,8
Pemilihan Model
Analisis Regresi : Y dengan PC1, PC2
The regression equation is
y = 95.4 + 9.88 PC1 - 0.125 PC2
Predictor Coef SE Coef T P VIF
Constant 95.4231 0.8548 111.63 0.000
PC1 9.8831 0.5950 16.61 0.000 1.0
PC2 -0.1250 0.7087 -0.18 0.864 1.0
S = 3.082 R-Sq = 96.5% R-Sq(adj) = 95.8%
Analysis of Variance
Source DF SS MS F P
Regression 2 2620.8 1310.4 137.96 0.000
Residual Error 10 95.0 9.5
Total 12 2715.8
Model Regresi Terakhir
Diperoleh estimasi model regresi komponen utama
(dianggap asumsi metode OLS terpenuhi)
Model regresi dalam z :
regresi dalam x :
Descriptive Statistics: x1; x2; x3; x4
Variable N Mean Median TrMean StDev SE Mean
x1 13 7,46 7,00 6,82 5,88 1,63
x2 13 48,15 52,00 48,09 15,56 4,32
x3 13 11,77 9,00 11,45 6,41 1,78
x4 13 30,00 26,00 29,45 16,74 4,64
RIDGE REGRESSION
GULUD REGRESSION
PENGGUNAAN METODE RIDGE
 KASUS MULTIKOLINIERITAS  Harus diatasi
 Cara menanggulangi : PCR dan RIDGE REGRESSION
 RIDGE REGRESSION : adalah salah satu metode yang
digunakan untuk mengatasi multikolinieritas dengan cara
memodifikasi metode kuadrat terkecil; sehingga dihasilkan
penduga koefisien regresi lain yang bias namun
mempunyai varian yang lebih kecil daripada regresi linier
berganda.
E(b) E(bR)
Estimasi pada METODE RIDGE
E(b) E(bR)
ESTIMASI PARAMETER
 Estimasi ridge regression diperoleh dengan cara
meminimumkan jumlah kuadrat kesalahan dari
persamaan :
 Untuk Z = 1,2,,k nilai dugaan dari ridge
regression, dapat ditulis menjadi persamaan
dan dapat dinyatakan dalam
bentuk :
dengan syarat ,  adalah nilai positif
yang berhingga.
Notasi dalam bentuk matriks adalah :
dimana :
PENENTUAN NILAI 慮
 Salah satu alternatif pilihan adalah :
Dimana :
k adalah banyaknya parameter di luar 硫o,
s2 adalah MSRes
CONTOH

More Related Content

Kuliah pemilihan model_terbaik_m14_dan_15

  • 1. PEMILIHAN MODEL REGRESI TERBAIK M.K. Analisa Regresi (S1) M_14-15
  • 3. r.e.v.i.e.w Postulated Model ARB 1 1 2 2 ...o p pY X X X ワ Apakah postulated model tersebut THE BEST? Perhatikan ilustrasi sebagai berikut
  • 4. Y X1 Varians yang TIDAK bisa Dijelaskan oleh by X1 and X2 Varians yang Dijelaskan oleh X1 Varians yang dijelaskan oleh X2 X2 Varians yang dijelaskan oleh X1 and X2
  • 5. Y X1 X2 THE IDEA : A good model tinggiR _2 rendahs _2 SIGNIFIKAN SIGNIFIKAN
  • 6. METODE PEMILIHAN MODEL TERBAIK All-Possible Best-Subsets Regression Backward Elimination Forward Selection Stepwise Regression Principle Component Regression Ridge Regression Latent Root Regression Stagewise Regression SIFATNYA ITERATIF : SATU VARIABEL INDEPENDEN Pada suatu waktu ditambahkan Atau dihilangkan Berdasarkan F-tes (Partial F-test atau Sequential F-test) Setiap subset dari variabel independen di EVALUASI BERUSAHA MEMPERTAHANKAN : SELURUH VAR. INDEPENDEN Prinsip dasar : Mengatasai MULTIKOLINIERITAS Dasar : CENTERING dan SCALLING
  • 7. MODEL TERBAIK SELEKSI VARIABEL All Possible Regression Best-Subsets Regression Backward Elimination Forward Selection Stepwise Regression SIFATNYA ITERATIF : SATU VARIABEL INDEPENDEN Pada suatu waktu ditambahkan Atau dihilangkan Berdasarkan F-tes Setiap subset dari variabel independen di EVALUASI dengan KRITERIA tertentu Procedure
  • 8. CONTOH DATA PADA APENDIKS B X1 = Kandungan 3CaO-Al2O3 X2 = Kandungan 3CaO SiO2 X3 = 4 CaO Al2O3.Fe2O3 X4 = 2CaO.SiO2 Y = Kandungan panas yang terjadi (calori)
  • 10. PEMILIHAN MODEL TERBAIK (1) ALL POSSIBLE SELECTION Seluruh model yang mungkin dibuat dibandingkan Kriteria model terbaik : 1. Nilai 檎族 2. Nilai 壊族 3. Statistik, Cp BEST SUBSET REGRESSION Dipilih Best Regression pada masing-masing kelompok K Kriteria model terbaik : 1. Nilai 檎族 2. Nilai Ra族 3. Statistik, Cp
  • 11. NILAI Cp MALLOWS Besaran Cp Mallows adalah sebagai berikut : Dimana SSRes(p) adalah Sum of Square Residual dari model yang memuat p parameter P adalah jumlah parameter termasuk B0 S2 adalah Mean Square Residual Kriteria E(Cp) = p )2(/Re 2 pnssSSC PP
  • 18. PEMILIHAN MODEL TERBAIK (1) ALL POSSIBLE SELECTION Seluruh model yang mungkin dibuat dibandingkan Kriteria model terbaik : 1. Nilai 檎族 2. Nilai 壊族 3. Statistik, Cp BEST SUBSET REGRESSION Dipilih Best Regression pada masing-masing kelompok K Kriteria model terbaik : 1. Nilai 檎族 2. Nilai Ra族 3. Statistik, Cp
  • 19. Contoh : BEST SUBSET SELECTION Kriteria : 2 terbaik Mallows X X X X Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 1 55.7 51.7 -0.8 21.520 X 1 53.7 49.4 -0.4 22.013 X 2 55.9 47.0 1.2 22.529 X X 2 55.8 46.9 1.2 22.553 X X 3 56.6 42.1 3.1 23.551 X X X 3 55.9 41.2 3.2 23.736 X X X 4 56.9 35.3 5.0 24.894 X X X X
  • 20. KRITERIA : 3 terbaik Mallows X X X X Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 1 55.7 51.7 -0.8 21.520 X 1 53.7 49.4 -0.4 22.013 X 1 2.9 0.0 9.0 31.859 X 2 55.9 47.0 1.2 22.529 X X 2 55.8 46.9 1.2 22.553 X X 2 55.7 46.9 1.2 22.566 X X 3 56.6 42.1 3.1 23.551 X X X 3 55.9 41.2 3.2 23.736 X X X 3 55.8 41.0 3.2 23.772 X X X 4 56.9 35.3 5.0 24.894 X X X X Contoh : BEST SUBSET SELECTION
  • 21. BACWARD ELIMINATION The worst predictor variables are eliminated, one by one Mengeluarkan variabel satu per satu; dari yang paling tidak berpengaruh FORWARD SELECTION The best predictor variables are entered, one by one. Variabel yang mempunyai pengaruh paling kuat, satu persatu dimasukkan dalam model . STEPWISE METHOD Menggabungkan metode forward dan backward dengan korelasi partial PEMILIHAN MODEL TERBAIK (2)
  • 22. PROSEDUR : BACKWARD Definisi : Metode eliminasi langkah mundur dimana pada metode ini semua variabel X dimasukkan dalam persamaan terlebih dahulu. Lalu, dikeluarkan satu per satu, dimulai dari yang paling tidak signifikan. Berhenti, saat TIDAK ADA lagi yang dikeluarkan dari model Langkah-langkah manual : 1. Menghitung regresi var Y dengan semua var X pilih yang signifikan. 2. Bandingkan Fhit. dengan Ftabel, dimana: a. Fhit < Ftabel, maka buang variabel yang mengakibatkan Fhit dan regresikan kembali. b. Fhit > Ftabel, maka ambil persamaan regresi tersebut.
  • 23. PROSEDUR : FORWARD Kebalikan dari backward Berpikir F-Sequential Berpikir Mundur Jadi konsep F-Partial PROSEDUR : FORWARD
  • 24. Contoh : Metode Backward
  • 25. CONTOH BACKWARD (1) Stepwise Regression: Y versus X1, X2, X3, X4 Backward elimination. Alpha-to-Remove: 0.05 Response is Y on 4 predictors, with N = 13 Step 1 2 3 4 Constant 223.8 162.0 146.0 143.8 X1 -1.4 -0.9 T-Value -0.43 -0.39 P-Value 0.681 0.706 X2 -0.7 T-Value -0.23 P-Value 0.821 X3 -1.3 -0.8 -0.2 T-Value -0.46 -0.43 -0.19 P-Value 0.661 0.680 0.853 X4 -2.09 -1.45 -1.38 -1.38 T-Value -0.75 -3.27 -3.55 -3.72 P-Value 0.476 0.010 0.005 0.003 S 24.9 23.6 22.5 21.5 R-Sq 56.90 56.60 55.87 55.71 R-Sq(adj) 35.35 42.14 47.05 51.69 Mallows C-p 5.0 3.1 1.2 -0.8
  • 26. Stepwise Regression: Y versus X1, X2, X3, X4 Backward elimination. Alpha-to-Remove: 0.8 Response is Y on 4 predictors, with N = 13 Step 1 2 Constant 223.8 162.0 X1 -1.4 -0.9 T-Value -0.43 -0.39 P-Value 0.681 0.706 X2 -0.7 T-Value -0.23 P-Value 0.821 X3 -1.3 -0.8 T-Value -0.46 -0.43 P-Value 0.661 0.680 X4 -2.09 -1.45 T-Value -0.75 -3.27 P-Value 0.476 0.010 S 24.9 23.6 R-Sq 56.90 56.60 R-Sq(adj) 35.35 42.14 Mallows C-p 5.0 3.1 CONTOH BACKWARD (2)
  • 27. CONTOH : FORWARD Stepwise Regression: Y versus X1, X2, X3, X4 Forward selection. Alpha-to-Enter: 0.05 Response is Y on 4 predictors, with N = 13 Step 1 Constant 143.8 X4 -1.38 T-Value -3.72 P-Value 0.003 S 21.5 R-Sq 55.71 R-Sq(adj) 51.69 Mallows C-p -0.8
  • 28. PROSEDUR : STEPWISE Definisi : Metode eliminasi langkah maju dimana pada metode ini variabel yang dimasukkan terlebih dahulu adalah variabel Y yang memiliki korelasi terbesar dengan variabel X. Langkah-langkah manual : 1. Menghitung korelasi var Y dengan semua var X pilih yang paling besar. 2. Regresikan var Y dengan var Xi lakukan uji F. 3. Menghitung koef.korelasi parsial antara var Y dgn var Xi dengan var X yang tidak masuk model pilih yang paling besar. 4. Regresikan var Y dengan var X yang masuk model lakukan uji F. 5. Lakukan sampai semua var X yang paling akhir dianalisis
  • 32. CONTOH DATA PADA APENDIKS B X1 = Kandungan 3CaO-Al2O3 X2 = Kandungan 3CaO SiO2 X3 = 4 CaO Al2O3.Fe2O3 X4 = 2CaO.SiO2 Y = Kandungan panas yang terjadi (calori)
  • 33. METODE PEMILIHAN MODEL TERBAIK All-Possible Best-Subsets Regression Backward Elimination Forward Selection Stepwise Regression Principle Component Regression Ridge Regression Latent Root Regression Stagewise Regression SIFATNYA ITERATIF : SATU VARIABEL INDEPENDEN Pada suatu waktu ditambahkan Atau dihilangkan Berdasarkan F-tes (Partial F-test atau Sequential F-test) Setiap subset dari variabel independen di EVALUASI BERUSAHA MEMPERTAHANKAN : SELURUH VAR. INDEPENDEN Prinsip dasar : Mengatasai MULTIKOLINIERITAS Dasar : CENTERING dan SCALLING
  • 34. KONSEP : Berusaha memasukkan semua variabel PRINCIPAL COMPONENT REGRESSION RIDGE REGRESSION/GULUD REGRESSION LATEN ROOT REGRESSION STAGEWISE REGRESSION TIDAK SEMUA DIJELASKAN, HANYA PRINSIP-PRINSIP NYA SAJA DIBAHAS LEBIH LANJUT DI MK LAIN
  • 36. : Principle Component Regression Terdapat p variabel bebas yang mempunyai mulikolinieritas Metode regresi yang memasukkan seluruh variabel independen dan mengakomodasi adanya kolinieritas/multikolinieritas antar variabel independen dengan cara mengelompokkan variabel yang saling berkorelasi cukup tinggi dalam sebuah variabel baru. Sehingga mereduksi banyaknya dimensi regresi dan antar variabel baru tersebut tidak saling berkorelasi cukup tinggi. Definisi
  • 37. 1. Melakukan standarisasi/pembakuan data variabel independent xj : 2. Membuat matrik korelasi antar variabel independen 3. Membangkitkan variabel baru yang saling independent PC1 = a11z1 + a12z2 + + a1kzk PC2 = a21z1 + a22z2 + + a2kzk ...... PCk = ak1z1 + ak2z2 + + akkzk atau PCj =ajTz, nilai a adalah eigen-vector dari eigenvalue ke-j dari matriks korelasi antar variabel independent Banyaknya PC ditentukan berdasarkan kriteria : Eigen value 1, atau Proporsi kumulatif eigen value : dengan k = banyaknya variabel independen 4. Melakukan regresi y dengan skor PC 5. Menyatakan model regresi Y dengan PC ke dalam model Y dengan z, kemudian x. j jj j s xx z %75 k j j Langkah-langkah PCR
  • 38. x1 x2 x3 x4 y 7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4 Contoh Soal : DATA APPENDIKS B Pilih Model Regresi Terbaik!
  • 39. Deteksi Multikolinieritas : The regression equation is y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4 Predictor Coef SE Coef T P VIF Constant 62.41 70.07 0.89 0.399 x1 1.5511 0.7448 2.08 0.071 38.5 x2 0.5102 0.7238 0.70 0.501 254.4 x3 0.1019 0.7547 0.14 0.896 46.9 x4 -0.1441 0.7091 -0.20 0.844 282.5 S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4% Analysis of Variance Source DF SS MS F P Regression 4 2667.90 666.97 111.48 0.000 Residual Error 8 47.86 5.98 Total 12 2715.76 Source DF Seq SS x1 1 1450.08 x2 1 1207.78 x3 1 9.79 x4 1 0.25 Menunjukkan Adanya MULTIKO- LINIERITAS
  • 41. Deteksi Multikolinieritas : The regression equation is y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4 Predictor Coef SE Coef T P VIF Constant 62.41 70.07 0.89 0.399 x1 1.5511 0.7448 2.08 0.071 38.5 x2 0.5102 0.7238 0.70 0.501 254.4 x3 0.1019 0.7547 0.14 0.896 46.9 x4 -0.1441 0.7091 -0.20 0.844 282.5 S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4% Analysis of Variance Source DF SS MS F P Regression 4 2667.90 666.97 111.48 0.000 Residual Error 8 47.86 5.98 Total 12 2715.76 Source DF Seq SS x1 1 1450.08 x2 1 1207.78 x3 1 9.79 x4 1 0.25 Menunjukkan Adanya MULTIKO- LINIERITAS
  • 42. Konsep Variance Inflationary Factor VIFj is used to measure collinearity: If VIFj > 5 or 10 , xj is highly correlated with the other explanatory variables R2 j is the coefficient of determination when the jth independent variable is regressed against the remaining k 1 independent variables 2 1 1 j j R VIF
  • 43. Standarisasi x z y z1 z2 z3 z4 78.5 -0.07846 -1.42369 -0.90072 1.79231 74.3 -1.09845 -1.2309 0.5044 1.31436 104.3 0.60153 0.50422 -0.58847 -0.59744 87.6 0.60153 -1.10237 -0.58847 1.01564 95.9 -0.07846 0.24717 -0.90072 0.17923 109.2 0.60153 0.43996 -0.43235 -0.47795 102.7 -0.75846 1.46818 0.81665 -1.43385 72.5 -1.09845 -1.10237 1.59728 0.83641 93.1 -0.92845 0.3757 0.97278 -0.47795 115.9 2.30152 -0.07415 -1.21297 -0.23897 83.8 -1.09845 -0.524 1.7534 0.23897 113.3 0.60153 1.14686 -0.43235 -1.07539 109.4 0.43154 1.27539 -0.58847 -1.07539 j jj j s xx z
  • 44. Matriks korelasi z1 z2 z3 z4 z1 1 0.22858 -0.82413 -0.24545 z2 0.22858 1 -0.13924 -0.97295 z3 -0.82413 -0.13924 1 0.02954 z4 -0.24545 -0.97295 0.02954 1 Eigen value & eigen vektor Eigenvalue 2.2357 1.5761 0.1866 0.0016 Proportion 0.559 0.394 0.047 0.000 Cumulative 0.559 0.953 1.000 1.000 Variable PC1 PC2 PC3 PC4 z1 0.476 0.509 0.676 0.241 z2 0.564 -0.414 -0.314 0.642 z3 -0.394 -0.605 0.638 0.268 z4 -0.548 0.451 -0.195 0.677
  • 45. Komponen utama PC1 = 0.476 z1 + 0.564z2 -0.394z3 0.548z4 PC2 = 0.509z1 0.414z2 0.605z3 + 0.451 z4 Nilai dari variabel zi dimasukkan Pada Persamaan tersebut Case PC1 PC2 1 -1,46724 1,90303 2 -2,13583 0,23835 3 1,12987 0,18388 4 -0,65989 1,57677 5 0,35876 0,48354 6 0,96664 0,16994 7 0,9307 -2,13482 8 -2,23214 -0,69167 9 -0,35152 -1,43224 10 1,66254 1,8281 11 -1,64018 -1,29511 12 1,69259 -0,39225 13 1,74568 -0,43752
  • 46. Pemilihan Model Analisis Regresi : Y dengan PC1 The regression equation is y = 95,4 + 9,88 PC1 Predictor Coef SE Coef T P Constant 95,4231 0,8163 116,90 0,000 PC1 9,8831 0,5682 17,39 0,000 S = 2,943 R-Sq = 96,5% R-Sq(adj) = 96,2% Analysis of Variance Source DF SS MS F P Regression 1 2620,5 2620,5 302,53 0,000 Residual Error 11 95,3 8,7 Total 12 2715,8
  • 47. Pemilihan Model Analisis Regresi : Y dengan PC1, PC2 The regression equation is y = 95.4 + 9.88 PC1 - 0.125 PC2 Predictor Coef SE Coef T P VIF Constant 95.4231 0.8548 111.63 0.000 PC1 9.8831 0.5950 16.61 0.000 1.0 PC2 -0.1250 0.7087 -0.18 0.864 1.0 S = 3.082 R-Sq = 96.5% R-Sq(adj) = 95.8% Analysis of Variance Source DF SS MS F P Regression 2 2620.8 1310.4 137.96 0.000 Residual Error 10 95.0 9.5 Total 12 2715.8
  • 48. Model Regresi Terakhir Diperoleh estimasi model regresi komponen utama (dianggap asumsi metode OLS terpenuhi) Model regresi dalam z : regresi dalam x : Descriptive Statistics: x1; x2; x3; x4 Variable N Mean Median TrMean StDev SE Mean x1 13 7,46 7,00 6,82 5,88 1,63 x2 13 48,15 52,00 48,09 15,56 4,32 x3 13 11,77 9,00 11,45 6,41 1,78 x4 13 30,00 26,00 29,45 16,74 4,64
  • 50. PENGGUNAAN METODE RIDGE KASUS MULTIKOLINIERITAS Harus diatasi Cara menanggulangi : PCR dan RIDGE REGRESSION RIDGE REGRESSION : adalah salah satu metode yang digunakan untuk mengatasi multikolinieritas dengan cara memodifikasi metode kuadrat terkecil; sehingga dihasilkan penduga koefisien regresi lain yang bias namun mempunyai varian yang lebih kecil daripada regresi linier berganda. E(b) E(bR)
  • 51. Estimasi pada METODE RIDGE E(b) E(bR)
  • 52. ESTIMASI PARAMETER Estimasi ridge regression diperoleh dengan cara meminimumkan jumlah kuadrat kesalahan dari persamaan : Untuk Z = 1,2,,k nilai dugaan dari ridge regression, dapat ditulis menjadi persamaan dan dapat dinyatakan dalam bentuk : dengan syarat , adalah nilai positif yang berhingga.
  • 53. Notasi dalam bentuk matriks adalah : dimana :
  • 54. PENENTUAN NILAI 慮 Salah satu alternatif pilihan adalah : Dimana : k adalah banyaknya parameter di luar 硫o, s2 adalah MSRes