3. r.e.v.i.e.w
Postulated Model ARB
1 1 2 2 ...o p pY X X X ワ
Apakah postulated model tersebut
THE BEST?
Perhatikan ilustrasi sebagai berikut
4. Y
X1
Varians yang TIDAK bisa
Dijelaskan oleh by X1 and X2
Varians yang
Dijelaskan oleh X1
Varians yang dijelaskan oleh X2
X2
Varians yang dijelaskan oleh
X1 and X2
5. Y
X1 X2
THE IDEA : A good model
tinggiR _2
rendahs _2
SIGNIFIKAN
SIGNIFIKAN
6. METODE PEMILIHAN MODEL TERBAIK
All-Possible
Best-Subsets Regression
Backward Elimination
Forward Selection
Stepwise Regression
Principle Component
Regression
Ridge Regression
Latent Root Regression
Stagewise Regression
SIFATNYA ITERATIF :
SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset dari
variabel independen
di EVALUASI
BERUSAHA
MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN
Prinsip dasar : Mengatasai
MULTIKOLINIERITAS
Dasar : CENTERING dan
SCALLING
7. MODEL TERBAIK
SELEKSI VARIABEL
All Possible
Regression
Best-Subsets
Regression
Backward
Elimination
Forward Selection
Stepwise Regression
SIFATNYA ITERATIF :
SATU VARIABEL
INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
Setiap subset dari
variabel independen
di EVALUASI dengan
KRITERIA tertentu
Procedure
8. CONTOH
DATA PADA APENDIKS B
X1 = Kandungan 3CaO-Al2O3
X2 = Kandungan 3CaO SiO2
X3 = 4 CaO Al2O3.Fe2O3
X4 = 2CaO.SiO2
Y = Kandungan panas yang terjadi (calori)
10. PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION
Seluruh model yang mungkin dibuat dibandingkan
Kriteria model terbaik :
1. Nilai 檎族
2. Nilai 壊族
3. Statistik, Cp
BEST SUBSET REGRESSION
Dipilih Best Regression pada masing-masing kelompok K
Kriteria model terbaik :
1. Nilai 檎族
2. Nilai Ra族
3. Statistik, Cp
11. NILAI Cp MALLOWS
Besaran Cp Mallows adalah sebagai berikut :
Dimana SSRes(p) adalah Sum of Square
Residual dari model yang memuat p parameter
P adalah jumlah parameter termasuk B0
S2 adalah Mean Square Residual
Kriteria E(Cp) = p
)2(/Re 2
pnssSSC PP
18. PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION
Seluruh model yang mungkin dibuat dibandingkan
Kriteria model terbaik :
1. Nilai 檎族
2. Nilai 壊族
3. Statistik, Cp
BEST SUBSET REGRESSION
Dipilih Best Regression pada masing-masing kelompok K
Kriteria model terbaik :
1. Nilai 檎族
2. Nilai Ra族
3. Statistik, Cp
19. Contoh : BEST SUBSET SELECTION
Kriteria : 2 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
4 56.9 35.3 5.0 24.894 X X X X
20. KRITERIA : 3 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
1 2.9 0.0 9.0 31.859 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
2 55.7 46.9 1.2 22.566 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
3 55.8 41.0 3.2 23.772 X X X
4 56.9 35.3 5.0 24.894 X X X X
Contoh : BEST SUBSET SELECTION
21. BACWARD ELIMINATION
The worst predictor variables are eliminated, one by one
Mengeluarkan variabel satu per satu; dari yang
paling tidak berpengaruh
FORWARD SELECTION
The best predictor variables are entered, one by one.
Variabel yang mempunyai pengaruh paling
kuat, satu persatu dimasukkan dalam model
.
STEPWISE METHOD
Menggabungkan metode forward dan backward
dengan korelasi partial
PEMILIHAN MODEL TERBAIK (2)
22. PROSEDUR : BACKWARD
Definisi :
Metode eliminasi langkah mundur dimana pada metode ini
semua variabel X dimasukkan dalam persamaan terlebih
dahulu. Lalu, dikeluarkan satu per satu, dimulai dari yang
paling tidak signifikan. Berhenti, saat TIDAK ADA lagi yang
dikeluarkan dari model
Langkah-langkah manual :
1. Menghitung regresi var Y dengan semua var X pilih
yang signifikan.
2. Bandingkan Fhit. dengan Ftabel, dimana:
a. Fhit < Ftabel, maka buang variabel yang
mengakibatkan Fhit dan regresikan kembali.
b. Fhit > Ftabel, maka ambil persamaan regresi
tersebut.
23. PROSEDUR : FORWARD
Kebalikan dari backward
Berpikir F-Sequential
Berpikir Mundur
Jadi konsep F-Partial
PROSEDUR : FORWARD
26. Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.8
Response is Y on 4 predictors, with N = 13
Step 1 2
Constant 223.8 162.0
X1 -1.4 -0.9
T-Value -0.43 -0.39
P-Value 0.681 0.706
X2 -0.7
T-Value -0.23
P-Value 0.821
X3 -1.3 -0.8
T-Value -0.46 -0.43
P-Value 0.661 0.680
X4 -2.09 -1.45
T-Value -0.75 -3.27
P-Value 0.476 0.010
S 24.9 23.6
R-Sq 56.90 56.60
R-Sq(adj) 35.35 42.14
Mallows C-p 5.0 3.1
CONTOH
BACKWARD
(2)
27. CONTOH : FORWARD
Stepwise Regression: Y versus X1, X2, X3, X4
Forward selection. Alpha-to-Enter: 0.05
Response is Y on 4 predictors, with N = 13
Step 1
Constant 143.8
X4 -1.38
T-Value -3.72
P-Value 0.003
S 21.5
R-Sq 55.71
R-Sq(adj) 51.69
Mallows C-p -0.8
28. PROSEDUR : STEPWISE
Definisi :
Metode eliminasi langkah maju dimana pada metode ini variabel
yang dimasukkan terlebih dahulu adalah variabel Y yang memiliki
korelasi terbesar dengan variabel X.
Langkah-langkah manual :
1. Menghitung korelasi var Y dengan semua var X pilih yang
paling besar.
2. Regresikan var Y dengan var Xi lakukan uji F.
3. Menghitung koef.korelasi parsial antara var Y dgn var Xi dengan
var X yang tidak masuk model pilih yang paling besar.
4. Regresikan var Y dengan var X yang masuk model
lakukan uji F.
5. Lakukan sampai semua var X yang paling akhir dianalisis
32. CONTOH
DATA PADA APENDIKS B
X1 = Kandungan 3CaO-Al2O3
X2 = Kandungan 3CaO SiO2
X3 = 4 CaO Al2O3.Fe2O3
X4 = 2CaO.SiO2
Y = Kandungan panas yang terjadi (calori)
33. METODE PEMILIHAN MODEL TERBAIK
All-Possible
Best-Subsets Regression
Backward Elimination
Forward Selection
Stepwise Regression
Principle Component
Regression
Ridge Regression
Latent Root Regression
Stagewise Regression
SIFATNYA ITERATIF :
SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkan
Atau dihilangkan
Berdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset dari
variabel independen
di EVALUASI
BERUSAHA
MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN
Prinsip dasar : Mengatasai
MULTIKOLINIERITAS
Dasar : CENTERING dan
SCALLING
34. KONSEP :
Berusaha memasukkan semua variabel
PRINCIPAL COMPONENT REGRESSION
RIDGE REGRESSION/GULUD REGRESSION
LATEN ROOT REGRESSION
STAGEWISE REGRESSION
TIDAK SEMUA DIJELASKAN,
HANYA PRINSIP-PRINSIP NYA SAJA
DIBAHAS LEBIH LANJUT DI MK LAIN
36. : Principle Component Regression
Terdapat p variabel bebas yang mempunyai
mulikolinieritas
Metode regresi yang memasukkan seluruh variabel
independen dan mengakomodasi adanya
kolinieritas/multikolinieritas antar variabel independen
dengan cara mengelompokkan variabel yang saling
berkorelasi cukup tinggi dalam sebuah variabel baru.
Sehingga mereduksi banyaknya dimensi regresi dan
antar variabel baru tersebut tidak saling berkorelasi
cukup tinggi.
Definisi
37. 1. Melakukan standarisasi/pembakuan data variabel
independent xj :
2. Membuat matrik korelasi antar variabel independen
3. Membangkitkan variabel baru yang saling independent
PC1 = a11z1 + a12z2 + + a1kzk
PC2 = a21z1 + a22z2 + + a2kzk
......
PCk = ak1z1 + ak2z2 + + akkzk
atau
PCj =ajTz, nilai a adalah eigen-vector dari eigenvalue ke-j dari matriks
korelasi antar variabel independent
Banyaknya PC ditentukan berdasarkan kriteria :
Eigen value 1, atau
Proporsi kumulatif eigen value : dengan k = banyaknya
variabel independen
4. Melakukan regresi y dengan skor PC
5. Menyatakan model regresi Y dengan PC ke dalam
model Y dengan z, kemudian x.
j
jj
j
s
xx
z
%75
k
j
j
Langkah-langkah PCR
41. Deteksi Multikolinieritas :
The regression equation is
y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4
Predictor Coef SE Coef T P VIF
Constant 62.41 70.07 0.89 0.399
x1 1.5511 0.7448 2.08 0.071 38.5
x2 0.5102 0.7238 0.70 0.501 254.4
x3 0.1019 0.7547 0.14 0.896 46.9
x4 -0.1441 0.7091 -0.20 0.844 282.5
S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%
Analysis of Variance
Source DF SS MS F P
Regression 4 2667.90 666.97 111.48 0.000
Residual Error 8 47.86 5.98
Total 12 2715.76
Source DF Seq SS
x1 1 1450.08
x2 1 1207.78
x3 1 9.79
x4 1 0.25
Menunjukkan
Adanya
MULTIKO-
LINIERITAS
42. Konsep
Variance Inflationary Factor
VIFj is used to measure collinearity:
If VIFj > 5 or 10 , xj is highly correlated with
the other explanatory variables
R2
j is the coefficient of determination when the jth
independent variable is regressed against the
remaining k 1 independent variables
2
1
1
j
j
R
VIF
45. Komponen utama
PC1 = 0.476 z1 + 0.564z2 -0.394z3 0.548z4
PC2 = 0.509z1 0.414z2 0.605z3 + 0.451 z4
Nilai dari
variabel zi
dimasukkan
Pada
Persamaan
tersebut
Case PC1 PC2
1 -1,46724 1,90303
2 -2,13583 0,23835
3 1,12987 0,18388
4 -0,65989 1,57677
5 0,35876 0,48354
6 0,96664 0,16994
7 0,9307 -2,13482
8 -2,23214 -0,69167
9 -0,35152 -1,43224
10 1,66254 1,8281
11 -1,64018 -1,29511
12 1,69259 -0,39225
13 1,74568 -0,43752
46. Pemilihan Model
Analisis Regresi : Y dengan PC1
The regression equation is
y = 95,4 + 9,88 PC1
Predictor Coef SE Coef T P
Constant 95,4231 0,8163 116,90 0,000
PC1 9,8831 0,5682 17,39 0,000
S = 2,943 R-Sq = 96,5% R-Sq(adj) = 96,2%
Analysis of Variance
Source DF SS MS F P
Regression 1 2620,5 2620,5 302,53 0,000
Residual Error 11 95,3 8,7
Total 12 2715,8
47. Pemilihan Model
Analisis Regresi : Y dengan PC1, PC2
The regression equation is
y = 95.4 + 9.88 PC1 - 0.125 PC2
Predictor Coef SE Coef T P VIF
Constant 95.4231 0.8548 111.63 0.000
PC1 9.8831 0.5950 16.61 0.000 1.0
PC2 -0.1250 0.7087 -0.18 0.864 1.0
S = 3.082 R-Sq = 96.5% R-Sq(adj) = 95.8%
Analysis of Variance
Source DF SS MS F P
Regression 2 2620.8 1310.4 137.96 0.000
Residual Error 10 95.0 9.5
Total 12 2715.8
48. Model Regresi Terakhir
Diperoleh estimasi model regresi komponen utama
(dianggap asumsi metode OLS terpenuhi)
Model regresi dalam z :
regresi dalam x :
Descriptive Statistics: x1; x2; x3; x4
Variable N Mean Median TrMean StDev SE Mean
x1 13 7,46 7,00 6,82 5,88 1,63
x2 13 48,15 52,00 48,09 15,56 4,32
x3 13 11,77 9,00 11,45 6,41 1,78
x4 13 30,00 26,00 29,45 16,74 4,64
50. PENGGUNAAN METODE RIDGE
KASUS MULTIKOLINIERITAS Harus diatasi
Cara menanggulangi : PCR dan RIDGE REGRESSION
RIDGE REGRESSION : adalah salah satu metode yang
digunakan untuk mengatasi multikolinieritas dengan cara
memodifikasi metode kuadrat terkecil; sehingga dihasilkan
penduga koefisien regresi lain yang bias namun
mempunyai varian yang lebih kecil daripada regresi linier
berganda.
E(b) E(bR)
52. ESTIMASI PARAMETER
Estimasi ridge regression diperoleh dengan cara
meminimumkan jumlah kuadrat kesalahan dari
persamaan :
Untuk Z = 1,2,,k nilai dugaan dari ridge
regression, dapat ditulis menjadi persamaan
dan dapat dinyatakan dalam
bentuk :
dengan syarat , adalah nilai positif
yang berhingga.