際際滷

際際滷Share a Scribd company logo
COMPUTERIZED ADAPTIVE TESTING
DISAMPAIKAN OLEH:
JAHJA UMAR, Ph.D
APA ITU CAT?
 PENG-ADMINISTRASI-AN TES DENGAN KOMPUTER, DI MANA
SOAL YANG DIBERIKAN DISESUAIKAN DENGAN TINGKAT
KEMAMPUAN/ TRAIT DARI ORANG YANG DI TES
 SOAL YANG SESUAI DIPILIH DAN DISAJIKAN OLEH KOMPUTER
 KOMPUTER MENCATAT JAWABAN (RESPONSE) YANG DIBERIKAN,
DAN MENGANALISISNYA SEHINGGA DIPEROLEH ESTIMATE 
TINGKAT KEMAMPUAN/ TRAIT ORANG YANG DI TES
 KOMPUTER MEMILIH SOAL BERIKUTNYA SESUAI DENGAN HASIL
ESTIMASI TERSEBUT, KEMUDIAN RESPONSE DIANALISIS LAGI
DAN DIPEROLEH ESTIMATE YANG BARU
 PROSES DI ATAS DIULANG TERUS SAMPAI DIPEROLEH ESTIMATE
DENGAN TINGKAT PRESISI YANG DIINGINKAN
APA ITU CAT?
 HARUS TERSEDIA BANK SOAL YANG ITEM NYA SUDAH
DIVALIDASI DAN DIKALIBRASI SKALANYA
 VALIDASI DAN KALIBRASI SOAL MENGGUNAKAN ITEM
RESPONSE THEORY (IRT) ATAU CONFIRMATORY FACTOR
ANALYSIS (CFA)
 KARAKTERISTIK SOAL YANG DIHASILKAN BERSIFAT
INVARIANCE
 MEMILIH ITEM YANG AKAN DISAJIKAN DENGAN
PERHITUNGAN IRT (SOAL DENGAN INFORMASI TERTINGGI)
 MENG-ESTIMASI KEMAMPUAN/ TRAIT (SCORING) JUGA
DENGAN IRT
APA ITU CAT?
 ORANG YANG BERBEDA MENEMPUH HIMPUNAN SOAL BERBEDA
(MUNGKIN ADA SEBAGIAN YANG SAMA TAPI MUNGKIN JUGA TAK
ADA YANG SAMA), JUGA DENGAN JUMLAH SOAL YANG BERBEDA
 MESKIPUN SOAL YANG DITEMPUH BERBEDA TETAPI HASIL UKURAN
MEMILIKI SKALA YANG SAMA (KOMPARABEL)
 PEMILIHAN SOAL YANG AKAN DISAJIKAN BERIKUTNYA BERSIFAT
ADAPTIVE, BERGANTUNG KEPADA HASIL ESTIMASI (SKORING)
BERDASARKAN JAWABAN TERHADAP SOAL YANG SEBELUMNYA
 SETIAP KALI SKOR DIPEROLEH, TERSEDIA PULA INFORMASI
(TINGKAT PRESISI/ STANDAR ERROR) DARI SKOR TERSEBUT
 PENYAJIAN SOAL DIHENTIKAN JIKA SKOR YANG DIPEROLEH
SESEORANG TELAH MENCAPAI TINGKAT PRESISI TERTENTU
 PIONIR PEMIKIRAN CAT: F.M. LORD, DAN D.J. WEISS, SEDANGKAN
PIONIR DARI APLIKASI CAT MODERN: J.R. McBRIDE, H. WAINER, W.J.
van der LINDEN, DAN C.A.W. GLAS
KEUNGGULAN CAT?
 TINGKAT PRESISI SKOR YANG DIPEROLEH LEBIH TINGGI
KARENA SOAL YANG DITEMPUH SELALU SESUAI
DENGAN TINGKAT KEMAMPUAN/ TRAIT ORANG YANG DI
TES (ADAPTIVE)
 SOAL YANG DITEMPUH SETIAP ORANG UMUMNYA LEBIH
SEDIKIT
 TIAP ORANG MENEMPUH HIMPUNAN SOAL BERBEDA JADI
TAK BISA SALING MENYONTEK
 LEBIH EFISIEN DAN HASIL SEGERA DIKETAHUI
 SKOR TES YANG DIHASILKAN KOMPARABEL KARENA SUDAH
TERKALIBRASI PADA SKALA YANG SAMA
KEUNGGULAN CAT?
TAHAPAN PENGEMBANGAN CAT:
 PENGEMBANGAN BANK SOAL YANG TERKALIBRASI
 PENGEMBANGAN SOFTWARE CAT
 PENGADAAN HARDWARES DENGAN SPESIKASI TERTENTU
 INSTALASI/ PEMASANGAN HARDWARES
 PELATIHAN PERSONIL
 RISET/ PERCOBAAN  PERCOBAAN SEBELUM IMPLEMENTASI
 IMPLEMENTASI
CONTOH: TAHAPAN PENGEMBANGAN ASVAB CAT
 RISET PENDAHULUAN: 1976 - 1990
 APA MENGELUARKAN Guidelines for Computer-Based Tests and
Interpretations PADA TAHUN 1985
 CAT-ASVAB MULAI PERTAMA BEROPERASI PADA SEPTEMBER
1990
 DEPARTEMEN PERTAHANAN AMERIKA MENGELUARKAN SURAT
KEPUTUSAN UNTUK MENERAPKAN CAT-ASVAB SECARA
NASIONAL
 IMPLEMENTASI PERTAMA OKTOBER 1996 DI DENVER, LALU DI
CHICAGO 1997, DAN BEROPRERASI LENGKAP SECARA NASIONAL
PADA APRIL 1997 (di 65 Military entrance processing stations
/MEPSs).
DESKRIPSI ASVAB SEBELUM CAT:
APA ITU BANK SOAL TERKALIBRASI ?
 HIMPUNAN SOAL YANG TELAH DIVALIDASI (UJI
VALIDITAS KONSTRUK) DENGAN ANALISIS FAKTOR
KONFIRMATORIK (CFA) ATAU DENGAN ITEM RESPONSE
THEORY (IRT),
 SOAL YANG TERBUKTI VALID, DIKALIBRASI SKALA
TINGKAT KESUKARAN (THRESHOLD) NYA DENGAN IRT,
 SOAL DAN KARAKTERISTIK PSIKOMETRIK NYA DISIMPAN
SERTA DIKELOLA DENGAN KOMPUTER,
 DAPAT DIGUNAKAN UNTUK PERAKITAN TES ATAU
UNTUK CAT,
 SKOR YANG DIHASILKAN OLEH TES YG BERBEDA (TIDAK
PARALEL) NAMUN TETAP KOMPARABEL PADA SKALA
YANG SAMA
PENGEMBANGAN BANK SOAL TERKALIBRASI
 MENETAPKAN JENIS KEMAMPUAN/ APTITUDES/ TRAITS DSB
YANG HENDAK DIUKUR
 PENGADAAN SOAL (ITEM WRITING) PADA MASING-MASING JENIS
TERSEBUT
 UJI-COBA SKALA BESAR DALAM RANGKA VALIDASI (IRT DAN CFA)
 SOAL-SOAL YANG VALID DIKALIBRASI KE DALAM SKALA YANG
SAMA (IRT) YANG TELAH ADA DI MASING-MASING BANK SOAL
 KETIGA KEGIATAN INI BERKELANJUTAN SECARA RUTIN (SISTEMIK)
PENGEMBANGAN SOFTWARE CAT:
 DAPAT MENYIMPAN SOAL DENGAN BERBAGAI INFORMASI TENTANG SOAL
TERSEBUT (TERMASUK DATA PSIKOMETRIKNYA)
 DAPAT MENAMPILKAN SOAL DENGAN SEGERA TERMASUK SOAL YANG BERISI
RUMUS, GAMBAR, FOTO, DAN ATRIBUT LAINNYA
 BERSIFAT INTERAKTIF DAN MUDAH DIGUNAKAN OLEH ORANG YANG DI TES
 TERDAPAT ALGORITMA IRT YANG MAMPU MELAKUKAN PERHITUNGAN
DALAM RANGKA PEMILIHAN SOAL YANG AKAN DITAMPILKAN DENGAN
MENGGUNAKAN DATA PSIKOMETRIK DARI SETIAP SOAL
 TERDAPAT ALGORITMA IRT YANG MAMPU MELAKUKAN PERHITUNGAN
DALAM RANGKA ESTIMASI TRUE SCORE DENGAN MENGGUNAKAN DATA
RESPONS TERHADAP SETIAP SOAL
 MEMILIKI FUNGSI EDITING DALAM RANGKA PENYUSUNAN LAPORAN HASIL
TES DALAM BERBAGAI FORMAT YANG DIINGINKAN
FOKUS WORKSHOP INI:
 CARA UJI VALIDITAS KONSTRUK SOAL DENGAN
CFA
 CARA UJI VALIDITAS SOAL DENGAN IRT
 KALIBRASI TINGKAT KESUKARAN SOAL
DENGAN IRT
 PENGGUNAAN IRT DALAM CAT: (1) MEMILIH
SOAL YANG AKAN DITAMPILKAN, (2) ESTIMASI
TRUE SCORE DAN STANDAR ERROR NYA
PENYUSUNAN SOAL: CONTENT VALIDITY
LATENT VARIABEL
 OPERATIONAL DEFINITION
 INDICATORS
 KISI-KISI
 TEST ITEMS (STIMULUS)
 PAKET TES ATAU ITEM POOL
PENYUSUNAN SOAL
 PENGUASAAN MATERI, PENGUASAAN KAEDAH, SENI/
BAKAT
 PERLU DISELEKSI DAN DILATIH
 PADA LEMBAGA PENGEMBANG TES BESAR DI USA,
INGGRIS,AUSTRALIA, PENYUSUN SOAL OLEH
SEHIMPUNAN ORANG YANG TETAP
 TIDAK SECARA ADHOC TETAPI BERKESINAMBUNGAN
Perkembangan dalam metode penulisan soal:
 Tidaklah terlalu pesat, dan selama puluhan
tahun terakhir relatif tak berubah.
 Bentuk-bentuk soal yang dapat dipilih masih
relatif sama,
 Kalaupun ada perkembangan baru, terutama
adalah karena pengaruh teknologi komputer
 Soal dapat di generate secara otomatis
menggunakan kriteria yang sangat spesifik.
Penulisan Soal Computerized:
 Hal ini terutama jika populasi soal yang
hendak ditulis bersifat finite.
 Misalnya, soal untuk mengukur kemampuan
arithmatika seperti perkalian dua bilangan
yang hasilnya kurang dari seratus.
 Soal untuk beberapa kemampuan kognitif
maupun persepsi, sikap, bahkan traits
(menggunakan kepustakaan adjectives
tertentu) dapat di generate dengan bantuan
komputer.
 TEORI TES KLASIK
 ITEM RESPONSE THEORY
 CONFIRMATORY FACTOR ANALYSIS
METODE VALIDASI SOAL
TEORI DAN METODA VALIDASI TES
 Mengalami perubahan dan kemajuan yang pesat,
namun pada dasarnya hanya ada dua jenis teori
tes, yaitu :
 (1) Teori yang berbasis raw scores (skor total,
atau skor komposit), dan disebut teori tes
klasik atau teori tes tradisional,
 (2) Teori yang berbasis item (soal): Dapat
menghasilkan true-scores bagi setiap orang
dan disebut teori tes modern.
TEORI DAN METODA VALIDASI TES
 Teori berbasis items ada dua jenis:
 Berdasarkan pola jawaban (response patterns)
 Berdasarkan struktur matriks korelasi antar
item.
DASAR TEORI TES KLASIK
 Skor tes diperoleh dengan menjumlahkan skor
masing-masing soal (disebut X)
 Diteorikan bahwa X = T + E,
 dimana T adalah true score dan E adalah
measurement error.
 Konsep validitas umumnya dirumuskan
sebagai korelasi antara skor tes (X) dengan
true scores T.
METODE VALIDASI TEORI TES KLASIK
 Karena true-scores tidak ada datanya, maka
skor dari tes lain yang sudah dianggap valid
digunakan sebagai kriteria untuk menilai valid
tidaknya tes tersebut.
 Ketika hal inipun tak tersedia, maka skor dari
tes yang sedang diteliti itu sendiri lalu
dianggap sudah valid dan dijadikan kriteria
sementara.
METODE VALIDASI TEORI TES KLASIK
 Korelasi antara setiap item dengan skor tes
tersebut dihitung,
 Item yang berkorelasi positif dan tinggi
dianggap valid, sedangkan item yang
berkorelasi rendah, apalagi jika negatif, dinilai
tidak valid.
 Setelah semua item yang dianggap tidak
valid di drop, maka skor tes yang diperoleh
dianggap valid.
METODE VALIDASI TEORI TES KLASIK
 Sangat lemah karena skor tes yang dijadikan
kriteria itu sendiri adalah belum diuji
validitasnya.
 Ketika kriteria eksternal (skor tes lain yang
dianggap sudah valid) tersedia, sebenarnya
pun masih cukup lemah karena validitas skor
tes lain itupun dapat dipertanyakan.
METODE VALIDASI TEORI TES KLASIK
 Cara yang lebih ilmiah ialah dengan metode
multi-traits multi-methods (MTMM)
 Membandingkan pola (pattern) korelasi antar
traits dan antar metode, apakah sesuai
dengan landasan teori psikologi yang
digunakan.
 Namun cara ini jarang dilakukan karena
seringkali sulit diimplementasikan secara
empiris.
METODE VALIDASI TEORI TES KLASIK
 Metode lain ialah dengan pendekatan analisis
faktor, namun dengan teknik tradisional
(misalnya seperti pada SPSS)
 Hanya bersifat eksploratorik dan bukan
merupakan inferensi statistik,
 Tidak ilmiah karena tak ada kriteria yg pasti
untuk menentukan banyaknya faktor maupun
dalam merotasi faktor.
 Ringkasnya, semua indeks validitas pada teori
klasik adalah bermasalah.
TEORI TES MODERN
 Teori tes modern dan teori tes klasik
sebenarnya tidaklah berbeda karena teori tes
modern merupakan penyempurnaan dari teori
tes klasik.
 Yang tak dapat diperoleh pada teori tes klasik
seperti true-score yang berskala interval,
adalah hal yang dapat dihasilkan pada teori
tes modern.
TEORI TES MODERN
 Indeks-indeks validitas dan reliabilitas dapat
diperoleh dengan lebih baik, dan
 Asumsi-asumsi yang mendasari proses
pengukuran dapat diuji kebenarannya.
 Namun menuntut pemahaman matematika dan
statistika yang lebih rumit,
 Penggunaan teori klasik tetap dominan terutama
di negara yang belum tergolong maju.
 Di kalangan komunitas psikologi di Indonesia,
tampak bahwa bahkan teori tes klasik pun masih
belum dipahami dengan memadai.
TUMBUHNYA TEORI TES MODERN
 Berkembangnya teori statistika dan
matematika khususnya di bidang statistical
modeling
 Disertai dengan berbagai teori dan metode
estimasi yang canggih untuk parameternya,
 Berbarengan pula dengan pesatnya
perkembangan teknologi komputer,
 Semua ini mendorong pesatnya
perkembangan teori tes di bidang psikologi
dan pendidikan.
TUMBUHNYA TEORI TES MODERN
 Konsep pengukuran psikologis yang dahulunya
mungkin sudah pernah dibahas namun
terpaksa ditinggalkan atau mengendap karena
tidak mungkin dilakukan perhitungan
matematis pada jamannya,
 Kini dimunculkan kembali dan bahkan menjadi
teori yang dianggap baru dengan sebutan
teori tes modern.
CIRI UTAMA TEORI TES MODERN
 Tidak berbasis skor tes tetapi berbasis skor item,
 Dapat diperoleh true score untuk setiap orang
lengkap dengan standar error nya masing-
masing sehingga tidak diperlukan lagi indeks
reliabilitas
 Hasil tes yang tak bergantung kepada sampel
(invariance) sehingga dapat dibuat komparabel
antar waktu, tempat, dan tingkatan
 Asumsi-asumsi penting dapat diuji secara
empiris,
CIRI UTAMA TEORI TES MODERN
 True score yang dihasilkan berskala interval,
 Dapat diterapkan pada berbagai jenis tes baik
untuk kemampuan, sikap, maupun personality
 Pada level yang canggih dapat dibuat
computer adaptive testing yang bahkan
berbasis online,
 Pengaruh berbagai sumber bias (termasuk
social desirability) dapat dikontrol secara
matematis
DUA JENIS TEORI TES MODERN
 Teori yang berbasis model probabilitas dari pola
respons (pola jawaban terhadap sehimpunan
items), dikenal dengan nama Item Response
Theory (IRT), dan
 Teori yang berbasis analisis terhadap struktur
korelasi antar items (Confirmatory Factor
Analysis atau CFA).
 Dari sisi teori statistika atau psikometrika,
sebenarnya kedua pendekatan tersebut sudah
menyatu menjadi model statistika yang generik
dan canggih, yaitu: latent variable modeling
DUA JENIS TEORI TES MODERN
 Aplikasinya tidak lagi terbatas pada bidang
psikologi tapi pada hampir semua bidang seperti
ekonomi, kesehatan, ilmu pengetahuan alam,
ilmu-ilmu sosial, bahasa, dan bahkan antropologi.
 Salah satu program komputer canggih dan
komprehensif dalam hal latent variable
statistical analysis pada saat ini adalah MPLUS
versi 7.4 (Muthen and Muthen, 2015).
 Hampir semua jenis model statistika yang telah
dikembangkan orang hingga saat ini, dapat
diselesaikan dengan menggunakan software ini,
terutama sekali jika menyangkut variabel laten.
ITEM RESPONSE THEORY (IRT)
 Mulai berkembang pesat di tahun 1980an
 Ide dasarnya telah dimunculkan oleh F.M. Lord
di tahun 1940 tetapi baru menjadi topik
hangat di tahun 1970an
 Namun yang dianggap sebagai revolusi dalam
teori testing ialah model pengukuran
kemampuan yang dikembangkan oleh Georg
Rasch, pakar matematika asal Denmark
 Menjadi cikal bakal IRT dan dikenal dengan
nama Rasch Measurement Model
ITEM RESPONSE THEORY (IRT)
 Sampai kini aliran Rasch Model terus berkembang
pesat menjadi makin canggih, dan sangat dominan di
Eropa dan Australia
 Di Amerika, pengaruh Rasch Model ini juga cukup besar
dengan pusat perkembangannya di Universitas Chicago
 Mengklaim bahwa dari semua model IRT yang ada,
Rasch Model adalah satu-satunya measurement
model, sedang yang lainnya hanyalah statistical
models
 Sebaliknya, mereka yang mengembangkan IRT sebagai
model statistika hanya memandang Rasch Model
sebagai special case saja dari IRT dan mereka
memberinya label IRT model satu parameter
ITEM RESPONSE THEORY (IRT)
 Metode pengujian validitas dalam IRT secara
konsep cukup sederhana namun perhitungan
matematis cukup kompleks.
 Sebagai ilustrasi, misalkan sebuah tes
kemampuan yang itemnya berbentuk pilihan
ganda: respons yang diperoleh hanya dua
macam yaitu (a) jawaban benar dengan kode
angka 1, dan (b) jawaban salah dengan kode
angka 0.
ITEM RESPONSE THEORY (IRT)
 Dalam hal ini, teori IRT berbunyi sebagai
berikut:
 Jika ada banyak orang yang bervariasi
kemampuannya menempuh sebuah soal,
maka orang yang lebih tinggi
kemampuannya akan memiliki peluang
lebih tinggi untuk menjawab benar pada soal
tersebut dibandingkan dengan orang yang
kemampuannya lebih rendah.
ITEM RESPONSE THEORY (IRT)
 Makin tinggi kemampuan seseorang akan makin tinggi
probabilitas (peluang) orang tersebut menjawab benar,
dan sebaliknya.
 Jika tingkat kemampuan orang diberi simbol (theta)
dan tingkat kesukaran soal diberi simbol , serta
digunakan distribusi probabilitas dengan fungsi
logistic, maka peluang seorang untuk menjawab
benar pada sebuah item dapat dituliskan dengan
rumus berikut:
 di mana y adalah jawaban seorang terhadap suatu
butir soal
ITEM RESPONSE THEORY (IRT)
 Karena nilai probabilitas hanya antara nol dan
satu sedangkan dan adalah bilangan riel
(variabel kontinum), maka untuk suatu nilai
yang konstan dan yang bervariasi (artinya,
ada banyak orang menempuh satu butir soal),
persamaan di atas akan menghasilkan sebuah
kurva yang makin ke kanan makin menanjak
(monotonic increasing) namun bersifat
asimptotik (tidak pernah menyentuh nol
ataupun satu karena sifat yang probabilistik)
ITEM RESPONSE THEORY (IRT)
 Kurva ini disebut kurva karakteristik soal
(item characteristic curve, atau ICC)
 Sebaliknya, untuk suatu nilai yang konstan
dengan yang bervariasi (ada satu orang
menempuh banyak soal), maka yang
dihasilkan adalah kurva yang makin ke kanan
makin menurun (monotonic decreasing) dan
disebut sebagai kurva karakteristik orang
(PCC)
ITEM RESPONSE THEORY (IRT)
 Keduanya dapat digambarkan sebagai berikut:
ITEM RESPONSE THEORY (IRT)
 Dengan menggunakan kurva di atas, orang dapat
menguji secara empirik validitas data tes baik
untuk instrumen (item tes) maupun untuk orang
 Jika sebuah soal secara empirik terbukti
menghasilkan kurva soal yang sesuai dengan teori
IRT (monotonic increasing) maka soal tersebut
dianggap valid, dan sebaliknya.
 Begitu pula dengan orang yang dites, jika respons
nya menghasilkan kurva orang yang sesuai
dengan teori IRT (monotonic decreasing) maka
berarti jawabannya tidak ngawur atau palsu,
dan boleh digunakan untuk diskor
ITEM RESPONSE THEORY (IRT)
 Gambar berikut menunjukkan kurva dua butir
soal, di mana soal no. 1 fit dan soal no. 2
misfit dengan teori IRT:
Sumber: Umar (1999): Item Banking.
In G. N. Masters and J. P. Keeves (Eds). Advances in Measurement in Educational Research and
Assessment. Oxford: Elsevier Science
ITEM RESPONSE THEORY (IRT)
 Pada contoh di atas, item nomor 1 valid,
sedangkan item 2 tidak valid dan harus di
drop.
 Jika seluruh item pada sebuah tes terbukti
valid, maka berarti tes tersebut valid dan
dapat digunakan.
TES YANG VALID:
TES YG TIDAK VALID:
CONTOH HIMPUNAN SOAL VALID: 2-PL
ITEM RESPONSE THEORY (IRT)
 Seperti telah disebutkan, meskipun
konsep dasar IRT terlihat sederhana
namun perhitungan matematis yang
diperlukan amatlah rumit dan hanya
dapat dilakukan dengan komputer
berkecepatan tinggi.
ITEM RESPONSE THEORY (IRT)
 Sebagai ilustrasi, jika dalam rangka validasi tes
yang terdiri dari 40 soal diuji-cobakan kepada 400
subyek, maka orang harus menyelesaikan
sebanyak 16000 persamaan
secara simultan (simultaneous equations)
Apalagi mengingat persamaannya yang bersifat
non-linear jadi tak terdapat closed formulas dan
harus diselesaikan dengan metode iterative yang
memerlukan hitungan calculus dengan sangat
intensif
ASUMSI ITEM RESPONSE THEORY (IRT)
 Seperti semua model pengukuran, pada IRT pun
diperlukan asumsi unidimensional
 Bahwa seluruh item dalam suatu tes hanya
mengukur satu dimensi saja, yaitu konstruk yang
telah didefinisikan dan diniati untuk diukur.
 Masalahnya ialah, jika sehimpunan soal sudah
memenuhi syarat kurva ICC yang menanjak,
ternyata tidaklah merupakan jaminan bahwa
seluruh soal tersebut hanya mengukur satu
konstruk saja
ASUMSI ITEM RESPONSE THEORY (IRT)
 Asumsi lain adalah bahwa setiap respons
bersifat independen satu sama lain, yang
terkadang tak dapat terpenuhi
 Juga ada asumsi bahwa measurement error
pada suatu item tidak berkorelasi satu sama
lain (asumsi local-independence)
 Inipun sukar terpenuhi karena beberapa item
mungkin memiliki berbagai aspek kontekstual
yang sama
ASUMSI ITEM RESPONSE THEORY (IRT)
 Semua asumsi di atas tak dapat diuji dalam
IRT dan harus diuji secara terpisah dengan
metode statistika lain (software lain) yang
terpisah.
 Kelemahan IRT ini dapat tertutupi pada model
teori tes modern yang lain, yaitu yang berbasis
struktur korelasi antar item,
 Model ini dikenal dengan nama Confirmatory
Factor Analysis for Categorical data ( CFA)
CFA CATEGORICAL DATA
 Teori tes modern yang berbasis struktur korelasi antar item,
pada dasarnya terdiri dari tiga langkah:
1. Mengestimasi korelasi polychoric antar setiap pasangan
item dengan memperhitungkan nilai threshold pada
masing-masing item (yang juga harus diestimasi dari data)
2. Menguji hipotesis bahwa seluruh item mengukur hanya
satu atribut atau dimensi yang ditetapkan
(unidimensional),
3. Jika model unidimensional terbukti fit dengan data
maka dapat diuji apakah setiap item signifikan dalam
mengukur dimensi yang hendak diukur.
Dalam hal ini, item yang tidak signifikan atau item yang
koefisiennya negatif harus di drop karena tidak valid dalam
mengukur apa yang hendak diukur.
CFA CATEGORICAL DATA
 Langkah pertama merupakan ranah tersendiri
dalam metode statistika untuk data kategorikal,
sedangkan langkah kedua dan ketiga adalah
dikenal dengan sebutan metode Confirmatory
Factor Analysis (CFA)
 Jika ketiganya diintegrasikan, disebut:
Confirmatory Factor Analysis of Categorical
Data
 Pada model ini, IRT dan CFA melebur menjadi
satu dan seluruh asumsi IRT dapat sekaligus diuji
apakah telah terpenuhi
CFA CATEGORICAL DATA
 Berbeda dengan IRT, meskipun asumsi tak
terpenuhi, tetap dapat diperoleh true-score
yang valid, yaitu dengan memperhitungkan
aspek asumsi yang tak terpenuhi tersebut
 Pada saat ini, software yang dapat digunakan
untuk problem di mana IRT dan CFA
terintegrasi adalah MPLUS (Muthen and Muthen 2015)
CFA CATEGORICAL DATA
 Dari segi matematis, perhitungannya
termasuk sangat rumit.
 Sekedar ilustrasi, misalkan menghitung
korelasi polychoric
 Paling sederhana adalah korelasi tetrachoric
yaitu antara dua variabel dichotomis, misalnya
jawaban terhadap dua item pilihan ganda:
CFA CATEGORICAL DATA
 Pertama adalah menghitung threshold
(dalam hal ini dapat disebut sebagai tingkat
kesukaran soal).
 Andaikan adalah threshold item x, artinya:
jika tingkat kemampuan orang yang menjawab
item x lebih tinggi dari maka jawabannya
akan benar (x=1), dan jika kemampuan <
maka jawabannya salah (x=0).
LATENT CONTINUOUS VARIABLE with
DICHOTOMOUS INDICATOR
Kalau
Y*
Y=0 Y=1

*
y 器
*
y 器
maka y=1
maka y=0
LATENT CONTINUOUS VARIABLE with
POLYTOMOUS INDICATOR
POLYTOMOUS:
Kalau maka y=1
Kalau maka y=2
Kalau maka y=3
Kalau maka y=4
Kalau maka y=5
*
1y 器
*
2 3y 器 
*
1 2y 器 
*
3 4y 器 
*
4y 器
1
2
3 4
5
1 2 3 4
*
y
Y=4
MENGHITUNG KORELASI POLYCHORIC:
 Dengan asumsi bahwa kemampuan yang
diukur mengikuti kurva normal, nilai dapat
dihitung dengan rumus:
 Jika ada item y dengan threshold , maka
korelasi tetrachoric antara item x dan y
dapat diperoleh dengan mencari nilai r dari
persamaan berikut (Divgi, 1979):
di mana adalah probability
 2
1
( ) exp( )
22
x
F x




  駈

2 2
22
1 2
( , , ) exp( )
2(1 )2 1
x y rxy
L r x y
rr  
 

   
   

 
( , , )L r  ( , )x y f f
CFA CATEGORICAL DATA
 Bayangkan jika tiap item kategorinya lebih dari
dua, misalnya skala Likert dengan 4 pilihan,
dimana ada tiga thresholds untuk setiap item.
 Jika sebuah tes terdiri dari 40 item, maka
harus dihitung sebanyak (40 X 41)/2 = 820
korelasi polychoric.
 Nah, matriks korelasi polychoric inilah yang
akan dijadikan data untuk analisis CFA pada
langkah berikutnya.
PATH DIAGRAM FOR CFA-CATEG: (HANYA DENGAN MPLUS)
UNI-DIMENSIONAL MODEL + IRT
1
x
l1
l2
l3
l4
*
1y
*
2y
*
3y
*
4y
2
3
4
1
2
3
4
y1
y2
y3
y4
CFA CATEGORICAL DATA
UNTUK SETIAP ITEM (x) PERSAMAANNYA ADALAH:
y = 了 両 + 隆
DIMANA:
y = VECTOR OF OBSERVED VARIABLES (ITEMS),
両 = VECTOR OF FACTORS (CONSTRUCTS,
OR LATENT VARIABLES) TO BE
MEASURED VIA y , IN WHICH 了 IS
THE COEFFICIENTS OF FACTOR LOADINGS,
隆 = VECTOR OF RESIDUALS (ERRORS OF
MEASUREMENT).
CFA CATEGORICAL DATA
 Perhitungan dalam analisis CFA (jauh lebih rumit
dari perhitungan korelasi polychoric), menggunakan
rumus:
Dimana:
= matrik korelasi polychoric antar items Y ,
= matrik koefisien muatan faktor setiap item
= matrik korelasi antar faktor
= matrik kovarians antar kesalahan pengukuran
pada setiap item
Setiap elemen dari 裡 dinyatakan dalam 了, , AND 慮.
Misalnya: pada model unidimensionaal: 21 = 了1了2
CONTOH:
11 12 13 14 11
21 22 23 24 21 22
31 32 33 34 31 32 33
41 42 43 44 41 42 43 44
1
.72 1
.44 .47 1
.47 .50 .36 1
s s s s s
s s s s s s
S
s s s s s s s
s s s s s s s s
     
     
     削  
     
     
 誌   
y1
y2
y3
y4
1l
2l
3l
4l
F
1
2
3
4
2 2 2y Fl わ 
1 1 1y Fl わ 
3 3 3y Fl わ 
4 4 4y Fl わ
 
1 11
2 22
1 2 3 4
333
444
2
1 11 1 2 1 3 1 4
2
2 1 2 22 2 3 2 4
2
3 1 3 2 3 33 3 4
2
4 1 4 2 4 3 4 44
0 0 0
0 0 0
0 0 0
0 0 0
l 
l 
l l l l
l
l
l  l l l l l l
l l l  l l l l
l l l l l  l l
l l l l l l l 
   
   
   削   
   
   
 誌 
 刻
 
 削
 削
 
 
PERSAMAAN UNTUK CFA: 裡 = 陸 + 慮
UJI HIPOTESIS: MODEL TEORI
 OBSERVED SAMPLE CORRELATION MATRIX OF Y VARIABLES, i.e., S, IS
USED AS AN ESTIMATE OF 裡
(EACH ELEMENT OF 裡 IS EQUATED WITH ITS RESPECTIVE ELEMENT IN S)
 THE NULL HYPOTHESIS TO BE TESTED IS:
S = 裡, OR, (S - 裡 = 0). IF NOT REJECTED (NON SIGNIFICANT) MEANS THE
THEORETICAL MODEL IS SUPPORTED BY DATA, HENCE, ITS USES IS
JUSTIFIED.
 THIS MODEL TESTING IS REFERRED TO AS:
TEST OF GOODNESS OF FIT.
11
21 22
31 32 33
41 42 43 44

 

  
  

 
  
   
 
 
 削 
 
 
 
2
11 1 11
 1 l 縁  
2 1.72 l l
3 1.44 l l
2
2 221 l 縁 
2
3 331 l 縁 
2
4 441 l 縁 
3 2.47 l l
4 1.47 l l 4 2.50 l l 4 3.36 l l
1
.72 1
.44 .47 1
.47 .50 .36 1
S
 
 
 削
 
 
 
2
1 11 1 2 1 3 1 4
2
2 1 2 22 2 3 2 4
2
3 1 3 2 3 33 3 4
2
4 1 4 2 4 3 4 44
l  l l l l l l
l l l  l l l l
l l l l l  l l
l l l l l l l 
 刻
 
 削 
 削
Hasil LISREL untuk Data dan Model di atas:
11
22
33
44
 .33
 .24
 .70
 .66




 刻
 
緒 
 
緒 
 
緒 
1
2
3
4
 .82
 .87
 .54
 .58
l
l
l
l
 刻
 
緒 
 
緒 
 
緒 
2 2
11 1 11
 .82 .33 1 l 縁    
21 2 1
 .87 .82 .71 l l   
31 3 1
 .54 .82 .44 l l   
2 2
33 3 33
 .54 .70 1 l 縁    
2 2
22 2 22
 ..87 .24 1 l 縁    
32 3 2
 .54 .87 .47 l l   
41 4 1
 .58 .82 .48 l l    42 4 2
 .58 .87 .51 l l   
43 4 3
 .58 .54 .31 l l   
2 2
44 4 44
 .58 .66 1 l 縁
RESIDUAL
1
.72 1
.44 .47 1
.47 .50 .36 1
S
 
 
 削
 
 
 
1
.72 1
.45 .48 1
.48 .51 .32 1
 
 
 削 
 
 
 
0
0 0
.01 .01 0
.01 .01 .04 0
S
 
 
 削  
  
 
  
2
(2) 2.55 0.279p   
0.024RMSEA
UJI HIPOTESIS: 了
 ONLY WHEN THE MODEL IS FIT, THEN THE
NULL HYPOTHESES 了 = 0, WORTH TO BE
TESTED.
 WHEN A NULL HYPOTHESIS REGARDING AN 了 IS
REJECTED (SIGNIFICANT), THE RESPECTIVE Y IS
CONSIDERED AS A VALID INDICATOR (MEASURE)
OF THE 両 (FACTOR).
CATATAN UNTUK UJI VALIDITAS DENGAN CFA:
 KALAU MENGGUNAKAN SOFTWARE SEPERTI
LISREL, DILAKUKAN DENGAN DUA TAHAP:
PERITUNGAN KORELASI POLYCHORIC DENGAN
SOFTWARE PRELIS KEMUDIAN DILANJUTKAN
DENGAN CFA MENGGUNAKAN LISREL
 JIKA MENGGUNAKAN SOFTWARE MPLUS,
KEDUANYA TERINTEGRASI DAN DILAKUKAN
SECARA SIMULTAN
KALIBRASI SOAL
KALIBRASI SOAL DENGAN IRT:
 JIKA TELAH DIPEROLEH SEHIMPUNAN ITEM
YANG TELAH TERBUKTI VALID, MAKA TINGKAT
KESUKARANNYA DAPAT DIKALIBRASI KE DALAM
SKALA LOGIT YANG SAMA DENGAN IRT
 SOFTWARE YANG DAPAT DIGUNAKAN ANTARA
LAIN: WINSTEP (UNTUK RASCH MODEL), BILOG
NG (UNTUK MODEL 2PL ATAU 3PL), ATAU MPLUS
(BISA UNTUK SEMUA MODEL).
KALIBRASI SOAL DENGAN IRT:
 KALIBRASI = MENYAMAKAN SKALA UKURAN
DENGAN MENYESUAIKAN TITIK NOL DAN
SATUAN UKURAN (SCALING UNIT)
 BIASANYA NILAI RATA-RATA TINGKAT
KESUKARAN SEHIMPUNAN YANG PERTAMA KALI
DI VALIDASI, DIJADIKAN TITIK NOL DAN SETIAP
ITEM YANG KEMUDIAN DITAMBAHKAN KE
DALAM BANK SOAL DISESUAIKAN KE SKALA INI
TAHAPAN PENGEMBANGAN BANK SOAL: KALIBRASI
CAT: DIPERLUKAN BANYAK SOAL PADA SETIAP LEVEL
KALIBRASI SOAL BARU:
 SETIAP KALI ADA SOAL BARU YANG SUDAH DIVALIDASI DAN
AKAN DITAMBAHKAN KE BANK SOAL, ADA DUA MASALAH
YANG PERLU DIPERHATIKAN:
 DISAIN UJI COBA SOAL, APAKAH AKAN MENGGUNAKAN
MODEL COMMON ITEMS, ATAUKAH DENGAN COMMON
PERSONS
 METODE KALIBRASI APAKAH SIMULTAN ATAUKAH SATU PER
SATU PAKET TES
 YANG PALING SEDERHANA ADALAH JIKA MENGGUNAKAN
RASCH MODEL, KARENA SKALA KESUKARAN SOAL HANYA
BERBEDA LOKASI TITIK NOL NYA SAJA, SEDANGKAN UNIT
SKALANYA SUDAH SAMA
CONTOH DISAIN LINKING 5 PAKET TES:
PENYAJIAN SOAL DENGAN CAT
METODE PENGADMINISTRASIAN TES
 Perkembangan metode penyajian tes tidak
mengalami perubahan besar kecuali adanya
pengaruh teknologi komputer dan internet.
 Tes yang sebelumnya disajikan dengan metode
paper and pencil kini dapat disajikan secara
computerized.
 Ada dua jenis penyajian tes dengan bantuan
komputer yaitu: (1) Computer Assisted
Testing dan (2) Computer Adapted Testing
METODE PENGADMINISTRASIAN TES
 Pada Computer Assisted Testing ada dua
metode:
 (a) beberapa paket tes (forms) disimpan
dalam komputer, lalu salah satu diantaranya
digunakan ketika ada orang yang akan di tes,
dan
 (b) tersedia item pool lalu dilakukan
pemilihan item secara computerized sesuai
kisi-kisi untuk langsung disajikan kepada orang
yang di tes.
METODE PENGADMINISTRASIAN TES
 Sedangkan Computerized Adaptive Testing
adalah bentuk yang paling advance dari
pengadministrasian tes.
 Penggunaannya tanpa kisi-kisi tertentu, sangat
fleksibel namun hasilnya sangat akurat dan
komparabel.
 SEPERTI TELAH DISEBUTKAN SEBELUMNYA,
TERDIRI DARI DUA LANGKAH YANG DI ULANG-
ULANG YAITU: MEMILIH SOAL YANG AKAN
DITAMPILKAN DAN ESTIMASI KEMAMPUAN
(SCORING).
METODE PENGADMINISTRASIAN TES
 Dimungkinkan karena tingkat kesukaran yang
diperoleh melalui IRT bersifat invariance, yaitu
 Tidak berubah meskipun dihitung pada sampel
berbeda
 Skala tingkat kesukaran seluruh soal yang
disimpan di komputer telah disamakan
(dikalibrasi)
 Meskipun setiap orang menempuh himpunan
soal yang berbeda namun hasilnya dapat
diperbandingkan/ komparabel pada skala ukuran
yang sama.
METODE PENGADMINISTRASIAN TES
 Hasilnya lebih akurat karena soal yang
disajikan selalu disesuaikan dengan
kemampuan orang yang menempuhnya.
 Setiap kali soal disajikan, jika jawabannya
benar maka komputer akan mencari dan
menyajikan soal yang sedikit lebih sukar dan
jika jawabannya salah maka akan disajikan
soal yang sedikit lebih mudah.
METODE PENGADMINISTRASIAN TES
 Setiap kali terjadi jawaban benar atau salah,
komputer menghitung true-score lengkap
dengan standard errornya
 Hanya jika tingkat akurasi tertentu telah
dicapai (standard error lebih kecil dari kriteria
tertentu), barulah penyajian tes dihentikan.
 Setiap orang menempuh jumlah item yang
berbeda namun hasilnya komparabel pada
skala ukuran yang sama.
MENENTUKAN SOAL YANG AKAN DITAMPILKAN
 MENGGUNAKAN IRT, PROSEDURNYA SAMA
DENGAN SAAT VALIDASI (MENGESTIMASI
PARAMETER SOAL) HANYA SAJA DALAM HAL
INI NILAI PARAMETER SOAL SUDAH DIMILIKI
 ADA DUA PILIHAN YAITU DENGAN METODE
MAXIMUM LIKELIHOOD ATAU METODE
BAYESIAN
KRITERIA SOAL YANG AKAN DITAMPILKAN
 MENGGUNAKAN IRT, PROSEDURNYA SAMA
DENGAN SAAT VALIDASI (MENGESTIMASI
PARAMETER SOAL) HANYA SAJA DALAM HAL
INI NILAI PARAMETER SOAL SUDAH DIMILIKI
 ADA DUA PILIHAN YAITU DENGAN METODE
MAXIMUM LIKELIHOOD ATAU METODE
BAYESIAN
MAXIMUM LIKELIHOOD
MAXIMUM LIKELIHOOD
MAXIMUM LIKELIHOOD
MAXIMUM LIKELIHOOD
MAXIMUM LIKELIHOOD
BAYESIAN CAT
BAYESIAN CAT
METODE SKORING: CARA TRADISIONAL
 SKOR BUTIR DIJUMLAHKAN MENJADI SKOR
TOTAL TANPA PEMBOBOTAN
 JIKA TERDIRI DARI BEBERAPA SUBTES, SKOR
SUBTES DISTANDARDISASI LALU
DIJUMLAHKAN
 SKOR BUTIR ORDINAL SEPERTI PADA SKALA
RATING ATAU LIKERT, DIANGGAP SKALA
INTERVAL
 UMUMNYA TANPA DIDAHULUI UJI VALIDITAS
KONSTRUK
 HASIL PENGUKURAN YANG DILAPORKAN
BUKAN DALAM BENTUK TRUE-SCORE.
ASUMSI:

 SELURUH BUTIR TES MENGUKUR SATU
KONSTRUK YANG SAMA (UNIDIMENSIONAL)
 SELURUH BUTIR SOAL MERUPAKAN TES
PARALEL
 SKOR BUTIR ORDINAL SEPERTI PADA SKALA
RATING ATAU LIKERT, DIANGGAP SKALA
INTERVAL
 HASIL PENGUKURAN YANG DILAPORKAN BUKAN
DALAM BENTUK TRUE-SCORE.
MASALAH PADA SKOR TRADISIONAL
 SEMUA BUTIR DIANGGAP SAMA (PARALEL), BAIK TINGKAT KESUKARAN
MAUPUN DAYA PEMBEDANYA, SEHINGGA PENGGUNAAN SKOR TOTAL
TANPA PEMBOBOTAN DAPAT MENYESATKAN BAIK KETIKA DIBUAT
RANKING MAUPUN DALAM ANALISIS STATISTIK

 PADA SKALA RATING ATAU LIKERT HASILNYA AKAN LEBIH
MENYESATKAN LAGI KARENA HASIL RATING DIANGGAP SKALA
INTERVAL

 DAPAT TERJADI PENCEMARAN SKOR AKIBAT ADANYA BUTIR YANG
TIDAK VALID (KARENA MENGUKUR KONSTRUK LAIN)

 TIDAK DIGUNAKANNYA TRUE-SCORE DAPAT MENGAKIBATKAN HASIL
ANALISIS YANG SALAH BAIK DALAM PENGAMBILAN KEPUTUSAN
MAUPUN DALAM ANALISIS DATA UNTUK RISET
CARA BARU: MENGGUNAKAN TRUE-SCORE
 SETIAP BUTIR TES DIUJI VALIDITAS KONSTRUKNYA

 SETIAP BUTIR TES DIKALIBRASI TINGKAT KESUKARANNYA

 KADAR VALIDITAS DAN TINGKAT KESUKARAN BUTIR
DIPERHITUNGKAN DALAM PENSKORAN

 DIBUAT SKALA UKURAN UNTUK TRUE-SCORE YANG
BERBASIS BUTIR, BUKAN TES

 ORANG YANG MENEMPUH PAKET TES YANG BERBEDA
(BAHKAN YANG JUMLAH BUTIRNYA BERBEDA) DAPAT
DIUKUR PADA SKALA YANG SAMA
AKURASI PENGUKURAN
AKURASI PENGUKURAN
SIMULASI METODE SKORING
 Untuk sekedar ilustrasi tentang resiko
menggunakan skor total tes, bahkan ketika
asumsi unidimensionalitas telah terpenuhi,
berikut penulis sajikan hasil sementara dari
studi simulasi yang saat ini tengah penulis
lakukan:
 Data simulasi dibuat memenuhi asas
unidimensionalitas
 True scores 400 subyek ditetapkan
 Dibuat empat kondisi yang berbeda:
EMPAT KONDISI TES YANG DISIMULASI:
1. Strictly parallel (SP): seluruh item sama daya
pembeda, sama tingkat kesukaran, dan sama
varians dari measurement error nya.
2. Parallel (P): sama daya pembeda, sama
tingkat kesukaran, tapi berbeda
measurement error nya.
3. Semi-parallel (MP): yang sama hanya tingkat
kesukaran nya, daya pembeda serta error
variance nya berbeda.
4. Non-parallel (NP): semua karakteristik item
dibuat berbeda.
SIMULASI METODE SKORING:
 Sebagai kondisi tambahan, ditetapkan sebuah
variabel independen yang memiliki koefisien
regresi sebesar 0.8 terhadap true score.
 Berdasarkan true score yang telah ditetapkan
dan segala spesifikasi diatas, lalu dibuat data
untuk 400 subyek dengan 10 item.
 Masing-masing kondisi (mulai dari strictly
parallel sampai dengan non-parallel) dilakukan
50 replikasi .
 Keseluruhannya ada sebanyak 200 simulasi.
SIMULASI METODE SKORING:
 Pada setiap simulasi, penulis mengitung:
 (1) korelasi antara hasil tiga cara skoring dengan true
score, dan
 (2) koefisien regresi dari variabel independen yang
telah ditetapkan terhadap skor yang dihasilkan dengan
ke tiga cara skoring tersebut.
 Adapun tiga cara skoring ialah:
 (1) skor mentah hasil menjumlahkan skor item (RAW),
 (2) true score hasil CFA dengan metode maximum
likelihood (CFA-True), dan
 (3) true score hasil metode IRT (IRT-True).
SIMULASI METODE SKORING:
Kriteria:
 Makin tinggi korelasi dengan true score yang
telah ditetapkan waktu menciptakan data,
berarti makin baik metode skoring tersebut
 Koefisien regresi yang makin mendekati nilai
0.8 (nilai aslinya), berarti makin baik metode
skoring yang digunakan.
HASIL SIMULASI METODE SKORING
 Adapun koefisien korelasi dengan true-score
adalah (hasil rata-rata dari 50 kali replikasi
untuk tiga metode skoring dalam empat
kondisi tes), sebagai berikut:
HASIL SIMULASI METODE SKORING:
 Koefisien regresi IV yang ditetapkan (hasil
rata-rata dari 50 kali replikasi), sebagai berikut
(nilai true-value nya adalah 0.80):
HASIL SIMULASI METODE SKORING
 Sangat jelas terlihat bahwa validitas dan
reliabilitas raw score (cara tradisional) sangat
terpengaruh jika asumsi paralel tak terpenuhi,
sedangkan hasil estimasi true score baik dari
IRT maupun CFA tetap memiliki validitas yang
tinggi meskipun item tidak paralel.
 Hal ini berlaku baik ditinjau dari kriteria
korelasi dengan true score asli, maupun dari
sisi koefisien regresi pada suatu variabel
independen.
HASIL SIMULASI METODE SKORING
 Hal yang menarik adalah pada hasil IRT dan CFA,
baik korelasi maupun regresi, pada kondisi yang
makin tidak paralel justru makin tinggi
 Ini menunjukkan bahwa pada IRT dan CFA, jika
kondisinya tidak benar-benar paralel, sebaiknya
true score dihitung dengan memperhitungkan
semua karakteristik soal.
 Penjelasan untuk fenomena ini memerlukan
analisis lebih lanjut.
METODE PENAFSIRAN SKOR TES
 Perkembangan metode penafsiran skor boleh
dikatakan dari dahulu sampai sekarang hanya
ada dua, yaitu
 (1) norm-referenced, dan
 (2) domain-referenced.
METODE PENAFSIRAN SKOR TES
 Kebanyakan penafsiran hasil tes psikologis pada
saat ini masih menggunakan cara norm-
referenced, yaitu bahwa setelah suatu tes
terbukti valid, lalu dicobakan pada berbagai
populasi, kemudian disusun norma statistik bagi
setiap populasi tersebut
 Jika ada seorang di tes, maka skor yang diperoleh
ditransformasikan ke dalam skor baku (dengan
satuan standar deviasi), untuk kemudian
ditentukan di mana kedudukan skor orang
tersebut dalam norma yang sesuai untuknya.
METODE PENAFSIRAN SKOR TES
 Permasalahan di sini adalah bahwa orang
diukur dalam kedudukan relatifnya terhadap
orang lain sesuai norma yang digunakan.
 Jadi skor tes sama sekali tak memberikan
informasi deskriptif mengenai orang diukur.
 Tak ada informasi tentang apa yang ia mampu
atau tak mampu lakukan
METODE PENAFSIRAN SKOR TES
 Bisa terjadi misalnya, orang dinilai tinggi
karena kebanyakan orang lain pada norma
yang digunakan memiliki nilai lebih rendah
dari pada dirinya, padahal sebenarnya
kemampuan orang tersebut rendah
 Oleh sebab itu, penafsiran skor tes yang lebih
baik ialah dengan pendekatan domain-
referenced
PENAFSIRAN SKOR TES (CARA BARU):
DOMAIN-REFERENCED (BUKAN NORMA)
 PADA SKALA UKURAN DIBUAT BAND-SCALE
 PADA SETIAP BAND-SCALE DI IDENTIFIKASI BUTIR-BUTIR
YANG TINGKAT KESUKARANNYA MEWAKILI BAND-SCALE
TERSEBUT
 AHLI SUBSTANSI BUTIR (CONTENT SPECIALIST) DAN
PSIKOLOG YANG BERPENGALAMAN DIMINTA MEMBUAT
DESKRIPSI TENTANG KEMAMPUAN YANG DIWAKILI OLEH
HIMPUNAN BUTIR PADA SETIAP BAND-SCALE
 SELANJUTNYA, SETIAP ORANG YANG DITES DAPAT
DIDESKRIPSIKAN KEMAMPUANNYA DENGAN MERUJUK
KEPADA BAND-SCALE TERSEBUT
SYARAT UNTUK DAPAT DILAKUKAN
PENAFSIRAN DOMAIN-REFERENCED
 SETIAP BUTIR TES HARUS DIVALIDASI DAN
DIKALIBRASI DENGAN METODA CFA DAN /
ATAU IRT OLEH PENGEMBANG TES
 UNTUK PENGUKURAN DENGAN AKURASI TINGGI,
PENGGUNA TES HARUS MENSKOR DENGAN
MENGGUNAKAN PERANGKAT LUNAK SEPERTI
BILOG (HANYA IRT) ATAU MPLUS (CFA DAN IRT)
 ESTIMASI TRUE SCORE LEBIH UNGGUL IALAH
DENGAN METODE PLAUSIBLE VALUES, NAMUN
SAAT INI HANYA TERSEDIA PADA: MPLUS
CONTOH INTERPRETASI SKOR TES
SECARA DOMAIN-REFERENCED
_THANK YOU

More Related Content

What's hot (20)

PDF
Psikodiagnostik observasi
Seta Wicaksana
PDF
Penelitian deskriptif
Vocational high school of Tri Mitra
DOCX
Tentang Sikap
Unnes
PPTX
Gangguan jiwa dalam perspektif behavioristik
Fauzi Taha Ush
PPTX
Ppt psikologi kognitif - Endang Siswati
Endang20
PPT
Uji Beda Dua Mean Independen
mirzal tawi
PPTX
Powerpoint kelompok kualitatif
annisa herlida
PPTX
Analisis Item dan Norma
Frihapma Semita
PPTX
PENDEKATAN DALAM PSIKOLOGI BELAJAR I
Husna Sholihah
PPT
PSIKOLOGI SOSIAL - PERILAKU AGRESI
Wulandari Rima Kumari
DOCX
Contoh pelanggaran kode etik psikologi
Tyaseta Sardjono
DOC
Makalah atribusi sosial
istiyuliawati
PPT
Metode Penelitian (Review).ppt
NurulHudaya4
PDF
Ppt Metodologi Penelitian: 3. Rumusan Masalah & Tujuan Penelitian | Kelas: 6A...
Universitas Muslim Nusantara Al-Washliyah
PPTX
Kerangka konsep keperawatan
AULIA SHARA
PPTX
PPT SIKAP DAN PENGEMBANGAN SIKAP.pptx
BujangBaturusa
PPTX
Psikologi Perkembangan: Evolusi & Sosiobiologi
ajengseptiana
PPSX
Pengukuran dan uji perilaku
Seta Wicaksana
PPTX
TEORI JOHN BROADES WATSON DAN CARL ROGERS
Ilma Urrutyana
PDF
Pertemuan 1 & 2 Psikometri
W Diana Ratri M.Psi, Psikolog
Psikodiagnostik observasi
Seta Wicaksana
Penelitian deskriptif
Vocational high school of Tri Mitra
Tentang Sikap
Unnes
Gangguan jiwa dalam perspektif behavioristik
Fauzi Taha Ush
Ppt psikologi kognitif - Endang Siswati
Endang20
Uji Beda Dua Mean Independen
mirzal tawi
Powerpoint kelompok kualitatif
annisa herlida
Analisis Item dan Norma
Frihapma Semita
PENDEKATAN DALAM PSIKOLOGI BELAJAR I
Husna Sholihah
PSIKOLOGI SOSIAL - PERILAKU AGRESI
Wulandari Rima Kumari
Contoh pelanggaran kode etik psikologi
Tyaseta Sardjono
Makalah atribusi sosial
istiyuliawati
Metode Penelitian (Review).ppt
NurulHudaya4
Ppt Metodologi Penelitian: 3. Rumusan Masalah & Tujuan Penelitian | Kelas: 6A...
Universitas Muslim Nusantara Al-Washliyah
Kerangka konsep keperawatan
AULIA SHARA
PPT SIKAP DAN PENGEMBANGAN SIKAP.pptx
BujangBaturusa
Psikologi Perkembangan: Evolusi & Sosiobiologi
ajengseptiana
Pengukuran dan uji perilaku
Seta Wicaksana
TEORI JOHN BROADES WATSON DAN CARL ROGERS
Ilma Urrutyana
Pertemuan 1 & 2 Psikometri
W Diana Ratri M.Psi, Psikolog

Recently uploaded (11)

PPTX
PPT VIRTUAL ASISTEN KELOMPOK Final oke fiks
Universitas HKBP Nommensen Pematangsiantar
PPTX
4. Penilaian Struktur dan Proses.pptx.tx
DewiRafasa
PPTX
Basic interaction human computer A1 (1).pptx
DanielAkim12
PPTX
PENGEMBANGAN KURIKULUM 2013_KOMPLIT.pptx
HalimTangguda
PDF
Penyuluhan-dan-Pemberdayaan-Petani-Indonesia.pdf
yusrily256
PPTX
ppt penjelasan mengenai abstrak _ kasaran materi
astroCat4
PPTX
Puerperium Pyrexia.-jt rafiggggdah.pptx
wad13obstetrik2020
PPTX
Biru Putih Minimalis Sidang Skripsi Presentasi.pptx
ginanjaraji016
PDF
Pelatihan Mix Up 2025 dalam industri farmasi.pdf
mulyadididilloyd
PDF
Pelatihan CPOB 2025 dalam industri farmasi.pdf
mulyadididilloyd
PPTX
bab 5.pptx asdasd asdas dasd asdasd asda sdas dasd
dimasafrzl98
PPT VIRTUAL ASISTEN KELOMPOK Final oke fiks
Universitas HKBP Nommensen Pematangsiantar
4. Penilaian Struktur dan Proses.pptx.tx
DewiRafasa
Basic interaction human computer A1 (1).pptx
DanielAkim12
PENGEMBANGAN KURIKULUM 2013_KOMPLIT.pptx
HalimTangguda
Penyuluhan-dan-Pemberdayaan-Petani-Indonesia.pdf
yusrily256
ppt penjelasan mengenai abstrak _ kasaran materi
astroCat4
Puerperium Pyrexia.-jt rafiggggdah.pptx
wad13obstetrik2020
Biru Putih Minimalis Sidang Skripsi Presentasi.pptx
ginanjaraji016
Pelatihan Mix Up 2025 dalam industri farmasi.pdf
mulyadididilloyd
Pelatihan CPOB 2025 dalam industri farmasi.pdf
mulyadididilloyd
bab 5.pptx asdasd asdas dasd asdasd asda sdas dasd
dimasafrzl98
Ad

CAT development

  • 2. APA ITU CAT? PENG-ADMINISTRASI-AN TES DENGAN KOMPUTER, DI MANA SOAL YANG DIBERIKAN DISESUAIKAN DENGAN TINGKAT KEMAMPUAN/ TRAIT DARI ORANG YANG DI TES SOAL YANG SESUAI DIPILIH DAN DISAJIKAN OLEH KOMPUTER KOMPUTER MENCATAT JAWABAN (RESPONSE) YANG DIBERIKAN, DAN MENGANALISISNYA SEHINGGA DIPEROLEH ESTIMATE TINGKAT KEMAMPUAN/ TRAIT ORANG YANG DI TES KOMPUTER MEMILIH SOAL BERIKUTNYA SESUAI DENGAN HASIL ESTIMASI TERSEBUT, KEMUDIAN RESPONSE DIANALISIS LAGI DAN DIPEROLEH ESTIMATE YANG BARU PROSES DI ATAS DIULANG TERUS SAMPAI DIPEROLEH ESTIMATE DENGAN TINGKAT PRESISI YANG DIINGINKAN
  • 3. APA ITU CAT? HARUS TERSEDIA BANK SOAL YANG ITEM NYA SUDAH DIVALIDASI DAN DIKALIBRASI SKALANYA VALIDASI DAN KALIBRASI SOAL MENGGUNAKAN ITEM RESPONSE THEORY (IRT) ATAU CONFIRMATORY FACTOR ANALYSIS (CFA) KARAKTERISTIK SOAL YANG DIHASILKAN BERSIFAT INVARIANCE MEMILIH ITEM YANG AKAN DISAJIKAN DENGAN PERHITUNGAN IRT (SOAL DENGAN INFORMASI TERTINGGI) MENG-ESTIMASI KEMAMPUAN/ TRAIT (SCORING) JUGA DENGAN IRT
  • 4. APA ITU CAT? ORANG YANG BERBEDA MENEMPUH HIMPUNAN SOAL BERBEDA (MUNGKIN ADA SEBAGIAN YANG SAMA TAPI MUNGKIN JUGA TAK ADA YANG SAMA), JUGA DENGAN JUMLAH SOAL YANG BERBEDA MESKIPUN SOAL YANG DITEMPUH BERBEDA TETAPI HASIL UKURAN MEMILIKI SKALA YANG SAMA (KOMPARABEL) PEMILIHAN SOAL YANG AKAN DISAJIKAN BERIKUTNYA BERSIFAT ADAPTIVE, BERGANTUNG KEPADA HASIL ESTIMASI (SKORING) BERDASARKAN JAWABAN TERHADAP SOAL YANG SEBELUMNYA SETIAP KALI SKOR DIPEROLEH, TERSEDIA PULA INFORMASI (TINGKAT PRESISI/ STANDAR ERROR) DARI SKOR TERSEBUT PENYAJIAN SOAL DIHENTIKAN JIKA SKOR YANG DIPEROLEH SESEORANG TELAH MENCAPAI TINGKAT PRESISI TERTENTU PIONIR PEMIKIRAN CAT: F.M. LORD, DAN D.J. WEISS, SEDANGKAN PIONIR DARI APLIKASI CAT MODERN: J.R. McBRIDE, H. WAINER, W.J. van der LINDEN, DAN C.A.W. GLAS
  • 5. KEUNGGULAN CAT? TINGKAT PRESISI SKOR YANG DIPEROLEH LEBIH TINGGI KARENA SOAL YANG DITEMPUH SELALU SESUAI DENGAN TINGKAT KEMAMPUAN/ TRAIT ORANG YANG DI TES (ADAPTIVE) SOAL YANG DITEMPUH SETIAP ORANG UMUMNYA LEBIH SEDIKIT TIAP ORANG MENEMPUH HIMPUNAN SOAL BERBEDA JADI TAK BISA SALING MENYONTEK LEBIH EFISIEN DAN HASIL SEGERA DIKETAHUI SKOR TES YANG DIHASILKAN KOMPARABEL KARENA SUDAH TERKALIBRASI PADA SKALA YANG SAMA
  • 7. TAHAPAN PENGEMBANGAN CAT: PENGEMBANGAN BANK SOAL YANG TERKALIBRASI PENGEMBANGAN SOFTWARE CAT PENGADAAN HARDWARES DENGAN SPESIKASI TERTENTU INSTALASI/ PEMASANGAN HARDWARES PELATIHAN PERSONIL RISET/ PERCOBAAN PERCOBAAN SEBELUM IMPLEMENTASI IMPLEMENTASI
  • 8. CONTOH: TAHAPAN PENGEMBANGAN ASVAB CAT RISET PENDAHULUAN: 1976 - 1990 APA MENGELUARKAN Guidelines for Computer-Based Tests and Interpretations PADA TAHUN 1985 CAT-ASVAB MULAI PERTAMA BEROPERASI PADA SEPTEMBER 1990 DEPARTEMEN PERTAHANAN AMERIKA MENGELUARKAN SURAT KEPUTUSAN UNTUK MENERAPKAN CAT-ASVAB SECARA NASIONAL IMPLEMENTASI PERTAMA OKTOBER 1996 DI DENVER, LALU DI CHICAGO 1997, DAN BEROPRERASI LENGKAP SECARA NASIONAL PADA APRIL 1997 (di 65 Military entrance processing stations /MEPSs).
  • 10. APA ITU BANK SOAL TERKALIBRASI ? HIMPUNAN SOAL YANG TELAH DIVALIDASI (UJI VALIDITAS KONSTRUK) DENGAN ANALISIS FAKTOR KONFIRMATORIK (CFA) ATAU DENGAN ITEM RESPONSE THEORY (IRT), SOAL YANG TERBUKTI VALID, DIKALIBRASI SKALA TINGKAT KESUKARAN (THRESHOLD) NYA DENGAN IRT, SOAL DAN KARAKTERISTIK PSIKOMETRIK NYA DISIMPAN SERTA DIKELOLA DENGAN KOMPUTER, DAPAT DIGUNAKAN UNTUK PERAKITAN TES ATAU UNTUK CAT, SKOR YANG DIHASILKAN OLEH TES YG BERBEDA (TIDAK PARALEL) NAMUN TETAP KOMPARABEL PADA SKALA YANG SAMA
  • 11. PENGEMBANGAN BANK SOAL TERKALIBRASI MENETAPKAN JENIS KEMAMPUAN/ APTITUDES/ TRAITS DSB YANG HENDAK DIUKUR PENGADAAN SOAL (ITEM WRITING) PADA MASING-MASING JENIS TERSEBUT UJI-COBA SKALA BESAR DALAM RANGKA VALIDASI (IRT DAN CFA) SOAL-SOAL YANG VALID DIKALIBRASI KE DALAM SKALA YANG SAMA (IRT) YANG TELAH ADA DI MASING-MASING BANK SOAL KETIGA KEGIATAN INI BERKELANJUTAN SECARA RUTIN (SISTEMIK)
  • 12. PENGEMBANGAN SOFTWARE CAT: DAPAT MENYIMPAN SOAL DENGAN BERBAGAI INFORMASI TENTANG SOAL TERSEBUT (TERMASUK DATA PSIKOMETRIKNYA) DAPAT MENAMPILKAN SOAL DENGAN SEGERA TERMASUK SOAL YANG BERISI RUMUS, GAMBAR, FOTO, DAN ATRIBUT LAINNYA BERSIFAT INTERAKTIF DAN MUDAH DIGUNAKAN OLEH ORANG YANG DI TES TERDAPAT ALGORITMA IRT YANG MAMPU MELAKUKAN PERHITUNGAN DALAM RANGKA PEMILIHAN SOAL YANG AKAN DITAMPILKAN DENGAN MENGGUNAKAN DATA PSIKOMETRIK DARI SETIAP SOAL TERDAPAT ALGORITMA IRT YANG MAMPU MELAKUKAN PERHITUNGAN DALAM RANGKA ESTIMASI TRUE SCORE DENGAN MENGGUNAKAN DATA RESPONS TERHADAP SETIAP SOAL MEMILIKI FUNGSI EDITING DALAM RANGKA PENYUSUNAN LAPORAN HASIL TES DALAM BERBAGAI FORMAT YANG DIINGINKAN
  • 13. FOKUS WORKSHOP INI: CARA UJI VALIDITAS KONSTRUK SOAL DENGAN CFA CARA UJI VALIDITAS SOAL DENGAN IRT KALIBRASI TINGKAT KESUKARAN SOAL DENGAN IRT PENGGUNAAN IRT DALAM CAT: (1) MEMILIH SOAL YANG AKAN DITAMPILKAN, (2) ESTIMASI TRUE SCORE DAN STANDAR ERROR NYA
  • 14.
  • 15. PENYUSUNAN SOAL: CONTENT VALIDITY LATENT VARIABEL OPERATIONAL DEFINITION INDICATORS KISI-KISI TEST ITEMS (STIMULUS) PAKET TES ATAU ITEM POOL
  • 16. PENYUSUNAN SOAL PENGUASAAN MATERI, PENGUASAAN KAEDAH, SENI/ BAKAT PERLU DISELEKSI DAN DILATIH PADA LEMBAGA PENGEMBANG TES BESAR DI USA, INGGRIS,AUSTRALIA, PENYUSUN SOAL OLEH SEHIMPUNAN ORANG YANG TETAP TIDAK SECARA ADHOC TETAPI BERKESINAMBUNGAN
  • 17. Perkembangan dalam metode penulisan soal: Tidaklah terlalu pesat, dan selama puluhan tahun terakhir relatif tak berubah. Bentuk-bentuk soal yang dapat dipilih masih relatif sama, Kalaupun ada perkembangan baru, terutama adalah karena pengaruh teknologi komputer Soal dapat di generate secara otomatis menggunakan kriteria yang sangat spesifik.
  • 18. Penulisan Soal Computerized: Hal ini terutama jika populasi soal yang hendak ditulis bersifat finite. Misalnya, soal untuk mengukur kemampuan arithmatika seperti perkalian dua bilangan yang hasilnya kurang dari seratus. Soal untuk beberapa kemampuan kognitif maupun persepsi, sikap, bahkan traits (menggunakan kepustakaan adjectives tertentu) dapat di generate dengan bantuan komputer.
  • 19. TEORI TES KLASIK ITEM RESPONSE THEORY CONFIRMATORY FACTOR ANALYSIS METODE VALIDASI SOAL
  • 20. TEORI DAN METODA VALIDASI TES Mengalami perubahan dan kemajuan yang pesat, namun pada dasarnya hanya ada dua jenis teori tes, yaitu : (1) Teori yang berbasis raw scores (skor total, atau skor komposit), dan disebut teori tes klasik atau teori tes tradisional, (2) Teori yang berbasis item (soal): Dapat menghasilkan true-scores bagi setiap orang dan disebut teori tes modern.
  • 21. TEORI DAN METODA VALIDASI TES Teori berbasis items ada dua jenis: Berdasarkan pola jawaban (response patterns) Berdasarkan struktur matriks korelasi antar item.
  • 22. DASAR TEORI TES KLASIK Skor tes diperoleh dengan menjumlahkan skor masing-masing soal (disebut X) Diteorikan bahwa X = T + E, dimana T adalah true score dan E adalah measurement error. Konsep validitas umumnya dirumuskan sebagai korelasi antara skor tes (X) dengan true scores T.
  • 23. METODE VALIDASI TEORI TES KLASIK Karena true-scores tidak ada datanya, maka skor dari tes lain yang sudah dianggap valid digunakan sebagai kriteria untuk menilai valid tidaknya tes tersebut. Ketika hal inipun tak tersedia, maka skor dari tes yang sedang diteliti itu sendiri lalu dianggap sudah valid dan dijadikan kriteria sementara.
  • 24. METODE VALIDASI TEORI TES KLASIK Korelasi antara setiap item dengan skor tes tersebut dihitung, Item yang berkorelasi positif dan tinggi dianggap valid, sedangkan item yang berkorelasi rendah, apalagi jika negatif, dinilai tidak valid. Setelah semua item yang dianggap tidak valid di drop, maka skor tes yang diperoleh dianggap valid.
  • 25. METODE VALIDASI TEORI TES KLASIK Sangat lemah karena skor tes yang dijadikan kriteria itu sendiri adalah belum diuji validitasnya. Ketika kriteria eksternal (skor tes lain yang dianggap sudah valid) tersedia, sebenarnya pun masih cukup lemah karena validitas skor tes lain itupun dapat dipertanyakan.
  • 26. METODE VALIDASI TEORI TES KLASIK Cara yang lebih ilmiah ialah dengan metode multi-traits multi-methods (MTMM) Membandingkan pola (pattern) korelasi antar traits dan antar metode, apakah sesuai dengan landasan teori psikologi yang digunakan. Namun cara ini jarang dilakukan karena seringkali sulit diimplementasikan secara empiris.
  • 27. METODE VALIDASI TEORI TES KLASIK Metode lain ialah dengan pendekatan analisis faktor, namun dengan teknik tradisional (misalnya seperti pada SPSS) Hanya bersifat eksploratorik dan bukan merupakan inferensi statistik, Tidak ilmiah karena tak ada kriteria yg pasti untuk menentukan banyaknya faktor maupun dalam merotasi faktor. Ringkasnya, semua indeks validitas pada teori klasik adalah bermasalah.
  • 28. TEORI TES MODERN Teori tes modern dan teori tes klasik sebenarnya tidaklah berbeda karena teori tes modern merupakan penyempurnaan dari teori tes klasik. Yang tak dapat diperoleh pada teori tes klasik seperti true-score yang berskala interval, adalah hal yang dapat dihasilkan pada teori tes modern.
  • 29. TEORI TES MODERN Indeks-indeks validitas dan reliabilitas dapat diperoleh dengan lebih baik, dan Asumsi-asumsi yang mendasari proses pengukuran dapat diuji kebenarannya. Namun menuntut pemahaman matematika dan statistika yang lebih rumit, Penggunaan teori klasik tetap dominan terutama di negara yang belum tergolong maju. Di kalangan komunitas psikologi di Indonesia, tampak bahwa bahkan teori tes klasik pun masih belum dipahami dengan memadai.
  • 30. TUMBUHNYA TEORI TES MODERN Berkembangnya teori statistika dan matematika khususnya di bidang statistical modeling Disertai dengan berbagai teori dan metode estimasi yang canggih untuk parameternya, Berbarengan pula dengan pesatnya perkembangan teknologi komputer, Semua ini mendorong pesatnya perkembangan teori tes di bidang psikologi dan pendidikan.
  • 31. TUMBUHNYA TEORI TES MODERN Konsep pengukuran psikologis yang dahulunya mungkin sudah pernah dibahas namun terpaksa ditinggalkan atau mengendap karena tidak mungkin dilakukan perhitungan matematis pada jamannya, Kini dimunculkan kembali dan bahkan menjadi teori yang dianggap baru dengan sebutan teori tes modern.
  • 32. CIRI UTAMA TEORI TES MODERN Tidak berbasis skor tes tetapi berbasis skor item, Dapat diperoleh true score untuk setiap orang lengkap dengan standar error nya masing- masing sehingga tidak diperlukan lagi indeks reliabilitas Hasil tes yang tak bergantung kepada sampel (invariance) sehingga dapat dibuat komparabel antar waktu, tempat, dan tingkatan Asumsi-asumsi penting dapat diuji secara empiris,
  • 33. CIRI UTAMA TEORI TES MODERN True score yang dihasilkan berskala interval, Dapat diterapkan pada berbagai jenis tes baik untuk kemampuan, sikap, maupun personality Pada level yang canggih dapat dibuat computer adaptive testing yang bahkan berbasis online, Pengaruh berbagai sumber bias (termasuk social desirability) dapat dikontrol secara matematis
  • 34. DUA JENIS TEORI TES MODERN Teori yang berbasis model probabilitas dari pola respons (pola jawaban terhadap sehimpunan items), dikenal dengan nama Item Response Theory (IRT), dan Teori yang berbasis analisis terhadap struktur korelasi antar items (Confirmatory Factor Analysis atau CFA). Dari sisi teori statistika atau psikometrika, sebenarnya kedua pendekatan tersebut sudah menyatu menjadi model statistika yang generik dan canggih, yaitu: latent variable modeling
  • 35. DUA JENIS TEORI TES MODERN Aplikasinya tidak lagi terbatas pada bidang psikologi tapi pada hampir semua bidang seperti ekonomi, kesehatan, ilmu pengetahuan alam, ilmu-ilmu sosial, bahasa, dan bahkan antropologi. Salah satu program komputer canggih dan komprehensif dalam hal latent variable statistical analysis pada saat ini adalah MPLUS versi 7.4 (Muthen and Muthen, 2015). Hampir semua jenis model statistika yang telah dikembangkan orang hingga saat ini, dapat diselesaikan dengan menggunakan software ini, terutama sekali jika menyangkut variabel laten.
  • 36. ITEM RESPONSE THEORY (IRT) Mulai berkembang pesat di tahun 1980an Ide dasarnya telah dimunculkan oleh F.M. Lord di tahun 1940 tetapi baru menjadi topik hangat di tahun 1970an Namun yang dianggap sebagai revolusi dalam teori testing ialah model pengukuran kemampuan yang dikembangkan oleh Georg Rasch, pakar matematika asal Denmark Menjadi cikal bakal IRT dan dikenal dengan nama Rasch Measurement Model
  • 37. ITEM RESPONSE THEORY (IRT) Sampai kini aliran Rasch Model terus berkembang pesat menjadi makin canggih, dan sangat dominan di Eropa dan Australia Di Amerika, pengaruh Rasch Model ini juga cukup besar dengan pusat perkembangannya di Universitas Chicago Mengklaim bahwa dari semua model IRT yang ada, Rasch Model adalah satu-satunya measurement model, sedang yang lainnya hanyalah statistical models Sebaliknya, mereka yang mengembangkan IRT sebagai model statistika hanya memandang Rasch Model sebagai special case saja dari IRT dan mereka memberinya label IRT model satu parameter
  • 38. ITEM RESPONSE THEORY (IRT) Metode pengujian validitas dalam IRT secara konsep cukup sederhana namun perhitungan matematis cukup kompleks. Sebagai ilustrasi, misalkan sebuah tes kemampuan yang itemnya berbentuk pilihan ganda: respons yang diperoleh hanya dua macam yaitu (a) jawaban benar dengan kode angka 1, dan (b) jawaban salah dengan kode angka 0.
  • 39. ITEM RESPONSE THEORY (IRT) Dalam hal ini, teori IRT berbunyi sebagai berikut: Jika ada banyak orang yang bervariasi kemampuannya menempuh sebuah soal, maka orang yang lebih tinggi kemampuannya akan memiliki peluang lebih tinggi untuk menjawab benar pada soal tersebut dibandingkan dengan orang yang kemampuannya lebih rendah.
  • 40. ITEM RESPONSE THEORY (IRT) Makin tinggi kemampuan seseorang akan makin tinggi probabilitas (peluang) orang tersebut menjawab benar, dan sebaliknya. Jika tingkat kemampuan orang diberi simbol (theta) dan tingkat kesukaran soal diberi simbol , serta digunakan distribusi probabilitas dengan fungsi logistic, maka peluang seorang untuk menjawab benar pada sebuah item dapat dituliskan dengan rumus berikut: di mana y adalah jawaban seorang terhadap suatu butir soal
  • 41. ITEM RESPONSE THEORY (IRT) Karena nilai probabilitas hanya antara nol dan satu sedangkan dan adalah bilangan riel (variabel kontinum), maka untuk suatu nilai yang konstan dan yang bervariasi (artinya, ada banyak orang menempuh satu butir soal), persamaan di atas akan menghasilkan sebuah kurva yang makin ke kanan makin menanjak (monotonic increasing) namun bersifat asimptotik (tidak pernah menyentuh nol ataupun satu karena sifat yang probabilistik)
  • 42. ITEM RESPONSE THEORY (IRT) Kurva ini disebut kurva karakteristik soal (item characteristic curve, atau ICC) Sebaliknya, untuk suatu nilai yang konstan dengan yang bervariasi (ada satu orang menempuh banyak soal), maka yang dihasilkan adalah kurva yang makin ke kanan makin menurun (monotonic decreasing) dan disebut sebagai kurva karakteristik orang (PCC)
  • 43. ITEM RESPONSE THEORY (IRT) Keduanya dapat digambarkan sebagai berikut:
  • 44. ITEM RESPONSE THEORY (IRT) Dengan menggunakan kurva di atas, orang dapat menguji secara empirik validitas data tes baik untuk instrumen (item tes) maupun untuk orang Jika sebuah soal secara empirik terbukti menghasilkan kurva soal yang sesuai dengan teori IRT (monotonic increasing) maka soal tersebut dianggap valid, dan sebaliknya. Begitu pula dengan orang yang dites, jika respons nya menghasilkan kurva orang yang sesuai dengan teori IRT (monotonic decreasing) maka berarti jawabannya tidak ngawur atau palsu, dan boleh digunakan untuk diskor
  • 45. ITEM RESPONSE THEORY (IRT) Gambar berikut menunjukkan kurva dua butir soal, di mana soal no. 1 fit dan soal no. 2 misfit dengan teori IRT: Sumber: Umar (1999): Item Banking. In G. N. Masters and J. P. Keeves (Eds). Advances in Measurement in Educational Research and Assessment. Oxford: Elsevier Science
  • 46. ITEM RESPONSE THEORY (IRT) Pada contoh di atas, item nomor 1 valid, sedangkan item 2 tidak valid dan harus di drop. Jika seluruh item pada sebuah tes terbukti valid, maka berarti tes tersebut valid dan dapat digunakan.
  • 48. TES YG TIDAK VALID:
  • 49. CONTOH HIMPUNAN SOAL VALID: 2-PL
  • 50. ITEM RESPONSE THEORY (IRT) Seperti telah disebutkan, meskipun konsep dasar IRT terlihat sederhana namun perhitungan matematis yang diperlukan amatlah rumit dan hanya dapat dilakukan dengan komputer berkecepatan tinggi.
  • 51. ITEM RESPONSE THEORY (IRT) Sebagai ilustrasi, jika dalam rangka validasi tes yang terdiri dari 40 soal diuji-cobakan kepada 400 subyek, maka orang harus menyelesaikan sebanyak 16000 persamaan secara simultan (simultaneous equations) Apalagi mengingat persamaannya yang bersifat non-linear jadi tak terdapat closed formulas dan harus diselesaikan dengan metode iterative yang memerlukan hitungan calculus dengan sangat intensif
  • 52. ASUMSI ITEM RESPONSE THEORY (IRT) Seperti semua model pengukuran, pada IRT pun diperlukan asumsi unidimensional Bahwa seluruh item dalam suatu tes hanya mengukur satu dimensi saja, yaitu konstruk yang telah didefinisikan dan diniati untuk diukur. Masalahnya ialah, jika sehimpunan soal sudah memenuhi syarat kurva ICC yang menanjak, ternyata tidaklah merupakan jaminan bahwa seluruh soal tersebut hanya mengukur satu konstruk saja
  • 53. ASUMSI ITEM RESPONSE THEORY (IRT) Asumsi lain adalah bahwa setiap respons bersifat independen satu sama lain, yang terkadang tak dapat terpenuhi Juga ada asumsi bahwa measurement error pada suatu item tidak berkorelasi satu sama lain (asumsi local-independence) Inipun sukar terpenuhi karena beberapa item mungkin memiliki berbagai aspek kontekstual yang sama
  • 54. ASUMSI ITEM RESPONSE THEORY (IRT) Semua asumsi di atas tak dapat diuji dalam IRT dan harus diuji secara terpisah dengan metode statistika lain (software lain) yang terpisah. Kelemahan IRT ini dapat tertutupi pada model teori tes modern yang lain, yaitu yang berbasis struktur korelasi antar item, Model ini dikenal dengan nama Confirmatory Factor Analysis for Categorical data ( CFA)
  • 55. CFA CATEGORICAL DATA Teori tes modern yang berbasis struktur korelasi antar item, pada dasarnya terdiri dari tiga langkah: 1. Mengestimasi korelasi polychoric antar setiap pasangan item dengan memperhitungkan nilai threshold pada masing-masing item (yang juga harus diestimasi dari data) 2. Menguji hipotesis bahwa seluruh item mengukur hanya satu atribut atau dimensi yang ditetapkan (unidimensional), 3. Jika model unidimensional terbukti fit dengan data maka dapat diuji apakah setiap item signifikan dalam mengukur dimensi yang hendak diukur. Dalam hal ini, item yang tidak signifikan atau item yang koefisiennya negatif harus di drop karena tidak valid dalam mengukur apa yang hendak diukur.
  • 56. CFA CATEGORICAL DATA Langkah pertama merupakan ranah tersendiri dalam metode statistika untuk data kategorikal, sedangkan langkah kedua dan ketiga adalah dikenal dengan sebutan metode Confirmatory Factor Analysis (CFA) Jika ketiganya diintegrasikan, disebut: Confirmatory Factor Analysis of Categorical Data Pada model ini, IRT dan CFA melebur menjadi satu dan seluruh asumsi IRT dapat sekaligus diuji apakah telah terpenuhi
  • 57. CFA CATEGORICAL DATA Berbeda dengan IRT, meskipun asumsi tak terpenuhi, tetap dapat diperoleh true-score yang valid, yaitu dengan memperhitungkan aspek asumsi yang tak terpenuhi tersebut Pada saat ini, software yang dapat digunakan untuk problem di mana IRT dan CFA terintegrasi adalah MPLUS (Muthen and Muthen 2015)
  • 58. CFA CATEGORICAL DATA Dari segi matematis, perhitungannya termasuk sangat rumit. Sekedar ilustrasi, misalkan menghitung korelasi polychoric Paling sederhana adalah korelasi tetrachoric yaitu antara dua variabel dichotomis, misalnya jawaban terhadap dua item pilihan ganda:
  • 59. CFA CATEGORICAL DATA Pertama adalah menghitung threshold (dalam hal ini dapat disebut sebagai tingkat kesukaran soal). Andaikan adalah threshold item x, artinya: jika tingkat kemampuan orang yang menjawab item x lebih tinggi dari maka jawabannya akan benar (x=1), dan jika kemampuan < maka jawabannya salah (x=0).
  • 60. LATENT CONTINUOUS VARIABLE with DICHOTOMOUS INDICATOR Kalau Y* Y=0 Y=1 * y 器 * y 器 maka y=1 maka y=0
  • 61. LATENT CONTINUOUS VARIABLE with POLYTOMOUS INDICATOR POLYTOMOUS: Kalau maka y=1 Kalau maka y=2 Kalau maka y=3 Kalau maka y=4 Kalau maka y=5 * 1y 器 * 2 3y 器 * 1 2y 器 * 3 4y 器 * 4y 器 1 2 3 4 5 1 2 3 4 * y Y=4
  • 62. MENGHITUNG KORELASI POLYCHORIC: Dengan asumsi bahwa kemampuan yang diukur mengikuti kurva normal, nilai dapat dihitung dengan rumus: Jika ada item y dengan threshold , maka korelasi tetrachoric antara item x dan y dapat diperoleh dengan mencari nilai r dari persamaan berikut (Divgi, 1979): di mana adalah probability 2 1 ( ) exp( ) 22 x F x 駈 2 2 22 1 2 ( , , ) exp( ) 2(1 )2 1 x y rxy L r x y rr ( , , )L r ( , )x y f f
  • 63. CFA CATEGORICAL DATA Bayangkan jika tiap item kategorinya lebih dari dua, misalnya skala Likert dengan 4 pilihan, dimana ada tiga thresholds untuk setiap item. Jika sebuah tes terdiri dari 40 item, maka harus dihitung sebanyak (40 X 41)/2 = 820 korelasi polychoric. Nah, matriks korelasi polychoric inilah yang akan dijadikan data untuk analisis CFA pada langkah berikutnya.
  • 64. PATH DIAGRAM FOR CFA-CATEG: (HANYA DENGAN MPLUS) UNI-DIMENSIONAL MODEL + IRT 1 x l1 l2 l3 l4 * 1y * 2y * 3y * 4y 2 3 4 1 2 3 4 y1 y2 y3 y4
  • 65. CFA CATEGORICAL DATA UNTUK SETIAP ITEM (x) PERSAMAANNYA ADALAH: y = 了 両 + 隆 DIMANA: y = VECTOR OF OBSERVED VARIABLES (ITEMS), 両 = VECTOR OF FACTORS (CONSTRUCTS, OR LATENT VARIABLES) TO BE MEASURED VIA y , IN WHICH 了 IS THE COEFFICIENTS OF FACTOR LOADINGS, 隆 = VECTOR OF RESIDUALS (ERRORS OF MEASUREMENT).
  • 66. CFA CATEGORICAL DATA Perhitungan dalam analisis CFA (jauh lebih rumit dari perhitungan korelasi polychoric), menggunakan rumus: Dimana: = matrik korelasi polychoric antar items Y , = matrik koefisien muatan faktor setiap item = matrik korelasi antar faktor = matrik kovarians antar kesalahan pengukuran pada setiap item Setiap elemen dari 裡 dinyatakan dalam 了, , AND 慮. Misalnya: pada model unidimensionaal: 21 = 了1了2
  • 67. CONTOH: 11 12 13 14 11 21 22 23 24 21 22 31 32 33 34 31 32 33 41 42 43 44 41 42 43 44 1 .72 1 .44 .47 1 .47 .50 .36 1 s s s s s s s s s s s S s s s s s s s s s s s s s s s 削 誌 y1 y2 y3 y4 1l 2l 3l 4l F 1 2 3 4 2 2 2y Fl わ 1 1 1y Fl わ 3 3 3y Fl わ 4 4 4y Fl わ
  • 68. 1 11 2 22 1 2 3 4 333 444 2 1 11 1 2 1 3 1 4 2 2 1 2 22 2 3 2 4 2 3 1 3 2 3 33 3 4 2 4 1 4 2 4 3 4 44 0 0 0 0 0 0 0 0 0 0 0 0 l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l 削 誌 刻 削 削 PERSAMAAN UNTUK CFA: 裡 = 陸 + 慮
  • 69. UJI HIPOTESIS: MODEL TEORI OBSERVED SAMPLE CORRELATION MATRIX OF Y VARIABLES, i.e., S, IS USED AS AN ESTIMATE OF 裡 (EACH ELEMENT OF 裡 IS EQUATED WITH ITS RESPECTIVE ELEMENT IN S) THE NULL HYPOTHESIS TO BE TESTED IS: S = 裡, OR, (S - 裡 = 0). IF NOT REJECTED (NON SIGNIFICANT) MEANS THE THEORETICAL MODEL IS SUPPORTED BY DATA, HENCE, ITS USES IS JUSTIFIED. THIS MODEL TESTING IS REFERRED TO AS: TEST OF GOODNESS OF FIT.
  • 70. 11 21 22 31 32 33 41 42 43 44 削 2 11 1 11 1 l 縁 2 1.72 l l 3 1.44 l l 2 2 221 l 縁 2 3 331 l 縁 2 4 441 l 縁 3 2.47 l l 4 1.47 l l 4 2.50 l l 4 3.36 l l 1 .72 1 .44 .47 1 .47 .50 .36 1 S 削 2 1 11 1 2 1 3 1 4 2 2 1 2 22 2 3 2 4 2 3 1 3 2 3 33 3 4 2 4 1 4 2 4 3 4 44 l l l l l l l l l l l l l l l l l l l l l l l l l l l l 刻 削 削
  • 71. Hasil LISREL untuk Data dan Model di atas: 11 22 33 44 .33 .24 .70 .66 刻 緒 緒 緒 1 2 3 4 .82 .87 .54 .58 l l l l 刻 緒 緒 緒 2 2 11 1 11 .82 .33 1 l 縁 21 2 1 .87 .82 .71 l l 31 3 1 .54 .82 .44 l l 2 2 33 3 33 .54 .70 1 l 縁 2 2 22 2 22 ..87 .24 1 l 縁 32 3 2 .54 .87 .47 l l 41 4 1 .58 .82 .48 l l 42 4 2 .58 .87 .51 l l 43 4 3 .58 .54 .31 l l 2 2 44 4 44 .58 .66 1 l 縁
  • 72. RESIDUAL 1 .72 1 .44 .47 1 .47 .50 .36 1 S 削 1 .72 1 .45 .48 1 .48 .51 .32 1 削 0 0 0 .01 .01 0 .01 .01 .04 0 S 削 2 (2) 2.55 0.279p 0.024RMSEA
  • 73. UJI HIPOTESIS: 了 ONLY WHEN THE MODEL IS FIT, THEN THE NULL HYPOTHESES 了 = 0, WORTH TO BE TESTED. WHEN A NULL HYPOTHESIS REGARDING AN 了 IS REJECTED (SIGNIFICANT), THE RESPECTIVE Y IS CONSIDERED AS A VALID INDICATOR (MEASURE) OF THE 両 (FACTOR).
  • 74. CATATAN UNTUK UJI VALIDITAS DENGAN CFA: KALAU MENGGUNAKAN SOFTWARE SEPERTI LISREL, DILAKUKAN DENGAN DUA TAHAP: PERITUNGAN KORELASI POLYCHORIC DENGAN SOFTWARE PRELIS KEMUDIAN DILANJUTKAN DENGAN CFA MENGGUNAKAN LISREL JIKA MENGGUNAKAN SOFTWARE MPLUS, KEDUANYA TERINTEGRASI DAN DILAKUKAN SECARA SIMULTAN
  • 76. KALIBRASI SOAL DENGAN IRT: JIKA TELAH DIPEROLEH SEHIMPUNAN ITEM YANG TELAH TERBUKTI VALID, MAKA TINGKAT KESUKARANNYA DAPAT DIKALIBRASI KE DALAM SKALA LOGIT YANG SAMA DENGAN IRT SOFTWARE YANG DAPAT DIGUNAKAN ANTARA LAIN: WINSTEP (UNTUK RASCH MODEL), BILOG NG (UNTUK MODEL 2PL ATAU 3PL), ATAU MPLUS (BISA UNTUK SEMUA MODEL).
  • 77. KALIBRASI SOAL DENGAN IRT: KALIBRASI = MENYAMAKAN SKALA UKURAN DENGAN MENYESUAIKAN TITIK NOL DAN SATUAN UKURAN (SCALING UNIT) BIASANYA NILAI RATA-RATA TINGKAT KESUKARAN SEHIMPUNAN YANG PERTAMA KALI DI VALIDASI, DIJADIKAN TITIK NOL DAN SETIAP ITEM YANG KEMUDIAN DITAMBAHKAN KE DALAM BANK SOAL DISESUAIKAN KE SKALA INI
  • 78. TAHAPAN PENGEMBANGAN BANK SOAL: KALIBRASI
  • 79. CAT: DIPERLUKAN BANYAK SOAL PADA SETIAP LEVEL
  • 80. KALIBRASI SOAL BARU: SETIAP KALI ADA SOAL BARU YANG SUDAH DIVALIDASI DAN AKAN DITAMBAHKAN KE BANK SOAL, ADA DUA MASALAH YANG PERLU DIPERHATIKAN: DISAIN UJI COBA SOAL, APAKAH AKAN MENGGUNAKAN MODEL COMMON ITEMS, ATAUKAH DENGAN COMMON PERSONS METODE KALIBRASI APAKAH SIMULTAN ATAUKAH SATU PER SATU PAKET TES YANG PALING SEDERHANA ADALAH JIKA MENGGUNAKAN RASCH MODEL, KARENA SKALA KESUKARAN SOAL HANYA BERBEDA LOKASI TITIK NOL NYA SAJA, SEDANGKAN UNIT SKALANYA SUDAH SAMA
  • 81. CONTOH DISAIN LINKING 5 PAKET TES:
  • 83. METODE PENGADMINISTRASIAN TES Perkembangan metode penyajian tes tidak mengalami perubahan besar kecuali adanya pengaruh teknologi komputer dan internet. Tes yang sebelumnya disajikan dengan metode paper and pencil kini dapat disajikan secara computerized. Ada dua jenis penyajian tes dengan bantuan komputer yaitu: (1) Computer Assisted Testing dan (2) Computer Adapted Testing
  • 84. METODE PENGADMINISTRASIAN TES Pada Computer Assisted Testing ada dua metode: (a) beberapa paket tes (forms) disimpan dalam komputer, lalu salah satu diantaranya digunakan ketika ada orang yang akan di tes, dan (b) tersedia item pool lalu dilakukan pemilihan item secara computerized sesuai kisi-kisi untuk langsung disajikan kepada orang yang di tes.
  • 85. METODE PENGADMINISTRASIAN TES Sedangkan Computerized Adaptive Testing adalah bentuk yang paling advance dari pengadministrasian tes. Penggunaannya tanpa kisi-kisi tertentu, sangat fleksibel namun hasilnya sangat akurat dan komparabel. SEPERTI TELAH DISEBUTKAN SEBELUMNYA, TERDIRI DARI DUA LANGKAH YANG DI ULANG- ULANG YAITU: MEMILIH SOAL YANG AKAN DITAMPILKAN DAN ESTIMASI KEMAMPUAN (SCORING).
  • 86. METODE PENGADMINISTRASIAN TES Dimungkinkan karena tingkat kesukaran yang diperoleh melalui IRT bersifat invariance, yaitu Tidak berubah meskipun dihitung pada sampel berbeda Skala tingkat kesukaran seluruh soal yang disimpan di komputer telah disamakan (dikalibrasi) Meskipun setiap orang menempuh himpunan soal yang berbeda namun hasilnya dapat diperbandingkan/ komparabel pada skala ukuran yang sama.
  • 87. METODE PENGADMINISTRASIAN TES Hasilnya lebih akurat karena soal yang disajikan selalu disesuaikan dengan kemampuan orang yang menempuhnya. Setiap kali soal disajikan, jika jawabannya benar maka komputer akan mencari dan menyajikan soal yang sedikit lebih sukar dan jika jawabannya salah maka akan disajikan soal yang sedikit lebih mudah.
  • 88. METODE PENGADMINISTRASIAN TES Setiap kali terjadi jawaban benar atau salah, komputer menghitung true-score lengkap dengan standard errornya Hanya jika tingkat akurasi tertentu telah dicapai (standard error lebih kecil dari kriteria tertentu), barulah penyajian tes dihentikan. Setiap orang menempuh jumlah item yang berbeda namun hasilnya komparabel pada skala ukuran yang sama.
  • 89. MENENTUKAN SOAL YANG AKAN DITAMPILKAN MENGGUNAKAN IRT, PROSEDURNYA SAMA DENGAN SAAT VALIDASI (MENGESTIMASI PARAMETER SOAL) HANYA SAJA DALAM HAL INI NILAI PARAMETER SOAL SUDAH DIMILIKI ADA DUA PILIHAN YAITU DENGAN METODE MAXIMUM LIKELIHOOD ATAU METODE BAYESIAN
  • 90. KRITERIA SOAL YANG AKAN DITAMPILKAN MENGGUNAKAN IRT, PROSEDURNYA SAMA DENGAN SAAT VALIDASI (MENGESTIMASI PARAMETER SOAL) HANYA SAJA DALAM HAL INI NILAI PARAMETER SOAL SUDAH DIMILIKI ADA DUA PILIHAN YAITU DENGAN METODE MAXIMUM LIKELIHOOD ATAU METODE BAYESIAN
  • 98.
  • 99. METODE SKORING: CARA TRADISIONAL SKOR BUTIR DIJUMLAHKAN MENJADI SKOR TOTAL TANPA PEMBOBOTAN JIKA TERDIRI DARI BEBERAPA SUBTES, SKOR SUBTES DISTANDARDISASI LALU DIJUMLAHKAN SKOR BUTIR ORDINAL SEPERTI PADA SKALA RATING ATAU LIKERT, DIANGGAP SKALA INTERVAL UMUMNYA TANPA DIDAHULUI UJI VALIDITAS KONSTRUK HASIL PENGUKURAN YANG DILAPORKAN BUKAN DALAM BENTUK TRUE-SCORE.
  • 100. ASUMSI: SELURUH BUTIR TES MENGUKUR SATU KONSTRUK YANG SAMA (UNIDIMENSIONAL) SELURUH BUTIR SOAL MERUPAKAN TES PARALEL SKOR BUTIR ORDINAL SEPERTI PADA SKALA RATING ATAU LIKERT, DIANGGAP SKALA INTERVAL HASIL PENGUKURAN YANG DILAPORKAN BUKAN DALAM BENTUK TRUE-SCORE.
  • 101. MASALAH PADA SKOR TRADISIONAL SEMUA BUTIR DIANGGAP SAMA (PARALEL), BAIK TINGKAT KESUKARAN MAUPUN DAYA PEMBEDANYA, SEHINGGA PENGGUNAAN SKOR TOTAL TANPA PEMBOBOTAN DAPAT MENYESATKAN BAIK KETIKA DIBUAT RANKING MAUPUN DALAM ANALISIS STATISTIK PADA SKALA RATING ATAU LIKERT HASILNYA AKAN LEBIH MENYESATKAN LAGI KARENA HASIL RATING DIANGGAP SKALA INTERVAL DAPAT TERJADI PENCEMARAN SKOR AKIBAT ADANYA BUTIR YANG TIDAK VALID (KARENA MENGUKUR KONSTRUK LAIN) TIDAK DIGUNAKANNYA TRUE-SCORE DAPAT MENGAKIBATKAN HASIL ANALISIS YANG SALAH BAIK DALAM PENGAMBILAN KEPUTUSAN MAUPUN DALAM ANALISIS DATA UNTUK RISET
  • 102. CARA BARU: MENGGUNAKAN TRUE-SCORE SETIAP BUTIR TES DIUJI VALIDITAS KONSTRUKNYA SETIAP BUTIR TES DIKALIBRASI TINGKAT KESUKARANNYA KADAR VALIDITAS DAN TINGKAT KESUKARAN BUTIR DIPERHITUNGKAN DALAM PENSKORAN DIBUAT SKALA UKURAN UNTUK TRUE-SCORE YANG BERBASIS BUTIR, BUKAN TES ORANG YANG MENEMPUH PAKET TES YANG BERBEDA (BAHKAN YANG JUMLAH BUTIRNYA BERBEDA) DAPAT DIUKUR PADA SKALA YANG SAMA
  • 105. SIMULASI METODE SKORING Untuk sekedar ilustrasi tentang resiko menggunakan skor total tes, bahkan ketika asumsi unidimensionalitas telah terpenuhi, berikut penulis sajikan hasil sementara dari studi simulasi yang saat ini tengah penulis lakukan: Data simulasi dibuat memenuhi asas unidimensionalitas True scores 400 subyek ditetapkan Dibuat empat kondisi yang berbeda:
  • 106. EMPAT KONDISI TES YANG DISIMULASI: 1. Strictly parallel (SP): seluruh item sama daya pembeda, sama tingkat kesukaran, dan sama varians dari measurement error nya. 2. Parallel (P): sama daya pembeda, sama tingkat kesukaran, tapi berbeda measurement error nya. 3. Semi-parallel (MP): yang sama hanya tingkat kesukaran nya, daya pembeda serta error variance nya berbeda. 4. Non-parallel (NP): semua karakteristik item dibuat berbeda.
  • 107. SIMULASI METODE SKORING: Sebagai kondisi tambahan, ditetapkan sebuah variabel independen yang memiliki koefisien regresi sebesar 0.8 terhadap true score. Berdasarkan true score yang telah ditetapkan dan segala spesifikasi diatas, lalu dibuat data untuk 400 subyek dengan 10 item. Masing-masing kondisi (mulai dari strictly parallel sampai dengan non-parallel) dilakukan 50 replikasi . Keseluruhannya ada sebanyak 200 simulasi.
  • 108. SIMULASI METODE SKORING: Pada setiap simulasi, penulis mengitung: (1) korelasi antara hasil tiga cara skoring dengan true score, dan (2) koefisien regresi dari variabel independen yang telah ditetapkan terhadap skor yang dihasilkan dengan ke tiga cara skoring tersebut. Adapun tiga cara skoring ialah: (1) skor mentah hasil menjumlahkan skor item (RAW), (2) true score hasil CFA dengan metode maximum likelihood (CFA-True), dan (3) true score hasil metode IRT (IRT-True).
  • 109. SIMULASI METODE SKORING: Kriteria: Makin tinggi korelasi dengan true score yang telah ditetapkan waktu menciptakan data, berarti makin baik metode skoring tersebut Koefisien regresi yang makin mendekati nilai 0.8 (nilai aslinya), berarti makin baik metode skoring yang digunakan.
  • 110. HASIL SIMULASI METODE SKORING Adapun koefisien korelasi dengan true-score adalah (hasil rata-rata dari 50 kali replikasi untuk tiga metode skoring dalam empat kondisi tes), sebagai berikut:
  • 111. HASIL SIMULASI METODE SKORING: Koefisien regresi IV yang ditetapkan (hasil rata-rata dari 50 kali replikasi), sebagai berikut (nilai true-value nya adalah 0.80):
  • 112. HASIL SIMULASI METODE SKORING Sangat jelas terlihat bahwa validitas dan reliabilitas raw score (cara tradisional) sangat terpengaruh jika asumsi paralel tak terpenuhi, sedangkan hasil estimasi true score baik dari IRT maupun CFA tetap memiliki validitas yang tinggi meskipun item tidak paralel. Hal ini berlaku baik ditinjau dari kriteria korelasi dengan true score asli, maupun dari sisi koefisien regresi pada suatu variabel independen.
  • 113. HASIL SIMULASI METODE SKORING Hal yang menarik adalah pada hasil IRT dan CFA, baik korelasi maupun regresi, pada kondisi yang makin tidak paralel justru makin tinggi Ini menunjukkan bahwa pada IRT dan CFA, jika kondisinya tidak benar-benar paralel, sebaiknya true score dihitung dengan memperhitungkan semua karakteristik soal. Penjelasan untuk fenomena ini memerlukan analisis lebih lanjut.
  • 114.
  • 115. METODE PENAFSIRAN SKOR TES Perkembangan metode penafsiran skor boleh dikatakan dari dahulu sampai sekarang hanya ada dua, yaitu (1) norm-referenced, dan (2) domain-referenced.
  • 116. METODE PENAFSIRAN SKOR TES Kebanyakan penafsiran hasil tes psikologis pada saat ini masih menggunakan cara norm- referenced, yaitu bahwa setelah suatu tes terbukti valid, lalu dicobakan pada berbagai populasi, kemudian disusun norma statistik bagi setiap populasi tersebut Jika ada seorang di tes, maka skor yang diperoleh ditransformasikan ke dalam skor baku (dengan satuan standar deviasi), untuk kemudian ditentukan di mana kedudukan skor orang tersebut dalam norma yang sesuai untuknya.
  • 117. METODE PENAFSIRAN SKOR TES Permasalahan di sini adalah bahwa orang diukur dalam kedudukan relatifnya terhadap orang lain sesuai norma yang digunakan. Jadi skor tes sama sekali tak memberikan informasi deskriptif mengenai orang diukur. Tak ada informasi tentang apa yang ia mampu atau tak mampu lakukan
  • 118. METODE PENAFSIRAN SKOR TES Bisa terjadi misalnya, orang dinilai tinggi karena kebanyakan orang lain pada norma yang digunakan memiliki nilai lebih rendah dari pada dirinya, padahal sebenarnya kemampuan orang tersebut rendah Oleh sebab itu, penafsiran skor tes yang lebih baik ialah dengan pendekatan domain- referenced
  • 119. PENAFSIRAN SKOR TES (CARA BARU): DOMAIN-REFERENCED (BUKAN NORMA) PADA SKALA UKURAN DIBUAT BAND-SCALE PADA SETIAP BAND-SCALE DI IDENTIFIKASI BUTIR-BUTIR YANG TINGKAT KESUKARANNYA MEWAKILI BAND-SCALE TERSEBUT AHLI SUBSTANSI BUTIR (CONTENT SPECIALIST) DAN PSIKOLOG YANG BERPENGALAMAN DIMINTA MEMBUAT DESKRIPSI TENTANG KEMAMPUAN YANG DIWAKILI OLEH HIMPUNAN BUTIR PADA SETIAP BAND-SCALE SELANJUTNYA, SETIAP ORANG YANG DITES DAPAT DIDESKRIPSIKAN KEMAMPUANNYA DENGAN MERUJUK KEPADA BAND-SCALE TERSEBUT
  • 120. SYARAT UNTUK DAPAT DILAKUKAN PENAFSIRAN DOMAIN-REFERENCED SETIAP BUTIR TES HARUS DIVALIDASI DAN DIKALIBRASI DENGAN METODA CFA DAN / ATAU IRT OLEH PENGEMBANG TES UNTUK PENGUKURAN DENGAN AKURASI TINGGI, PENGGUNA TES HARUS MENSKOR DENGAN MENGGUNAKAN PERANGKAT LUNAK SEPERTI BILOG (HANYA IRT) ATAU MPLUS (CFA DAN IRT) ESTIMASI TRUE SCORE LEBIH UNGGUL IALAH DENGAN METODE PLAUSIBLE VALUES, NAMUN SAAT INI HANYA TERSEDIA PADA: MPLUS
  • 121. CONTOH INTERPRETASI SKOR TES SECARA DOMAIN-REFERENCED