際際滷

際際滷Share a Scribd company logo
CATAn Article Written by MICHEL LAURIERPresented by  JuniatoKeywords: Testing, Adaptive, Conventional, Computerized, IRT, ICC, item banks, trait
WHAT WE CAN DO AND CANNOT DO WITH COMPUTERIZED ADAPTIVE TESTINGMICHAEL LAURIERGenerasi TestI.  Conventional Testing; administered by computersFor a long time, educational testing has focused mainly on paper-and-pencil tests and performance assessments. Since the late 1980s, when the rapid dissemination of personal computers in education began, these testing formats have been extended to formats suitable for delivery by computer.  (der Linden & Glas, 2010: v).Examples include the two-stage testing format (Cronbach &Gleser, 1965), Bayesian item selection with an approximation to the posterior distribution of the ability parameter (Owen,1969),the up-and-down method of item selection (Lord, 1970), the RobbinsMonro algorithm (Lord, 1971a), the flexilevel test(Lord,1971b), the stradaptive test (Weiss,1973), and pyramidal adaptive testing (Larkin&Weiss, 1975). (der Linden & Glas, 2010: vi)II. CAT (Bunderson, Inouye, Olsen 1989)    - Will be less obtrusive,    - Provide constant advice to learners and teachers...eaching Materials Downloadinden, Wim J. n CeesGlas   Elements of Adaptive Testing (2010) Springer.pdfLaurier, inginmenunjukkan:   1. How CAT works			2. What is the underlying theoryDenganmemberikancontohimplementasiCAT diPerancis
Prinsip-prinsipAdaptive TestingComputers in testing sangatlahbergunadibandingkandengan conventional testing methods:1. Number-crunching capabilitiesConventional:SistempenilaianmenghitungjumlahjawabanBenar; ataumengkonversikannyapadaskala yang sudahada.Computerized:	-allows more complex procedures segeraatausaat test dilaksanakan	-penggunaandatanyalebihefisien.	-dgn computer; lebihcepatdan virtually error-free (bebasdarikesalahan).  2. Multiple-branching capabilitiesConventional:	-terkendaladenganlinearitas.Computerized:	-menggunakansistem testing intelligent	-saat test dilakukan, dimungkinkanmembuatkeputusan.	- computer dapatmenganalisajawaban students danmenentukanjawabanmana	yang sesuai.	-perihallinearitas, bukanlahsebagaikendala
LatarbelakangDari sudutpandangpengajar:Misalnyakitainginmemasukkanpelajarpadasatukelompoksecara placement test konvensional; -agakkesulitanuntukmengetahui level-nya, bisasajaseorangituabsolut beginner; Kalaubegitu, harusadasoal yang mudahdansulit.Jikapelajarpada advanced level, beberapasoalakansangatmudah.Dari sudutpandangpelajar:- menganggapsoaltersebutkurangmenantang, membosankanDari sudutpandangpsikometrik, soalitutidakmemberikaninformasi yang penting/berhargakarenahasilnyadapatdiprediksi.Di sisi lain, soaltertentudianggapsangatsulitterutamabagipemula akanfrustrasi; dansangatsedikitinformasi yang diperolehterkait level pemelajar.
Adaptive testing  = tailored testing = karena:Bertujuanmenunjukkanhal-halsesuaidengankompetensisipemelajardansifatnyainformatif. Pada open-ended test (biasanya oral), kemungkinanjawabanbenar 50 / 50.Inisebuah problem, mengingatkankitapadaBinets multi-stage intelligent test.Penerapan test memangmembutuhkanproses yang kompleks, CAT mencobamereplikasi; dengancaramenyediakan:1. Item bank : sekumpulanhal/soaldisimpandenganspesifikasitertentudandapatmengukurkemampuan yang samapada level yang berbeda.2. Prosedurseleksi: sebuahalgoritmamemungkinkanuntukmemilihdanmendapatkankembali the most appropriate item (hal-hal yang paling sesuai) padasatumomen, danpadapemelajartertentu.
Untukmenyusun Item bank danProsedurseleksitersebut, theoretical framework yg paling seringdigunakanadalahIRT (Item Response Theory)( -- ) mathematical complexity(  + ) conceptually attractive and very interesting for CATIRT = Latent Trait Theory (olehBirnbaum 1968) karenamenganggapbahwa (p.246) a test score or a pattern of answers reflects a single construct that is not directly observable.(Skorsebuahtesataupolajawabanmencerminkansebuahkonstruksitunggal yang tidakdapatdiamatisecaralangsung).Apa yang diukurlewat test disebut Trait danhaliniterkaitdengan subjects ability.Teoriinidiperjelasoleh F. Lord (1977) denganICC (Item Characteristic Curve) sebuahfungsimatematis yang menghubungkanprobabilitaskeberhasilanatassoaltertentudengankemampuan (ability) yang diukurdengansoal yang telahdibuatsebelumnya. (HambletondanSwaminathan 1985:22).
Kurvainimenunjukkanbahwaprobabilitasakannaikseiringdengankemampuansubjektersebut. Range ability-nya -3 hingga +3 padasumbu X, sedangkanprobabilitasadapadasumbu Y.Kurvapadahal 246 ICC pada Intermediate Level  dengantiga parameter padasumbu X, parameter a Discrimination = 1.0, Parameter b Difficulty = 0, dan parameter c Guessing = 0.2.Kurvatsbtidakakanpernahmenyentuhbaris paling bawahkarenasoal yang diberikanberupa PG yang memungkinkanadanya guessing (parameter c).Denanmengetahui parameter ini, kitadapatsecaratepatmenggambarkan ICC menggunakanrumusdasar IRT:= subjects abilityD = konstanta 1.7
G. Rasch 1960, pernahmengusulkanrumus yang lebihsederhanatetapikurangakurat, Rasch Model, menganggapbahwatidakada guessing dansemuasoaldiperlakukan (discriminate) sama. Dengan model ini, hanyakesulitan (difficulty) yang perludiestimasi.Parameter estimasimerupakansebuahprosedurmatematiskomplek yang memerlukankomputer. Ada LOGIST (Wingersky, Barton & Lord 1982), atau micro-computers (MicroCAT, Assessment Systems Corp. 1984).( -- ) Agar bisamengestimasiparamatersecaratepat (untuktiga parameter tadi), diperlukansampel yang besar (1000 pesertates).( -- ) Sayangnya, sebaransampelinitidakmerefleksikansecaratepatdistribusipopulasikarena program akanmencobamembuatkankurvanyadibandingdenganmenhitungproporsijawabanbenar.IRT menyediakan:1. invariance of items  Item calibration is sample free2. invariance of subjects  Test-free person measurement Ygkeduainisangatlahpentingdalam adaptive testing karenasecaratidaklangsungmenyatakanbahwaestimasikemampuandapatdihitungdandibandingkanmeskipunsoal-soalberbedatelahdisampaikan.
ImplementasiTestUntukmenyusun item bank, adabeberapalangkah:1. Merencanakan bank tsb. Apakahadalebihdarisatu trait yang akandiukur? Jikaya, makaperludisusun bank soal.Harusdipastikanbahwaitumudahdilaksanakan, dijawabdandinilaibaikdgn format paper-and-pencil format jugaversicomputerisasi.2. Field Testing dananalisis item / soal.Perluujicobadgnsampelkecil 100 s/d 200 subjek. Classical analysis item menggunakanproporsijawabanbenardankorelasiadalahsangatmembantuuntkmengeliminasisoal-soal bad dariversiberikutnya. Padatahapini, dimensionality analysis dapatdilakukanuntukmemastikantesatau sub tesmengukur single trait.3. Field Testing and Calibration:Versibarudilaksanakanpada sample besar 200 s/d 2000 subjektergantungpada model dankualitas sample. Data iniakandiprosessehingga parameter dantingkatkesesuaian (fit) akandiperolehuntukmasing-masing item.4. Inclusion to the bank.Jikaitemnyadapatditerima, makaakanditambahkanke bank. Setidaknya, kodeidentifikasi, pertanyaan (danpilihandengansoalbentuk PG), jawabanbenardan parameter harusadapada item record. (Henning 1986. Hal 248)
Tentusaja, sistemmanajemensudahharusdibuatsebelumnya. Cara kerjanyasepertisistem data base. Masing-masing sub-test merupakan data base yang dapatdiaksesdengansistemmanajemen.Ketikaseorang user memilihsatu sub-test, operasi yang berbedadapatdijalankan:1. Updating the bank:Ada item yang ditambah, jugadikurangi (dihapus). User harusdapatmelihatdanmemodifikasi item dalam bank tersebuttanpaharusmenuliskannyalagi.2. Importing items:Harusdapatmelakukan transfer dalamjumlahbesarke bank items.3. Listing items:Masing-masing item dapatdilihatpadajendelaterpisah. User jugaharusbisamelihatdaftar items mencakupkodeidentifikasi item, parameter, danisyarat (semacamkatakunci) untukmeingingatkan user padapertanyaan.4. Obtaining the item information:Dengan IRT, seseorangdapatmengetahuiberapabanyakinformasi yang dapatdiperolehpadapoin-poinberbedadariskala ability. Ketikainformasitersebutdikumpulkan, padapoin ability tertentu, estimasimenjadilebih reliable.
Prosedurseleksimerupakansebuahmetode yang dapatditerapkanuntukmemperkirakan ability pesertaujiansetelahmenjawabpertanyaandanuntukmenemukan item berikutnya yang paling sesuai. Konsepinformasi item sangatlahpentingkarena item yang paling sesuaimerupakan item yang menyiratkaninformasi paling banyakmerujukpada ability tertentu.Melihatkembalipelaksanaan adaptive test yang telahdirancangakanmembantudalammemahamibagaimana program tersebutbekerja. Kita butuhtespenempatanterkomputerisasi; dimanainstrumenmencobamengakses general proficiency pemelajar. Konstruksinyaharusmempertimbangkanbeberapakompetensi, gramatikal, sosiolinguistik, diskursus, (Canaledan Swain 1980) dan strategic competence (CLT, Richards n Rogers).Format test dipengaruhioleh medium, the micro-computer. Tiga sub tesberisisoal PG karenakitainginmeminimalisirpenggunaan keyboard dankarena open-ended answers terlalutidakdapatdiprediksiuntukdapatdiprosesdalamtipetesini. Organisasidanisi test jugamerefleksikanfaktabahwakitaharusmengikutisyarat-syarat yang adapada IRT.
Pelaksanaan TestDengan IRT, prosedurtelahdibuatuntukmengestimasi ability pemelajar, denganmenggunakanjawabandan parameter dari item tersebut.Namun, menghitung ability pemelajartidaklahmungkinsaat program barudijalankan, karena data belumtersedia. Inilahsebabnyamengapapadaawaltes, pemelajarditanyakanbeberapainformasiseputarlatarbelakangbahasakeduanya.Misalnya:Sudahberapatahunbelajarbahasatersebut?Pernahtidaktinggaldilingkungan yang menggunakanbahasatersebut?Jikaya, berapa lama?Lalu program akanmengarahkanpemelajarpadatingkatanproficiency-nyaatastujuhskalakategorimulaidari Beginner hinggapada Very Advanced.Informasiinidigunakan agar dapatdiperolehestimasiawal yang nantinyaakandigunakanuntukmemilih item pertamadari sub-test dimaksud. Tung (1986) menunjukkanbahwajikaestimasiawalinilebihtepat, maka adaptive test ituakanlebihefisien.
Biasanya, sub-test pertamamemuatparagrafpendekuntukmengukurtingkatpemahamanpemelajar. MenurutJafarpur (1987), short context technique inimerupakansuatucarauntukmengukur general proficiency. Program kemudianakanmenyesuaikanjenissoalsesuaidengantingkatkesulitan item. Jika sub-test initerjawabdenganbaik, maka program akanberpindahpada sub-test berikutnya. Sub-test keduadilaksanakandenganmerujukpadahasil sub-test pertama. Padabagianini, ditampilkansuatusituasidalambahasaInggrisdanlaludiikutiolehempatpernyataanbenardalambahasaPerancis. Pemelajarharusmemilihsatu yang paling sesuaisecarasemantikdansosiolinguistikdaripernyataantadi. Raffaldini (1988) menyatakanbahwatipe test situasionalinimemberinilaitambahuntukmengukur proficiency. Jikasemuanyaterjawab, maka program akanberalihpadasub-test ketigayaknia traditional fill-the-gap exercise. Iniuntukmengukuraspekbahasasecaraleksikaldangramatikal. Setelahsemuanyaselesai, makahasilnyaakantampildilayar. Makahasilnyaakandikategorikanpada 14 tingkatan; absolute beginner, Absolute beginner +,  Very advanced +.
Keuntungan  ( + ) danKeterbatasan ( - )+ Pemelajardanpelaksana (administrator / pengelola) mendapatkanhasillangsung (cepat).+ Pemelajarmenerimabalikanataspekerjaannya, daninisifatnyarahasia (confidential).+ Karenatidakada markers, jadi marking-nyajadilebihekonomis, bebasdarikesalahan (error-free), dantidakadapenundaan.+ Karenatestnyasifatnya individual, pemelajardapatmencatattestersebutjikadiinginkan.+ karenaprosedurnyasifatnya adaptive (dapatdisesuaikan), test-nyalebihsingkat. + Untukdapatmembandingkandarisisireliabilitas test yang kitaikuti, kitaperluversi paper-and-pencil (dua kali dari CAT). + CAT hanyamenggunakan 40% darisoalpadatesconvensionalsejenis. + Denganprosedur yang adaptif, pemelajardihadapkanpada test yang realistis : maksudnya item tersebuttidakpernahdianggapterlalusulitataupunterlalumudah.+ Denganmenggunakaninstrumen yang canggih, dapatdiketahuijikaadapeserta test yang palsu (semacamjoki).+ Denganpenggunaankomputer, seseorangitudapatmenciptakansuasana yang lebihasyik (santai). + within a CAT environment item selection and ability estimation occur in real time (der Linden & Pashley, 2010 : 4)
- Komputeritusifatnya artificial (buatan), hanyamencobamerepresentasikandunianyatadanmenghindaribentuk test langsung.- Selainitu, jenisjawabanterbataskarenamesindanjugakarena model psikometrik. - Medium, komputertidakhanyamempengaruhitipejawabantetapijugaisites. Pada test, kitainginmenggunakanstandardanperangkatkeras yang terjangkautetapibeberapapemelajarmengeluhbahwatestersebutsangatkurangdalammengakses oral skills. - Meskipuninovasi videodisc, perangkat audio-tape, CD-Rom, atauperangkatbuatanlainnya, stimulus dalam CAT umumnyabentuknyatertulis.- Sebaliknya, model, IRT, tidakhanyamempengaruhitipejawabantetapijugakepraktisanpengembangannya. - Dalamtes, tigabagianterdiriatas 50 item (soal) diberikankepadapesertadalamjumlahbesar (700 hundred examinees (hal. 252). Denganjumlahini, komponenkesalahandaritiga parameter itumungkinterlalubesar. Untukmenguranginya, model Raschdapatditerapkanbiasanyapadapenyesuaian model. CAT kurang applicable padatesberskalakecil.
Masalah yang paling besaradalahasumsiatasunidimensionalitas (ukuran); initerkaitdengan trait yang diukur. Dengan IRT, dimensiumum, yaknifaktortertentu, harussecarajelasdimunculkan. Sebaliknya, aplikasi IRT inimasihdiperdebatkan. Meskipunprosedurkalibrasinyasecarastatistikcukupbagusdankebanyakantesbahasaakanmengikutisyaratunidimensionalitas (Henning, Hudson & Turner 1985), banyaksituasitesdidasarkanpadaancanganmultidimensikompetensibahasa (Bachman).Teknikkalibrasimultidimensiadatetapitidakselalupraktis (Dandonelli & Rumizen 1989). Salahsatujenisunidimensionalitasadalahindependensisoal. Prinsipinimenyiratkanbahwasebuahjawabanbenarpada item tertentutidakakanmempengaruhikemungkinanakanbenarpada item yang lainnya. Syaratinitidakterpenuhipada Cloze Test karenauntukmenemukankata yang tepatdanbenardalamsebuahkonteksjugamemungkinkankitamenemukanjawabanbenarpadakataberikutnya.Akhirnya, ketikasemuamasalahteoritisiniteratasi, kerapkalimasalah-masalahpraktismuncul. Misalnya, bagibeberapalembaga, biayapengembangandanimplementasiadaptif test inisangatberat (tinggi). Madsen (1986) menyelidikisikapdankebimbanganpemelajarmenghadapi test komputerisasi; perluadaperhatianataspengaruhafeksiini.
Contoh:catdemo.htmcat10.asp.htmRudner, Lawrence M. (1998). An On-line, Interactive, Computer Adaptive Testing Mini-Tutorial, http://edres.org/scripts/cat/cathttp://examenglish.com
Kesimpulan1. Denganadanyaketerbatasan CAT inimengindikasikanbahwaCAT bukanlahsebuah panacea (ampuh/mujarab). 2.Sebaiknya jangandigunakanuntuktesdiagnosajikauntukmencarikelemahanataukekuatanpada discrete points karenatipetesini (DP) tidakunidimensional. 3. Jugasebaiknyatidakdigunakanpada communicative test yang mencobamengukuraspekkompetensikomunikatiftanpamengisolasinyadengandimensi yang berbedadalam sub-testerpisah.4. Canale (1986) menyebutkanbahwasuasanatesnyasangatartifisialsehinggadarisisivaliditasnya CAT kurang, karenajikahasiltesdigunakanuntukmembuatsuatukeputusanpenting (High Level Test), misalnyatessertifikasi. Namun, jikaitusebagaiestimasikasaratas ability dalamlingkupluasdibutuhkan, misalnyauntuktespenempatan, barangkali CAT bisasebagaisolusi yang sesuai. Jugajika trait yang diukursesuatu yang unikseperti general proficiency, vocabulary, grammar. Jugadapatmenjadisolusibagitesintegratifterkait receptive skills terutamajikahasilnyatidakmempengaruhimasadepanpemelajar, ataudimungkinkansajadilengkapidenganpengukuranlangsunglainnya. 5. Perangkatlunak program CAT diperlukandalambidangpengukuranuntukmembantuprosesevaluasigunamengetahuikeberhasilanprosespembelajaran ; Kinerja programCAT menggunakanalgoritmalogikafuzzymampumelaksanakantugasdenganbaikuntukpemilihanbutirtesdanpengukurankemampuanhasilbelajarsiswadalamprosespembelajaran (Haryanto, 2009. Disertasi:UNY)
Singkatnya, CAT akantetapsebagai CAT, tidakakanpernahsebagaiseekor watchdog.T3r1m4 k451H

More Related Content

Cat ppt

  • 1. CATAn Article Written by MICHEL LAURIERPresented by JuniatoKeywords: Testing, Adaptive, Conventional, Computerized, IRT, ICC, item banks, trait
  • 2. WHAT WE CAN DO AND CANNOT DO WITH COMPUTERIZED ADAPTIVE TESTINGMICHAEL LAURIERGenerasi TestI. Conventional Testing; administered by computersFor a long time, educational testing has focused mainly on paper-and-pencil tests and performance assessments. Since the late 1980s, when the rapid dissemination of personal computers in education began, these testing formats have been extended to formats suitable for delivery by computer. (der Linden & Glas, 2010: v).Examples include the two-stage testing format (Cronbach &Gleser, 1965), Bayesian item selection with an approximation to the posterior distribution of the ability parameter (Owen,1969),the up-and-down method of item selection (Lord, 1970), the RobbinsMonro algorithm (Lord, 1971a), the flexilevel test(Lord,1971b), the stradaptive test (Weiss,1973), and pyramidal adaptive testing (Larkin&Weiss, 1975). (der Linden & Glas, 2010: vi)II. CAT (Bunderson, Inouye, Olsen 1989) - Will be less obtrusive, - Provide constant advice to learners and teachers...eaching Materials Downloadinden, Wim J. n CeesGlas Elements of Adaptive Testing (2010) Springer.pdfLaurier, inginmenunjukkan: 1. How CAT works 2. What is the underlying theoryDenganmemberikancontohimplementasiCAT diPerancis
  • 3. Prinsip-prinsipAdaptive TestingComputers in testing sangatlahbergunadibandingkandengan conventional testing methods:1. Number-crunching capabilitiesConventional:SistempenilaianmenghitungjumlahjawabanBenar; ataumengkonversikannyapadaskala yang sudahada.Computerized: -allows more complex procedures segeraatausaat test dilaksanakan -penggunaandatanyalebihefisien. -dgn computer; lebihcepatdan virtually error-free (bebasdarikesalahan). 2. Multiple-branching capabilitiesConventional: -terkendaladenganlinearitas.Computerized: -menggunakansistem testing intelligent -saat test dilakukan, dimungkinkanmembuatkeputusan. - computer dapatmenganalisajawaban students danmenentukanjawabanmana yang sesuai. -perihallinearitas, bukanlahsebagaikendala
  • 4. LatarbelakangDari sudutpandangpengajar:Misalnyakitainginmemasukkanpelajarpadasatukelompoksecara placement test konvensional; -agakkesulitanuntukmengetahui level-nya, bisasajaseorangituabsolut beginner; Kalaubegitu, harusadasoal yang mudahdansulit.Jikapelajarpada advanced level, beberapasoalakansangatmudah.Dari sudutpandangpelajar:- menganggapsoaltersebutkurangmenantang, membosankanDari sudutpandangpsikometrik, soalitutidakmemberikaninformasi yang penting/berhargakarenahasilnyadapatdiprediksi.Di sisi lain, soaltertentudianggapsangatsulitterutamabagipemula akanfrustrasi; dansangatsedikitinformasi yang diperolehterkait level pemelajar.
  • 5. Adaptive testing = tailored testing = karena:Bertujuanmenunjukkanhal-halsesuaidengankompetensisipemelajardansifatnyainformatif. Pada open-ended test (biasanya oral), kemungkinanjawabanbenar 50 / 50.Inisebuah problem, mengingatkankitapadaBinets multi-stage intelligent test.Penerapan test memangmembutuhkanproses yang kompleks, CAT mencobamereplikasi; dengancaramenyediakan:1. Item bank : sekumpulanhal/soaldisimpandenganspesifikasitertentudandapatmengukurkemampuan yang samapada level yang berbeda.2. Prosedurseleksi: sebuahalgoritmamemungkinkanuntukmemilihdanmendapatkankembali the most appropriate item (hal-hal yang paling sesuai) padasatumomen, danpadapemelajartertentu.
  • 6. Untukmenyusun Item bank danProsedurseleksitersebut, theoretical framework yg paling seringdigunakanadalahIRT (Item Response Theory)( -- ) mathematical complexity( + ) conceptually attractive and very interesting for CATIRT = Latent Trait Theory (olehBirnbaum 1968) karenamenganggapbahwa (p.246) a test score or a pattern of answers reflects a single construct that is not directly observable.(Skorsebuahtesataupolajawabanmencerminkansebuahkonstruksitunggal yang tidakdapatdiamatisecaralangsung).Apa yang diukurlewat test disebut Trait danhaliniterkaitdengan subjects ability.Teoriinidiperjelasoleh F. Lord (1977) denganICC (Item Characteristic Curve) sebuahfungsimatematis yang menghubungkanprobabilitaskeberhasilanatassoaltertentudengankemampuan (ability) yang diukurdengansoal yang telahdibuatsebelumnya. (HambletondanSwaminathan 1985:22).
  • 7. Kurvainimenunjukkanbahwaprobabilitasakannaikseiringdengankemampuansubjektersebut. Range ability-nya -3 hingga +3 padasumbu X, sedangkanprobabilitasadapadasumbu Y.Kurvapadahal 246 ICC pada Intermediate Level dengantiga parameter padasumbu X, parameter a Discrimination = 1.0, Parameter b Difficulty = 0, dan parameter c Guessing = 0.2.Kurvatsbtidakakanpernahmenyentuhbaris paling bawahkarenasoal yang diberikanberupa PG yang memungkinkanadanya guessing (parameter c).Denanmengetahui parameter ini, kitadapatsecaratepatmenggambarkan ICC menggunakanrumusdasar IRT:= subjects abilityD = konstanta 1.7
  • 8. G. Rasch 1960, pernahmengusulkanrumus yang lebihsederhanatetapikurangakurat, Rasch Model, menganggapbahwatidakada guessing dansemuasoaldiperlakukan (discriminate) sama. Dengan model ini, hanyakesulitan (difficulty) yang perludiestimasi.Parameter estimasimerupakansebuahprosedurmatematiskomplek yang memerlukankomputer. Ada LOGIST (Wingersky, Barton & Lord 1982), atau micro-computers (MicroCAT, Assessment Systems Corp. 1984).( -- ) Agar bisamengestimasiparamatersecaratepat (untuktiga parameter tadi), diperlukansampel yang besar (1000 pesertates).( -- ) Sayangnya, sebaransampelinitidakmerefleksikansecaratepatdistribusipopulasikarena program akanmencobamembuatkankurvanyadibandingdenganmenhitungproporsijawabanbenar.IRT menyediakan:1. invariance of items Item calibration is sample free2. invariance of subjects Test-free person measurement Ygkeduainisangatlahpentingdalam adaptive testing karenasecaratidaklangsungmenyatakanbahwaestimasikemampuandapatdihitungdandibandingkanmeskipunsoal-soalberbedatelahdisampaikan.
  • 9. ImplementasiTestUntukmenyusun item bank, adabeberapalangkah:1. Merencanakan bank tsb. Apakahadalebihdarisatu trait yang akandiukur? Jikaya, makaperludisusun bank soal.Harusdipastikanbahwaitumudahdilaksanakan, dijawabdandinilaibaikdgn format paper-and-pencil format jugaversicomputerisasi.2. Field Testing dananalisis item / soal.Perluujicobadgnsampelkecil 100 s/d 200 subjek. Classical analysis item menggunakanproporsijawabanbenardankorelasiadalahsangatmembantuuntkmengeliminasisoal-soal bad dariversiberikutnya. Padatahapini, dimensionality analysis dapatdilakukanuntukmemastikantesatau sub tesmengukur single trait.3. Field Testing and Calibration:Versibarudilaksanakanpada sample besar 200 s/d 2000 subjektergantungpada model dankualitas sample. Data iniakandiprosessehingga parameter dantingkatkesesuaian (fit) akandiperolehuntukmasing-masing item.4. Inclusion to the bank.Jikaitemnyadapatditerima, makaakanditambahkanke bank. Setidaknya, kodeidentifikasi, pertanyaan (danpilihandengansoalbentuk PG), jawabanbenardan parameter harusadapada item record. (Henning 1986. Hal 248)
  • 10. Tentusaja, sistemmanajemensudahharusdibuatsebelumnya. Cara kerjanyasepertisistem data base. Masing-masing sub-test merupakan data base yang dapatdiaksesdengansistemmanajemen.Ketikaseorang user memilihsatu sub-test, operasi yang berbedadapatdijalankan:1. Updating the bank:Ada item yang ditambah, jugadikurangi (dihapus). User harusdapatmelihatdanmemodifikasi item dalam bank tersebuttanpaharusmenuliskannyalagi.2. Importing items:Harusdapatmelakukan transfer dalamjumlahbesarke bank items.3. Listing items:Masing-masing item dapatdilihatpadajendelaterpisah. User jugaharusbisamelihatdaftar items mencakupkodeidentifikasi item, parameter, danisyarat (semacamkatakunci) untukmeingingatkan user padapertanyaan.4. Obtaining the item information:Dengan IRT, seseorangdapatmengetahuiberapabanyakinformasi yang dapatdiperolehpadapoin-poinberbedadariskala ability. Ketikainformasitersebutdikumpulkan, padapoin ability tertentu, estimasimenjadilebih reliable.
  • 11. Prosedurseleksimerupakansebuahmetode yang dapatditerapkanuntukmemperkirakan ability pesertaujiansetelahmenjawabpertanyaandanuntukmenemukan item berikutnya yang paling sesuai. Konsepinformasi item sangatlahpentingkarena item yang paling sesuaimerupakan item yang menyiratkaninformasi paling banyakmerujukpada ability tertentu.Melihatkembalipelaksanaan adaptive test yang telahdirancangakanmembantudalammemahamibagaimana program tersebutbekerja. Kita butuhtespenempatanterkomputerisasi; dimanainstrumenmencobamengakses general proficiency pemelajar. Konstruksinyaharusmempertimbangkanbeberapakompetensi, gramatikal, sosiolinguistik, diskursus, (Canaledan Swain 1980) dan strategic competence (CLT, Richards n Rogers).Format test dipengaruhioleh medium, the micro-computer. Tiga sub tesberisisoal PG karenakitainginmeminimalisirpenggunaan keyboard dankarena open-ended answers terlalutidakdapatdiprediksiuntukdapatdiprosesdalamtipetesini. Organisasidanisi test jugamerefleksikanfaktabahwakitaharusmengikutisyarat-syarat yang adapada IRT.
  • 12. Pelaksanaan TestDengan IRT, prosedurtelahdibuatuntukmengestimasi ability pemelajar, denganmenggunakanjawabandan parameter dari item tersebut.Namun, menghitung ability pemelajartidaklahmungkinsaat program barudijalankan, karena data belumtersedia. Inilahsebabnyamengapapadaawaltes, pemelajarditanyakanbeberapainformasiseputarlatarbelakangbahasakeduanya.Misalnya:Sudahberapatahunbelajarbahasatersebut?Pernahtidaktinggaldilingkungan yang menggunakanbahasatersebut?Jikaya, berapa lama?Lalu program akanmengarahkanpemelajarpadatingkatanproficiency-nyaatastujuhskalakategorimulaidari Beginner hinggapada Very Advanced.Informasiinidigunakan agar dapatdiperolehestimasiawal yang nantinyaakandigunakanuntukmemilih item pertamadari sub-test dimaksud. Tung (1986) menunjukkanbahwajikaestimasiawalinilebihtepat, maka adaptive test ituakanlebihefisien.
  • 13. Biasanya, sub-test pertamamemuatparagrafpendekuntukmengukurtingkatpemahamanpemelajar. MenurutJafarpur (1987), short context technique inimerupakansuatucarauntukmengukur general proficiency. Program kemudianakanmenyesuaikanjenissoalsesuaidengantingkatkesulitan item. Jika sub-test initerjawabdenganbaik, maka program akanberpindahpada sub-test berikutnya. Sub-test keduadilaksanakandenganmerujukpadahasil sub-test pertama. Padabagianini, ditampilkansuatusituasidalambahasaInggrisdanlaludiikutiolehempatpernyataanbenardalambahasaPerancis. Pemelajarharusmemilihsatu yang paling sesuaisecarasemantikdansosiolinguistikdaripernyataantadi. Raffaldini (1988) menyatakanbahwatipe test situasionalinimemberinilaitambahuntukmengukur proficiency. Jikasemuanyaterjawab, maka program akanberalihpadasub-test ketigayaknia traditional fill-the-gap exercise. Iniuntukmengukuraspekbahasasecaraleksikaldangramatikal. Setelahsemuanyaselesai, makahasilnyaakantampildilayar. Makahasilnyaakandikategorikanpada 14 tingkatan; absolute beginner, Absolute beginner +, Very advanced +.
  • 14. Keuntungan ( + ) danKeterbatasan ( - )+ Pemelajardanpelaksana (administrator / pengelola) mendapatkanhasillangsung (cepat).+ Pemelajarmenerimabalikanataspekerjaannya, daninisifatnyarahasia (confidential).+ Karenatidakada markers, jadi marking-nyajadilebihekonomis, bebasdarikesalahan (error-free), dantidakadapenundaan.+ Karenatestnyasifatnya individual, pemelajardapatmencatattestersebutjikadiinginkan.+ karenaprosedurnyasifatnya adaptive (dapatdisesuaikan), test-nyalebihsingkat. + Untukdapatmembandingkandarisisireliabilitas test yang kitaikuti, kitaperluversi paper-and-pencil (dua kali dari CAT). + CAT hanyamenggunakan 40% darisoalpadatesconvensionalsejenis. + Denganprosedur yang adaptif, pemelajardihadapkanpada test yang realistis : maksudnya item tersebuttidakpernahdianggapterlalusulitataupunterlalumudah.+ Denganmenggunakaninstrumen yang canggih, dapatdiketahuijikaadapeserta test yang palsu (semacamjoki).+ Denganpenggunaankomputer, seseorangitudapatmenciptakansuasana yang lebihasyik (santai). + within a CAT environment item selection and ability estimation occur in real time (der Linden & Pashley, 2010 : 4)
  • 15. - Komputeritusifatnya artificial (buatan), hanyamencobamerepresentasikandunianyatadanmenghindaribentuk test langsung.- Selainitu, jenisjawabanterbataskarenamesindanjugakarena model psikometrik. - Medium, komputertidakhanyamempengaruhitipejawabantetapijugaisites. Pada test, kitainginmenggunakanstandardanperangkatkeras yang terjangkautetapibeberapapemelajarmengeluhbahwatestersebutsangatkurangdalammengakses oral skills. - Meskipuninovasi videodisc, perangkat audio-tape, CD-Rom, atauperangkatbuatanlainnya, stimulus dalam CAT umumnyabentuknyatertulis.- Sebaliknya, model, IRT, tidakhanyamempengaruhitipejawabantetapijugakepraktisanpengembangannya. - Dalamtes, tigabagianterdiriatas 50 item (soal) diberikankepadapesertadalamjumlahbesar (700 hundred examinees (hal. 252). Denganjumlahini, komponenkesalahandaritiga parameter itumungkinterlalubesar. Untukmenguranginya, model Raschdapatditerapkanbiasanyapadapenyesuaian model. CAT kurang applicable padatesberskalakecil.
  • 16. Masalah yang paling besaradalahasumsiatasunidimensionalitas (ukuran); initerkaitdengan trait yang diukur. Dengan IRT, dimensiumum, yaknifaktortertentu, harussecarajelasdimunculkan. Sebaliknya, aplikasi IRT inimasihdiperdebatkan. Meskipunprosedurkalibrasinyasecarastatistikcukupbagusdankebanyakantesbahasaakanmengikutisyaratunidimensionalitas (Henning, Hudson & Turner 1985), banyaksituasitesdidasarkanpadaancanganmultidimensikompetensibahasa (Bachman).Teknikkalibrasimultidimensiadatetapitidakselalupraktis (Dandonelli & Rumizen 1989). Salahsatujenisunidimensionalitasadalahindependensisoal. Prinsipinimenyiratkanbahwasebuahjawabanbenarpada item tertentutidakakanmempengaruhikemungkinanakanbenarpada item yang lainnya. Syaratinitidakterpenuhipada Cloze Test karenauntukmenemukankata yang tepatdanbenardalamsebuahkonteksjugamemungkinkankitamenemukanjawabanbenarpadakataberikutnya.Akhirnya, ketikasemuamasalahteoritisiniteratasi, kerapkalimasalah-masalahpraktismuncul. Misalnya, bagibeberapalembaga, biayapengembangandanimplementasiadaptif test inisangatberat (tinggi). Madsen (1986) menyelidikisikapdankebimbanganpemelajarmenghadapi test komputerisasi; perluadaperhatianataspengaruhafeksiini.
  • 17. Contoh:catdemo.htmcat10.asp.htmRudner, Lawrence M. (1998). An On-line, Interactive, Computer Adaptive Testing Mini-Tutorial, http://edres.org/scripts/cat/cathttp://examenglish.com
  • 18. Kesimpulan1. Denganadanyaketerbatasan CAT inimengindikasikanbahwaCAT bukanlahsebuah panacea (ampuh/mujarab). 2.Sebaiknya jangandigunakanuntuktesdiagnosajikauntukmencarikelemahanataukekuatanpada discrete points karenatipetesini (DP) tidakunidimensional. 3. Jugasebaiknyatidakdigunakanpada communicative test yang mencobamengukuraspekkompetensikomunikatiftanpamengisolasinyadengandimensi yang berbedadalam sub-testerpisah.4. Canale (1986) menyebutkanbahwasuasanatesnyasangatartifisialsehinggadarisisivaliditasnya CAT kurang, karenajikahasiltesdigunakanuntukmembuatsuatukeputusanpenting (High Level Test), misalnyatessertifikasi. Namun, jikaitusebagaiestimasikasaratas ability dalamlingkupluasdibutuhkan, misalnyauntuktespenempatan, barangkali CAT bisasebagaisolusi yang sesuai. Jugajika trait yang diukursesuatu yang unikseperti general proficiency, vocabulary, grammar. Jugadapatmenjadisolusibagitesintegratifterkait receptive skills terutamajikahasilnyatidakmempengaruhimasadepanpemelajar, ataudimungkinkansajadilengkapidenganpengukuranlangsunglainnya. 5. Perangkatlunak program CAT diperlukandalambidangpengukuranuntukmembantuprosesevaluasigunamengetahuikeberhasilanprosespembelajaran ; Kinerja programCAT menggunakanalgoritmalogikafuzzymampumelaksanakantugasdenganbaikuntukpemilihanbutirtesdanpengukurankemampuanhasilbelajarsiswadalamprosespembelajaran (Haryanto, 2009. Disertasi:UNY)
  • 19. Singkatnya, CAT akantetapsebagai CAT, tidakakanpernahsebagaiseekor watchdog.T3r1m4 k451H