1. Bab 1
Pendahuluan WEKA
I.
Tugas Pendahuluan
1. Jelaskan yang dimaksud dengan Data mining!
2. Sebutkan 5 aplikasi yang memanfaatkan teknik data mining!
II.
Tujuan Praktikum
1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas
dalam data mining.
2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data
mining, terutama untuk menyelesaikan masalah klasifikasi.
3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan
pada perangkat lunak WEKA.
III.
Dasar Teori
Data mining adalah sebuah bidang ilmu yang berupaya menemukan
pola, kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui
sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi
oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali
sebuah organisasi atau kelompok kerja tertentu banyak melakukan kegiatan
pengumpulan data, administrasi
maupun
perhitungan-perhitungan
yang
menghasilkan data dalam jumlah besar.
Berbagai tools komersial maupun non-komersial beredar dan digunakan
untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu
diantaranya yang menarik dan akan dibicarakan dalam modul ini adalah
WEKA, yang merupakan alat bantu data mining, terutama dalam penerapannya
untuk menyelesaikan masalah klasifikasi.
1
2. Sejarah WEKA
WEKA adalah sebuah paket tools machine learning praktis. WEKA
merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang
dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan
berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining
di dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan
machine learning. Perangkat lunak ini ditulis dalam hirarki class Java
dengan metode berorientasi objek dan dapat berjalan hampir di semua platform.
WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang
berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-theart yang dapat diterapkan pada dataset dari command line. WEKA mengandung
tools untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi,
dan visualisasi. User dapat melakukan preprocess pada data, memasukkannya
dalam sebuah skema pembelajaran, dan menganalisa classifier yang dihasilkan
dan performansinya semua itu tanpa menulis kode program sama sekali.
Contoh penggunaan WEKA adalah dengan menerapkan sebuah metode
pembelajaran ke dataset dan menganalisa hasilnya untuk memperoleh informasi
tentang data, atau menerapkan beberapa metode dan membandingkan
performansinya untuk dipilih.
Tools yang dapat digunakan untuk pre-processing dataset membuat user dapat
berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan detail
seperti pembacaan data dari file-file, implementasi algoritma filtering, dan
penyediaan kode untuk evaluasi hasil.
GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan
menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan visualisasi
yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi, clustering,
pemilihan atribut, dan visualisasi dapat dilakukan dengan mudah dan
menyenangkan di sini.
2
3. Gambar1. WEKA explorer
GUI Experimenter memudahkan perbandingan performansi skema-skema
pembelajaran yang berbeda. Experimenter biasanya digunakan untuk klasifikasi
dan regresi. Hasil dari perbandingan performansi dapat dituliskan dalam file
atau basis data. Pilihan evaluasi yang tersedia dalam WEKA adalah crossvalidation, learning curve, hold-out. User juga dapat melakukan iterasi menurut
beberapa setting parameter yang berbeda.
Gambar 2. WEKA Experiment
Tab Setup yang muncul saat user membuka Experimenter memungkinkan user
memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah menyimpan
definisi eksperimen yang dilakukan, user dapat memulai eksperimen dari tab
3
4. Run dan meng-klik tombol Start. Area di bawahnya akan menunjukkan proses
yang sedang dilakukan. Hasilnya disimpan dalam format CSV dan dapat
dibuka dalam bentuk spreadsheet.
Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen yang
dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel Source.
Hasilnya dapat di-load dalam format .ARFF maupun dari basis data.
Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen
sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah dataset,
atau teknik yang sama dengan parameter-parameter yang berbeda.
GUI
Knowledge
Flow
merupakan
GUI
baru
dalam
WEKA
yang
merupakan antarmuka Java-Beans-based untuk melakukan setting dan
menjalankan percobaan-percobaan machine learning.
Gambar 3. WEKA Knowledge Flow
KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah front
end grafis untuk algoritma-algoritma inti WEKA. Karena masih dalam
pengembangan, beberapa fungsionalitas dalam Explorer belum tersedia dalam
KnowledgeFlow.
KnowledgeFlow menampilkan aliran data dalam WEKA. User dapat memilih
komponen-komponen WEKA dari toolbar, meletakkannya pada area yang
tersedia dan menghubungkannya untuk membentuk aliran pengetahuan
4
5. pemrosesan dan analisa data.
KnowledgeFlow dapat menangani data secara incremental maupun dalam
batches (Explorer hanya menangani data batch). Tentunya pembelajaran dari
data secara incremental
memerlukan
sebuah
classifier
yang
dapat
diupdate instance per instance.
Format Data dalam WEKA
Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision tree
dari data tersebut, maka data tersebut harus disimpan dalam format flat, ARFF
karena WEKA perlu mengetahui beberapa informasi tentang tiap atribut yang
tidak dapat disimpulkan secara otomatis dari nilai-nilainya.
File ARFF (Attribute-Relation File Format) adalah sebuah file teks ASCII yang
berisi daftar instances dalam sekumpulan atribut. File ARFF dikembangkan
oleh Machine Learning Project di Department of Computer Science of The
University of Waikato untuk digunakan dalam perangkat lunak WEKA.
Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data awal
dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft Excel
dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari Microsoft Word,
notepad, atau editor teks lainnya dan data sudah berubah dalam format commaseparated. Lalu sesuaikan data tersebut dengan menambahkan informasi awal.
Hasilnya, data tersebut sudah dapat digunakan sebagai inputan dalam WEKA.
Pastikan bahwa data dalam format .arff tersebut sudah memenuhi: Data
dipisahkan dengan koma, dengan kelas sebagai atribut terakhir. Bagian header
diawali dengan @RELATION.
Tiap
atribut
ditandai
dengan
@ATTRIBUTE.
Tipe-tipe
data
dalam
WEKA: numerik(REAL atau INTEGER), nominal, String, dan Date. Bagian
data diawali dengan @DATA
5
7. IV.
Tugas
1. Ubahlah
dataset
berikut
ini
ke
dalam
format
.ARFF
sehingga
dapat
digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama
contact_lenses.arff dan berikan komentar per baris!
Index
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Age
young
young
young
young
young
young
young
young
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
Spectacleprescrip
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
Astigmatism
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
Tear-prodrate
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
Contactlenses
None
Soft
None
Hard
None
Soft
None
Hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None
7