際際滷

際際滷Share a Scribd company logo
Bab 1
Pendahuluan WEKA
I.

Tugas Pendahuluan
1. Jelaskan yang dimaksud dengan Data mining!
2. Sebutkan 5 aplikasi yang memanfaatkan teknik data mining!

II.

Tujuan Praktikum
1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas
dalam data mining.
2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data
mining, terutama untuk menyelesaikan masalah klasifikasi.
3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan
pada perangkat lunak WEKA.

III.

Dasar Teori
Data mining adalah sebuah bidang ilmu yang berupaya menemukan
pola, kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui
sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi
oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali
sebuah organisasi atau kelompok kerja tertentu banyak melakukan kegiatan
pengumpulan data, administrasi

maupun

perhitungan-perhitungan

yang

menghasilkan data dalam jumlah besar.
Berbagai tools komersial maupun non-komersial beredar dan digunakan
untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu
diantaranya yang menarik dan akan dibicarakan dalam modul ini adalah
WEKA, yang merupakan alat bantu data mining, terutama dalam penerapannya
untuk menyelesaikan masalah klasifikasi.

1
Sejarah WEKA
WEKA adalah sebuah paket tools machine learning praktis. WEKA
merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang
dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan
berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining
di dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan
machine learning. Perangkat lunak ini ditulis dalam hirarki class Java
dengan metode berorientasi objek dan dapat berjalan hampir di semua platform.
WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang
berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-theart yang dapat diterapkan pada dataset dari command line. WEKA mengandung
tools untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi,
dan visualisasi. User dapat melakukan preprocess pada data, memasukkannya
dalam sebuah skema pembelajaran, dan menganalisa classifier yang dihasilkan
dan performansinya  semua itu tanpa menulis kode program sama sekali.
Contoh penggunaan WEKA adalah dengan menerapkan sebuah metode
pembelajaran ke dataset dan menganalisa hasilnya untuk memperoleh informasi
tentang data, atau menerapkan beberapa metode dan membandingkan
performansinya untuk dipilih.
Tools yang dapat digunakan untuk pre-processing dataset membuat user dapat
berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan detail
seperti pembacaan data dari file-file, implementasi algoritma filtering, dan
penyediaan kode untuk evaluasi hasil.
GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan
menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan visualisasi
yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi, clustering,
pemilihan atribut, dan visualisasi dapat dilakukan dengan mudah dan
menyenangkan di sini.

2
Gambar1. WEKA explorer

GUI Experimenter memudahkan perbandingan performansi skema-skema
pembelajaran yang berbeda. Experimenter biasanya digunakan untuk klasifikasi
dan regresi. Hasil dari perbandingan performansi dapat dituliskan dalam file
atau basis data. Pilihan evaluasi yang tersedia dalam WEKA adalah crossvalidation, learning curve, hold-out. User juga dapat melakukan iterasi menurut
beberapa setting parameter yang berbeda.

Gambar 2. WEKA Experiment

Tab Setup yang muncul saat user membuka Experimenter memungkinkan user
memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah menyimpan
definisi eksperimen yang dilakukan, user dapat memulai eksperimen dari tab
3
Run dan meng-klik tombol Start. Area di bawahnya akan menunjukkan proses
yang sedang dilakukan. Hasilnya disimpan dalam format CSV dan dapat
dibuka dalam bentuk spreadsheet.
Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen yang
dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel Source.
Hasilnya dapat di-load dalam format .ARFF maupun dari basis data.
Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen
sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah dataset,
atau teknik yang sama dengan parameter-parameter yang berbeda.
GUI

Knowledge

Flow

merupakan

GUI

baru

dalam

WEKA

yang

merupakan antarmuka Java-Beans-based untuk melakukan setting dan
menjalankan percobaan-percobaan machine learning.

Gambar 3. WEKA Knowledge Flow

KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah front
end grafis untuk algoritma-algoritma inti WEKA. Karena masih dalam
pengembangan, beberapa fungsionalitas dalam Explorer belum tersedia dalam
KnowledgeFlow.
KnowledgeFlow menampilkan aliran data dalam WEKA. User dapat memilih
komponen-komponen WEKA dari toolbar, meletakkannya pada area yang
tersedia dan menghubungkannya untuk membentuk aliran pengetahuan
4
pemrosesan dan analisa data.
KnowledgeFlow dapat menangani data secara incremental maupun dalam
batches (Explorer hanya menangani data batch). Tentunya pembelajaran dari
data secara incremental

memerlukan

sebuah

classifier

yang

dapat

diupdate instance per instance.
Format Data dalam WEKA
Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision tree
dari data tersebut, maka data tersebut harus disimpan dalam format flat, ARFF
karena WEKA perlu mengetahui beberapa informasi tentang tiap atribut yang
tidak dapat disimpulkan secara otomatis dari nilai-nilainya.
File ARFF (Attribute-Relation File Format) adalah sebuah file teks ASCII yang
berisi daftar instances dalam sekumpulan atribut. File ARFF dikembangkan
oleh Machine Learning Project di Department of Computer Science of The
University of Waikato untuk digunakan dalam perangkat lunak WEKA.
Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data awal
dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft Excel
dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari Microsoft Word,
notepad, atau editor teks lainnya dan data sudah berubah dalam format commaseparated. Lalu sesuaikan data tersebut dengan menambahkan informasi awal.
Hasilnya, data tersebut sudah dapat digunakan sebagai inputan dalam WEKA.
Pastikan bahwa data dalam format .arff tersebut sudah memenuhi: Data
dipisahkan dengan koma, dengan kelas sebagai atribut terakhir. Bagian header
diawali dengan @RELATION.
Tiap

atribut

ditandai

dengan

@ATTRIBUTE.

Tipe-tipe

data

dalam

WEKA: numerik(REAL atau INTEGER), nominal, String, dan Date. Bagian
data diawali dengan @DATA

5
Gambar 2a. Format .arff

Gambar 2b. Format .csv

6
IV.

Tugas
1. Ubahlah

dataset

berikut

ini

ke

dalam

format

.ARFF

sehingga

dapat

digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama
contact_lenses.arff dan berikan komentar per baris!

Index
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

Age
young
young
young
young
young
young
young
young
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic

Spectacleprescrip
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope

Astigmatism
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes

Tear-prodrate
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal

Contactlenses
None
Soft
None
Hard
None
Soft
None
Hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None

7

More Related Content

Bab 1 pendahuluan weka

  • 1. Bab 1 Pendahuluan WEKA I. Tugas Pendahuluan 1. Jelaskan yang dimaksud dengan Data mining! 2. Sebutkan 5 aplikasi yang memanfaatkan teknik data mining! II. Tujuan Praktikum 1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas dalam data mining. 2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data mining, terutama untuk menyelesaikan masalah klasifikasi. 3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan pada perangkat lunak WEKA. III. Dasar Teori Data mining adalah sebuah bidang ilmu yang berupaya menemukan pola, kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali sebuah organisasi atau kelompok kerja tertentu banyak melakukan kegiatan pengumpulan data, administrasi maupun perhitungan-perhitungan yang menghasilkan data dalam jumlah besar. Berbagai tools komersial maupun non-komersial beredar dan digunakan untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu diantaranya yang menarik dan akan dibicarakan dalam modul ini adalah WEKA, yang merupakan alat bantu data mining, terutama dalam penerapannya untuk menyelesaikan masalah klasifikasi. 1
  • 2. Sejarah WEKA WEKA adalah sebuah paket tools machine learning praktis. WEKA merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining di dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan machine learning. Perangkat lunak ini ditulis dalam hirarki class Java dengan metode berorientasi objek dan dapat berjalan hampir di semua platform. WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-theart yang dapat diterapkan pada dataset dari command line. WEKA mengandung tools untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. User dapat melakukan preprocess pada data, memasukkannya dalam sebuah skema pembelajaran, dan menganalisa classifier yang dihasilkan dan performansinya semua itu tanpa menulis kode program sama sekali. Contoh penggunaan WEKA adalah dengan menerapkan sebuah metode pembelajaran ke dataset dan menganalisa hasilnya untuk memperoleh informasi tentang data, atau menerapkan beberapa metode dan membandingkan performansinya untuk dipilih. Tools yang dapat digunakan untuk pre-processing dataset membuat user dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan detail seperti pembacaan data dari file-file, implementasi algoritma filtering, dan penyediaan kode untuk evaluasi hasil. GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan visualisasi yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi, clustering, pemilihan atribut, dan visualisasi dapat dilakukan dengan mudah dan menyenangkan di sini. 2
  • 3. Gambar1. WEKA explorer GUI Experimenter memudahkan perbandingan performansi skema-skema pembelajaran yang berbeda. Experimenter biasanya digunakan untuk klasifikasi dan regresi. Hasil dari perbandingan performansi dapat dituliskan dalam file atau basis data. Pilihan evaluasi yang tersedia dalam WEKA adalah crossvalidation, learning curve, hold-out. User juga dapat melakukan iterasi menurut beberapa setting parameter yang berbeda. Gambar 2. WEKA Experiment Tab Setup yang muncul saat user membuka Experimenter memungkinkan user memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah menyimpan definisi eksperimen yang dilakukan, user dapat memulai eksperimen dari tab 3
  • 4. Run dan meng-klik tombol Start. Area di bawahnya akan menunjukkan proses yang sedang dilakukan. Hasilnya disimpan dalam format CSV dan dapat dibuka dalam bentuk spreadsheet. Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen yang dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel Source. Hasilnya dapat di-load dalam format .ARFF maupun dari basis data. Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah dataset, atau teknik yang sama dengan parameter-parameter yang berbeda. GUI Knowledge Flow merupakan GUI baru dalam WEKA yang merupakan antarmuka Java-Beans-based untuk melakukan setting dan menjalankan percobaan-percobaan machine learning. Gambar 3. WEKA Knowledge Flow KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah front end grafis untuk algoritma-algoritma inti WEKA. Karena masih dalam pengembangan, beberapa fungsionalitas dalam Explorer belum tersedia dalam KnowledgeFlow. KnowledgeFlow menampilkan aliran data dalam WEKA. User dapat memilih komponen-komponen WEKA dari toolbar, meletakkannya pada area yang tersedia dan menghubungkannya untuk membentuk aliran pengetahuan 4
  • 5. pemrosesan dan analisa data. KnowledgeFlow dapat menangani data secara incremental maupun dalam batches (Explorer hanya menangani data batch). Tentunya pembelajaran dari data secara incremental memerlukan sebuah classifier yang dapat diupdate instance per instance. Format Data dalam WEKA Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision tree dari data tersebut, maka data tersebut harus disimpan dalam format flat, ARFF karena WEKA perlu mengetahui beberapa informasi tentang tiap atribut yang tidak dapat disimpulkan secara otomatis dari nilai-nilainya. File ARFF (Attribute-Relation File Format) adalah sebuah file teks ASCII yang berisi daftar instances dalam sekumpulan atribut. File ARFF dikembangkan oleh Machine Learning Project di Department of Computer Science of The University of Waikato untuk digunakan dalam perangkat lunak WEKA. Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data awal dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft Excel dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari Microsoft Word, notepad, atau editor teks lainnya dan data sudah berubah dalam format commaseparated. Lalu sesuaikan data tersebut dengan menambahkan informasi awal. Hasilnya, data tersebut sudah dapat digunakan sebagai inputan dalam WEKA. Pastikan bahwa data dalam format .arff tersebut sudah memenuhi: Data dipisahkan dengan koma, dengan kelas sebagai atribut terakhir. Bagian header diawali dengan @RELATION. Tiap atribut ditandai dengan @ATTRIBUTE. Tipe-tipe data dalam WEKA: numerik(REAL atau INTEGER), nominal, String, dan Date. Bagian data diawali dengan @DATA 5
  • 6. Gambar 2a. Format .arff Gambar 2b. Format .csv 6
  • 7. IV. Tugas 1. Ubahlah dataset berikut ini ke dalam format .ARFF sehingga dapat digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama contact_lenses.arff dan berikan komentar per baris! Index 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Age young young young young young young young young pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic Spectacleprescrip myope myope myope myope hypermetrope hypermetrope hypermetrope hypermetrope myope myope myope myope hypermetrope hypermetrope hypermetrope hypermetrope myope myope myope myope hypermetrope hypermetrope hypermetrope hypermetrope Astigmatism no no yes yes no no yes yes no no yes yes no no yes yes no no yes yes no no yes yes Tear-prodrate reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal reduced normal Contactlenses None Soft None Hard None Soft None Hard None Soft None Hard None Soft None None None None None Hard None Soft None None 7