際際滷

際際滷Share a Scribd company logo
Mengenal RapidMiner Bowo Prasetyo
http://www.scribd.com/prazjp
http://www.slideshare.net/bowoprasetyo   Tool Open Source untuk Data Mining Rabu, 2 Agustus 2011
RapidMiner Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics.
Machine learning Algoritma di mana perilaku komputer ber-evolusi berdasarkan data empiris, seperti sensor atau database. Data mining Proses mengekstrak pola-pola dari data set yang besar dengan mengombinasikan metoda statistika, kecerdasan buatan dan database.
RapidMiner Text mining Mirip dengan text analytics, yaitu proses untuk mendapatkan informasi bermutu tinggi dari teks. Predictive analytics Teknik-teknik statistika yang menganalisa fakta masa kini dan masa lalu untuk memprediksi kejadian di masa depan.
RapidMiner Open source berlisensi AGPL (GNU Affero General Public License) versi 3.
Dimulai pada 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund.
Di-host oleh SourceForge sejak 2004.
Peringkat satu sebagai tool data mining untuk proyek nyata pada poll oleh KDnuggets, sebuah koran data-mining, pada 2010-2011.
RapidMiner Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi.
Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI.
Ditulis dalam bahasa pemrograman Java.
Mengintegrasikan proyek data mining Weka dan statistika R.
Instalasi Sistem Microsoft Windows Download file installer rapidminer-XXX-install.exe di  http://rapid-i.com/content/view/26/84/ .
Double-click file installer dan ikuti instruksinya. Sistem lain Install Java versi 1.5 atau lebih.
Download dan ekstrak arsip zip Java binary.
Definisikan RAPIDMINER_HOME.
Run dengan scripts/RapidMinerGUI.
Terminologi Dasar Atribut dan atribut target Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi. ID, atribut biasa. Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining. Label, cluster, weight. Peran atribut (attribute role) Label, cluster, weight, ID, biasa
Terminologi Dasar Tipe nilai (value type) nominal: nilai secara kategori
numeric: nilai numerik secara umum
integer: bilangan bulat
real: bilangan nyata
text: teks bebas tanpa struktur
binominal: nominal dua nilai
polynominal: nominal lebih dari dua nilai
date_time: tanggal dan waktu
date: hanya tanggal
time: hanya waktu
Terminologi Dasar Data dan metadata Data menyebutkan obyek-obyek dari sebuah konsep. Ditunjukkan sebagai baris dari tabel. Metadata menggambarkan karakteristik dari konsep tersebut. Ditunjukkan sebagai kolom dari tabel. Modelling Penggunaan metoda data mining terhadap data.
Hasilnya disebut model.
Desain Proses Analisa Fleksibilitas dan fungsionalitas Sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan GUI.
Meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operator-operator. Skalabilitas Mulai versi 4.6 ~ .. fokus utama pada skalabilitas untuk data ukuran besar.
Konsep  view  untuk data mirip seperti database.
Transformasi data  on-the-fly  tanpa  copy .
100 juta data set bukanlah data yang besar.
Desain Proses Analisa Format data Terhubung sangat baik dengan berbagai sumber data: Oracle, IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan berbagai format lain.
Bersama-sama dengan operator-operator untuk data preprocessing, bisa digunakan juga sebagai tool ETL (extraction, transformation, loading) dengan hasil yang menakjubkan.
Repositori Pertama Menjalankan RapidMiner untuk pertama kali, akan menanyakan pembuatan repositori baru. Repositori ini berfungsi sebagai lokasi penyimpanan terpusat untuk data dan proses analisa kita.
Perspektif dan View Sebuah  perspektif  berisi pilihan elemen-elemen GUI, yang disebut  view , yang dapat dikonfigurasi secara bebas. Elemen-elemen ini dapat diatur bagaimanapun juga sesuka kita. Tiga perspektif: Perspektif selamat datang (welcome perspective).
Perspektif desain (design perspective).
Perspektif hasil (result perspective).
Perspektif dan View
Perspektif Desain Perspektif pusat di mana semua proses analisa dibuat dan dimanage.
Pindah ke perspektif desain dengan: Klik tombol paling kiri.
Atau gunakan menu View -> Perspectives -> Design. View: Operators, Repositories, Process, Parameters, Help, Comment, Overview, Problems, Log
Perspektif Desain
View Operator Semua tahapan kerja (operator) ditampilkan di sini secara berkelompok, dan bisa diikutsertakan di dalam proses analisa.
View Operator Process control Untuk mengontrol aliran proses, seperti  loop  atau  conditional branch . Utility Untuk mengelompokkan  subprocess , juga  macro  dan  logger . Repository Access Untuk membaca dan menulis repositori.
View Operator Import Untuk membaca data dari berbagai format eksternal. Export Untuk menulis data ke berbagai format eksternal. Data Transformation Untuk transformasi data dan metadata.

More Related Content

Mengenal Rapidminer