際際滷

際際滷Share a Scribd company logo
Pengantar : Data Mining
Pertemuan 1 & 2
Latar Belakang
Mengapa Harus Data Mining?
Mengapa Data Mining :
Banjir Data
 Twitter: 8000an tweet per detik  600 juta tweet
per hari.
 Facebook: 30 milyar item (link, status, note, foto dst)
per bulan. 500 juta user menghabiskan 700 milyar
menit per bulan di situs FB.
 Indomaret: 4500an gerai, asumsikan 3 transaksi per
menit = 12 juta transaksi per hari se Indonesia.
 Kartu kredit visa: berlaku di 200 negara. 10 ribu
transaksi per detik  850 juta transaksi per hari.
Mengapa data mining?
 Digitalisasi, kemajuan sistem informasi 
data, data, data (Tera  Peta)
 Web  berita, blog, twitter, forum, flickr, fb,
youtube
 Streaming data  twitter, f4, sensor (satelit)
Evolusi DB
 60-an: koleksi data (file system primitif)
 70-80: MIS (Sistem Informasi Management)
 80-sekarang: OO, Deductive, Spatial, Multimedia
 90-sekarang: Web based (XML, web mining),
Datawarehouse, OLAP, Text Database, Text + Data
mining
 05-sekarang: Stream data management and mining,
Cloud, Web
Definisi Data dan Data Mining
Data Mining
 Data Mining adalah kegiatan untuk menemukan
informasi atau pengetahuan yang berguna secara
otomatis dari data yang jumlahnya besar.
 Data Mining merupakan salah satu proses dari
keseluruhan proses yang ada pada Knowledge
Discovery in Databases (KDD).
Data Mining dan KDD
 Knowledge Discovery in Databases (KDD) merupakan
sekumpulan proses untuk menemukan pengetahuan yang
bermanfaat dari data.
 Kumpulan proses dalam KDD meliputi : pembersihan data
(data cleaning), integrasi data (data integration), pemilihan
data (data selection), transformasi data (data
transformation), penambangan data (data mining), evaluasi
pola (pattern evaluation), dan presentasi pengetahuan
(knowledge presentation).
Data Mining dan KDD
 Berdasarkan definisi ini terlihat bahwa data mining
hanya merupakan salah satu proses dari keseluruhan
proses yang ada pada KDD, tetapi merupakan proses
yang sangat penting dalam menemukan pola-pola
yang berguna dari sejumlah data yang besar (data
tersebut bisa disimpan dalam basisdata, Data
Warehouse, atau media penyimpanan informasi
lainnya).
Pengantar Materi Data Mining di Era Digital.ppt
KDD vs Data Mining
 Menurut Cabena, Data Mining = Knowledge
Discovery in Database (KDD).
 Menurut Jiawei Han, Data Mining merupakan Subset
atau salah satu tahap dari KDD saja. Sehingga,
batasan ini yang selanjutkan digunakan.
 Data Mining bertujuan mengekplorasi basis data
untuk menemukan pola-pola pengetahuan yang
tersembunyi di dalam data tersebut.
Pengertian yang Salah
Tahapan Ekstraksi Pengetahuan
Manfaat Data Mining
 Pemanfaatan data mining dilihat dari dua sudut pandang, yaitu
sudut pandang komersial dan sudut pandang keilmuan.
 Dari sudut pandang komersial, menghasilkan informasi-informasi
yang dibutuhkan yang merupakan asset yang dapat meningkatkan
daya saing suatu institusi:
 Bagamana mengetahui hilangnya pelanggan karena pesaing
 Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
 Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain
 Bagaimana memprediksi tingkat penjualan
 Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi
suatu item
 Bagaimana mempresiksi perilaku bisnis dimasa yang akan dating
Manfaat Data Mining
 Dari sudut pandang keilmuan, data mining dapat
digunakan untuk mengcapture, menganalisis serta
menyimpan data yang bersifat real time dan sangat
besar:
 Remote sensor yang ditempatkan pada suatu satelit
 Telescope yang digunakan untuk memindai langit
Contoh:
Midwest grocery chain menggunakan DM untuk
menganalisisi pola pembelian: saat pria membeli
popok di hari Kamis dan Sabtu, mereka juga membeli
minuman.
Analisis lebih lanjut: pembeli ini belanja di hari kamis
dan sabtu, tapi di hari kamis jumlah item lebih sedikit.
Kesimpulan yang diambil: pembeli membeli minuman
untuk dihabiskan saat weekend.
Tindak lanjut: menjual minuman dengan harga full di
hari Kamis dan Sabtu. Mendekatkan posisi popok dan
minuman.
Contoh Aplikasi
Perusahaan transportasi memining
data customer untuk mengelompokan
customer yang memiliki nilai tinggi
yang perlu diprioritaskan.
Ilmu Data Mining
Data Mining dan Business Intelligence
Semakin mendukung
pengambilan keputusan
End User
Business
Analyst
Data
Analyst
DBA
Pengambil
an
Keputusan
Presentasi Data
Teknik Visualiasi
Data Mining
Penemuan Informasi
Eksplorasi Data
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integrasi, Data Warehouses
Sumber Data
Database, Web, Paper, Files, Web, eksperimen
Diambil dari www.cs.uiuc.edu/~hanj
Mengapa tidak analisis data biasa?
 Jumlah data yang sangat besar
 Algoritma harus scalable untuk menangani data yang sangat
besar (tera)
 Dimensi yang sangat besar: ribuan field
 Data Kompleks
 Aliran data dan sensor
 Data terstruktur, graph, social networdk, multi-linked data
 Database dari berbagai sumber, database lama
 Spasial (peta), multimedia, text, web
 Software Simulator
Fungsi-Fungsi dalam Data Mining (Haskett, 2000)
 Assosiation, adalah proses untuk menemukan aturan
assosiatif antara suatu kombinasi item dalam suatu waktu
 Clustering, adalah proses pengelompokan seumlah
data/obyek ke dalam kelompok data sehingga setiap
kelompok berisi data yang mirip.
 Classification, proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data,
dengan tujuan untuk dapat memperkirakan kelas dari suatu
objek yang labelnya tidak diketahui.
 Forecasting, adalah proses pengestimasian nilai prediksi
berdasarkan pola-pola di dalam sekumpulan data.
Classification Data Mining
...
...
...
...
Teknik / Metode Classification
Association Data Mining
...
...
Teknik / Metode Association
 Algoritma Apriori
 Algoritma Hash Based
 Algoritma Generalized Rule Induction
 Fuzzy C-Covering
Clustering
...
Teknik / Metode Clustering
 Algoritma K-Means
 Algoritma Fuzzy C Means
TAHAPAN KNOWLEDGE DISCOVERY IN
DATABASE
Menurut Peter Cabena, Tahapan  tahapan dalam KDD
adalah sebagai berikut :
 Penentuan Sasaran Bisnis (Business Objective
Determination)
 Persiapan Data (Preparation Data)
 Data Selection
 Data Preprocessing
 Data Transformation
 Data Mining
 Anaysis of Result
 Assimilation of Knowledge
Business Objective Determination - 1
 Merupakan sebuah tahapan yang mendefinisikan permasalahan
atau tantangan bisnis dengan jelas. Hal ini merupakan aspek
yang sangat esensial dalam setiap proyek data mining.
 Contoh Sasaran Bisnis :
Mengembangkan suatu strategi marketing untuk
mempertahankan loyalitas customer di Jawa Tengah dan Jawa
Timur untuk produk soft drink dengan brand dan ukuran
tertentu (200ml dalam kotak alumunium) selama bulan April,
Mei , Juni yang akan datang. Perusahaan akan menggunakan
kombinasi dari berbagai strategi marketing (mixed marketing),
yang salah satunya adalah direct mail campaign kepada
customer yang tampaknya "mudah rusak" loyalitasnya.
Business Objective Determination - 2
 Sehingga dampak keseluruhan KDD adalah :
  Data Selection: dipilih customers yang membeli produk soft
drink 200 ml dalam kotak alumunium di Jawa Tengah dan
Jawa Timur.
  Data Transformation: customers yang membeli produk soft
drink 200 ml dalam kotak alumunium disorting dalam 10
kategori, yang masing-masing membedakan tingkat
loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ..... ,
81-90%, 91-100% sepanjang waktu pembeliannya.
Selanjutnya data inilah yang akan dibawa ke tahap data
mining.
Persiapan Data (Preparation Data) -1
 Merupakan tahapan untuk mempersiapkan data yang
diperlukan untuk proses data mining. Tujuannya adalah agar
data yang digunakan benar-benar sesuai dengan
permasalahan yang akan dipecahkan, dapat dijamin
kebenarannya, dan dalam format yang sesuai/tepat.
 Tahap yang paling banyak mengkonsumsi resources (manusia,
biaya, waktu) yang tersedia. Biasanya mencapai 60%
keseluruhan proyek KDD.
Persiapan Data (Preparation Data) -2
 Data Selection
 Mengidentifikasi semua sumber informasi internal dan
eksternal dan memilih sebagian saja dari data yang
diperlukan untuk aplikasi data mining.
 Data Preprocessing
 Meyakinkan kualitas data yang telah dipilih pada tahapan
sebelumnya. 2 issue yang sering dihadapkan pada tahapan
ini adalah Noisy Data dan Missing Value.
 Data Transformation
 Mengubah data ke dalam model analitis serta
memodelkan data agar sesuai dengan analisa yang
diharapkan dan format data yang diperlukan oleh
algoritma data mining.
Data Mining - 1
 Melakukan proses pencarian pengetahuan terhadap
data yang ditransformasikan pada tahap sebelumnya.
 Contoh Pengetahuan berbentuk Association Rule untuk
kasus "Soft Drink:
 IF soft drink sejenis dengan ukuran yang lebih besar
(bukan botol kecil) dibeli lebih dari 58% dalam sejarah
pembelian soft drink seorang consumer
 THEN consumer tersebut diprediksi Loyal.
 Pemilihan tugas data mining : pemilihan goal dari
proses KDD misalnya klasifikasi, regresi, clustering, dll.
Data Mining - 2
 Proses Data mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang
tepat sangat bergantung pada tujuan dan proses
KDD secara keseluruhan.
Analysis of Result
 Menginterpretasikan dan mengevaluasi output dari
tahap mining: patterns.
 Pendekatan analisa yang digunakan akan bervariasi
menurut operasi data mining yang digunakan, tetapi
biasanya akan melibatkan teknik visualisasi.
Assimilation of Knowledge
 Menggunakan hasil mining yang telah dievaluasi ke
dalam perilaku organisasi dan sistem informasi
perusahaan.
DATA MINING dan PROSES KDD - 1
DATA MINING dan PROSES KDD - 2
 Pembersihan data (Data Cleaning)
 Digunakan untuk membuang data yang tidak
konsisten dan noise.
 Intergrasi Data (Data Integration)
 Data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga
berasal dari beberapa database atau file teks.
Hasil integrasi data sering diwujudkan dalam
sebuah data warehouse.
DATA MINING dan PROSES KDD - 2
 Transformasi data
 Transformasi dan pemilihan data ini untuk
menentukan kualitas dari hasil data mining,
sehingga data diubah menjadi bentuk sesuai
untuk di-Mining.
 Aplikasi Teknik Data Mining
 Aplikasi teknik data mining sendiri hanya
merupakan salah satu bagian dari proses data
mining. Ada beberapa teknik data mining yang
sudah umum dipakai.
DATA MINING dan PROSES KDD - 2
 Evaluasi pola yang ditemukan
 Dalam tahap ini hasil dari teknik data mining berupa
pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai.
 Presentasi Pengetahuan
 Presentasi pola yang ditemukan untuk menghasilkan
aksi tahap terakhir dari proses data mining adalah
bagaimana memformulasikan keputusan atau aksi
dari hasil analisa yang didapat.
Tugas Akhir
 Output: Aplikasi dan Laporan
 Rancanganlah data warehouse berdasarkan
data yang telah didapatkan.
 Lakukan proses representasi data dari data
warehouse tersebut.
 Representasi data bisa dalam bentuk aplikasi
OLAP atau data mining (tentukan sesuai
datanya).
Tugas Akhir
 Aplikasi bisa dibuat sendiri maupun
menggunakan tools yang ada, misalnya:
RapidMiner, Matlab, Weka, dll.
Tugas Akhir
 Laporan berisi:
 Judul
 Abstrak : masalah, cara penyelesaian & hasil.
 Pendahuluan : menjelaskan data yang dipakai dan
tujuan.
 Perancangan : data warehouse & aplikasi.
 Pembahasan : proses ETL dan hasil aplikasi
 Kesimpulan
Terima Kasih

More Related Content

Similar to Pengantar Materi Data Mining di Era Digital.ppt (20)

Pertemuan 1 Pengantar DW
Pertemuan 1 Pengantar DWPertemuan 1 Pengantar DW
Pertemuan 1 Pengantar DW
Endang Retnoningsih
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
muhammadarsyad77
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data mining
Lye Lazar
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
SuraClips
pertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.pptpertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.ppt
FIRDIANSYAHADIA
MIK4237-02.pdf
MIK4237-02.pdfMIK4237-02.pdf
MIK4237-02.pdf
WahyuWiguna6
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
Andri946883
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
ArianDerida
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptxKuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
RidwanTI
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdf
Dedek28
P1 Big Data - Pengantar Big Data dan Analisis Big Data
P1 Big Data -  Pengantar Big Data dan Analisis Big DataP1 Big Data -  Pengantar Big Data dan Analisis Big Data
P1 Big Data - Pengantar Big Data dan Analisis Big Data
imammis
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
Pertemuan 01 Big Data -  Pengantar-Big-Data.pdfPertemuan 01 Big Data -  Pengantar-Big-Data.pdf
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
imammis
Sejarah perkembangan basis data
Sejarah perkembangan basis dataSejarah perkembangan basis data
Sejarah perkembangan basis data
Dayu Ratna
pengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxpengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptx
baktilast1
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
BatakMusikGroup
Pengantar Big Data dan Data Mining.pptx
Pengantar Big Data dan Data Mining.pptxPengantar Big Data dan Data Mining.pptx
Pengantar Big Data dan Data Mining.pptx
RudiCelebes2
Data Mining Intro Universitas Muhammadiyah Jakarta
Data Mining Intro Universitas Muhammadiyah JakartaData Mining Intro Universitas Muhammadiyah Jakarta
Data Mining Intro Universitas Muhammadiyah Jakarta
Nurul Amri
15015 2 konsep dasar data mining
15015 2 konsep dasar data mining15015 2 konsep dasar data mining
15015 2 konsep dasar data mining
Universitas Bina Darma Palembang
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
Universitas Bina Darma Palembang
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
HehePangibulan2
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
muhammadarsyad77
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data mining
Lye Lazar
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
SuraClips
pertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.pptpertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.ppt
FIRDIANSYAHADIA
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
Andri946883
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
ArianDerida
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptxKuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
RidwanTI
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdf
Dedek28
P1 Big Data - Pengantar Big Data dan Analisis Big Data
P1 Big Data -  Pengantar Big Data dan Analisis Big DataP1 Big Data -  Pengantar Big Data dan Analisis Big Data
P1 Big Data - Pengantar Big Data dan Analisis Big Data
imammis
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
Pertemuan 01 Big Data -  Pengantar-Big-Data.pdfPertemuan 01 Big Data -  Pengantar-Big-Data.pdf
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
imammis
Sejarah perkembangan basis data
Sejarah perkembangan basis dataSejarah perkembangan basis data
Sejarah perkembangan basis data
Dayu Ratna
pengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxpengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptx
baktilast1
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
BatakMusikGroup
Pengantar Big Data dan Data Mining.pptx
Pengantar Big Data dan Data Mining.pptxPengantar Big Data dan Data Mining.pptx
Pengantar Big Data dan Data Mining.pptx
RudiCelebes2
Data Mining Intro Universitas Muhammadiyah Jakarta
Data Mining Intro Universitas Muhammadiyah JakartaData Mining Intro Universitas Muhammadiyah Jakarta
Data Mining Intro Universitas Muhammadiyah Jakarta
Nurul Amri

Pengantar Materi Data Mining di Era Digital.ppt

  • 1. Pengantar : Data Mining Pertemuan 1 & 2
  • 4. Mengapa Data Mining : Banjir Data Twitter: 8000an tweet per detik 600 juta tweet per hari. Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 500 juta user menghabiskan 700 milyar menit per bulan di situs FB. Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 juta transaksi per hari se Indonesia. Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik 850 juta transaksi per hari.
  • 5. Mengapa data mining? Digitalisasi, kemajuan sistem informasi data, data, data (Tera Peta) Web berita, blog, twitter, forum, flickr, fb, youtube Streaming data twitter, f4, sensor (satelit)
  • 6. Evolusi DB 60-an: koleksi data (file system primitif) 70-80: MIS (Sistem Informasi Management) 80-sekarang: OO, Deductive, Spatial, Multimedia 90-sekarang: Web based (XML, web mining), Datawarehouse, OLAP, Text Database, Text + Data mining 05-sekarang: Stream data management and mining, Cloud, Web
  • 7. Definisi Data dan Data Mining
  • 8. Data Mining Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD).
  • 9. Data Mining dan KDD Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation).
  • 10. Data Mining dan KDD Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, Data Warehouse, atau media penyimpanan informasi lainnya).
  • 12. KDD vs Data Mining Menurut Cabena, Data Mining = Knowledge Discovery in Database (KDD). Menurut Jiawei Han, Data Mining merupakan Subset atau salah satu tahap dari KDD saja. Sehingga, batasan ini yang selanjutkan digunakan. Data Mining bertujuan mengekplorasi basis data untuk menemukan pola-pola pengetahuan yang tersembunyi di dalam data tersebut.
  • 15. Manfaat Data Mining Pemanfaatan data mining dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, menghasilkan informasi-informasi yang dibutuhkan yang merupakan asset yang dapat meningkatkan daya saing suatu institusi: Bagamana mengetahui hilangnya pelanggan karena pesaing Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain Bagaimana memprediksi tingkat penjualan Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item Bagaimana mempresiksi perilaku bisnis dimasa yang akan dating
  • 16. Manfaat Data Mining Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganalisis serta menyimpan data yang bersifat real time dan sangat besar: Remote sensor yang ditempatkan pada suatu satelit Telescope yang digunakan untuk memindai langit
  • 17. Contoh: Midwest grocery chain menggunakan DM untuk menganalisisi pola pembelian: saat pria membeli popok di hari Kamis dan Sabtu, mereka juga membeli minuman. Analisis lebih lanjut: pembeli ini belanja di hari kamis dan sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan yang diambil: pembeli membeli minuman untuk dihabiskan saat weekend. Tindak lanjut: menjual minuman dengan harga full di hari Kamis dan Sabtu. Mendekatkan posisi popok dan minuman.
  • 18. Contoh Aplikasi Perusahaan transportasi memining data customer untuk mengelompokan customer yang memiliki nilai tinggi yang perlu diprioritaskan.
  • 20. Data Mining dan Business Intelligence Semakin mendukung pengambilan keputusan End User Business Analyst Data Analyst DBA Pengambil an Keputusan Presentasi Data Teknik Visualiasi Data Mining Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses Sumber Data Database, Web, Paper, Files, Web, eksperimen Diambil dari www.cs.uiuc.edu/~hanj
  • 21. Mengapa tidak analisis data biasa? Jumlah data yang sangat besar Algoritma harus scalable untuk menangani data yang sangat besar (tera) Dimensi yang sangat besar: ribuan field Data Kompleks Aliran data dan sensor Data terstruktur, graph, social networdk, multi-linked data Database dari berbagai sumber, database lama Spasial (peta), multimedia, text, web Software Simulator
  • 22. Fungsi-Fungsi dalam Data Mining (Haskett, 2000) Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu Clustering, adalah proses pengelompokan seumlah data/obyek ke dalam kelompok data sehingga setiap kelompok berisi data yang mirip. Classification, proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data.
  • 24. ...
  • 25. ...
  • 26. ...
  • 27. ...
  • 28. Teknik / Metode Classification
  • 30. ...
  • 31. ...
  • 32. Teknik / Metode Association Algoritma Apriori Algoritma Hash Based Algoritma Generalized Rule Induction Fuzzy C-Covering
  • 34. ...
  • 35. Teknik / Metode Clustering Algoritma K-Means Algoritma Fuzzy C Means
  • 36. TAHAPAN KNOWLEDGE DISCOVERY IN DATABASE Menurut Peter Cabena, Tahapan tahapan dalam KDD adalah sebagai berikut : Penentuan Sasaran Bisnis (Business Objective Determination) Persiapan Data (Preparation Data) Data Selection Data Preprocessing Data Transformation Data Mining Anaysis of Result Assimilation of Knowledge
  • 37. Business Objective Determination - 1 Merupakan sebuah tahapan yang mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. Contoh Sasaran Bisnis : Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan April, Mei , Juni yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.
  • 38. Business Objective Determination - 2 Sehingga dampak keseluruhan KDD adalah : Data Selection: dipilih customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur. Data Transformation: customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining.
  • 39. Persiapan Data (Preparation Data) -1 Merupakan tahapan untuk mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya adalah agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat. Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD.
  • 40. Persiapan Data (Preparation Data) -2 Data Selection Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining. Data Preprocessing Meyakinkan kualitas data yang telah dipilih pada tahapan sebelumnya. 2 issue yang sering dihadapkan pada tahapan ini adalah Noisy Data dan Missing Value. Data Transformation Mengubah data ke dalam model analitis serta memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining.
  • 41. Data Mining - 1 Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya. Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink: IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli lebih dari 58% dalam sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal. Pemilihan tugas data mining : pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll.
  • 42. Data Mining - 2 Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
  • 43. Analysis of Result Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi.
  • 44. Assimilation of Knowledge Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan.
  • 45. DATA MINING dan PROSES KDD - 1
  • 46. DATA MINING dan PROSES KDD - 2 Pembersihan data (Data Cleaning) Digunakan untuk membuang data yang tidak konsisten dan noise. Intergrasi Data (Data Integration) Data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse.
  • 47. DATA MINING dan PROSES KDD - 2 Transformasi data Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining. Aplikasi Teknik Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai.
  • 48. DATA MINING dan PROSES KDD - 2 Evaluasi pola yang ditemukan Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Presentasi Pengetahuan Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat.
  • 49. Tugas Akhir Output: Aplikasi dan Laporan Rancanganlah data warehouse berdasarkan data yang telah didapatkan. Lakukan proses representasi data dari data warehouse tersebut. Representasi data bisa dalam bentuk aplikasi OLAP atau data mining (tentukan sesuai datanya).
  • 50. Tugas Akhir Aplikasi bisa dibuat sendiri maupun menggunakan tools yang ada, misalnya: RapidMiner, Matlab, Weka, dll.
  • 51. Tugas Akhir Laporan berisi: Judul Abstrak : masalah, cara penyelesaian & hasil. Pendahuluan : menjelaskan data yang dipakai dan tujuan. Perancangan : data warehouse & aplikasi. Pembahasan : proses ETL dan hasil aplikasi Kesimpulan