Dokumen tersebut membahas tentang pengenalan pola, data mining, dan machine learning. Termasuk perbedaan antara supervised learning dan unsupervised learning serta contohnya. Juga dibahas mengenai klasifikasi, regresi, dan transformasi data.
Dokumen tersebut membahas tentang klasifikasi data mining, meliputi definisi klasifikasi, langkah-langkah klasifikasi, contoh task klasifikasi, teknik klasifikasi seperti decision tree dan Naive Bayes, serta parameter evaluasi model."
Data Mining digunakan untuk mengekstrak pola dan pengetahuan dari data besar yang kompleks untuk memecahkan masalah bisnis. Teknik utama Data Mining meliputi estimasi, prediksi, klasifikasi, klastering dan asosiasi. Metode pembelajaran terdiri dari pembelajaran terbimbing, tidak terbimbing dan semi terbimbing.
Data mining 5 klasifikasi decision tree dan random forestIrwansyahSaputra1
Ìý
The document discusses decision trees and random forests. It begins with an introduction to decision trees, including how they are used in everyday life to make decisions. It then covers key concepts such as entropy, information gain, and how decision trees use these concepts to build tree structures by recursively splitting nodes based on predictor variables that maximize information gain. The document provides examples to illustrate entropy, information gain, and how they are used to select the root node and build the tree structure.
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
Ìý
Dokumen tersebut membahas tentang perancangan logical dan physical dalam pembangunan data warehouse. Pembahasan meliputi konsep-konsep OLTP, DW, OLAP, dimensi, dan agregasi dalam perancangan logical serta opsi-opsi penyimpanan dan manajemen data dalam perancangan physical data warehouse.
Data mining 7 klasifikasi k nearest neighbor and pseudo k nnIrwansyahSaputra1
Ìý
This document discusses K Nearest Neighbor and Pseudo kNN algorithms. It begins with an introduction to KNN, explaining that KNN classifies new data based on the labels of the K nearest neighbors. It then provides an example using a nutrition dataset to classify a new data point as either obese or ideal. For KNN, it calculates the distances to each data point and determines the label based on the labels of the K closest points. Pseudo KNN is similar but considers the K closest points within each class separately before determining the overall label.
The document discusses data preparation and exploratory data analysis. It explains that exploratory data analysis involves exploring a dataset before using it, to understand the data source, data types, attribute names, duplicate rows, missing values, outliers, and univariate, bivariate, and multivariate analyses. This helps ensure the dataset is clean before applying data mining techniques to extract knowledge from the data. The document also provides examples of handling issues like missing values, duplicate rows, and outliers during exploratory data analysis.
Kode antara / Intermediate code merupakan hasil dari tahapan analisis, yang dibuat oleh kompilator pada saat mentranslasikan program dari bahasa tingkat tinggi
Dokumen tersebut memberikan ringkasan tentang konsep dasar UI/UX. UI/UX adalah proses membuat desain visual dari produk digital untuk memberikan pengalaman bagi penggunanya. UI berfokus pada bagian visual sedangkan UX lebih berfokus pada arsitektur informasi. Wireframe dan dasar visual seperti warna, ikon, dan font diperlukan untuk memulai proses desain UI/UX.
Latar belankang serta update perkembangan kecerdasan buatan serta membangun pengertian bagaimana komputer dapat mengemulasikan kecerdasan manusia dengan menggunakan data dan teknik pelatihan algoritma
Dokumen tersebut membahas tentang arsitektur dan infrastruktur IoT serta contoh use case IoT. Secara singkat, dibahas tentang beberapa arsitektur IoT mulai dari 3 layer, 4 layer, 5 layer, hingga 7 layer yang secara umum terdiri dari layer persepsi, jaringan, middleware, aplikasi, dan bisnis. Dokumen juga menjelaskan pengertian infrastruktur IoT dan contoh penerapannya dalam berbagai industri seperti pertanian,
The document discusses the Naive Bayes classifier. It begins with an introduction to probability and defines the formula for Naive Bayes classification. It then provides an example dataset to demonstrate how to calculate the probabilities of each attribute value belonging to each class. The example shows calculating the probabilities for attributes like major, gender, school origin, GPA, and assistant status to predict whether a student's study duration will be on time or late.
Dokumen tersebut membahas tentang arsitektur memori komputer paralel, dimulai dari konsep proses dan memori, hirarki memori, latensi memori, dan berbagai arsitektur memori paralel seperti shared memory UMA, shared memory NUMA, serta distributed memory.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dan kecil guna menemukan pola dan memprediksi dengan akurat, membantu pengambilan keputusan. Kemampuan pentingnya termasuk pemrograman, basis data, analisis dan visualisasi data, serta pemahaman masalah bisnis. Data science mencakup data mining untuk menemukan pola baru dan machine learning untuk melatih sistem agar belajar sendiri
Proses FP Growth digunakan untuk menemukan aturan asosiasi dalam sebuah database transaksi. Langkah-langkahnya meliputi generasi itemset frekuen, penambahan ID transaksi, dan pembentukan Frequent Pattern Tree (FP-Tree) dengan memetakan transaksi ke dalam pohon berdasarkan frekuensi item. FP-Growth lebih cepat dari Apriori karena hanya memerlukan satu scan database.
Dokumen tersebut membahas tentang list berkait ganda (doubly linked list) dan operasi-operasinya seperti penambahan, penghapusan, dan pencarian elemen pada list tersebut. Terdapat penjelasan mengenai konsep dasar doubly linked list, deklarasi struktur data, dan fungsi-fungsi untuk melakukan operasi penambahan di depan, belakang, dan tengah list, serta penghapusan di depan, belakang, dan tengah list. Juga dibahas tentang
Dokumen ini membahas perbedaan antara supervised learning dan unsupervised learning. Supervised learning melibatkan pelatihan model menggunakan data label, sementara unsupervised learning melakukan clustering data tanpa label. Metode supervised learning meliputi regresi dan klasifikasi, sedangkan metode unsupervised learning meliputi clustering dan SOM.
The document discusses data preparation and exploratory data analysis. It explains that exploratory data analysis involves exploring a dataset before using it, to understand the data source, data types, attribute names, duplicate rows, missing values, outliers, and univariate, bivariate, and multivariate analyses. This helps ensure the dataset is clean before applying data mining techniques to extract knowledge from the data. The document also provides examples of handling issues like missing values, duplicate rows, and outliers during exploratory data analysis.
Kode antara / Intermediate code merupakan hasil dari tahapan analisis, yang dibuat oleh kompilator pada saat mentranslasikan program dari bahasa tingkat tinggi
Dokumen tersebut memberikan ringkasan tentang konsep dasar UI/UX. UI/UX adalah proses membuat desain visual dari produk digital untuk memberikan pengalaman bagi penggunanya. UI berfokus pada bagian visual sedangkan UX lebih berfokus pada arsitektur informasi. Wireframe dan dasar visual seperti warna, ikon, dan font diperlukan untuk memulai proses desain UI/UX.
Latar belankang serta update perkembangan kecerdasan buatan serta membangun pengertian bagaimana komputer dapat mengemulasikan kecerdasan manusia dengan menggunakan data dan teknik pelatihan algoritma
Dokumen tersebut membahas tentang arsitektur dan infrastruktur IoT serta contoh use case IoT. Secara singkat, dibahas tentang beberapa arsitektur IoT mulai dari 3 layer, 4 layer, 5 layer, hingga 7 layer yang secara umum terdiri dari layer persepsi, jaringan, middleware, aplikasi, dan bisnis. Dokumen juga menjelaskan pengertian infrastruktur IoT dan contoh penerapannya dalam berbagai industri seperti pertanian,
The document discusses the Naive Bayes classifier. It begins with an introduction to probability and defines the formula for Naive Bayes classification. It then provides an example dataset to demonstrate how to calculate the probabilities of each attribute value belonging to each class. The example shows calculating the probabilities for attributes like major, gender, school origin, GPA, and assistant status to predict whether a student's study duration will be on time or late.
Dokumen tersebut membahas tentang arsitektur memori komputer paralel, dimulai dari konsep proses dan memori, hirarki memori, latensi memori, dan berbagai arsitektur memori paralel seperti shared memory UMA, shared memory NUMA, serta distributed memory.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dan kecil guna menemukan pola dan memprediksi dengan akurat, membantu pengambilan keputusan. Kemampuan pentingnya termasuk pemrograman, basis data, analisis dan visualisasi data, serta pemahaman masalah bisnis. Data science mencakup data mining untuk menemukan pola baru dan machine learning untuk melatih sistem agar belajar sendiri
Proses FP Growth digunakan untuk menemukan aturan asosiasi dalam sebuah database transaksi. Langkah-langkahnya meliputi generasi itemset frekuen, penambahan ID transaksi, dan pembentukan Frequent Pattern Tree (FP-Tree) dengan memetakan transaksi ke dalam pohon berdasarkan frekuensi item. FP-Growth lebih cepat dari Apriori karena hanya memerlukan satu scan database.
Dokumen tersebut membahas tentang list berkait ganda (doubly linked list) dan operasi-operasinya seperti penambahan, penghapusan, dan pencarian elemen pada list tersebut. Terdapat penjelasan mengenai konsep dasar doubly linked list, deklarasi struktur data, dan fungsi-fungsi untuk melakukan operasi penambahan di depan, belakang, dan tengah list, serta penghapusan di depan, belakang, dan tengah list. Juga dibahas tentang
Dokumen ini membahas perbedaan antara supervised learning dan unsupervised learning. Supervised learning melibatkan pelatihan model menggunakan data label, sementara unsupervised learning melakukan clustering data tanpa label. Metode supervised learning meliputi regresi dan klasifikasi, sedangkan metode unsupervised learning meliputi clustering dan SOM.
Supervised Learning:
Supervised learning adalah salah satu jenis pembelajaran mesin (machine learning) yang melibatkan penggunaan dataset yang berlabel. Pada pendekatan ini, setiap data input sudah memiliki label atau output yang diharapkan. Model dibangun untuk mempelajari hubungan antara input (fitur) dan output (label) berdasarkan data pelatihan, sehingga ketika diberikan data baru yang tidak berlabel, model dapat memprediksi output yang benar.
Contoh umum dari supervised learning adalah klasifikasi dan regresi. Dalam klasifikasi, model memetakan input ke dalam kategori atau kelas tertentu, misalnya mengklasifikasikan email menjadi spam atau bukan. Sementara dalam regresi, model memprediksi nilai kontinu, seperti memprediksi harga rumah berdasarkan fitur-fitur tertentu.
Supervised learning dapat dibagi menjadi dua jenis utama:
Klasifikasi: Digunakan ketika output yang diinginkan adalah kategori atau kelas diskret. Misalnya, klasifikasi gambar objek sebagai 'kucing' atau 'anjing'.
Regresi: Digunakan ketika output yang diinginkan adalah nilai kontinu, misalnya memprediksi suhu di hari berikutnya berdasarkan data historis.
Kelebihan supervised learning adalah hasil prediksi yang lebih akurat karena model dilatih menggunakan data yang sudah diketahui jawabannya. Namun, kelemahannya adalah proses ini memerlukan data yang berlabel dalam jumlah besar, yang bisa memakan waktu dan biaya untuk mengumpulkannya.
Unsupervised Learning:
Unsupervised learning adalah pendekatan machine learning yang beroperasi tanpa label atau output yang diketahui. Data yang diberikan hanya berupa input (fitur), tanpa informasi apa pun tentang hasil yang diharapkan. Tujuannya adalah menemukan pola atau struktur tersembunyi dalam data.
Pendekatan ini sering digunakan dalam tugas-tugas eksploratif, seperti pengelompokan data (clustering) dan pengurangan dimensi (dimensionality reduction). Dalam clustering, data dikelompokkan berdasarkan kesamaan fitur-fiturnya, misalnya pengelompokan pelanggan berdasarkan perilaku belanja mereka. Sedangkan dalam pengurangan dimensi, metode seperti Principal Component Analysis (PCA) digunakan untuk mengurangi kompleksitas data dengan mempertahankan informasi penting.
Jenis-jenis utama dari unsupervised learning:
Clustering: Proses mengelompokkan data ke dalam beberapa grup atau kluster berdasarkan kesamaan fitur, contohnya segmentasi pasar dalam data pelanggan.
Association: Mencari hubungan atau pola antara berbagai fitur dalam dataset, misalnya pola pembelian produk tertentu bersama-sama di pasar swalayan.
Kelebihan unsupervised learning adalah tidak memerlukan data yang berlabel, sehingga dapat diterapkan pada berbagai situasi di mana pelabelan data sulit atau mahal. Namun, hasilnya sering kali lebih sulit untuk diinterpretasikan dibandingkan supervised learning, karena tidak ada panduan output yang jelas.
Dalam praktiknya, kedua jenis pembelajaran ini memiliki peran penting dalam pengembangan sistem kecerdasan buatan.
Dokumen tersebut membahas tentang data mining dan pengajaran desain pembelajaran. Secara singkat, dokumen tersebut menjelaskan tentang konsep-konsep dasar data mining, algoritma yang digunakan dalam data mining seperti estimasi, prediksi, klasifikasi, dan klastering, serta tahapan proses data mining mulai dari input data hingga evaluasi hasilnya.
Data mining adalah proses penggalian pola dan informasi yang berharga dari basis data besar untuk menemukan pengetahuan baru. Terdapat dua metode utama yaitu prediksi untuk memprediksi nilai masa depan dan deskripsi untuk menemukan pola yang mudah dipahami. Algoritma utama meliputi klasifikasi, klustering, asosiasi, estimasi dan prediksi.
Dokumen tersebut membahas perbedaan konsep-konsep utama dalam data mining, seperti estimasi dan peramalan, peramalan dan klasifikasi, klasifikasi dan klastering, klastering dan asosiasi, serta estimasi dan klasifikasi. Perbedaan-perbedaan tersebut meliputi tujuan, jenis data, metode analisis, dan hasil yang dihasilkan pada masing-masing konsep.
Dokumen tersebut membahas tentang teknik pengolahan dan analisis data. Secara garis besar, dokumen menjelaskan tentang pengertian pengolahan dan analisis data, fungsi dan metode pengolahan serta analisis data, serta langkah-langkah dalam melakukan kedua proses tersebut. Dokumen ini memberikan panduan umum tentang cara mengolah dan menganalisis data secara sistematis dan terstruktur.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dengan algoritma tertentu untuk memperoleh pola data dan melakukan prediksi dengan akurat guna membantu pengambilan keputusan dan membangun sistem cerdas belajar mesin.
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
Ìý
Tahapan data mining terdiri dari pembersihan data, integrasi data, transformasi data, teknik data mining, evaluasi pola, dan presentasi pengetahuan. Proses ini bersifat interaktif dengan pengguna untuk menemukan pola dan informasi menarik dari data.
Dokumen tersebut membahas tentang pengertian data, jenis-jenis data berdasarkan sifat, bentuk, skala pengukuran dan sumbernya. Jenis-jenis data tersebut kemudian dijelaskan secara rinci beserta contoh-contohnya. Selanjutnya dibahas mengenai populasi, sampel, dan cara mengumpulkan data melalui wawancara, kuesioner, observasi, tes, dan proyektif. Terakhir dijelaskan tahapan
Dokumen tersebut membahas tentang metode pengiriman form (POST dan GET) serta penggunaan session dalam PHP. Metode POST menyembunyikan variabel yang dikirim di alamat web, sedangkan metode GET menampilkan variabelnya. Session digunakan untuk menyimpan sementara variabel antar halaman dengan mendaftarkan, mengisi, dan menampilkan variabel session. Contoh koding mendemonstrasikan penggunaan form dengan metode POST, penyimpanan variabel ke session, dan penampil
Dokumen ini membahas penggunaan beberapa tag HTML penting untuk format tampilan dokumen seperti heading, paragraph, line break, dan daftar termasuk ordered list, unordered list, dan menu list.
The PHP script connects to a database to log website visitor statistics including the visitor's IP address, date, number of page hits, and time online. It checks if the IP address already exists for the current date, and if not, inserts a new entry, otherwise it updates the existing entry by incrementing the hits count and setting the online time. Various metrics are then calculated from the database like current visitors, total visitors, hits for the day, total hits, and current online users. These statistics are output in an HTML table.
Web/HTML Editor digunakan untuk membuat halaman web statis dan dinamis secara visual atau menggunakan teks editor. Editor web profesional menyediakan fitur yang mempercepat pembuatan halaman seperti GUI, otomatisasi kode, dan sambungan basis data. Browser menerjemahkan kode HTML menjadi tampilan yang diinginkan. Microsoft Internet Explorer, Firefox, dan Safari adalah contoh browser web. Ada dua model pembuatan halaman web statis yaitu secara lokal dan di server. Str
CSS digunakan untuk mengubah tampilan halaman website seperti warna dan format dengan mudah. CSS memungkinkan pengguna untuk mempercantik tampilan teks, tombol, tabel dan elemen lainnya. CSS dapat ditempatkan langsung di tag HTML, di dalam file HTML, atau di file CSS terpisah yang dapat digunakan untuk semua halaman website. Kelas CSS memungkinkan pengguna untuk menerapkan gaya yang sama pada elemen-elemen yang berbeda.
Dokumen ini membahas konsep dasar penggunaan basis data pada sistem berbasis web. Terdapat penjelasan tentang koneksi database, mengeksekusi query, dan fungsi-fungsi PHP untuk MySQL. Juga dijelaskan cara membuat database, tabel, dan file-file pendukung seperti config, connection, dan SQL. Selanjutnya dijelaskan cara menampilkan, menambahkan, mengubah, dan menghapus data kota pada tabel melalui beberapa file seperti form input, tampil, edit
This document discusses PHP control structures including if/else statements, switch statements, and looping structures like while, do-while and for loops.
If/else statements allow for conditional execution of code based on simple or compound expressions. Switch statements allow checking a variable against multiple case values.
While and do-while loops check a condition at the start or end of each loop iteration. For loops allow iterating with a counter variable through initialization, condition checking, and increment/decrement each loop.
HTML dikembangkan oleh Tim Berners-Lee di CERN dan dipopulerkan oleh browser Mosaic pada tahun 1990-an. HTML menggunakan tag yang diletakkan di antara tanda kurung siku untuk menandai teks dan elemen lainnya. Struktur dasar file HTML terdiri atas bagian Header dan Body.
The document discusses visualizing an HTML table containing poll results using Highcharts. It includes instructions to include necessary JavaScript libraries, initialize a chart on page load by passing the table and chart options to a Highcharts visualization function, and output the poll response counts from a database into the table. This will generate an interactive column chart of the poll results from the data in the HTML table.
2. Pembahasan
ï‚— Pengenalan Pola, Data Mining, Machine Learning
ï‚— Posisi Data Mining
ï‚— Perbedaan Supervised dan Unsupervised Learning
ï‚— Klasifikasi dan pendekatan fungsi (Regresi)
3. Pengenalan Pola, Data Mining,
Machine Learning
• Pengenalan Pola (Pattern Recognition) : suatu disiplin ilmu
yang mempelajari cara-cara mengklasifikasi objek ke
beberapa kelas dan mengenali kecenderungan data.
– Objek bisa berupa pasien, mahasiswa, pemohon kredit,
image atau signal.
• Data Mining difungsikan dalam menemukan keteraturan,
pola atau hubungan dalam set data berukuran besar
• Machine Learning : Suatu area artificial intelligence yang
berhubungan dengan pengembangan teknik-teknik yang
bisa diprogramkan dan belajar dari masa lalu.
• Mechine learning menjadi alat analisis dalam data mining
4. Posisi Data Mining
ï‚— Statistik : lebih berdasarkan teori, lebih fokus pada
pengujian hipotesis
ï‚— Machine Learning : lebih bersifat heuristik
ï‚— Data Mining : gabungan teori dan heuristik
5. Supervised Dan Unsupervised
Learning
ï‚— Teknik data mining dibedakan dalam dua pendekatan :
ï‚— Supervised : Metode dengan adanya latihan.
ï‚— Metode : regresi, ANN (Artificial Neural Network), SVM
(Support Vector Machine)
ï‚— Unsupervised : tanpa ada latihan (training) dan tanpa ada guru
(teacher = label dalam data).
ï‚— Misal: kita punya sekelompok pengamatan atau data tanpa ada
label (output)tertentu, maka dalam unsupervised dilakukan
pengelompokan data tersebut kedalam kelas yang kita
kehendaki.
ï‚— Metode unsupervised : Klatering dan SOM(Self Organizing Map)
7. Contoh Supervised dan
Unsupervised Learning
ï‚— Sekelompok mahasiswa didalam kelas. Seorang dosen akan
mengelompokkan beberapa orang ini kedalam beberapa kelompok.
Misalkan jumlah kelompok ada 4. Maka mahasiswa dikelompokkan
menurut kesamaan ciri-ciri (atribut): berdasarkan indeks prestasi, jarak
tempat tinggal atau gabungan keduanya. Dalam dua dimensi sumbu x
merepresentasikan indeks prestasi, sumbu y merepresentasikan jarak
tempat tinggal.
ï‚— Teknik unsupervised : mahasiswa sebagai objek dari tugas kita, bisa
dikempokkan dalam 4 kelompok menurut kedekatan IP dan jarak tempat
tinggal. Pengelompokan ini, diasumsikan dalam satu kelompok, anggota-
anggotanya harus memunyai kemiripan yang tinggi dibanding anggota
dari kelompok lain.
ï‚— Teknik supervised : output dari unsupervised dipakai sebagai guru dalam
proses training dengan menggunakan teknik pengenalan pola , Dan dalam
pemisahkan data training dan data testing (pelatih) maka diperlukan
fungsi pemisah.
9. Klasifikasi Dan Pendekatan Fungsi
(Regresi)
ï‚— Dalam klasifikasi, keluaran dari setiap data adalah bilangan
bulat atau diskrit.
ï‚— Misal : pengambilan keputusan untuk main sepak bola
atau tidak maka keluaran bisa diubah kedalam bilangan
bulat 1 (main bola), dan -1 (tidak main).
ï‚— Regresi, keluaran dari setiap data dalah bilangan kontinu.
ï‚— Misal Peramalan harga rumah berdasarkan lokasi, umur
rumah dan luas rumah, maka keluarannya berupa
bilangan kontinu berupa bilangan Rp 120 juta, Rp 100
juta atau Rp 51 juta.
10. Transformasi Data
ï‚— Sebelum menggunakan data dengan metode atau teknik
sering kali melakukan preprocessing terhadap data atau
transformasi data.
ï‚— Hal ini dilakukan untuk mendapatkan hasil yang lebih
akurat
ï‚— Misal terdapat data :
ï‚— Dimana n adalah jumlah variabel/atribut dan m adalah
banyaknya observasi.
11. ï‚— Ada beberapa cara untuk transformasi data :
ï‚— Centering :
ï‚— Melakukan perngurangan setiap data dengan rata-rata dari setiap
atribut yang ada.
ï‚— Normalisasi :
ï‚— Membagi setiap data yang sudah dicentering dengan standar
deviasi dari atribut yang bersangkutan.
ï‚— Rumus :
ï‚— Scaling :
ï‚— Merubah data hingga dalam skala tertentu.
ï‚— Rumus :