Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dan kecil guna menemukan pola dan memprediksi dengan akurat, membantu pengambilan keputusan. Kemampuan pentingnya termasuk pemrograman, basis data, analisis dan visualisasi data, serta pemahaman masalah bisnis. Data science mencakup data mining untuk menemukan pola baru dan machine learning untuk melatih sistem agar belajar sendiri
Metadata digunakan untuk mendeskripsikan data dan proses data warehouse kepada pengguna, mencakup tujuh jenis metadata yaitu definisi data, struktur data, sistem sumber, proses ETL, kualitas data, audit, dan penggunaan. Metadata dipertahankan melalui proses perubahan skrip untuk menjaga keakuratannya.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dengan algoritma tertentu untuk memperoleh pola data dan melakukan prediksi dengan akurat guna membantu pengambilan keputusan dan membangun sistem cerdas belajar mesin.
Latar belankang serta update perkembangan kecerdasan buatan serta membangun pengertian bagaimana komputer dapat mengemulasikan kecerdasan manusia dengan menggunakan data dan teknik pelatihan algoritma
Proses ETL (ekstraksi, transformasi, dan pengumpulan data) merupakan proses penting dalam membangun gudang data. Proses ini melibatkan ekstraksi data dari berbagai sumber, transformasi data untuk meningkatkan kualitas dan konsistensi, serta pengumpulan data ke dalam gudang data. Tantangan utama dalam ETL adalah heterogenitas sumber data dan memperbaiki kualitas data selama proses transformasi.
Dokumen ini membahas tentang skema dimensional untuk data warehouse, termasuk star schema, snowflake schema, dan starflake schema. Star schema terdiri dari satu tabel fakta dan beberapa tabel dimensi. Snowflake schema memperluas star schema dengan menormalisasi tabel dimensi menjadi hirarki. Starflake schema merupakan gabungan dari skema bintang dan skema salju.
Metodologi data science diperlukan untuk mengembangkan sistem intelijen berbasis data secara terstruktur dan berhasil. Beberapa metodologi yang umum digunakan adalah KDD dan SEMMA, yang meliputi proses seleksi data, pra-pemrosesan, pemodelan, dan evaluasi untuk menemukan pola dalam data. Kegagalan proyek sering disebabkan oleh masalah lingkup, kualitas data, model, dan sumber daya manusia. Diperlukan pendekatan mult
Data Multi Dimensi:
Pengertian Data Multidimensi
Fitur Multidimensi Cube
Online Analitycal Processing (OLAP)
Karakteristik OLAP
Pemodelan Data Multidimensi
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Algoritma C4.5 adalah algoritma klasifikasi data mining yang merupakan pengembangan dari algoritma ID3. C4.5 mampu menangani atribut kosong dengan mengisi nilai berdasarkan nilai dominan, dan memilih atribut akar berdasarkan nilai gain tertinggi yang dihitung menggunakan rumus entropy. Studi kasus mendemonstrasikan pembentukan pohon keputusan C4.5 untuk klasifikasi data.
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
油
Dokumen tersebut membahas tentang perancangan logical dan physical dalam pembangunan data warehouse. Pembahasan meliputi konsep-konsep OLTP, DW, OLAP, dimensi, dan agregasi dalam perancangan logical serta opsi-opsi penyimpanan dan manajemen data dalam perancangan physical data warehouse.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
油
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas berbagai sistem pendukung keputusan seperti sistem informasi eksekutif, portal perusahaan, dan sistem manajemen pengetahuan yang dapat membantu pengambilan keputusan manajerial dengan menyediakan akses mudah ke informasi terkini dan berbagi pengetahuan antar unit bisnis.
Data Mining digunakan untuk mengekstrak pola dan pengetahuan dari data besar yang kompleks untuk memecahkan masalah bisnis. Teknik utama Data Mining meliputi estimasi, prediksi, klasifikasi, klastering dan asosiasi. Metode pembelajaran terdiri dari pembelajaran terbimbing, tidak terbimbing dan semi terbimbing.
Sosial network analysis dan visualisasi merupakan teknik untuk menganalisis jejaring sosial dengan memanfaatkan teori graf. Teknik ini menggambarkan interaksi manusia sebagai graf yang terdiri dari node dan edge. Graf dapat berupa directed maupun undirected tergantung arah hubungannya. Beberapa pengukuran yang digunakan antara lain degree centrality, closeness centrality, betweenness centrality, eigenvector centrality. RStudio dan Gephi dapat digunakan untuk visual
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
Kualitas data penting untuk meningkatkan kepercayaan dan strategi pengambilan keputusan, serta mengurangi risiko keputusan buruk. Dimensi kualitas data meliputi akurasi, integritas domain, dan konsistensi. Permasalahan kualitas data seperti nilai dummy, missing value, dan nilai bertentikan berasal dari berbagai sumber polusi data. Alat bantu pembersihan data digunakan untuk menemukan dan memperbaiki kesalahan data.
Metodologi data science diperlukan untuk mengembangkan sistem intelijen berbasis data secara terstruktur dan berhasil. Beberapa metodologi yang umum digunakan adalah KDD dan SEMMA, yang meliputi proses seleksi data, pra-pemrosesan, pemodelan, dan evaluasi untuk menemukan pola dalam data. Kegagalan proyek sering disebabkan oleh masalah lingkup, kualitas data, model, dan sumber daya manusia. Diperlukan pendekatan mult
Data Multi Dimensi:
Pengertian Data Multidimensi
Fitur Multidimensi Cube
Online Analitycal Processing (OLAP)
Karakteristik OLAP
Pemodelan Data Multidimensi
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Algoritma C4.5 adalah algoritma klasifikasi data mining yang merupakan pengembangan dari algoritma ID3. C4.5 mampu menangani atribut kosong dengan mengisi nilai berdasarkan nilai dominan, dan memilih atribut akar berdasarkan nilai gain tertinggi yang dihitung menggunakan rumus entropy. Studi kasus mendemonstrasikan pembentukan pohon keputusan C4.5 untuk klasifikasi data.
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
油
Dokumen tersebut membahas tentang perancangan logical dan physical dalam pembangunan data warehouse. Pembahasan meliputi konsep-konsep OLTP, DW, OLAP, dimensi, dan agregasi dalam perancangan logical serta opsi-opsi penyimpanan dan manajemen data dalam perancangan physical data warehouse.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
油
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas berbagai sistem pendukung keputusan seperti sistem informasi eksekutif, portal perusahaan, dan sistem manajemen pengetahuan yang dapat membantu pengambilan keputusan manajerial dengan menyediakan akses mudah ke informasi terkini dan berbagi pengetahuan antar unit bisnis.
Data Mining digunakan untuk mengekstrak pola dan pengetahuan dari data besar yang kompleks untuk memecahkan masalah bisnis. Teknik utama Data Mining meliputi estimasi, prediksi, klasifikasi, klastering dan asosiasi. Metode pembelajaran terdiri dari pembelajaran terbimbing, tidak terbimbing dan semi terbimbing.
Sosial network analysis dan visualisasi merupakan teknik untuk menganalisis jejaring sosial dengan memanfaatkan teori graf. Teknik ini menggambarkan interaksi manusia sebagai graf yang terdiri dari node dan edge. Graf dapat berupa directed maupun undirected tergantung arah hubungannya. Beberapa pengukuran yang digunakan antara lain degree centrality, closeness centrality, betweenness centrality, eigenvector centrality. RStudio dan Gephi dapat digunakan untuk visual
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
Kualitas data penting untuk meningkatkan kepercayaan dan strategi pengambilan keputusan, serta mengurangi risiko keputusan buruk. Dimensi kualitas data meliputi akurasi, integritas domain, dan konsistensi. Permasalahan kualitas data seperti nilai dummy, missing value, dan nilai bertentikan berasal dari berbagai sumber polusi data. Alat bantu pembersihan data digunakan untuk menemukan dan memperbaiki kesalahan data.
#1_ A.I.-Definisi, Sejarah, Perkembangan, dan Klasifikasinya .pptxmlh366
油
Artificial Intelligence (AI) adalah cabang ilmu komputer yang berfokus pada pembuatan sistem cerdas yang mampu melakukan tugas seperti pemecahan masalah, pengambilan keputusan, dan pemrosesan bahasa alami. AI berkembang sejak 1950-an, dimulai dari konsep mesin berpikir oleh Alan Turing dan Konferensi Dartmouth (1956) yang menandai awal penelitian formalnya. Setelah mengalami stagnasi pada 1970-an, AI bangkit kembali dengan machine learning dan deep learning, yang kemudian menghasilkan pencapaian seperti kemenangan IBM Deep Blue (1997) dan kemunculan AI generatif seperti ChatGPT. Berdasarkan tingkat kecerdasan, AI terbagi menjadi Narrow AI (ANI) yang terbatas pada tugas tertentu, General AI (AGI) yang menyerupai kecerdasan manusia (masih dalam pengembangan), dan Super AI (ASI) yang melebihi manusia (konsep futuristik). Sementara itu, berdasarkan fungsinya, AI dikategorikan sebagai Reactive Machines, Limited Memory, Theory of Mind, dan Self-Aware AI. Seiring kemajuan teknologi, AI terus berkembang dengan penerapan luas di berbagai bidang, membawa perubahan signifikan dalam kehidupan manusia.
Dokumen tersebut membahas tentang data mining dan pengajaran desain pembelajaran. Secara singkat, dokumen tersebut menjelaskan tentang konsep-konsep dasar data mining, algoritma yang digunakan dalam data mining seperti estimasi, prediksi, klasifikasi, dan klastering, serta tahapan proses data mining mulai dari input data hingga evaluasi hasilnya.
Dokumen tersebut membahas berbagai sistem teknologi informasi yang diterapkan di berbagai level organisasi, mulai dari sistem pakar, sistem penunjang keputusan, sistem informasi manajemen, hingga sistem otomatisasi kantor. Dibahas pula perbedaan dan aplikasi masing-masing sistem serta contoh gambar untuk mengilustrasikan sistem-sistem tersebut.
Minggu 1 - Pendahuluan dan Well Define Learning System (Compressed).pdfJoddySebastianSirega
油
Dokumen tersebut merupakan materi perkuliahan Machine Learning pada Program Studi Teknik Informatika di Institut Teknologi Sumatera. Materi yang disajikan pada minggu pertama meliputi kontrak perkuliahan, pendahuluan Machine Learning, tipe Machine Learning, desain sistem pembelajaran, dan isu-isu dalam Machine Learning. Dosen pengampu mata kuliah ini adalah Rahman Indra Kesuma dan Meida Cahyo Untoro.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Dokumen tersebut membahas tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, klaster
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...Namira Jasmine
油
Sistem kecerdasan buatan, yang menjadi komponen, subsistem dari sistem kecerdasan buatan itu sendiri dan contoh sistem kecerdasan buatan beserta contoh di aplikasi berbasis android
Peran Artificial Intelligence (AI) dalam Pendidikan 2024hermands
油
Outline:
Teknologi untuk Pembelajaran
Apa dan bagaimana AI
Mengapa AI booming
Aplikasi AI
Jenis AI: Tradisional dan Generatif
Peran AI dalam Pendidikan dan Pembelajaran
Peluang dan Tantangan
3. SISTEM PENILAIAN
QUIZ 5 %
TUGAS KELOMPOK 15 %
UTS 10 %
UAS 20 %
TUGAS AKHIR 50 %
UNTUK KEHADIRAN HARUS 90 % SETIAP KALI AKAN MELAKSANAKAN UJIAN. JIKA KEHADIRAN KURANG
DARI 90 % MAKA TIDAK BISA MELAKSANAKAN UJIAN.
4. ATURAN PERKULIAHAN
Mahasiswa diharapkan masuk kelas on-time, terlambat 15 menit dengan kesadaran sendiri diharpak
tidak menggangu perkuliahan di kelas. Lewat dari 15 menit di anggap tidak hadir.
Perkuliahan kosong jika dosen yang bersangkutan memberi informasi sebelumnya atau tidak hadir
setalah 15 menit jadawal perkuliahan dimulai.
Selama perkuliahan, mahasiswa diwajibkan untuk tidak menggunakan kaos oblong dan tidak
menggunakan sendal atau sejenisnya. Melanggar hal tersebut tidak diperbolehkan mengikuti
perkuliahan.
Sistem perkuliahan kita lakukan dengan metode diskusi kelompok.
Absensi juga wajib di ambil di e-lerning masing-masing.
5. Apa itu data science ?
Data science adalah ilmu yang menggabungkan matematika,
statisika dengan ilmu komputer dengan tujuan analisa data (data
(data analysis) dari suatu himpunan data baik skala kecil
(sampel) maupun besar (populasi) dengan mengaplikasikan
algoritma tertentu untuk tujuan menggali data (data mining)
dan mendapatkan pola data serta dapat melakukan prediksi
data (prediction) dengan cukup akurat yang dapat membantu
dalam pengambilan keputusan dan dapat digunakan untuk
membuat sistem yang cerdas (AI) yang dapat terus belajar
dengan sendirinya (machine learning).
6. Kemampuan apa yang
dibutuhkan ?
1. Kemampuan Matematika dan Statistika
2. Kemampuan Pemrograman (R, Python, dan lainnya)
3. Kemampuan Database dan Query (SQL dan lainnya) dan
pengolahan data
4. Kemampuan analisa data dan visualisasi data
5. Kemampuan pemahaman masalah terkait bisnis atau suatu
bidang lainnya.
7. Apa beda Data Science, Data
Mining & Machine Learning ?
8. Data Science melibatkan proses
berikut :
Data Mining adalah proses pengambilan informasi dari pola data dari himpunan data yang sebelumnya
tidak diketahui, kadang disebut juga Data Discovery.
Data Mining fokus pada mengekstrak pola menggunakan metode statistik untuk dianalisa dan dapat
juga melakukan prediksi.
Machine learning adalah bidang yang merupakan bagian dari Artificial Intelligence (AI) yang digunakan
agar sistem komputer secara otomatis dapat belajar dengan sendirinya tanpa diberi instruksi
pemrograman dan dapat meningkatkan prediksi yang akurat dan pengunaannya biasanya sifatnya
realtime.
Jadi Data Mining dan Machine Learning merupakan bagian dari Data Science
9. Tujuan Data Science
Menggali data dan memberikan informasi seakurat mungkin yang digunakan untuk :
oDeskripsi yaitu menampilkan pola data untuk dianalisa dan penemuan masalah.
oPrediksi yaitu melakukan prediksi berupa nilai, probabilitas maupun data dan kemudian
merekomendasikan hasilnya untuk digunakan sebagai alat bantu pengambil keputusan maupun
secara langsung digunakan secara otomatis oleh sistem.
10. JENIS PEMBELAJARAN DATA SCIENCE
Jenis Pembelajaran Data Science
Supervised Learning (Prediksi)
Untuk membentuk sistem yang cerdas, sistem harus diberikan
pelatihan terlebih dahulu (training) dengan data fakta
(labelled training), sistem akan belajar dan membentuk pola
data yang ada baru kemudian digunakan untuk melakukan
prediksi, proses belajarnya seperti anak murid yang diajarkan
oleh guru.
Unsupervised Learning (Deskripsi)
Sistem dapat mengandalkan data yang belum dilatih
sebelumnya (unlabelled training) dan dapat membentuk pola
data yang sifatnya deskriptif, bukan untuk prediksi.
Reinforced dan Deep Learning (Prediksi)
Sistem belajar dari feedback lingkungan dengan teknik
learning yang iteratif (berulang-ulang) dan adaptif
(menyesuaikan) seperti cara manusia belajar dengan
sendirinya, algoritma digunakan untuk memaksa sistem
belajar menemukan nilai optimal dengan coba-coba (trial and
error). Teknik pembelajaran menggunakan algoritma Neural
Network berlapis yang sangat mirip dengan cara kerja otak
manusia dimana neuron-neuron satu sama lain membentuk
jaringan neuron yang sangat rumit.
Digunakan untuk banyak jenis seperti : Prediksi populasi,
cuaca, kondisi pasar, iklan, pendeteksi penipuan, klasifikasi
gambar, pola kebiasaan pelanggan, jenis atau karakteristik
pelanggan, marketing yang lebih terarah, rekomendasi
produk, AI Game, pendeteksi anomali dan masih banyak
kegunaan lainnya.
11. MACHINE LEARNING VS TRADITIONAL PROGRAMMING
Machine Learning hanya
membutuhkan Data sebagai input
dan contoh
diinginkan, dan
output
sistem
yang
akan
mencari dengan sendirinya
program perhitungannya.
CONTOH
Data Training berisi data fakta yang ada
Data Tes berisi data yang ingin diprediksi