際際滷

際際滷Share a Scribd company logo
Pertemuan 2 & 3
Penerapan Konsep & Evaluasi
Agenda
 Review & Pertanyaan di Slack
 Penerapan Konsep Supervised Machine Learning (full-coding)
 Hands-on feature engineering
 Intuisi dasar, step-by-step nya
 Algoritma -> Python program
 Studi Kasus
 Production-grade machine learning, dengan spark + hdfs
 Final project Evaluasi
Review & Pertanyaan di Slack
 Model Machine Learning
 Classification VS Clustering
Model itu gimana?
Input Output
Training Data
Algoritma
Machine Learning
Model
Input ?
Data Baru
Model Output
Contoh Model Logistic Regression
 ; ,   log(1 +   )
     +
1

=1

(; ヰ, )
ヰ   , 0 <   ,   
Tujuan:  も  ()
 Weight vector
ヰ Training data
 Class training data
  Regulasi
  Fungsi tujuan
 ; ,  Fungsi kerugian
Visualisasi Model Logistic Regression 4 class
Classification VS Clustering
Classification Clustering
Class data Sudah di ketahui Belum di Ketahui
Training data Ada Tidak ada
Metode Supervised Unsupervised
Tujuan Menentukan data baru masuk class
yang mana
Menemukan pola dan relasi antar
data
Studi Kasus: Lestari
Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden
Indonesia, menganalisa respon publik.
https://artificialintelligence.id/model-machine-learning-untuk-
membantu-pak-presiden-jokowi-menganalisa-respon-publik-
63cc89a098ed
Masih Ingat?
Input Output
Training Data
Algoritma
Machine Learning
Model
Input ?
Data Baru
Model Output
Training Data
Input Output
Training Data
Input:
Respon masyarakat di facebook
Output:
Jenis responnya
 -1 = spam
 0 = netral
 1 = berisi harapan,
pembelaan, usulan
 2 = meminta kejelasan, aduan
Algoritma & Model
Algoritma
Machine Learning
Model
 Logistic Regression
 Decision Trees
 Random Forests
 Na誰ve-Bayes
Tujuan Akhir
Input ?
Data Baru
Model Output
Intuisi:
Ada respon baru masuk. Apakah response tersebut berisi
pembelaan/harapan terhadap pak Jokowi, spam, atau malah
mengadukan sesuatu ke pak Jokowi ya?
Feature Engineering
 Intuisi:
Bagaimana cara mesin bisa membedakan dan mencari kesamaan
sebuah dokumen teks?
Pakai Vektor! (demo via matlab)
 Tujuan: Merepresentasikan input/training data untuk bisa digunakan
oleh algoritma Machine Learning
Feature Engineering
 Macam Macam Representasi:
 Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model)
 TF-IDF (www.tfidf.com)
 Demo dengan simple teks!
 Kata kunci:
 Corpus: kumpulan Document
 Document: Satu dokumen teks (satu komentar)
 Term: Satu kata dalam sebuah Document
Feature Engineering: Bag of words
 Corpus:
 Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!
 Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin
Feature Engineering: Bag of words
 Dictionary:
 mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan,
kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh,
indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti,
bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin
 Representasi corpus:
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0]
 [0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1]
Feature Engineering: TF-IDF
 Corpus:
 Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!
 Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin
Feature Engineering: TF-IDF
 Dictionary:
 mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi,
keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia,
kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin
 Representasi corpus:
 [0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474,
0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0]
 [0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0.026659506944613283,
0.053319013889226566, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283]
Feature Engineering
(
0
0.095

0.227
0
0.111


0.657

, 1)(bravo pak jokowi! klo ., usulan)
Feature Engineering (catatan tambahan)
 Representasi data yang populer adalah LIBSVM format
label index1:value1 index2:value2 ...
1 1:0.0953796017474 4:0.227945493411 ...
2 27:0.111566195021 16:0.178174397043 ...
 Index: Index kata di dalam global dictionary
 Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
Feature Engineering
label index1:value1 index2:value2 ...
1. Membuat global dictionary
 Dari semua dokumen di korpus
 Sebagai data index tiap kata
2. Merepresentasikan dokumen sebagai vektor
 Index dari global dictionary
 Mencari nilai TF-IDF tiap kata sebagai Value
Feature Engineering
Waktunya Praktek!
Data: data_3k_comments.csv
Output: tf-idf
ML in Production notes:
 Banyaknya data yang kita proses kita perlu framework untuk
mempercepat proses analisa
 Solusi: Hadoop MapReduce, Spark
 Dengan data yang banyak kita perlu storage engine yang scalable
 Solusi: HDFS
Hands-on: Spark + HDFS
Distributed File System
Evaluasi
 Metrics yang penting:
 Precision
 Recall
 F1-score

More Related Content

Pertemuan 2 & 3: A.I. Indonesia Academy Surabaya Batch #1

  • 1. Pertemuan 2 & 3 Penerapan Konsep & Evaluasi
  • 2. Agenda Review & Pertanyaan di Slack Penerapan Konsep Supervised Machine Learning (full-coding) Hands-on feature engineering Intuisi dasar, step-by-step nya Algoritma -> Python program Studi Kasus Production-grade machine learning, dengan spark + hdfs Final project Evaluasi
  • 3. Review & Pertanyaan di Slack Model Machine Learning Classification VS Clustering
  • 4. Model itu gimana? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  • 5. Contoh Model Logistic Regression ; , log(1 + ) + 1 =1 (; ヰ, ) ヰ , 0 < , Tujuan: も () Weight vector ヰ Training data Class training data Regulasi Fungsi tujuan ; , Fungsi kerugian
  • 6. Visualisasi Model Logistic Regression 4 class
  • 7. Classification VS Clustering Classification Clustering Class data Sudah di ketahui Belum di Ketahui Training data Ada Tidak ada Metode Supervised Unsupervised Tujuan Menentukan data baru masuk class yang mana Menemukan pola dan relasi antar data
  • 8. Studi Kasus: Lestari Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden Indonesia, menganalisa respon publik. https://artificialintelligence.id/model-machine-learning-untuk- membantu-pak-presiden-jokowi-menganalisa-respon-publik- 63cc89a098ed
  • 9. Masih Ingat? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  • 10. Training Data Input Output Training Data Input: Respon masyarakat di facebook Output: Jenis responnya -1 = spam 0 = netral 1 = berisi harapan, pembelaan, usulan 2 = meminta kejelasan, aduan
  • 11. Algoritma & Model Algoritma Machine Learning Model Logistic Regression Decision Trees Random Forests Na誰ve-Bayes
  • 12. Tujuan Akhir Input ? Data Baru Model Output Intuisi: Ada respon baru masuk. Apakah response tersebut berisi pembelaan/harapan terhadap pak Jokowi, spam, atau malah mengadukan sesuatu ke pak Jokowi ya?
  • 13. Feature Engineering Intuisi: Bagaimana cara mesin bisa membedakan dan mencari kesamaan sebuah dokumen teks? Pakai Vektor! (demo via matlab) Tujuan: Merepresentasikan input/training data untuk bisa digunakan oleh algoritma Machine Learning
  • 14. Feature Engineering Macam Macam Representasi: Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model) TF-IDF (www.tfidf.com) Demo dengan simple teks! Kata kunci: Corpus: kumpulan Document Document: Satu dokumen teks (satu komentar) Term: Satu kata dalam sebuah Document
  • 15. Feature Engineering: Bag of words Corpus: Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera! Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin
  • 16. Feature Engineering: Bag of words Dictionary: mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin Representasi corpus: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] [0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
  • 17. Feature Engineering: TF-IDF Corpus: Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera! Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin
  • 18. Feature Engineering: TF-IDF Dictionary: mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin Representasi corpus: [0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] [0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0.026659506944613283, 0.053319013889226566, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283]
  • 20. Feature Engineering (catatan tambahan) Representasi data yang populer adalah LIBSVM format label index1:value1 index2:value2 ... 1 1:0.0953796017474 4:0.227945493411 ... 2 27:0.111566195021 16:0.178174397043 ... Index: Index kata di dalam global dictionary Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
  • 21. Feature Engineering label index1:value1 index2:value2 ... 1. Membuat global dictionary Dari semua dokumen di korpus Sebagai data index tiap kata 2. Merepresentasikan dokumen sebagai vektor Index dari global dictionary Mencari nilai TF-IDF tiap kata sebagai Value
  • 22. Feature Engineering Waktunya Praktek! Data: data_3k_comments.csv Output: tf-idf
  • 23. ML in Production notes: Banyaknya data yang kita proses kita perlu framework untuk mempercepat proses analisa Solusi: Hadoop MapReduce, Spark Dengan data yang banyak kita perlu storage engine yang scalable Solusi: HDFS
  • 24. Hands-on: Spark + HDFS Distributed File System
  • 25. Evaluasi Metrics yang penting: Precision Recall F1-score