Pada pertemuan kedua program mentoring AI Indonesia Academy di Surabaya, para peserta akan di ajak menerapkan konsep yang di dapat di pertemuan sebelumnya. Para peserta akan mengimplementasikan teknologi berbasis Machine Learning untuk membantu Pak Presiden Jokowi.
Latar Belakang Masalah
Pak Jokowi adalah orang nomor 1 di Indonesia, semua perilaku publik beliau tentunya akan mendapat sorotan dari masyarakat Indonesia. Hal ini menimbulkan reaksi/respon terhadap apa yang di lakukannya di publik.
Salah satu contoh kasusnya adalah post di halaman facebook beliau seperti berikut
Respon publik terhadap post Pak Presiden Joko Widodo
Berbagai macam respon disampaikan oleh masyarakat Indonesia di komentar post tersebut.
Tantangan
Dengan banyaknya komentar, mungkin Pak Jokowi ingin mengetahui siapa yang meminta kejelasan tentang tindakannya atau mengadukan hal tentang seuatu? dengan tujuan jika komentarnya berisi hal yang penting itu akan digunakan untuk melakukan tindakan lanjut atau memperbaiki hasil kinerja tim pak Jokowi tentunya.
Ada data komentar di halaman facebook pak Jokowi yang sudah di kategorikan respon spam, netral, berisi harapan, pembelaan, usulan dan meminta penjelasan, aduan secara manual.
Tujuan kita pada pertemuan kedua besok adalah membuat teknologi berbasis Machine Learning yang akan di latih dari data tersebut untuk mampu membedakan mana respon masyarakat yang spam, netral, berisi harapan, pembelaan, usulan dan meminta penjelasan, aduan.
Pertemuan ke 2
Kita akan bersama-sama memecahkan masalah ini pada pertemuan kedua nantinya. Pertemuan kedua akan di laksanakan pada 19 Maret 2016, pukul 13.0016.00.
Persiapan untuk para peserta adalah:
Laptop pribadi
Sudah menginstall python 2.7
Sudah mensetup hadoop 2.7.x dan Spark 1.6.x
Flaskdisk
Untuk cara mensetup hadoop dan spark bisa melihat tutorialnya di website resmisnya berikut: setup hadoop & setup spark.
Sampai jumpa di pertemuan kedua! kalau ada pertanyaan silahkan response post ini ya.
https://artificialintelligence.id/model-machine-learning-untuk-membantu-pak-presiden-jokowi-menganalisa-respon-publik-63cc89a098ed#.7r0nzkff0
1 of 25
Downloaded 31 times
More Related Content
Pertemuan 2 & 3: A.I. Indonesia Academy Surabaya Batch #1
2. Agenda
Review & Pertanyaan di Slack
Penerapan Konsep Supervised Machine Learning (full-coding)
Hands-on feature engineering
Intuisi dasar, step-by-step nya
Algoritma -> Python program
Studi Kasus
Production-grade machine learning, dengan spark + hdfs
Final project Evaluasi
3. Review & Pertanyaan di Slack
Model Machine Learning
Classification VS Clustering
4. Model itu gimana?
Input Output
Training Data
Algoritma
Machine Learning
Model
Input ?
Data Baru
Model Output
5. Contoh Model Logistic Regression
; , log(1 + )
+
1
=1
(; ヰ, )
ヰ , 0 < ,
Tujuan: も ()
Weight vector
ヰ Training data
Class training data
Regulasi
Fungsi tujuan
; , Fungsi kerugian
7. Classification VS Clustering
Classification Clustering
Class data Sudah di ketahui Belum di Ketahui
Training data Ada Tidak ada
Metode Supervised Unsupervised
Tujuan Menentukan data baru masuk class
yang mana
Menemukan pola dan relasi antar
data
8. Studi Kasus: Lestari
Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden
Indonesia, menganalisa respon publik.
https://artificialintelligence.id/model-machine-learning-untuk-
membantu-pak-presiden-jokowi-menganalisa-respon-publik-
63cc89a098ed
10. Training Data
Input Output
Training Data
Input:
Respon masyarakat di facebook
Output:
Jenis responnya
-1 = spam
0 = netral
1 = berisi harapan,
pembelaan, usulan
2 = meminta kejelasan, aduan
12. Tujuan Akhir
Input ?
Data Baru
Model Output
Intuisi:
Ada respon baru masuk. Apakah response tersebut berisi
pembelaan/harapan terhadap pak Jokowi, spam, atau malah
mengadukan sesuatu ke pak Jokowi ya?
13. Feature Engineering
Intuisi:
Bagaimana cara mesin bisa membedakan dan mencari kesamaan
sebuah dokumen teks?
Pakai Vektor! (demo via matlab)
Tujuan: Merepresentasikan input/training data untuk bisa digunakan
oleh algoritma Machine Learning
14. Feature Engineering
Macam Macam Representasi:
Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model)
TF-IDF (www.tfidf.com)
Demo dengan simple teks!
Kata kunci:
Corpus: kumpulan Document
Document: Satu dokumen teks (satu komentar)
Term: Satu kata dalam sebuah Document
15. Feature Engineering: Bag of words
Corpus:
Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!
Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin
17. Feature Engineering: TF-IDF
Corpus:
Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!
Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin
20. Feature Engineering (catatan tambahan)
Representasi data yang populer adalah LIBSVM format
label index1:value1 index2:value2 ...
1 1:0.0953796017474 4:0.227945493411 ...
2 27:0.111566195021 16:0.178174397043 ...
Index: Index kata di dalam global dictionary
Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
21. Feature Engineering
label index1:value1 index2:value2 ...
1. Membuat global dictionary
Dari semua dokumen di korpus
Sebagai data index tiap kata
2. Merepresentasikan dokumen sebagai vektor
Index dari global dictionary
Mencari nilai TF-IDF tiap kata sebagai Value
23. ML in Production notes:
Banyaknya data yang kita proses kita perlu framework untuk
mempercepat proses analisa
Solusi: Hadoop MapReduce, Spark
Dengan data yang banyak kita perlu storage engine yang scalable
Solusi: HDFS