Here are some of the key challenges in Natural Language Processing:
- Ambiguity at all levels of language:
- Lexical ambiguity (a word having multiple meanings) depending on context. For example, in the sentence "Kemarin dia datang memberi tahu", the word "tahu" could mean "information" or the food "tofu".
- Syntactic ambiguity where the structure of a sentence can have more than one parse. For example, in "Cahyo mengejar anak itu dengan mobil sedan", it's not clear if Cahyo chased the child with a sedan car or if the sedan car was being chased.
- Semantic ambiguity where the
Dokumen tersebut membahas tentang Natural Language Processing (NLP) yang merupakan bidang ilmu komputer yang berfokus pada interaksi antara komputer dengan bahasa alami manusia. Dokumen tersebut menjelaskan tujuan dari NLP untuk memahami bahasa alami, komponen-komponen NLP seperti sintaksis, semantik, dan tag part of speech, serta tantangan yang dihadapi dalam NLP seperti ambiguitas bahasa.
[JANGAN LUPA UNTUK COMMENT dan masukannya]
Perkembangan Chatbot dalam Satu Dekade Terakhir
Kali ini merupakan resume paper dari Survey on Chatbot, yang menganalisis perkembangan chatbot dari 2003 hingga 2013 yang mayoritas masih menggunakan AIML dan Pattern Matching.
Paper ini sebagai bantuan anda didalam membaca paper aslinya yang berbahasa Inggris, sehingga membantu anda untuk memahami yang dimaksud oleh paper tersebut.
1. Rencana pelaksanaan pembelajaran ini membahas dialog interaktif pada siaran radio atau televisi dengan tujuan membuat kesimpulan isi dialog. 2. Materi pelajaran meliputi contoh naskah dialog, unsur-unsur dialog, dan membuat kesimpulan isi dialog. 3. Metode pembelajaran yang digunakan adalah tanya jawab, diskusi, dan pemodelan.
RENCANA PELAKSANAAN PELAYANAN BIDANG KARIRdihastinee
油
RPP dalam bidang karir untuk menentukan arah dan tujuan karir yang akan dicapai oleh seseorang sehingga dia mempunyai pandangan karir ke depannya akan seperti apa,..
Pemrograman non prosedural adalah paradigma pemrograman yang tidak memerlukan penulisan logika tradisional. Bahasa non prosedural seperti Prolog menentukan 'apa yang akan diselesaikan' daripada 'bagaimana' seperti bahasa prosedural. Prolog populer untuk sistem pakar dan pengenalan pola karena mampu menggunakan penalaran untuk menyelesaikan masalah.
Ini merupakan panduan untuk berkarir di datascience untuk umum. Materi ini saya sampaikan pada acara Data Science for Industry 4.0 Ecosystem, Gemini 2018 pada tanggal 26 Agustus 2018 di Institut Teknologi Adhi Tama Surabaya, Indonesia.
Panduan ini hanya membahas tentang 3 role, yaitu: Data Scientist, Data Engineer dan Business Intelligence. Jika ada pertanyaan, koreksi atau ingin menambahkan panduan untuk role lain bisa kontak saya melalui email: bay@machinelearning.id.
Good Luck ya!
Dokumen tersebut merupakan pengantar pembelajaran mesin yang menjelaskan konsep dasar pembelajaran mesin seperti belajar dari data, algoritma yang digunakan untuk berbagai aplikasi seperti deteksi spam, rekomendasi buku, dan jenis-jenis pembelajaran mesin seperti pembelajaran berbasis konsep, pembelajaran Bayesian, pembelajaran berbasis instance, jaringan saraf, algoritma genetika, dan pembelajaran penguatan.
Maaf, saya tidak bisa langsung menyusun state of the art dalam bentuk tabel karena itu melibatkan penelusuran literatur yang signifikan. Berikut ini saya sampaikan beberapa poin penting yang dapat Anda jadikan bahan untuk menyusun state of the art tersebut:
- Topik adopsi chatbot AI sebagai sumber informasi kesehatan semakin banyak diteliti terutama setelah pandemi Covid-19. Chatbot dapat dimanfaatkan untuk menyebarkan informasi ke
Isram Rasal memberikan seminar tentang penggunaan design pattern dalam penulisan ilmiah dan skripsi. Tujuannya adalah agar peserta memahami teori dan manfaat design pattern dalam pembuatan program untuk penelitian. Design pattern digunakan untuk menyelesaikan masalah umum dengan pola tertentu dalam membuat program.
Karya Ilmiah,
dapat di tambahkan dengan api Google Voice.
Untuk aplikasi full dapat mengirim email ke : nico.nandika@gmail.com
dengan menjelaskan di email :
1. Tujuan meminta full aplikasi
2. Nama Anda
3. Background Anda
Variasi teknik dalam pengumpulan data kualitatif cukup banyak, dan semuanya memiliki kegunaan yang berbeda-beda. Memilih teknik yang benar, berarti mampu memilih pisau yang 'pas' untuk memotong buah-buahan.
Diskusi seputar beasiswa dan studi ke luar negeriAnnisa Sarah
油
Dokumen tersebut memberikan informasi mengenai beasiswa dan studi ke luar negeri. Memberikan tips dalam mempersiapkan diri untuk mendaftar beasiswa dan sekolah di luar negeri seperti riset lembaga dan program yang dituju, persiapkan dokumen pendaftaran, ambil keputusan mengenai program dan negara tujuan studi, serta tips dalam menghadapi seleksi administrasi, wawancara, dan LGD untuk beasiswa seperti LPDP. Juga memberikan penj
Bab 3 menjelaskan metode penelitian yang akan digunakan untuk menjawab permasalahan penelitian, meliputi jenis penelitian, teknik pengumpulan data, instrumen penelitian, dan teknik analisis data.
Week 3 Deep Learning And POS Tagging Hands-OnSARCCOM
油
This document discusses deep learning for natural language processing (NLP). It begins with an overview of deep learning and neural networks, including how they can have deep architectures composed of simple building blocks. It then covers word embeddings, which are vector representations of words trained with deep learning that capture the meanings and relationships between words. Finally, it discusses using pre-trained word embeddings as inputs to NLP models and training word embeddings jointly with deep learning models for specific NLP tasks.
Week 2 Sentiment Analysis Using Machine Learning SARCCOM
油
This document provides an overview of sentiment analysis using machine learning. It defines sentiment analysis as detecting polarity within text. It discusses the main tasks as classification of sentiment at the text, token, or aspect level. Supervised learning is most common. The document outlines types of sentiment analysis and gives examples. It also summarizes the machine learning process from data gathering and preprocessing to feature engineering, experimentation, and deployment. Hands-on examples are provided for simple sentiment analysis using a dictionary approach and using machine learning.
By Yunita Anggraeni - Co-Founder & COO Geekhunter | Topic: The secret of Most Wanted Geek
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
By Adam Widi - Data Engineer at WarungPintar | Topic: Data Warehousing Tools On Data Ecosystem
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
By Adam Widi - Data Engineer at WarungPintar | Topic: Data Warehousing Tools On Data Ecosystem
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
More Related Content
Similar to Week 1 Natural Language Processing Introduction (17)
1. Rencana pelaksanaan pembelajaran ini membahas dialog interaktif pada siaran radio atau televisi dengan tujuan membuat kesimpulan isi dialog. 2. Materi pelajaran meliputi contoh naskah dialog, unsur-unsur dialog, dan membuat kesimpulan isi dialog. 3. Metode pembelajaran yang digunakan adalah tanya jawab, diskusi, dan pemodelan.
RENCANA PELAKSANAAN PELAYANAN BIDANG KARIRdihastinee
油
RPP dalam bidang karir untuk menentukan arah dan tujuan karir yang akan dicapai oleh seseorang sehingga dia mempunyai pandangan karir ke depannya akan seperti apa,..
Pemrograman non prosedural adalah paradigma pemrograman yang tidak memerlukan penulisan logika tradisional. Bahasa non prosedural seperti Prolog menentukan 'apa yang akan diselesaikan' daripada 'bagaimana' seperti bahasa prosedural. Prolog populer untuk sistem pakar dan pengenalan pola karena mampu menggunakan penalaran untuk menyelesaikan masalah.
Ini merupakan panduan untuk berkarir di datascience untuk umum. Materi ini saya sampaikan pada acara Data Science for Industry 4.0 Ecosystem, Gemini 2018 pada tanggal 26 Agustus 2018 di Institut Teknologi Adhi Tama Surabaya, Indonesia.
Panduan ini hanya membahas tentang 3 role, yaitu: Data Scientist, Data Engineer dan Business Intelligence. Jika ada pertanyaan, koreksi atau ingin menambahkan panduan untuk role lain bisa kontak saya melalui email: bay@machinelearning.id.
Good Luck ya!
Dokumen tersebut merupakan pengantar pembelajaran mesin yang menjelaskan konsep dasar pembelajaran mesin seperti belajar dari data, algoritma yang digunakan untuk berbagai aplikasi seperti deteksi spam, rekomendasi buku, dan jenis-jenis pembelajaran mesin seperti pembelajaran berbasis konsep, pembelajaran Bayesian, pembelajaran berbasis instance, jaringan saraf, algoritma genetika, dan pembelajaran penguatan.
Maaf, saya tidak bisa langsung menyusun state of the art dalam bentuk tabel karena itu melibatkan penelusuran literatur yang signifikan. Berikut ini saya sampaikan beberapa poin penting yang dapat Anda jadikan bahan untuk menyusun state of the art tersebut:
- Topik adopsi chatbot AI sebagai sumber informasi kesehatan semakin banyak diteliti terutama setelah pandemi Covid-19. Chatbot dapat dimanfaatkan untuk menyebarkan informasi ke
Isram Rasal memberikan seminar tentang penggunaan design pattern dalam penulisan ilmiah dan skripsi. Tujuannya adalah agar peserta memahami teori dan manfaat design pattern dalam pembuatan program untuk penelitian. Design pattern digunakan untuk menyelesaikan masalah umum dengan pola tertentu dalam membuat program.
Karya Ilmiah,
dapat di tambahkan dengan api Google Voice.
Untuk aplikasi full dapat mengirim email ke : nico.nandika@gmail.com
dengan menjelaskan di email :
1. Tujuan meminta full aplikasi
2. Nama Anda
3. Background Anda
Variasi teknik dalam pengumpulan data kualitatif cukup banyak, dan semuanya memiliki kegunaan yang berbeda-beda. Memilih teknik yang benar, berarti mampu memilih pisau yang 'pas' untuk memotong buah-buahan.
Diskusi seputar beasiswa dan studi ke luar negeriAnnisa Sarah
油
Dokumen tersebut memberikan informasi mengenai beasiswa dan studi ke luar negeri. Memberikan tips dalam mempersiapkan diri untuk mendaftar beasiswa dan sekolah di luar negeri seperti riset lembaga dan program yang dituju, persiapkan dokumen pendaftaran, ambil keputusan mengenai program dan negara tujuan studi, serta tips dalam menghadapi seleksi administrasi, wawancara, dan LGD untuk beasiswa seperti LPDP. Juga memberikan penj
Bab 3 menjelaskan metode penelitian yang akan digunakan untuk menjawab permasalahan penelitian, meliputi jenis penelitian, teknik pengumpulan data, instrumen penelitian, dan teknik analisis data.
Week 3 Deep Learning And POS Tagging Hands-OnSARCCOM
油
This document discusses deep learning for natural language processing (NLP). It begins with an overview of deep learning and neural networks, including how they can have deep architectures composed of simple building blocks. It then covers word embeddings, which are vector representations of words trained with deep learning that capture the meanings and relationships between words. Finally, it discusses using pre-trained word embeddings as inputs to NLP models and training word embeddings jointly with deep learning models for specific NLP tasks.
Week 2 Sentiment Analysis Using Machine Learning SARCCOM
油
This document provides an overview of sentiment analysis using machine learning. It defines sentiment analysis as detecting polarity within text. It discusses the main tasks as classification of sentiment at the text, token, or aspect level. Supervised learning is most common. The document outlines types of sentiment analysis and gives examples. It also summarizes the machine learning process from data gathering and preprocessing to feature engineering, experimentation, and deployment. Hands-on examples are provided for simple sentiment analysis using a dictionary approach and using machine learning.
By Yunita Anggraeni - Co-Founder & COO Geekhunter | Topic: The secret of Most Wanted Geek
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
By Adam Widi - Data Engineer at WarungPintar | Topic: Data Warehousing Tools On Data Ecosystem
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
By Adam Widi - Data Engineer at WarungPintar | Topic: Data Warehousing Tools On Data Ecosystem
Presented in SARCCOM Meetup
With theme "Defining Your Future In Tech"
In 29 February 2020
At Block71 Bandung
Startup Engineering Culture
by Ifnu Bima, Head of Product at BBM
Engineering Excellence!
22-Jan-2019 18:00-21:00
@ PRASMUL University Prasetiya Mulya University, Campus Cilandak Cilandak Barat, RT.14/RW.6, Jl. R.A.Kartini, RT.14/RW.6, Cilandak
Organizer by Software Architect Indonesia Community (SARCCOM)
https://sarccom.org
SARCCOM https://sarccom.org
Requirement is specifications that should be implemented on development. It is the main object of Business Analysis job. IT Business Analysis working around requirement engineering to ensure the delivery of a good piece of software. When talking or gathering requirements, please keep this quote in mind:
Well defined requirements drive well designed architecture
Good architecture is a beginning of a good software.
How To Rearchitecting Legacy System
Meetup By Software Architect Indonesia Community https://www.meetup.com/Software-Architect-Indonesia/events/246479075/?_cookie-check=DrXW508tQr2LKtBD
Speaker: Moch Nasrullah Rahmani
BBM Engineer
Take care of the people, the products,
and the profits: in that order.
Architecting for Huper Growth and Great Engineering CultureSARCCOM
油
Architecting for Huper Growth and Great Engineering Culture
by Ifnu Bima
@SARCCOM MEETUP
http://sarccom.org
https://www.meetup.com/Software-Architect-Indonesia
6. NLP?
News Classi鍖cation
News classi鍖cation
mengelompokkan artikel
berdasarkan topik tertentu.
Mengelompokkan berdasarkan
judul dan/atau konten berita.
Pembaca berita mudah memilih
topik yang diminati.
6
7. NLP?
Email Classi鍖cation
Email classi鍖cation mengelompokkan
email ke dalam kategori.
Pembaca mudah membuka email
dengan kategori yang dibutuhkan.
7
9. NLP?
Rude Word Sensor
Rude Word Sensor mem鍖lter kata
kasar yang mengganggu pengguna lain.
9
10. NLP?
Sentiment Analysis
Sentiment Analysis untuk
mendeteksi sentimen.
Untuk memonitor opini &
menangkap respon masyarakat
terhadap produk.
10
SENTIMENT NETRAL
Buat yang ingin mendapatkan bantuan kuota internet gratis, silahkan baca blog
post berikut, yaa https://t.co/p7PG1KC6aZ #KuotaGratissmartfren
#SmartfrenCommunity #KuotaNonstop #AntiPutusNyambung Terus
SENTIMENT POSITIF & NEGATIF
Alhamdulillah paket bantuan kuota sudah datang. Tapii, agak aneeh. Kok masa
aktifnya nol hari ini? Jadi harus beli pulsa dulu baru bisa dipake doong, terus
pulsanya abis di akhir bulan gegera o鍖side pake kuota
11. NLP?
Chatbot
Chatbot untuk berdialog
antar pengguna dan chat
agent
NLP pada Chatbot untuk
memahami maksud dialog
dan memberikan respon
11
Chatbot Prosa.ai
12. NLP?
Autocomplete, Autocorrect, & Spell Checker
Autocorrect Grammar
Autocomplete
Spell Checker
Autocomplete, autocorrect, &
spell checker sebagai asisten
pengguna saat menulis.
Memberikan rekomendasi tulisan
yang dapat ditulis oleh pengguna.
12
13. NLP?
Speech to Text (STT) & Text to Speech (TTS)
Speech to Text Text to Speech
Speech to Text
STT/Automatic Speech Recognition &
TTS mengkonversi bahasa alami dari
satu bentuk ke bentuk lainnya.
Tantangan TTS: intonasi, pemenggalan
kata, emosi, dsb
Tantangan STT: noise, aksen/logat,
suara lebih dari 1 orang, dsb
13
14. NLP?
Question Answering
Question Answering
memprediksi jawaban
atas pertanyaan dari
teks.
Sumber: Building a Question-Answering System from Scratch
14
15. Natural Language Processing
(NLP) is a tract of Arti鍖cial
Intelligence and Linguistics,
devoted to make computers
understand the statements
or words written in human
languages.
- Khurana, Diksha, dkk (2017)[2]
Natural Language Processing
(NLP) as an area of research
and application that explores
how computers can be used
to understand and
manipulate natural
language text or speech to
do useful things.
- Joseph, R. Sethunya, dkk (2016)[1]
sumber: [1] paper 1 & [2] paper 2
16. 2010s
- MT menggunakan NMT
- Amazon Alexa, Siri
2000s
- Google Translate
(statistic-based/SMT)
1990s
- Dragon: software ASR
- Statistical NLP
1980s
- Boneka Julie
- Jabberwacky
1970s
- Riset Speech
Understanding (DARPA)
1960s
- IBM Shoebox
- Eliza
Brief History of NLP
16
1950s
- Teori dasar: automata
- 1st Computer Based TTS
Teori AutomataIBM Shoebox
ELIZA
Julie Doll
Dragon Dictate
Google Translate
Amazon Alexa
19. NLP Task Classi鍖cation (cont.)
sumber: Natural Language Processing: State of The
Art, Current Trends and Challenges 19
20. NLP Task Classi鍖cation (cont.)
Natural Language Understanding:
Phonology: suara
Morphology: pembentukan kata
Syntax: struktur kalimat
Semantic dan pragmatic: arti
Natural Language Generation untuk menghasilkan natural
language text (frasa, kalimat dan paragraf)
20
22. Syntax Analysis
menganalisa dan dekomposisi struktur kalimat.
Contoh syntax analysis task:
a. Tokenizer, Lemmatizer, Stemmer
Tokenizer: memecah kalimat menjadi token/kata
Lemmatizer: menentukan kata dasar dengan mencari lemma word
Stemmer: menentukan kata dasar dengan membuang imbuhan
22
24. Syntax Analysis (cont.)
b. Part of Speech Tagger (POS Tagger)
pengkategorian tiap kata ke dalam POS tag
Salah satu POS: Penn Treebank POS.
Tag Description
NN Noun, singular or
mass
VB Verb, base form
VBD Verb, past tense
RB Adverb
JJ Adjective
Beberapa Contoh Tag
pada Penn Treebank POS
24
25. Syntax Analysis (cont.)
b. Part of Speech Tagger (POS Tagger) (cont.)
POS Tag untuk:
mencari kata dasar pada lemmatizer
mengekstrak tag yang tidak penting (eg. tag conjunction dibuang).
25
26. Syntax Analysis (cont.)
b. Part of Speech Tagger (POS Tagger) (cont.)
Contoh kalimat:
Adik membeli permen banyak sekali.
Hasil POS Tag:
{Adik NN, membeli VB, permen NN, banyak JJ}
26
27. Syntax Analysis (cont.)
c. Constituent Parser & Dependency Parser
Constituent Parser
untuk menampilkan struktur sintaksis kalimat.
Dependency Parser
untuk menampilkan hubungan ketergantungan antar kata.
27
29. Syntax Analysis (cont.)
c. Constituent Parser & Dependency Parser (cont.)
Kegunaan:
Constituent Parser
memahami grammar dari kalimat
Mengekstrak frasa pada kalimat
Dependency Parser
Ekstraksi kata negasi
membantu implementasi Question & Answering
memahami kalimat free word order languages eg. Latin
29
30. Text Classi鍖cation
Untuk meng-assign teks ke kategori tertentu.
Teks sudah dilabeli
Output kelas.
Contoh task:
News Classi鍖cation: Sport, Health, Finance, Politics, Technology
Hate Speech Detection: Yes, No
Plagiarism Detection: Yes, No
Hoax News Detection: Yes, No
Sentiment Classi鍖cation: Positive, Negative, Neutral
30
31. Topic Detection
Untuk mendeteksi topik pada teks
Contoh topic detection task:
a. Keyword detection
Untuk mendapatkan kata kunci penting
Contoh keyword detection:
Tahun lalu adalah tahun yang mengesankan untukku
karena aku diajak berlibur setiap ada liburan panjang.
Keyword yang didapat:
Tahun lalu, liburan, mengesankan
31
32. Topic Detection (cont.)
a. Keyword detection (cont.)
sumber: Contoh Teks Berita Singkat
Keyword yang didapat:
Kabut asap,
Palangkaraya, pekat,
kebakaran lahan
gambut, sesak nafas,
jarak pandangan
terbatas
Contoh lain: pencarian keyword pada berita.
32
33. Topic Detection (cont.)
b. Topic Modelling
Untuk mendeteksi topik dari sekumpulan teks.
teks belum dilabeli.
Salah satu teknik untuk menyelesaikan task ini adalah Latent Dirichlet
Allocation (LDA).
33
34. Information Extraction
Untuk mengekstrak informasi dari teks.
Contoh Information Extraction task:
a. Transformasi informasi yang tidak terstruktur (teks) menjadi
terstruktur
Informasi penting dari teks diekstrak menjadi format terstruktur
(eg. tabel atau json)
34
35. Information Extraction (cont.)
a. Transformasi informasi yang tidak terstruktur (teks) menjadi terstruktur (cont.)
Contoh informasi
tidak terstruktur:
... ... ... ....
.... ... ... ...
sumber: Pemerintah indonesia
himbau masyarakat berhati
Contoh hasil transformasi menjadi
informasi terstruktur:
35
36. Information Extraction (cont.)
b. Named Entity Recognizer (NER)
Untuk mengkategorikan entitas bernama.
Untuk mendeteksi nama orang, nama tempat, dsb
Contoh NER:
sumber: Gambar NER
36
37. Information Extraction (cont.)
b. Named Entity Recognizer (NER) (cont.)
Contoh pengaplikasian NER:
Question & Answering
- mencari jawaban relevan.
- Contoh: pertanyaan Kapan? jawabannya NE waktu.
News Classi鍖cation
- mencari topik paling relevan untuk berita.
- Contoh: NE Lionel Messi pada teks, probabilitas topik paling
tinggi adalah Sports.
37
38. Information Extraction (cont.)
Apa yang terjadi (What) ? Banjir
Siapa yang terlibat (Who)? Warga dan
Siswa Sekolah
Dimana peristiwa terjadi (Where)?
Rangkasbitung, Lebak Banten
Kapan terjadi (When)? Sabtu sore
Kenapa peristiwa tersebut terjadi (Why)?
Karena hujan deras selama 3 hari
Bagaimana peristiwa terjadi (How)?
hujan deras 3 hari membuat banjir tinggi
sehingga siswa harus menerjang banjir.
sumber: Contoh Teks Berita Singkat
c. Ekstraksi Teks Berita 5W1H
38
39. Information Extraction (cont.)
d. Quotation Extraction
Mendapatkan informasi kutipan dan penulis/pembicara kutipan.
Contoh kalimat:
Nelson Mandela berkata It always seems impossible until it's done.
Hasil yang didapatkan:
Penulis/pembicara: Nelson Mandela
Kutipan: It always seems impossible until it's done.
39
41. Word Normalization
Normalisasi kalimat tidak standar menjadi standar.
Bentuk tidak standar seperti:
kata yang disingkat: km kamu, aq aku, s7 setuju
kata tidak baku yang sering dianggap baku: jaman zaman
slang word: gokil gila, bokap ayah
Contoh word normalization:
udah mkn blm? sudah makan belum?
41
42. Summarization
Untuk meringkas teks.
Bentuk summarization:
1 dokumen menjadi teks ringkas
Multi dokumen menjadi 1 teks.
1 dokumen menjadi 1 teks Multi dokumen menjadi 1 teks
42
43. Summarization (cont.)
2 jenis summarization:
a. Ekstraktif
Disusun dari kalimat paling informatif pada teks.
b. Abstraktif
Disusun sesuai semantik dari teks.
Lebih sulit diterapkan dibandingkan ekstraktif.
43
44. Text Generator
Membentuk teks berdasarkan input (eg. kata/kalimat singkat).
Contoh artikel AI generator artikel: https://notrealnews.net/.
Contoh Teks Generator:
Mengenerate artikel dari data prakiraan cuaca
Menggunakan http://ai-writer.com/.
Input:
Jakarta, Forecast, Light Rain, 23 November 2020
44
46. Paraphrase
Untuk mengubah teks menjadi teks lain dengan gaya penulisan berbeda
dengan arti yang sama.
Contoh parafrase:
Tulisan formal informal
Gaya penulisan perempuan gaya penulisan laki-laki
Tulisan ilmiah tulisan dengan kalimat simpel (simpli鍖kasi kata)
46
47. Paraphrase (cont.)
Contoh paraphrase menggunakan http://ai-writer.com/.
Kalimat dari Wikipedia yang akan diparaphrase:
Hasil paraphrase:
47
49. Machine Translation
Untuk menerjemahkan teks ke bahasa lain
Cara membangun Machine Translation:
rule based (RBMT), statistical (SMT), dan neural network (NMT).
Contoh Machine Translation:
49
51. Conversational Agent
Conversational Agent (CA)/Dialogue System
untuk bercakap-cakap antar manusia dan agen
Contoh: Siri, Cortana, Amazon Alexa
51
Siri
Sumber: Introduction - Siri -
Human Interface Guidelines
Amazon Speaker with Alexa
Sumber: Amazon Amazon Echo
Dot 3rd Gen Anthracite Black -
Smart Speaker Alexa
52. Conversational Agent (cont.)
Representasi
menerima
sinyal suara
menyampaikan
informasi
memproses
informasi
menyampaikan
informasi
mengutarakan dalam
sinyal suara
sinyal
suara
rangkaian
kata
rangkaian
kata
sinyal
suara
Informasi
Pemrosesan
bahasa
Automatic Speech
Recognition (ASR)
Natural Language
Understanding (NLU)
Natural Language
Generation (NLG)
Speech Synthesis
(TTS)
Dialogue Management
(DM)
Komponen Dialog
Sistem
52
53. Conversational Agent (cont.)
Komponen Conversational Agent:
Automatic Speech Recognition/STT: mengkonversi sinyal suara menjadi
teks (rangkaian kata)
NLU: memahami informasi dari rangkaian kata yang dikatakan speaker
Dialogue Management: memproses informasi
NLG: merangkai kata agar agent dapat menyampaikan informasi ke
speaker
TTS: rangkaian kata (teks) dikonversi menjadi sinyal suara untuk diucapkan
oleh agent
53
55. - Ambigu (at all levels)
Lexical (words meaning)
Kemarin dia datang memberi tahu.
Syntactic
Cahyo mengejar anak itu dengan mobil sedan.
Semantic
John berlibur dengan istrinya, begitu juga Sam.
Challenges in NLP
55
56. Challenges in NLP
- Ambigu (at all levels)
Pragmatic
Jam berapa sekarang?
artinya bisa 2:
- menanyakan jam (arti sebenarnya)
- menyindir/marah karena orang lain terlambat
Pak, saya izin untuk kebelakang.
artinya bisa 2:
- ke bagian belakang (arti sebenarnya)
- kamar mandi/toilet
56
57. Challenges in NLP
- Ambigu
Multiword expression
Jalan: Tempat lalu lintas orang (kendaraan dsb)
Tikus: hewan pengerat; hama berbulu berekor panjang
Jalan tikus: jalan tembus/jalannya tikus
57
58. Challenges in NLP
- Bahasa yang berkembang
Kata baru pada KBBI:
daring, luring, gawai, swafoto, warganet, tetikus,
pramusiwi, pratayang, komedi tunggal, dst
Slang words
Mantul, baper, mager, galau, woles
Multi-language
- Oh my God, dia cantik banget
- Nanti nek misale Pak Roni udah nyampe, kamu
kabari aku ya
58
59. Challenges in NLP
- Bahasa yang kompleks
Containing hidden variables
contoh: Human knowledge
Pagi == setelah matahari terbit dan sebelum jam 12 siang
Jumlah kata banyak sekali (seems in鍖nite)
- Banyak kata, arti, dan konteks
- Mungkin ada kata yang tidak pernah ditemui
59
61. Why Text Needs to be Processed?
61
semakin panjang teks, kata semakin banyak.
semakin banyak kata yang diproses, proses semakin berat dan lama.
62. Why Text Needs to be Processed?
Zipf Law:
jumlah kata berbanding terbalik dengan ranking kemunculan kata.
Dari n-top words, ternyata mayoritas kata insigni鍖kan
62sumber: Top hundred words zipf law
63. 63
Basic Text Cleaning Pipeline
Raw Text Tokenization
Text Cleaning
POS Tag
Stopwords
Lemmatization/S
temming
Cleaned
Text
64. Text Cleaning Pipeline
1. Tokenizer
Memecah kalimat menjadi token/kata
Sentence Segmentation: Pemenggalan per kalimat
2. Text Cleaning
Jarang mendapatkan data bersih perlu dibersihkan
Cara membersihkan:
menghapus tag HTML, tanda baca, whitespaces, URL, dsb.
Tujuan: pemrosesan lebih cepat
64
65. Text Cleaning Pipeline
3. POS Tag
Pelabelan tiap kata ke dalam POS tag
Untuk Lemmatization atau membuang tag insigni鍖kan
4. Stopwords
Stopwords: token dengan arti insigni鍖kan
Contoh: konjungsi, partikel, determiner.
Tujuan:
- pemrosesan lebih cepat
- kata insigni鍖kan tidak mengganggu pengambilan informasi
65
66. Text Cleaning Pipeline
4. Stopwords (cont.)
Kata insigni鍖kan tidak mengganggu pengambilan informasi maksudnya:
Merujuk ke gambar Zipf Law
66
top n kata banyak berisikan stopword
Jika tidak dibuang, keyword penting
tenggelam
karena ranking atas diduduki oleh
stopword yang insigni鍖kan artinya.
sumber: Top hundred words zipf law
67. Text Cleaning Pipeline
5. Lemmatization/Stemming
Mengubah in鍖ected word menjadi bentuk dasar
Tujuan: representasi kata in鍖ected dan kata dasar tidak dianggap
berbeda
67
68. After Cleaning Text
Salah satu cara penyelesaian task dengan machine learning.
Machine learning hanya menerima tipe numerik
Teks perlu diubah menjadi tipe numerik
68
69. Converting Text to Vector
Konversi teks ke vektor: (paling sederhana)
Bag of Words
- Tiap kata disimpan dalam kantong berbeda
- Nilai yang disimpan dalam kantong: frekuensi kemunculan kata
69
70. Converting Text to Vector
Bag of Words (cont.)
Contoh kalimat:
Review 1: This movie is very scary and long
Review 2: This movie is not scary and is slow
70
Vektor yang terbentuk:
Vector Review 1: [1 1 1 1 1 1 1 0 0 0 0]
Vector Review 2: [1 1 2 0 0 1 1 0 1 0 0]
sumber: BoW Model and TF-IDF For
Creating Feature From Text
71. Converting Text to Vector
Bag of Words (cont.)
- Mudah diimplementasi dan dipahami
- Drawback BOW:
Kalimat baru vocab bertambah vektor memanjang
Hasil sparse matrix yang high computation cost
Tidak menyimpan informasi grammar/urutan kata
71
73. NLTK Toolkit
73
NLTK untuk Pemrosesan NLP
seperti Tokenization dan
Sentiment Analysis
Spacy untuk Pemrosesan NLP
seperti syntactic parser, NER,
dan Displacy visualization
Gensim untuk pemrosesan
NLP seperti word2vec
Stanford NLP untuk Pemrosesan
NLP seperti Named Entity
Extraction bahasa Ibrani, Arab, dll
Allen NLP untuk memudahkan
pembangunan model NLP
Flair untuk pemrosesan NLP seperti
pretrained model
74. NLTK Toolkit
74
Datasaur.ai untuk labeling
data
Sastrawi untuk stemming
Bahasa Indonesia
Prosa.ai menyediakan
berbagai macam API
pemrosesan NLP Bahasa
Indonesia
75. Prosa.ai API
API gratis 1.000 call per bulan.
Dapat diakses di console.prosa.ai
Banyak API tersedia, ada API khusus NLP & vision.
API Prosa.ai NLP:
Syntactic Analyzer
Word Normalizer
Named Entities Extractor
Hate Speech Detector
dsb
75
76. Prosa.ai API
Secret key didapatkan ketika
membuat akun untuk
pemanggilan API.
udah mkn blm? sudah makan belum?
76