ݺߣ

ݺߣShare a Scribd company logo
BAYESÇİ AĞLARLA DUYGU ANALİZİ
SONER ÇAKAL
TEZİN İÇERİĞİ
 METİN MADENCİLİĞİ-DUYGU ANALİZİ
 BAYESÇİ AĞLAR
 TREE AUGMENTED NAIVE BAYES
 NAIVE BAYES
 UYGULAMA
METİN MADENCİLİĞİ
 Metin madenciliği metinlerden anlamlı bilgi
çıkarımıdır.
 Metin sayısal hale getirilir.
 Sayısal hale gelen veri anlamlandırılır.
 Veriler sayısal hale geldikten sonra klasik veri
madenciliği yöntemleri uygulanabilir.
 Bilginin içindeki desenleri keşfetmek, bilgiyi analiz
etmek metin madenciliğinin konusudur.
 METİN MADENCİLİĞİ KULLANIM ALANLARI
 Akademik
makaleler
 Müşteri
yorumları
 E-mailler
 Soru
cevaplama
 Web
 Sosyal medya
 Duygu analizi
 Konu çıkarımı
 Özetleme
 Yazar tanıma
DUYGU ANALİZİ
 Sentiment analizi, sentiment sınıflandırma, fikir
madenciliği, öznel analiz, görüş madenciliği olarak
da bilinir.
 Müşteri görüş ve yorumları toplanır.
 Veri işlemede kullanılır.
 Şikayetvar, sözlükler
 Duygu analizi ile veriler nötr, negatif ve pozitif olarak
işlenir.Böylece genel bir yorum elde edilir.
 Duygu analizi için;
 Destek vektör makineleri, yapay sinir ağları, karar
ağaçları, olasılıksal ağlar, rasgele orman duygu
analizi için kullanılabilir.
METİN ÖZELLİK GÖSTERİMİ
 BOW,,TF-IDF
 POS
 DUYGU KELİMELERİ
 OLUMSUZLUK İFADELERİ
 En uygun özellik, deneysel çalışmalar yapılarak
bulunur.
 Sık geçen kelime filtreleme, durdurma ifadelerinin
kaldırılması,kelimelerin büyük küçük harf dönüşümü
yapılması.
METİN ÖZELLİK SEÇİMİ
 Gereksiz ve amaca hizmet etmeyen özelliklerin
elenmesi sürecidir.
 Performansı geliştirmek, öğrenmeyi geliştirmek,
minimum bilgi kaybı ile hızlı işlem yaptırmak,
karmaşıklığı azaltmak.
 Filtreleme, yüksek skorluları seçmek.
 Terim sıklığı, eşli bilgi, bilgi edinimi , ki kare istatistiği
vb
 Bilgi edinimi yüksek olan değerler özellik olarak
kullanılır.
BAYESÇİ AĞLAR
 Değişkenler arasındaki ilişkileri gösteren olasılıksal
grafiklerdir.
 Uzman görüşü, veriden ve hem uzman görüşü
hemde veriden hareketle bayesçi ağ oluşturulabilir.
 Yapı öğrenme, parametre öğrenme.
Naive Bayes
Tree Augmented Naive Bayes
TEZİN AMACI
 Türkçe duygu analizi için TAN yöntemini uygulamak,
NB yöntemi ile karşılaştırmak.
 Bazı filtreleme işlemleri uygulayarak performansı
ölçmek.
 NB ve TAN yönteminin duygu analizi performansını
ölçmek.
UYGULAMA
 5 adet mobil uygulama verisinden
oluşmaktadır.İçerik olarak yorumlar, verdiği
yıldız,firma etkisi kullanılmıştır.
 1 nisan ile 07 nisan arasındaki veriler kullanılmıştır.
 Play.google.com internet sitesinden veriler elde
edilmiştir.
 1598 veriden oluşmuştur.
SENTİMENT DAĞILIMI
SENTİMENT TOPLAM YÜZDE
Negatif 346 21,65207
Nötr 91 5,694618
Pozitif 1161 72,65332
Genel Toplam 1598 100
Bayesçi ağlar
DEĞİŞKENLER
KELİME DEĞİŞKEN İSMİ SAYI
. B1 310
uygulama B4 230
bir B70 207
Çok B14 151
Güzel B3 144
iyi B12 142
ve B282 135
güzel B15 134
çok B98 101
Süper B69 96
Harika B299 89
daha B114 82
kolay B297 67
Guzel B597 65
yok B83 60
bi B16 58
bu B34 57
ederim B59 50
guzel B554 47
Cok B291 45
cok B113 44
Değişken sayıları
ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI
UNİGRAM YOK 4362
UNİGRAM 3 SIKLIKTAN BÜYÜK 715
UNİGRAM 5 SIKLIKTAN BÜYÜK 300
UNİGRAM BİLGİ ÇIKARIMI 41
UNİGRAM 10-100 SIKLIK 153
UNİGRAM 2 SIKLIKTAN BÜYÜK 1217
ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI
2-gram 3 sıklıktan büyük 265
2-gram 5 sıklıktan büyük 98
2-gram yok 8964
Bayesçi ağlar
Unigram ve 2gram performanslarının karşılaştırılması
YÖNTEM
ADI
ÖN İŞLEME BAŞARI FİRMA
ETKİSİ
ÖZELLİK
TÜRÜ
YILDIZ
ETKİSİ
GRAM
SAYILARI
TAN 3 SIKLIKTAN
BÜYÜK
88 YOK unigram YOK 715
NB 3 SIKLIKTAN
BÜYÜK
84,4 YOK unigram YOK 715
NB 3 SIKLIKTAN
BÜYÜK
78,2 YOK 2 -gram YOK 265
TAN 3 SIKLIKTAN
BÜYÜK
77,9 YOK 2 -gram YOK 265
TAN 5 SIKLIKTAN
BÜYÜK
85,4 YOK unigram YOK 300
NB 5 SIKLIKTAN
BÜYÜK
83,9 YOK unigram YOK 300
NB 5 SIKLIKTAN
BÜYÜK
75,7 YOK 2-gram YOK 98
TAN 5 SIKLIKTAN
BÜYÜK
75,3 YOK 2-gram YOK 98
Firma etkisnin ve yıldız etkisiyle analiz sonuçları
YÖNTEM
ADI
TERİMLER BAŞARI FİRMA
ETKİSİ
GRAM YILDIZ
ETKİSİ
GRAM
SAYILARI
TAN 3 SIKLIKTAN
BÜYÜK
90,2 VAR 2 gram VAR 265
NB 3 SIKLIKTAN
BÜYÜK
89,6 VAR 2 gram VAR 265
TAN 3 SIKLIKTAN
BÜYÜK
93,4 VAR unigram VAR 715
NB 3 SIKLIKTAN
BÜYÜK
88,9 VAR unigram VAR 715
TAN 5 SIKLIKTAN
BÜYÜK
90,3 VAR 2 gram VAR 98
NB 5 SIKLIKTAN
BÜYÜK
90,1 VAR 2 gram VAR 98
TAN 5 SIKLIKTAN
BÜYÜK
91,7 VAR unigram VAR 300
NB 5 SIKLIKTAN
BÜYÜK
89,7 VAR unigram VAR 300
TAN 1 SIKLIKTAN
BÜYÜK
93,3 VAR unigram VAR 1217
NB 1 SIKLIKTAN
BÜYÜK
88 VAR unigram VAR 1217
TAN 10-100
SIKLIK
90 VAR unigram VAR 153
NB 10-100
SIKLIK
89 VAR unigram VAR 153
TAN VE NB SINIFLANDIRMA KARŞILAŞTIRMASI
TP FP TN FN RECALL PRECİSİ
ON
SENSİVİ
TY
SPECİFİ
TY
F
MEASUR
E
TAN Pozitif 1145 46 391 16 0,99 0,96 0,99 0,89 0,97
Negatif 319 49 1203 27 0,92 0,87 0,92 0,96 0,89
Nötr 30 9 1498 61 0,33 0,77 0,33 0,99 0,46
NB Pozitif 1122 67 370 39 0,97 0,94 0,97 0,85 0,95
Negatif 304 67 1185 42 0,88 0,82 0,88 0,95 0,85
Nötr 14 24 1483 77 0,15 0,37 0,15 0,98 0,22
SONUÇLAR
 TAN yöntemi türkçe duygu analizi için kullanılabilir.
 TAN yönteminde filtreleme işlemi sınıflandırma
başarısını arttırmıştır.
 Unigram kullanmak daha başarılı sonuçlar vermiştir.
 Bilgi çıkarımı değişken sayısını azaltmış ve analizin
hızını arttırmıştır.
 TAN yöntemi NB yöntemine göre başarılı sonuçlar
vermiştir.

More Related Content

Bayesçi ağlar

  • 1. BAYESÇİ AĞLARLA DUYGU ANALİZİ SONER ÇAKAL
  • 2. TEZİN İÇERİĞİ  METİN MADENCİLİĞİ-DUYGU ANALİZİ  BAYESÇİ AĞLAR  TREE AUGMENTED NAIVE BAYES  NAIVE BAYES  UYGULAMA
  • 3. METİN MADENCİLİĞİ  Metin madenciliği metinlerden anlamlı bilgi çıkarımıdır.  Metin sayısal hale getirilir.  Sayısal hale gelen veri anlamlandırılır.  Veriler sayısal hale geldikten sonra klasik veri madenciliği yöntemleri uygulanabilir.  Bilginin içindeki desenleri keşfetmek, bilgiyi analiz etmek metin madenciliğinin konusudur.
  • 4.  METİN MADENCİLİĞİ KULLANIM ALANLARI  Akademik makaleler  Müşteri yorumları  E-mailler  Soru cevaplama  Web  Sosyal medya  Duygu analizi  Konu çıkarımı  Özetleme  Yazar tanıma
  • 5. DUYGU ANALİZİ  Sentiment analizi, sentiment sınıflandırma, fikir madenciliği, öznel analiz, görüş madenciliği olarak da bilinir.  Müşteri görüş ve yorumları toplanır.  Veri işlemede kullanılır.  Şikayetvar, sözlükler  Duygu analizi ile veriler nötr, negatif ve pozitif olarak işlenir.Böylece genel bir yorum elde edilir.  Duygu analizi için;  Destek vektör makineleri, yapay sinir ağları, karar ağaçları, olasılıksal ağlar, rasgele orman duygu analizi için kullanılabilir.
  • 6. METİN ÖZELLİK GÖSTERİMİ  BOW,,TF-IDF  POS  DUYGU KELİMELERİ  OLUMSUZLUK İFADELERİ  En uygun özellik, deneysel çalışmalar yapılarak bulunur.  Sık geçen kelime filtreleme, durdurma ifadelerinin kaldırılması,kelimelerin büyük küçük harf dönüşümü yapılması.
  • 7. METİN ÖZELLİK SEÇİMİ  Gereksiz ve amaca hizmet etmeyen özelliklerin elenmesi sürecidir.  Performansı geliştirmek, öğrenmeyi geliştirmek, minimum bilgi kaybı ile hızlı işlem yaptırmak, karmaşıklığı azaltmak.  Filtreleme, yüksek skorluları seçmek.  Terim sıklığı, eşli bilgi, bilgi edinimi , ki kare istatistiği vb  Bilgi edinimi yüksek olan değerler özellik olarak kullanılır.
  • 8. BAYESÇİ AĞLAR  Değişkenler arasındaki ilişkileri gösteren olasılıksal grafiklerdir.  Uzman görüşü, veriden ve hem uzman görüşü hemde veriden hareketle bayesçi ağ oluşturulabilir.  Yapı öğrenme, parametre öğrenme.
  • 11. TEZİN AMACI  Türkçe duygu analizi için TAN yöntemini uygulamak, NB yöntemi ile karşılaştırmak.  Bazı filtreleme işlemleri uygulayarak performansı ölçmek.  NB ve TAN yönteminin duygu analizi performansını ölçmek.
  • 12. UYGULAMA  5 adet mobil uygulama verisinden oluşmaktadır.İçerik olarak yorumlar, verdiği yıldız,firma etkisi kullanılmıştır.  1 nisan ile 07 nisan arasındaki veriler kullanılmıştır.  Play.google.com internet sitesinden veriler elde edilmiştir.  1598 veriden oluşmuştur.
  • 13. SENTİMENT DAĞILIMI SENTİMENT TOPLAM YÜZDE Negatif 346 21,65207 Nötr 91 5,694618 Pozitif 1161 72,65332 Genel Toplam 1598 100
  • 15. DEĞİŞKENLER KELİME DEĞİŞKEN İSMİ SAYI . B1 310 uygulama B4 230 bir B70 207 Çok B14 151 Güzel B3 144 iyi B12 142 ve B282 135 güzel B15 134 çok B98 101 Süper B69 96 Harika B299 89 daha B114 82 kolay B297 67 Guzel B597 65 yok B83 60 bi B16 58 bu B34 57 ederim B59 50 guzel B554 47 Cok B291 45 cok B113 44
  • 16. Değişken sayıları ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI UNİGRAM YOK 4362 UNİGRAM 3 SIKLIKTAN BÜYÜK 715 UNİGRAM 5 SIKLIKTAN BÜYÜK 300 UNİGRAM BİLGİ ÇIKARIMI 41 UNİGRAM 10-100 SIKLIK 153 UNİGRAM 2 SIKLIKTAN BÜYÜK 1217
  • 17. ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI 2-gram 3 sıklıktan büyük 265 2-gram 5 sıklıktan büyük 98 2-gram yok 8964
  • 19. Unigram ve 2gram performanslarının karşılaştırılması YÖNTEM ADI ÖN İŞLEME BAŞARI FİRMA ETKİSİ ÖZELLİK TÜRÜ YILDIZ ETKİSİ GRAM SAYILARI TAN 3 SIKLIKTAN BÜYÜK 88 YOK unigram YOK 715 NB 3 SIKLIKTAN BÜYÜK 84,4 YOK unigram YOK 715 NB 3 SIKLIKTAN BÜYÜK 78,2 YOK 2 -gram YOK 265 TAN 3 SIKLIKTAN BÜYÜK 77,9 YOK 2 -gram YOK 265 TAN 5 SIKLIKTAN BÜYÜK 85,4 YOK unigram YOK 300 NB 5 SIKLIKTAN BÜYÜK 83,9 YOK unigram YOK 300 NB 5 SIKLIKTAN BÜYÜK 75,7 YOK 2-gram YOK 98 TAN 5 SIKLIKTAN BÜYÜK 75,3 YOK 2-gram YOK 98
  • 20. Firma etkisnin ve yıldız etkisiyle analiz sonuçları YÖNTEM ADI TERİMLER BAŞARI FİRMA ETKİSİ GRAM YILDIZ ETKİSİ GRAM SAYILARI TAN 3 SIKLIKTAN BÜYÜK 90,2 VAR 2 gram VAR 265 NB 3 SIKLIKTAN BÜYÜK 89,6 VAR 2 gram VAR 265 TAN 3 SIKLIKTAN BÜYÜK 93,4 VAR unigram VAR 715 NB 3 SIKLIKTAN BÜYÜK 88,9 VAR unigram VAR 715 TAN 5 SIKLIKTAN BÜYÜK 90,3 VAR 2 gram VAR 98 NB 5 SIKLIKTAN BÜYÜK 90,1 VAR 2 gram VAR 98 TAN 5 SIKLIKTAN BÜYÜK 91,7 VAR unigram VAR 300 NB 5 SIKLIKTAN BÜYÜK 89,7 VAR unigram VAR 300 TAN 1 SIKLIKTAN BÜYÜK 93,3 VAR unigram VAR 1217 NB 1 SIKLIKTAN BÜYÜK 88 VAR unigram VAR 1217 TAN 10-100 SIKLIK 90 VAR unigram VAR 153 NB 10-100 SIKLIK 89 VAR unigram VAR 153
  • 21. TAN VE NB SINIFLANDIRMA KARŞILAŞTIRMASI TP FP TN FN RECALL PRECİSİ ON SENSİVİ TY SPECİFİ TY F MEASUR E TAN Pozitif 1145 46 391 16 0,99 0,96 0,99 0,89 0,97 Negatif 319 49 1203 27 0,92 0,87 0,92 0,96 0,89 Nötr 30 9 1498 61 0,33 0,77 0,33 0,99 0,46 NB Pozitif 1122 67 370 39 0,97 0,94 0,97 0,85 0,95 Negatif 304 67 1185 42 0,88 0,82 0,88 0,95 0,85 Nötr 14 24 1483 77 0,15 0,37 0,15 0,98 0,22
  • 22. SONUÇLAR  TAN yöntemi türkçe duygu analizi için kullanılabilir.  TAN yönteminde filtreleme işlemi sınıflandırma başarısını arttırmıştır.  Unigram kullanmak daha başarılı sonuçlar vermiştir.  Bilgi çıkarımı değişken sayısını azaltmış ve analizin hızını arttırmıştır.  TAN yöntemi NB yöntemine göre başarılı sonuçlar vermiştir.