2. TEZİN İÇERİĞİ
METİN MADENCİLİĞİ-DUYGU ANALİZİ
BAYESÇİ AĞLAR
TREE AUGMENTED NAIVE BAYES
NAIVE BAYES
UYGULAMA
3. METİN MADENCİLİĞİ
Metin madenciliği metinlerden anlamlı bilgi
çıkarımıdır.
Metin sayısal hale getirilir.
Sayısal hale gelen veri anlamlandırılır.
Veriler sayısal hale geldikten sonra klasik veri
madenciliği yöntemleri uygulanabilir.
Bilginin içindeki desenleri keşfetmek, bilgiyi analiz
etmek metin madenciliğinin konusudur.
4. METİN MADENCİLİĞİ KULLANIM ALANLARI
Akademik
makaleler
Müşteri
yorumları
E-mailler
Soru
cevaplama
Web
Sosyal medya
Duygu analizi
Konu çıkarımı
Özetleme
Yazar tanıma
5. DUYGU ANALİZİ
Sentiment analizi, sentiment sınıflandırma, fikir
madenciliği, öznel analiz, görüş madenciliği olarak
da bilinir.
Müşteri görüş ve yorumları toplanır.
Veri işlemede kullanılır.
Şikayetvar, sözlükler
Duygu analizi ile veriler nötr, negatif ve pozitif olarak
işlenir.Böylece genel bir yorum elde edilir.
Duygu analizi için;
Destek vektör makineleri, yapay sinir ağları, karar
ağaçları, olasılıksal ağlar, rasgele orman duygu
analizi için kullanılabilir.
6. METİN ÖZELLİK GÖSTERİMİ
BOW,,TF-IDF
POS
DUYGU KELİMELERİ
OLUMSUZLUK İFADELERİ
En uygun özellik, deneysel çalışmalar yapılarak
bulunur.
Sık geçen kelime filtreleme, durdurma ifadelerinin
kaldırılması,kelimelerin büyük küçük harf dönüşümü
yapılması.
7. METİN ÖZELLİK SEÇİMİ
Gereksiz ve amaca hizmet etmeyen özelliklerin
elenmesi sürecidir.
Performansı geliştirmek, öğrenmeyi geliştirmek,
minimum bilgi kaybı ile hızlı işlem yaptırmak,
karmaşıklığı azaltmak.
Filtreleme, yüksek skorluları seçmek.
Terim sıklığı, eşli bilgi, bilgi edinimi , ki kare istatistiği
vb
Bilgi edinimi yüksek olan değerler özellik olarak
kullanılır.
8. BAYESÇİ AĞLAR
Değişkenler arasındaki ilişkileri gösteren olasılıksal
grafiklerdir.
Uzman görüşü, veriden ve hem uzman görüşü
hemde veriden hareketle bayesçi ağ oluşturulabilir.
Yapı öğrenme, parametre öğrenme.
11. TEZİN AMACI
Türkçe duygu analizi için TAN yöntemini uygulamak,
NB yöntemi ile karşılaştırmak.
Bazı filtreleme işlemleri uygulayarak performansı
ölçmek.
NB ve TAN yönteminin duygu analizi performansını
ölçmek.
12. UYGULAMA
5 adet mobil uygulama verisinden
oluşmaktadır.İçerik olarak yorumlar, verdiği
yıldız,firma etkisi kullanılmıştır.
1 nisan ile 07 nisan arasındaki veriler kullanılmıştır.
Play.google.com internet sitesinden veriler elde
edilmiştir.
1598 veriden oluşmuştur.
15. DEĞİŞKENLER
KELİME DEĞİŞKEN İSMİ SAYI
. B1 310
uygulama B4 230
bir B70 207
Çok B14 151
Güzel B3 144
iyi B12 142
ve B282 135
güzel B15 134
çok B98 101
Süper B69 96
Harika B299 89
daha B114 82
kolay B297 67
Guzel B597 65
yok B83 60
bi B16 58
bu B34 57
ederim B59 50
guzel B554 47
Cok B291 45
cok B113 44
16. Değişken sayıları
ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI
UNİGRAM YOK 4362
UNİGRAM 3 SIKLIKTAN BÜYÜK 715
UNİGRAM 5 SIKLIKTAN BÜYÜK 300
UNİGRAM BİLGİ ÇIKARIMI 41
UNİGRAM 10-100 SIKLIK 153
UNİGRAM 2 SIKLIKTAN BÜYÜK 1217
17. ÖZELLİK YÖNTEMİ ÖN İŞLEME DEĞİŞKEN SAYISI
2-gram 3 sıklıktan büyük 265
2-gram 5 sıklıktan büyük 98
2-gram yok 8964
19. Unigram ve 2gram performanslarının karşılaştırılması
YÖNTEM
ADI
ÖN İŞLEME BAŞARI FİRMA
ETKİSİ
ÖZELLİK
TÜRÜ
YILDIZ
ETKİSİ
GRAM
SAYILARI
TAN 3 SIKLIKTAN
BÜYÜK
88 YOK unigram YOK 715
NB 3 SIKLIKTAN
BÜYÜK
84,4 YOK unigram YOK 715
NB 3 SIKLIKTAN
BÜYÜK
78,2 YOK 2 -gram YOK 265
TAN 3 SIKLIKTAN
BÜYÜK
77,9 YOK 2 -gram YOK 265
TAN 5 SIKLIKTAN
BÜYÜK
85,4 YOK unigram YOK 300
NB 5 SIKLIKTAN
BÜYÜK
83,9 YOK unigram YOK 300
NB 5 SIKLIKTAN
BÜYÜK
75,7 YOK 2-gram YOK 98
TAN 5 SIKLIKTAN
BÜYÜK
75,3 YOK 2-gram YOK 98
20. Firma etkisnin ve yıldız etkisiyle analiz sonuçları
YÖNTEM
ADI
TERİMLER BAŞARI FİRMA
ETKİSİ
GRAM YILDIZ
ETKİSİ
GRAM
SAYILARI
TAN 3 SIKLIKTAN
BÜYÜK
90,2 VAR 2 gram VAR 265
NB 3 SIKLIKTAN
BÜYÜK
89,6 VAR 2 gram VAR 265
TAN 3 SIKLIKTAN
BÜYÜK
93,4 VAR unigram VAR 715
NB 3 SIKLIKTAN
BÜYÜK
88,9 VAR unigram VAR 715
TAN 5 SIKLIKTAN
BÜYÜK
90,3 VAR 2 gram VAR 98
NB 5 SIKLIKTAN
BÜYÜK
90,1 VAR 2 gram VAR 98
TAN 5 SIKLIKTAN
BÜYÜK
91,7 VAR unigram VAR 300
NB 5 SIKLIKTAN
BÜYÜK
89,7 VAR unigram VAR 300
TAN 1 SIKLIKTAN
BÜYÜK
93,3 VAR unigram VAR 1217
NB 1 SIKLIKTAN
BÜYÜK
88 VAR unigram VAR 1217
TAN 10-100
SIKLIK
90 VAR unigram VAR 153
NB 10-100
SIKLIK
89 VAR unigram VAR 153
21. TAN VE NB SINIFLANDIRMA KARŞILAŞTIRMASI
TP FP TN FN RECALL PRECİSİ
ON
SENSİVİ
TY
SPECİFİ
TY
F
MEASUR
E
TAN Pozitif 1145 46 391 16 0,99 0,96 0,99 0,89 0,97
Negatif 319 49 1203 27 0,92 0,87 0,92 0,96 0,89
Nötr 30 9 1498 61 0,33 0,77 0,33 0,99 0,46
NB Pozitif 1122 67 370 39 0,97 0,94 0,97 0,85 0,95
Negatif 304 67 1185 42 0,88 0,82 0,88 0,95 0,85
Nötr 14 24 1483 77 0,15 0,37 0,15 0,98 0,22
22. SONUÇLAR
TAN yöntemi türkçe duygu analizi için kullanılabilir.
TAN yönteminde filtreleme işlemi sınıflandırma
başarısını arttırmıştır.
Unigram kullanmak daha başarılı sonuçlar vermiştir.
Bilgi çıkarımı değişken sayısını azaltmış ve analizin
hızını arttırmıştır.
TAN yöntemi NB yöntemine göre başarılı sonuçlar
vermiştir.