5. Proje Tanımı
▸ Cümlelerin belirli kategorilere göre
sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
11. ▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
13. ▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri
kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek
popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve
«Error Rate» tekniklerinden faydalanılmış
14. Literatür - 1
â–¸ Kocaeli Ãœniversitesi
â–¸ Metin MadenciliÄŸi ile soru cevaplama
sistemi
▸ Kullanıcıdan alınan soru ön işlemeye tabi
tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun
cevap aranır.
15. Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen
sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi
o cümle için belirleyici olduklarını gösterir
16. Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap
aranır
17. Literatür - 2
â–¸ Sosyal AÄŸlarda Akan Veri MadenciliÄŸi
▸ Temel olarak veri madenciliği aşamaları
açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre
cinsiyet belirleme tekniği anlatılmış
18. Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo
oluÅŸturulmuÅŸ.
â–¸ OluÅŸturulan tabloya yeni gelen verinin
cinsiyeti hesaplanırken en yakın 3 komşuya
bakılmış ve karar verilmiştir.
19. Literatür - 3
â–¸ Sosyal AÄŸlarda Veri MadenciliÄŸi
▸ Amaç; sosyal medyanın veri kaynağı
olarak kullanılmasını anlatmak.
27. Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde
değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan
normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
28. Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden
farklı
▸ Test dataları hem twitter hem de
gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden
alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
29. Hata Oranı ve Model
DeÄŸerlendirmesi
0,733 accuracy
0,267 error rate
35. KAYNAKLAR
â–¸ Seker,S. E. (2015). Sosyal AÄŸlarda Veri MadenciliÄŸi,YBS
Ansiklopedi
â–¸ Seker,S. E. (2014). Sosyal AÄŸlarda Akan Veri MadenciliÄŸi,YBS
Ansiklopedi
▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru
Cevaplama Sistem, Kocaeli Ãœniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker