ºÝºÝߣ

ºÝºÝߣShare a Scribd company logo
VERÄ°
MADENCİLİĞİ
DÖNEM PROJESİ
Merhaba!
OÄŸuzcan Pamuk
oguzcanpamuk@gmail.com
İÇERİK
▸ Projenin Tanımı
▸ Proje Tasarımı
▸ Kullanılan Teknolojiler
▸ Literatür Araştırması
▸ İşlem Basamakları
â–¸ Proje DeÄŸerlendirmesi
1.
Projenin Tanımı
Proje hakkında
kısa bilgiler
Proje Tanımı
▸ Cümlelerin belirli kategorilere göre
sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
2.
Projenin
Tasarımı
Projenin
basamakları
Öğrenme
Datası
OluÅŸturma
Datayı
Öğrenme
Verilerin
Kaydedilmesi
Test
Datası
OluÅŸturma
Test Sonuç
KDD Process
İş Planı
İş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme
%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
3.
Kullanılan
Teknolojiler
Programlama
dili, versiyon
kontrol sistemi
vb.
▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
4.
Benzer
Çalışmalar
Kullanılan
teknolojiler ve
yapılar
▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri
kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek
popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve
«Error Rate» tekniklerinden faydalanılmış
Literatür - 1
â–¸ Kocaeli Ãœniversitesi
â–¸ Metin MadenciliÄŸi ile soru cevaplama
sistemi
▸ Kullanıcıdan alınan soru ön işlemeye tabi
tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun
cevap aranır.
Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen
sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi
o cümle için belirleyici olduklarını gösterir
Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap
aranır
Literatür - 2
â–¸ Sosyal AÄŸlarda Akan Veri MadenciliÄŸi
▸ Temel olarak veri madenciliği aşamaları
açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre
cinsiyet belirleme tekniği anlatılmış
Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo
oluÅŸturulmuÅŸ.
â–¸ OluÅŸturulan tabloya yeni gelen verinin
cinsiyeti hesaplanırken en yakın 3 komşuya
bakılmış ve karar verilmiştir.
Literatür - 3
â–¸ Sosyal AÄŸlarda Veri MadenciliÄŸi
▸ Amaç; sosyal medyanın veri kaynağı
olarak kullanılmasını anlatmak.
Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı ,
Facebook kim kimle arkadaÅŸ ?
▸ Kümeleme yöntemi
-Küme merkezlerinin belirlenmesi
-Merkez dışındakilerin mesafeye göre
sınıflandırılması
-Sınıflandırma sonuçlarına göre
merkezin deÄŸiÅŸmesi
-Kararlı hal
Literatür - 3
â–¸ Fikir madenciliÄŸi;
- Olumlu, olumsuz yorum
- Duygu analizi
- Uzun yıllardır yapılan, mail spam mi?
çalışmaları.
5.
Ä°ÅŸlem
Basamakları
Data toplama,
temizleme ,
öğrenme..
Data oluÅŸturma
▸ Kategoriler oluşturulurken en çok okunan
gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları
-Twitter
-Gazete
Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
â–¸ Unknown
▸ Sampling random olarak alınmıştır
Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar
-{"@","RT","http",")","(","#",":","/","*","=","-
","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde
Sistem Öğrenmesi
â–¸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri
içerisinde geçen kelimelerin frekansları
hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı
olacaktır.
Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde
değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan
normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden
farklı
▸ Test dataları hem twitter hem de
gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden
alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
Hata Oranı ve Model
DeÄŸerlendirmesi
0,733 accuracy
0,267 error rate
Basarı Oranları
Toplam Başarılı Başarısız
Magazin 10 8 2
Spor 11 7 4
Teknoloji 8 6 2
Ekonomi 8 6 2
Sağlık 8 6 2
73,3%
Total success!
Daha
Neler
Yapılabilir
?
Neler Eklenebilir / DeÄŸiÅŸtirilebilir ?
▸ Öğrenme datası arttırılmalı
▸ Öğrenme datasına Twitter’dan veri
eklenebilir
▸ Literatür uygulamalarıyla karşılaştırma
(Başarı oranları)
▸ Veri toplamak için otomasyon yazılabilinir
Tesekkürler !
Sorularınız ?
oguzcanpamuk@gmail.com
Github / oguzpamuk
KAYNAKLAR
â–¸ Seker,S. E. (2015). Sosyal AÄŸlarda Veri MadenciliÄŸi,YBS
Ansiklopedi
â–¸ Seker,S. E. (2014). Sosyal AÄŸlarda Akan Veri MadenciliÄŸi,YBS
Ansiklopedi
▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru
Cevaplama Sistem, Kocaeli Ãœniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker

More Related Content

Metin Madenciliği ile Cümleleri Kategorilendirme