3. GIRIġ
Sınıflama
Sınıflama, benzer özellikteki nesnelerin önceden belirlenmiş alt gruplara
atanması işlemidir. İki esas amaç vardır:
1- Veriyi sadeleştirmek
2- Kestirim yapmak
07/12/2013
3
4. GIRIġ
Veri madenciliğinde kullanılan sınıflama yöntemleri:
Karar Ağaçları
Naive Bayes
k-en Yakın Komşuluğu
Yapay Sinir Ağları
Genetik Algoritmalar
Random Forest
Destek Vektör Makineleri
07/12/2013
4
6. DESTEK VEKTÖR MAKINELERI (DVM)
«Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama
problemleri için önerilmiş bir makine öğrenmesi yöntemidir»
«Sınıflama, regresyon ve aykırı değer belirleme için kullanılabilen eğiticili
(supervised) öğrenme yöntemidir»
«Eğitim verisinde öğrenme yaparak yeni veri üzerinde doğru tahmin yapmaya ve
genelleştirmeye çalışan makine öğrenmesidir»
« İstatistiksel öğrenme teorisine ve yapısal risk minimizasyonuna dayanmaktadır »
07/12/2013
6
7. DESTEK VEKTÖR MAKINELERI (DVM)
•
DVM’ler nonparametrik sınıflayıcılardır.
• Dağılım hakkında herhangi bir ön bilgi varsayımı yoktur.
• Eğitim setlerinde girdi ve çıktılar eşlenir
• Eşler aracılığıyla, test setinde ve yeni veri setlerinde girdi değişkenini
sınıflayacak karar fonksiyonları elde edilir.
•
Girdi verisi (input data)
•
Doğrusal olarak ayrılabildiğinde; verileri ayırabilecek sonsuz sayıdaki doğru
içerisinden marjini en yüksek yapacak olan doğruyu seçmeyi hedeflemektedir.
•
Doğrusal olarak ayrılamadığında; iorijinal çalışma verisini yüksek boyuta
dönüştürmek için doğrusal olmayan haritalama (mapping) kullanmaktadır.
Verinin taşındığı yeni boyutta marjini en büyük (optimal) ayırıcı düzlemi
araştırmaktadır.
07/12/2013
7
8. AVANTAJLAR
•
Yüksek doğruluk
•
Karmaşık karar sınırları modelleyebilme
•
Çok sayıda bağımsız değişkenle çalışabilme
•
Hem doğrusal olarak ayrılan hem doğrusal olarak ayrılamayan verilere
uygulanabilme
•
Diğer birçok yönteme kıyasla overfitting sorunun az olması
07/12/2013
8
9. DEZAVANTAJLAR
•
Olasılıksal tahminler üretememe / Nokta tahmini (Var-Yok, A sınıfı-B Sınıfı vb..)
•
Çekirdek fonksiyonlar için Mercer Koşulu zorunluluğu / Çekirdek fonksiyonları
pozitif tanımlı sürekli simetrik fonksiyonlar olmalı)
07/12/2013
9
10. KULLANıM ALANLARı
•
Nesne tanıma.. (Yüz tanıma, parmak izi tanıma.. vb)
•
El yazısı tanıma..
•
Zaman serisi tahmin testleri..
•
Biyoinformatik (Microarray verilerin analizi..)
07/12/2013
10
11. DESTEK VEKTÖR MAKINELERI (DVM)
Ġstatistiksel Öğrenme Teorisi
•
Vapnik-Chervonenkis Teorisi
• Amaç: Dağılımdan bağımsız yöntemler ile tahminler üzerinde test hatası
için sınırlar üretmek
«Klasik istatistik, doğru modelin formunun bilindiğini varsayıp, amacı
modelin parametrelerini belirlemek olarak görürken; istatistiksel öğrenme
teorisi modelin formunun bilinmediğini kabul etmekte ve doğru olabilecek
modeller arasından en iyi modelin bulunmasını hedeflemektedir»
07/12/2013
11
12. DESTEK VEKTÖR MAKINELERI (DVM)
•
VC teorisi ile öğrenebilirliğin yeterli şartlarının yanında gerekli şartlarını da
ortaya koymuşlardır. Gerekli şartlar kapasite kavramına dayanmaktadır.
•
VC teorisinin bilinen en iyi kapasite ölçüsü VC boyutudur.
•
Öğrenme makinesinin kapasitesi, makinenin genelleme kabiliyeti üzerinde
etkilidir
Vapnik-Chervonenkis (VC) Boyutu
•
VC boyutu fonksiyonlar sınıfının {f(α)} (ya da kümesinin) sahip olduğu bir özelliktir.
•
Bu kümenin kapasitesi hakkında somut bir fikir vermektedir
•
VC boyutunu hesaplamak için parçalama (shattering) kullanılmaktadır
07/12/2013
12
13. DESTEK VEKTÖR MAKINELERI (DVM)
•
İki boyutlu uzay R 2 için basit bir VC boyut örneği:
•
3 örnek (nokta) iki sınıfa 23=8 yolla kesin olarak ayrılmaktadır. Ancak dördüncü
bir nokta eklendiğinde ayırma mümkün olmamaktadır. Dolayısıyla hatasız bir
şekilde tüm mümkün yollarla sadece 3 nokta parçalara ayrılabildiğinden R 2'de VC
boyutu 3'tür.
07/12/2013
13
14. DESTEK VEKTÖR MAKINELERI (DVM)
Yapısal Risk Minimizasyonu (YRM)
•
Genelleme hatası için bir açıklamadır
•
Genelleme hatası; deneysel hata, denemedeki örnek sayısı ve kapasiteden
etkilenmektedir
•
YRM, gerçek risk için üst sınırı minimize edecek fonksiyonu araştırmaktadır
•
Gerçek risk için üretilen üst sınır (VC boyutu) monoton artan bir fonksiyonu
olduğu için çözümü yapı adı verilen alt kümeler aracılığıyla bulunmaya
çalışılır. Her alt küme için deneysel risk minimize edilerek deneysel risk ve
güvenirliğin toplamı minimize edilmiş olur.
07/12/2013
14
15. Doğrusal DVM
Veriler tamamen
doğrusal olarak
ayrılabilmekte
-HARD MARGIN-
Doğrusal
Olmayan DVM
Doğrusal olarak
ayrılması imkansız
veriler
Az sayıda noktadan
(gözlem) dolayı veriler
tamamen doğrusal
olarak ayrılamamakta
-SOFT MARGIN-
07/12/2013
15
16. DOĞRUSAL DESTEK VEKTÖR MAKINELERI
Verilerin Doğrusal Olarak Ayrılabildiği Durum ( Hard Margin)
•
En temel DVM uygulamasıdır
Bir veri setini iki sınıfa ayırabilecek sonsuz
sayıda doğru çizilebilir.
*Maksimum marjinli çoklu düzlem yaklaşımı*
Amaç:Bilinmeyen veri seti ile karşılaşıldığında
sınıflama hatasını minimum yapacak doğruyu
seçmek.
07/12/2013
16
17. Hard Margin
Eğitim seti;
Sınıf etiketleri ;
{xi,yi} i=1,2,...,l
yi Є {-1, +1}
Ayırıcı düzlem: <w.x> +b= 0
w ; çoklu düzlemin normali (ağırlık vektörü )
b : bias
x ; <w.x>+b= 0 çoklu düzlemi üzerinde herhangi bir
nokta
Kesikli çizgilerle gösterilen ve ayırıcı çoklu düzleme paralel olarak çizilmiş eşit
uzaklıkta iki çoklu düzlem (doğru) arasındaki uzaklığa marjin adı verilmektedir.
<w,x1>+b=+1, yi= +1 için
<w,x2>+b=-1 , yi= -1 için
Destek vektörlerinin, ayırıcı çoklu düzleme olan uzaklığı 1/||w||
Dolayısıyla marjin: 2/||w||
||w||:w’nin öklid formu
07/12/2013
17
18. Hard Margin
•
Marjin maksimum olduğunda yeni gelen verilerin sınıflarken ortaya çıkacak
sınıflama hatası azalacaktır.
•
En iyi çoklu düzlemi bulmak için aşağıdaki nesne fonksiyonu ve kısıt
kullanılır:
•
Karar fonksiyonu:
07/12/2013
18
19. DOĞRUSAL DESTEK VEKTÖR MAKINELERI
Verilerin doğrusal olarak ayrılamadığı durum ( Soft Marjin)
Genel olarak, pratikte veriler tamamen doğrusal olarak ayrılamamaktadır. Şekilde
tek bir noktadan dolayı B 1 düzlemi tüm noktaları ayıramamaktayken, B 2
tamamını ayırmaktadır, ancak daha küçük marjine sahiptir.
Soft marjn yaklaşımı bu tip problemler için, deneme hatalarını tolere edebilecek
bir yaklaşımdır.
07/12/2013
19
20. Soft Margin
•
negatif olmayan slack değişken adı ile bir değişken tanımlanmıştır
•
Sert marjinde elde edilen kısıtlara slack değişken eklenir
•
Miniizasyona aynen devam edilir
•
Kullanıcı tarafından belirlenen hata maliyeti (C) eklenir. Hata maliyeti (marjin
maksimizasyonu ile deneme hatası minimizasyonu arasındaki ödünleşimi belirler)
• Yüksek C değeri=Yüksek hata beklentisi
07/12/2013
20
21. DOĞRUSAL OLMAYAN DESTEK VEKTÖR
MAKINELERI
•
Veriler doğrusal olarak
ayrılamadığında, veriyi doğrusal
olmayan haritalama (Φ) yaparak orijinal
girdi uzayından, daha yüksek boyuttaki
bir uzaya aktarır.
Bu yeni boyutta veriyi en iyi
ayıracak çoklu düzlemi araştırır.
07/12/2013
21
22. Doğrusal olmayan Destek Vektör Makineleri
•
Doğrusal DVM’den farkı x yerine Φ(x) kullanılmasıdır.
•
Dönüştürülmüş uzayda karar fonksiyonu:
Nesne fonksiyonu ve marjin doğruları için kısıt:
Buradaki sorunlar:
1- Dönüştürülmüş uzayda oluşturulacak doğrusal karar sınırı ile ilgili nasıl bir
haritalama fonksiyonu kullanılacağı açık değildir.
2-Uygulanan haritalama fonksiyonu biliniyorsa, kurulan optimizasyon
probleminin yüksek boyutlu olay uzayında çözümü karmaşık ve zor hesaplamalar
gerektirir.
07/12/2013
22
23. Doğrusal olmayan Destek Vektör Makineleri
Doğrusal olmayan DVM’de w ve b parametrelerinin hesabı:
Denklemler dönüştürülmüş uzayda iki vektörün iç çarpımı biçimindedir. Boyut
sorunundan dolayı hesaplanması zordur. Bu sorunu önlemek amacıyla ‘çekirdek
düzenlemesi’ önerilmiştir.
Çekirdek Düzenlemesi
Çekirdek düzenlemesi yapılarak dönüştürülmüş uzaydaki Φ(x) vektörü yerine
girdi uzayındaki verilerden oluşturulan bir çekirdek fonksiyonu ile işlemler
yapılır. orijinal veriyi kullanarak dönüştürülmüş uzayda bir benzerlik hesaplaması
yapar.
07/12/2013
23
24. Doğrusal olmayan Destek Vektör Makineleri
Avantajları:
1- Direk girdi uzayındaki veriler kullanılacağı için Φ haritalama fonksiyonun kesin olarak
ne olduğunun bilmeye gerek duyulmaması,
2-Çekirdek fonksiyon kullanarak iç çarpım hesaplamanın, dönüştürülmüş nitelik seti Φ(x)
kullanarak hesaplamaya kıyasla daha kolay ve maliyetinin düşük olması
Dönüştürülmüş uzayda iki vektörün iç çarpımı:
Orijinal veriden hesaplanan bu benzerlik fonksiyonu Kile gösterilen çekirdek
fonksiyonudur.
07/12/2013
24
25. ÇEKIRDEK FONKSIYON
Çalışmada sıklıkla kullanılan üç çekirdek fonksiyon karşılaştırılmıştır:
1- Doğrusal fonksiyon:
2- Polinomiyal fonksiyon:
3- Sigmoid fonksiyon:
4- Radyal tabanlı fonksiyon:
07/12/2013
25
26. DESTEK VEKTÖR MAKİNALARINDA KULLANILAN ÇEKİRDEK FONKSİYONLARIN
SINIFLAMA PERFORMANSLARININ KARŞILAŞTIRILMASI / YÜKSEK LISANS TEZI
R programı kullanılarak çok değişkenli standart normal dağılıma sahip veri setleri
türetilmiştir.
•
3 farklı korelasyon düzeyinde (yüksek, orta, düşük)
•
50,100 ve 500 gözlem
•
Sonuçlarda duyarlılık, seçicilik ve doğruluk değerleri hesaplanmıştır.
•
Çok değişkenli standart normal dağılımdan veri türetmek için;
“MASS” paketi,
•
Destek vektör makineleri ile sınıflama yapmak için ;
“e1071” paketi kullanılmıştır.
07/12/2013
26
27. •
Her simülasyon için 1000 tekrar yapıldı
•
Her 1000 veri seti için ortalama duyarlılık, seçicilik ve doğruluk değerleri raporlandı
•
Her model için tune.svm komutu kullanılarak modele ilişkin en iyi parametreler
belirlendi.
•
Sonuçlarda hem en iyi parametre ile elde edilmiş modeller, hem de programın kendi
kullandığı standart parametre değerleri için ayrıca incelenmiştir.
•
4 çekirdek fonksiyon için elde edilen sınıflama performansları karşılaştırıldı
07/12/2013
27
31. KAYNAKLAR
•
Schölkopf,B. Burges,C.J.C. Mika, S. 1998. Advences in Kernel Methods
•
Burges, C.J., A Tutorial on Support Vector Machines for Pattern Recognation,
1998, Data Mining and Knowledge Discovery, 2, 121–167
•
Wang. L., Support Vector Machines: Theory and Application, Springer, 2005
•
Steinwart, I., Christmann, A. Support Vector Machines, Springer, 2008
•
Abe, S., Support Vector Machine for Pattern Classification, Second Edition,
Springer, 2010
•
Campbell, C., Ying, Y. Learning with Support Vector Machines, M&C, 2011
07/12/2013
31