2. Verilerin analizinde istatistik, pek çok problemi
çözmede önemli bir araçtır. Ancak, bazı durumlarda
kullanımı sınırlıdır. Bu durumlarda, yapay sinir ağları,
kural çıkarımı, mantık programlama, karar ağaçları,
genetik algoritma gibi akıllı veri analiz yöntemlerini
içeren veri madenciliğine gereksinim ortaya
çıkmaktadır . Ancak, bu yöntemlerden bazıları kara
kutu yaklaşımları şeklindedir.
• Başka bir ifade ile açıklama getiremeden iyi tahmin
yaparlar. Bu da, bu yöntemlerin zayıf yönünü
oluşturur.
• Karar ağacı yaklaşımı ise bu zayıflığın söz konusu
olmadığı veri madenciliği yöntemlerinden biridir
•
3. •
•
•
Karar ağacı yaklaşımı, hedef fonksiyonlarını yaklaşık
olarak hesaplamak için kullanılan ve öğrenme
fonksiyonunun karar ağacı ile gösterildiği bir
yöntemdir.
Bir karar ağacı ise ağaç görünümünde tanımlayıcı ve
tahmin edici bir modeldir .
Bu model, karar alıcıya karar alırken hangi faktörlerin
göz önüne alınması ve her bir faktörün kararın farklı
çıktıları ile geçmişte nasıl ilişkili olduğunun
belirlenmesi konularında yardımcı olur.
4. Karar Ağacı Algoritması 2 aşamadan oluşmaktadır;
1. Ağacı Oluşturma
• En başta bütün öğrenme kümesi ağaçtır.
2 . Ağacı Budama
• Öğrenme kümesindeki gürültülü verilerden
oluşan ve test kümesinde hataya neden olan
dallar silinir.
5. Karar Ağacı iyi bir çözümdür ancak
optimum değildir.
•
Optimum bir karar ağacının oluşturulması
için bir kuralın olması gerekir.
•
6. ADIM 1: Karar ağacının hangi kararı alacağı
belirlenir.
- Örnek veri setinde o hafta hava, ebeveyn ve
para duruma göre ne yapılacağına karar
verilecektir.
8. ADIM 3 : Ağacın en üstünde yani kökte(root)
konumlanacak özellik belirlenir.
Peki neye göre belirlenir?
Bilgi kazancı (information gain) en yüksek olan
özellik ağacın en üstünde konumlandırılır.
9. •
•
•
Bilgi Kazancı (Information Gain):ID3, C4.5 gibi
karar ağacı metotlarında en ayırt edici niteliği
belirlemek için her nitelik için bilgi kazancı ölçülür.
Bilgi Kazancı ölçümünde Entropy kullanılır.
Entropy rastgeleliğin, belirsizliğin ve beklenmeyen
durumun ortaya çıkma olasılığını gösterir.
11. •
•
Her özellik için ayrı ayrı bilgi kazancı hesaplanır
ve bilgi kazancı en yüksek olanlar kök olarak
alınır.
Bu işlemler her düğüm için aşağıdaki
durumlardan biri oluşuncaya kadar devam eder.
Örneklerin hepsi aynı sınıfa ait
Örnekleri bölecek özellik kalmamış
Kalan özelliklerin değerini taşıyan örnek yok
13. •
•
Öncelikle örnek veri setimiz belirlenen haftada
hava, ebeveyn ve para duruma göre ne
yapılacağına karar verecektir.
Örnek veri setimizi inceleyelim;
15. •
Veri setimizde toplam 10 örnek vardır. Bu 10
örnekten;
6 örnek için karar sinema(6/10)
2 örnek için karar tenis oynamak(2/10)
1 örnek için karar evde kalmak(1/10) ve
1 örnek için karar alışverişe gitmek(1/10)
olduğuna göre Entropy değerini
hesaplayalım.
17. •
Sistemimizin Entropy değerini bulduk. Şimdi
kök özelliğimizin hangisinin olması gerektiğine
karar vermek için özelliklerimiz olan ; hava,
ebeveyn ve para özelliklerimizin bilgi
kazançlarını hesaplayıp en yüksek kazanca
sahip olan özelliği kök özellik olarak
konumlandırmamız gerek.
18. Hava özelliğimiz için Bilgi Kazancı değerimiz;
Bilgi Kazancı(S,Hava Durumu)=?
• Şimdi hava durumunun bilgi kazancı için hava
durumu özelliğinin de Entropy değerine
ihtiyacımız var o yüzden hava durumunun önce
Entropy değerini hesaplayalım;
• Hava durumunun alt özellikleri: güneşli, rüzgarlı
ve yağmurlu idi.
•
20. Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak hava durumunun bilgi
kazancını buluruz.
• Bilgi Kazancı(S,Hava Durumu)=
Entropy(S)- ((Bilgi
Kazancı(güneşli)Entropy(Sgüneşli) + Bilgi
Kazancı(rüzgarlı) Entropy(Srüzgarlı)+ Bilgi
Kazancı(yağmurlu) Entropy(Syağmurlu) )
• =1,571((3/10)*0,918+(4/10)*0,811+(3/10)*0,918)
• Bilgi Kazancı(S,Hava Durumu)=0,70
•
21. •
•
Hava durumunun bilgi kazancını bulduktan
sonra sırada ebeveyn durumunun bilgi
kazancını bulmak var. Onun özellikleri de ; var
ve yok. Bu 2 özelliğin öncelikle entropy
değerlerini bulup oradan bilgi kazancı
formülünde yerine koyacağız.
Bilgi Kazancı(S,Ebeveyn Durumu)=?
23. •
•
•
•
•
Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak ebeveyn durumunun bilgi
kazancını buluruz.
Bilgi Kazancı(S,Hava Durumu)=
Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) +
Bilgi Kazancı(yok)Entropy(Syok))
=1,571-((5/10)*0+(5/10)*1,922)
Bilgi Kazancı(S,Ebeveyn Durumu)=0,61
24. •
•
Ebeveyn durumunun bilgi kazancını bulduktan
sonra sırada para durumunun bilgi kazancını
bulmak var. Onun özellikleri de ; var ve yok. Bu
2 özelliğin öncelikle entropy değerlerini bulup
oradan bilgi kazancı formülünde yerine
koyacağız.
Bilgi Kazancı(S,Para Durumu)=?
26. •
•
•
•
•
Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak para durumunun bilgi kazancını
buluruz.
Bilgi Kazancı(S,Para Durumu)=
Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) +
Bilgi Kazancı(yok)Entropy(Syok))
=1,571-((5/10)*1,842+(5/10)*0
Bilgi Kazancı(S,Para Durumu)=0,2816
27. •
•
•
•
•
Şimdi sıra geldi 3 özelliğin bilgi kazançlarını
karşılaştırıp kazancı en yüksek olan özelliği kök
özellik olarak konumlandırmaya.
Bilgi Kazancı(S,Hava Durumu)=0,70
Bilgi Kazancı(S,Ebeveyn Durumu)=0,61
Bilgi Kazancı(S,Para Durumu)=0,2816
Görüldüğü gibi bilgi kazancı en yüksek olan
HAVA DURUMU bizim kök özelliğimiz olmuştur.
28. •
Hava durumu bizim ilk kök hücremiz oldu fakat
daha 2 özelliğimiz var ebeveyn durumu ve para
durumu. Bunlardan hangisinin kök özellik
olacağına tekrar bilgi kazançları hesaplanarak
bakılması gerekir ve bunun için hava
durumunun özellikleri olan güneşli, rüzgarlı ve
yağmurlu özelliklerinin hepsi için ayrı ayrı
değerlendirerek karar ağaçlarının dalları
oluşturulur.
29. •
Şu anda karar ağacımız bu aşamadadır. Şimdi
onu dallandırmaya devam ediyoruz.
30. •
•
Bunun için ise hava durumunun özelliklerini tek
tek ele almamız gerekli. Öncelikle güneşli
özelliğinden başlayalım.
Veri setimizden yalnızca hava durumu=güneşli
olan verilerimizi aldık.
32. •
•
•
•
•
•
•
•
Havanın güneşli olmasının özellikleri; ebeveyn
durumu ve para durumudur.
Ebeveyn durumu da 2 özellikten oluşur; var ya
da yok.
Var=1 (1’i de sinema)
Yok=2 (2’si de tenis)
Bilgi Kazancı(Sgüneşli ,Ebeveyn Durumu)=
0,198-(1/3)*0-(2/3)*0=0,198
Bilgi Kazancı(Sgüneşli ,Para Durumu)=
0,198-(3/3)*0,198-(0/3)*0=0
33. •
•
Görüldüğü gibi Ebeveyn Durumunun bilgi
kazancı > Para Durumunun bilgi kazancı
olduğundan güneşli havanın alt özelliği ebeveyn
durumu olmuştur.
Böylece güneşli havanın karar sistemi ortaya
çıkmış oldu. Hava güneşli ve yanında ebeveyni
varsa sinemaya, hava güneşli ve yanında
ebeveyni yoksa tenise gidilecektir.
35. •
•
Aynı uygulamaları rüzgarlı ve yağmurlu havada
da yaptığımızda karar ağacımızı oluşturmuş
olacağız.
Rüzgarlı hava için veri setimizden yalnızca hava
durumu=rüzgarlı olan verilerimizi aldık.
37. •
•
•
•
•
•
Havanın rüzgarlı olmasının özellikleri; ebeveyn
durumu ve para durumudur.
Ebeveyn durumu da 2 özellikten oluşur; var ya
da yok.
Var=2(2’si de sinema)
Yok=2(1’i sinema, 1’i alışveriş)
Bilgi Kazancı(Srüzgarlı ,Ebeveyn Durumu)=0,811(2/4)*0 + (2/4)*1,922 =1,772
Bilgi Kazancı(Srüzgarlı ,Para Durumu)=0,811(3/4)*1,842 + (1/4)*0=0,5705
38. •
•
İşlemleri tüm özellikleri konumlandırana dek
devam ettiriyoruz.
En sonunda karar ağacımızın yapısı karşımıza
çıkıyor.