ݺߣ

ݺߣShare a Scribd company logo
Karar ağaçları ve entropi kds
Verilerin analizinde istatistik, pek çok problemi
çözmede önemli bir araçtır. Ancak, bazı durumlarda
kullanımı sınırlıdır. Bu durumlarda, yapay sinir ağları,
kural çıkarımı, mantık programlama, karar ağaçları,
genetik algoritma gibi akıllı veri analiz yöntemlerini
içeren veri madenciliğine gereksinim ortaya
çıkmaktadır . Ancak, bu yöntemlerden bazıları kara
kutu yaklaşımları şeklindedir.
• Başka bir ifade ile açıklama getiremeden iyi tahmin
yaparlar. Bu da, bu yöntemlerin zayıf yönünü
oluşturur.
• Karar ağacı yaklaşımı ise bu zayıflığın söz konusu
olmadığı veri madenciliği yöntemlerinden biridir
•
•

•
•

Karar ağacı yaklaşımı, hedef fonksiyonlarını yaklaşık
olarak hesaplamak için kullanılan ve öğrenme
fonksiyonunun karar ağacı ile gösterildiği bir
yöntemdir.
Bir karar ağacı ise ağaç görünümünde tanımlayıcı ve
tahmin edici bir modeldir .
Bu model, karar alıcıya karar alırken hangi faktörlerin
göz önüne alınması ve her bir faktörün kararın farklı
çıktıları ile geçmişte nasıl ilişkili olduğunun
belirlenmesi konularında yardımcı olur.
Karar Ağacı Algoritması 2 aşamadan oluşmaktadır;
1. Ağacı Oluşturma
• En başta bütün öğrenme kümesi ağaçtır.
2 . Ağacı Budama
• Öğrenme kümesindeki gürültülü verilerden
oluşan ve test kümesinde hataya neden olan
dallar silinir.
Karar Ağacı iyi bir çözümdür ancak
optimum değildir.
•

Optimum bir karar ağacının oluşturulması
için bir kuralın olması gerekir.
•
ADIM 1: Karar ağacının hangi kararı alacağı
belirlenir.
- Örnek veri setinde o hafta hava, ebeveyn ve
para duruma göre ne yapılacağına karar
verilecektir.

ADIM 3 : Ağacın en üstünde yani kökte(root)
konumlanacak özellik belirlenir.
Peki neye göre belirlenir?
 Bilgi kazancı (information gain) en yüksek olan
özellik ağacın en üstünde konumlandırılır.
•

•

•

Bilgi Kazancı (Information Gain):ID3, C4.5 gibi
karar ağacı metotlarında en ayırt edici niteliği
belirlemek için her nitelik için bilgi kazancı ölçülür.
Bilgi Kazancı ölçümünde Entropy kullanılır.
Entropy rastgeleliğin, belirsizliğin ve beklenmeyen
durumun ortaya çıkma olasılığını gösterir.

•

•

Her özellik için ayrı ayrı bilgi kazancı hesaplanır
ve bilgi kazancı en yüksek olanlar kök olarak
alınır.
Bu işlemler her düğüm için aşağıdaki
durumlardan biri oluşuncaya kadar devam eder.
Örneklerin hepsi aynı sınıfa ait
Örnekleri bölecek özellik kalmamış
Kalan özelliklerin değerini taşıyan örnek yok
•

Ve bu adımlar tamamlanarak karar ağacı
oluşturulmuş olur.
•

•

Öncelikle örnek veri setimiz belirlenen haftada
hava, ebeveyn ve para duruma göre ne
yapılacağına karar verecektir.
Örnek veri setimizi inceleyelim;
Karar ağaçları ve entropi kds
•

Veri setimizde toplam 10 örnek vardır. Bu 10
örnekten;
 6 örnek için karar sinema(6/10)
 2 örnek için karar tenis oynamak(2/10)
 1 örnek için karar evde kalmak(1/10) ve
 1 örnek için karar alışverişe gitmek(1/10)
olduğuna göre Entropy değerini
hesaplayalım.
•

Entropy değeri =

- (6/10) log2(6/10) - (2/10) log2(2/10) (1/10) log2(1/10) - (1/10) log2(1/10)

E(S)=1,571
•

Sistemimizin Entropy değerini bulduk. Şimdi
kök özelliğimizin hangisinin olması gerektiğine
karar vermek için özelliklerimiz olan ; hava,
ebeveyn ve para özelliklerimizin bilgi
kazançlarını hesaplayıp en yüksek kazanca
sahip olan özelliği kök özellik olarak
konumlandırmamız gerek.
Hava özelliğimiz için Bilgi Kazancı değerimiz;
Bilgi Kazancı(S,Hava Durumu)=?
• Şimdi hava durumunun bilgi kazancı için hava
durumu özelliğinin de Entropy değerine
ihtiyacımız var o yüzden hava durumunun önce
Entropy değerini hesaplayalım;
• Hava durumunun alt özellikleri: güneşli, rüzgarlı
ve yağmurlu idi.
•

Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak hava durumunun bilgi
kazancını buluruz.
• Bilgi Kazancı(S,Hava Durumu)=
Entropy(S)- ((Bilgi
Kazancı(güneşli)Entropy(Sgüneşli) + Bilgi
Kazancı(rüzgarlı) Entropy(Srüzgarlı)+ Bilgi
Kazancı(yağmurlu) Entropy(Syağmurlu) )
• =1,571((3/10)*0,918+(4/10)*0,811+(3/10)*0,918)
• Bilgi Kazancı(S,Hava Durumu)=0,70
•
•

•

Hava durumunun bilgi kazancını bulduktan
sonra sırada ebeveyn durumunun bilgi
kazancını bulmak var. Onun özellikleri de ; var
ve yok. Bu 2 özelliğin öncelikle entropy
değerlerini bulup oradan bilgi kazancı
formülünde yerine koyacağız.
Bilgi Kazancı(S,Ebeveyn Durumu)=?

•

•
•

•
•

Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak ebeveyn durumunun bilgi
kazancını buluruz.
Bilgi Kazancı(S,Hava Durumu)=
Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) +
Bilgi Kazancı(yok)Entropy(Syok))
=1,571-((5/10)*0+(5/10)*1,922)
Bilgi Kazancı(S,Ebeveyn Durumu)=0,61
•

•

Ebeveyn durumunun bilgi kazancını bulduktan
sonra sırada para durumunun bilgi kazancını
bulmak var. Onun özellikleri de ; var ve yok. Bu
2 özelliğin öncelikle entropy değerlerini bulup
oradan bilgi kazancı formülünde yerine
koyacağız.
Bilgi Kazancı(S,Para Durumu)=?

•

•
•

•
•

Bu Entropy değerlerini Bilgi Kazancı formülünde
yerine koyarsak para durumunun bilgi kazancını
buluruz.
Bilgi Kazancı(S,Para Durumu)=
Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) +
Bilgi Kazancı(yok)Entropy(Syok))
=1,571-((5/10)*1,842+(5/10)*0
Bilgi Kazancı(S,Para Durumu)=0,2816
•

•
•
•
•

Şimdi sıra geldi 3 özelliğin bilgi kazançlarını
karşılaştırıp kazancı en yüksek olan özelliği kök
özellik olarak konumlandırmaya.
Bilgi Kazancı(S,Hava Durumu)=0,70
Bilgi Kazancı(S,Ebeveyn Durumu)=0,61
Bilgi Kazancı(S,Para Durumu)=0,2816
Görüldüğü gibi bilgi kazancı en yüksek olan
HAVA DURUMU bizim kök özelliğimiz olmuştur.
•

Hava durumu bizim ilk kök hücremiz oldu fakat
daha 2 özelliğimiz var ebeveyn durumu ve para
durumu. Bunlardan hangisinin kök özellik
olacağına tekrar bilgi kazançları hesaplanarak
bakılması gerekir ve bunun için hava
durumunun özellikleri olan güneşli, rüzgarlı ve
yağmurlu özelliklerinin hepsi için ayrı ayrı
değerlendirerek karar ağaçlarının dalları
oluşturulur.
•

Şu anda karar ağacımız bu aşamadadır. Şimdi
onu dallandırmaya devam ediyoruz.
•

•

Bunun için ise hava durumunun özelliklerini tek
tek ele almamız gerekli. Öncelikle güneşli
özelliğinden başlayalım.

Veri setimizden yalnızca hava durumu=güneşli
olan verilerimizi aldık.

•

•

•

•
•
•
•
•

Havanın güneşli olmasının özellikleri; ebeveyn
durumu ve para durumudur.
Ebeveyn durumu da 2 özellikten oluşur; var ya
da yok.
Var=1 (1’i de sinema)
Yok=2 (2’si de tenis)
Bilgi Kazancı(Sgüneşli ,Ebeveyn Durumu)=
0,198-(1/3)*0-(2/3)*0=0,198
Bilgi Kazancı(Sgüneşli ,Para Durumu)=
0,198-(3/3)*0,198-(0/3)*0=0
•

•

Görüldüğü gibi Ebeveyn Durumunun bilgi
kazancı > Para Durumunun bilgi kazancı
olduğundan güneşli havanın alt özelliği ebeveyn
durumu olmuştur.
Böylece güneşli havanın karar sistemi ortaya
çıkmış oldu. Hava güneşli ve yanında ebeveyni
varsa sinemaya, hava güneşli ve yanında
ebeveyni yoksa tenise gidilecektir.
•

Şu anda karar ağacımız bu durumda.
•

•

Aynı uygulamaları rüzgarlı ve yağmurlu havada
da yaptığımızda karar ağacımızı oluşturmuş
olacağız.
Rüzgarlı hava için veri setimizden yalnızca hava
durumu=rüzgarlı olan verilerimizi aldık.

•

•

•

•
•

•

Havanın rüzgarlı olmasının özellikleri; ebeveyn
durumu ve para durumudur.
Ebeveyn durumu da 2 özellikten oluşur; var ya
da yok.
Var=2(2’si de sinema)
Yok=2(1’i sinema, 1’i alışveriş)
Bilgi Kazancı(Srüzgarlı ,Ebeveyn Durumu)=0,811(2/4)*0 + (2/4)*1,922 =1,772
Bilgi Kazancı(Srüzgarlı ,Para Durumu)=0,811(3/4)*1,842 + (1/4)*0=0,5705
•

•

İşlemleri tüm özellikleri konumlandırana dek
devam ettiriyoruz.
En sonunda karar ağacımızın yapısı karşımıza
çıkıyor.
Karar ağaçları ve entropi kds

More Related Content

Karar ağaçları ve entropi kds

  • 2. Verilerin analizinde istatistik, pek çok problemi çözmede önemli bir araçtır. Ancak, bazı durumlarda kullanımı sınırlıdır. Bu durumlarda, yapay sinir ağları, kural çıkarımı, mantık programlama, karar ağaçları, genetik algoritma gibi akıllı veri analiz yöntemlerini içeren veri madenciliğine gereksinim ortaya çıkmaktadır . Ancak, bu yöntemlerden bazıları kara kutu yaklaşımları şeklindedir. • Başka bir ifade ile açıklama getiremeden iyi tahmin yaparlar. Bu da, bu yöntemlerin zayıf yönünü oluşturur. • Karar ağacı yaklaşımı ise bu zayıflığın söz konusu olmadığı veri madenciliği yöntemlerinden biridir •
  • 3. • • • Karar ağacı yaklaşımı, hedef fonksiyonlarını yaklaşık olarak hesaplamak için kullanılan ve öğrenme fonksiyonunun karar ağacı ile gösterildiği bir yöntemdir. Bir karar ağacı ise ağaç görünümünde tanımlayıcı ve tahmin edici bir modeldir . Bu model, karar alıcıya karar alırken hangi faktörlerin göz önüne alınması ve her bir faktörün kararın farklı çıktıları ile geçmişte nasıl ilişkili olduğunun belirlenmesi konularında yardımcı olur.
  • 4. Karar Ağacı Algoritması 2 aşamadan oluşmaktadır; 1. Ağacı Oluşturma • En başta bütün öğrenme kümesi ağaçtır. 2 . Ağacı Budama • Öğrenme kümesindeki gürültülü verilerden oluşan ve test kümesinde hataya neden olan dallar silinir.
  • 5. Karar Ağacı iyi bir çözümdür ancak optimum değildir. • Optimum bir karar ağacının oluşturulması için bir kuralın olması gerekir. •
  • 6. ADIM 1: Karar ağacının hangi kararı alacağı belirlenir. - Örnek veri setinde o hafta hava, ebeveyn ve para duruma göre ne yapılacağına karar verilecektir.
  • 7.
  • 8. ADIM 3 : Ağacın en üstünde yani kökte(root) konumlanacak özellik belirlenir. Peki neye göre belirlenir?  Bilgi kazancı (information gain) en yüksek olan özellik ağacın en üstünde konumlandırılır.
  • 9. • • • Bilgi Kazancı (Information Gain):ID3, C4.5 gibi karar ağacı metotlarında en ayırt edici niteliği belirlemek için her nitelik için bilgi kazancı ölçülür. Bilgi Kazancı ölçümünde Entropy kullanılır. Entropy rastgeleliğin, belirsizliğin ve beklenmeyen durumun ortaya çıkma olasılığını gösterir.
  • 10.
  • 11. • • Her özellik için ayrı ayrı bilgi kazancı hesaplanır ve bilgi kazancı en yüksek olanlar kök olarak alınır. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder. Örneklerin hepsi aynı sınıfa ait Örnekleri bölecek özellik kalmamış Kalan özelliklerin değerini taşıyan örnek yok
  • 12. • Ve bu adımlar tamamlanarak karar ağacı oluşturulmuş olur.
  • 13. • • Öncelikle örnek veri setimiz belirlenen haftada hava, ebeveyn ve para duruma göre ne yapılacağına karar verecektir. Örnek veri setimizi inceleyelim;
  • 15. • Veri setimizde toplam 10 örnek vardır. Bu 10 örnekten;  6 örnek için karar sinema(6/10)  2 örnek için karar tenis oynamak(2/10)  1 örnek için karar evde kalmak(1/10) ve  1 örnek için karar alışverişe gitmek(1/10) olduğuna göre Entropy değerini hesaplayalım.
  • 16. • Entropy değeri = - (6/10) log2(6/10) - (2/10) log2(2/10) (1/10) log2(1/10) - (1/10) log2(1/10) E(S)=1,571
  • 17. • Sistemimizin Entropy değerini bulduk. Şimdi kök özelliğimizin hangisinin olması gerektiğine karar vermek için özelliklerimiz olan ; hava, ebeveyn ve para özelliklerimizin bilgi kazançlarını hesaplayıp en yüksek kazanca sahip olan özelliği kök özellik olarak konumlandırmamız gerek.
  • 18. Hava özelliğimiz için Bilgi Kazancı değerimiz; Bilgi Kazancı(S,Hava Durumu)=? • Şimdi hava durumunun bilgi kazancı için hava durumu özelliğinin de Entropy değerine ihtiyacımız var o yüzden hava durumunun önce Entropy değerini hesaplayalım; • Hava durumunun alt özellikleri: güneşli, rüzgarlı ve yağmurlu idi. •
  • 19.
  • 20. Bu Entropy değerlerini Bilgi Kazancı formülünde yerine koyarsak hava durumunun bilgi kazancını buluruz. • Bilgi Kazancı(S,Hava Durumu)= Entropy(S)- ((Bilgi Kazancı(güneşli)Entropy(Sgüneşli) + Bilgi Kazancı(rüzgarlı) Entropy(Srüzgarlı)+ Bilgi Kazancı(yağmurlu) Entropy(Syağmurlu) ) • =1,571((3/10)*0,918+(4/10)*0,811+(3/10)*0,918) • Bilgi Kazancı(S,Hava Durumu)=0,70 •
  • 21. • • Hava durumunun bilgi kazancını bulduktan sonra sırada ebeveyn durumunun bilgi kazancını bulmak var. Onun özellikleri de ; var ve yok. Bu 2 özelliğin öncelikle entropy değerlerini bulup oradan bilgi kazancı formülünde yerine koyacağız. Bilgi Kazancı(S,Ebeveyn Durumu)=?
  • 22.
  • 23. • • • • • Bu Entropy değerlerini Bilgi Kazancı formülünde yerine koyarsak ebeveyn durumunun bilgi kazancını buluruz. Bilgi Kazancı(S,Hava Durumu)= Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) + Bilgi Kazancı(yok)Entropy(Syok)) =1,571-((5/10)*0+(5/10)*1,922) Bilgi Kazancı(S,Ebeveyn Durumu)=0,61
  • 24. • • Ebeveyn durumunun bilgi kazancını bulduktan sonra sırada para durumunun bilgi kazancını bulmak var. Onun özellikleri de ; var ve yok. Bu 2 özelliğin öncelikle entropy değerlerini bulup oradan bilgi kazancı formülünde yerine koyacağız. Bilgi Kazancı(S,Para Durumu)=?
  • 25.
  • 26. • • • • • Bu Entropy değerlerini Bilgi Kazancı formülünde yerine koyarsak para durumunun bilgi kazancını buluruz. Bilgi Kazancı(S,Para Durumu)= Entropy(S)-((Bilgi Kazancı(var)Entropy(Svar) + Bilgi Kazancı(yok)Entropy(Syok)) =1,571-((5/10)*1,842+(5/10)*0 Bilgi Kazancı(S,Para Durumu)=0,2816
  • 27. • • • • • Şimdi sıra geldi 3 özelliğin bilgi kazançlarını karşılaştırıp kazancı en yüksek olan özelliği kök özellik olarak konumlandırmaya. Bilgi Kazancı(S,Hava Durumu)=0,70 Bilgi Kazancı(S,Ebeveyn Durumu)=0,61 Bilgi Kazancı(S,Para Durumu)=0,2816 Görüldüğü gibi bilgi kazancı en yüksek olan HAVA DURUMU bizim kök özelliğimiz olmuştur.
  • 28. • Hava durumu bizim ilk kök hücremiz oldu fakat daha 2 özelliğimiz var ebeveyn durumu ve para durumu. Bunlardan hangisinin kök özellik olacağına tekrar bilgi kazançları hesaplanarak bakılması gerekir ve bunun için hava durumunun özellikleri olan güneşli, rüzgarlı ve yağmurlu özelliklerinin hepsi için ayrı ayrı değerlendirerek karar ağaçlarının dalları oluşturulur.
  • 29. • Şu anda karar ağacımız bu aşamadadır. Şimdi onu dallandırmaya devam ediyoruz.
  • 30. • • Bunun için ise hava durumunun özelliklerini tek tek ele almamız gerekli. Öncelikle güneşli özelliğinden başlayalım. Veri setimizden yalnızca hava durumu=güneşli olan verilerimizi aldık.
  • 31.
  • 32. • • • • • • • • Havanın güneşli olmasının özellikleri; ebeveyn durumu ve para durumudur. Ebeveyn durumu da 2 özellikten oluşur; var ya da yok. Var=1 (1’i de sinema) Yok=2 (2’si de tenis) Bilgi Kazancı(Sgüneşli ,Ebeveyn Durumu)= 0,198-(1/3)*0-(2/3)*0=0,198 Bilgi Kazancı(Sgüneşli ,Para Durumu)= 0,198-(3/3)*0,198-(0/3)*0=0
  • 33. • • Görüldüğü gibi Ebeveyn Durumunun bilgi kazancı > Para Durumunun bilgi kazancı olduğundan güneşli havanın alt özelliği ebeveyn durumu olmuştur. Böylece güneşli havanın karar sistemi ortaya çıkmış oldu. Hava güneşli ve yanında ebeveyni varsa sinemaya, hava güneşli ve yanında ebeveyni yoksa tenise gidilecektir.
  • 34. • Şu anda karar ağacımız bu durumda.
  • 35. • • Aynı uygulamaları rüzgarlı ve yağmurlu havada da yaptığımızda karar ağacımızı oluşturmuş olacağız. Rüzgarlı hava için veri setimizden yalnızca hava durumu=rüzgarlı olan verilerimizi aldık.
  • 36.
  • 37. • • • • • • Havanın rüzgarlı olmasının özellikleri; ebeveyn durumu ve para durumudur. Ebeveyn durumu da 2 özellikten oluşur; var ya da yok. Var=2(2’si de sinema) Yok=2(1’i sinema, 1’i alışveriş) Bilgi Kazancı(Srüzgarlı ,Ebeveyn Durumu)=0,811(2/4)*0 + (2/4)*1,922 =1,772 Bilgi Kazancı(Srüzgarlı ,Para Durumu)=0,811(3/4)*1,842 + (1/4)*0=0,5705
  • 38. • • İşlemleri tüm özellikleri konumlandırana dek devam ettiriyoruz. En sonunda karar ağacımızın yapısı karşımıza çıkıyor.