際際滷

際際滷Share a Scribd company logo
TIP ALANINDA DATA
MINING UYGULAMALARI


    ESRANUR RETMEN
    080401040
Verilerin dijital ortamda saklanmaya balanmas脹 ile
birlikte, yery端z端ndeki bilgi miktar脹n脹n her 20 ayda bir
iki kat脹na 巽脹kt脹脹 g端n端m端zde, veri tabanlar脹n脹n say脹s脹 da
benzer, hatta daha y端ksek bir oranda artmaktad脹r.
Ak脹ll脹 veri ileme metodu olan veri madencilii, d端nya
端zerinde artan veri miktar脹n脹n etkili bir bi巽imde
kullan脹lmas脹n脹n neredeyse tek 巽旦z端m端 olarak
g旦r端nmektedir. Bu gelime dier alanlarda olduu gibi
t脹p alan脹nda da ilgi oda脹 haline gelmitir. zellikle t脹p
alan脹ndaki verinin b端y端kl端端 ve hayati 旦nem ta脹mas脹
bu alandaki uygulamalar脹 daha da 旦nemli k脹lmaktad脹r.
   T脹pta bir巽ok alanda a脹r脹 veri birikmesinin en youn
    yaand脹脹 alanlardan birisi de t脹bbi verilerdir.
   zellikle g端n端m端zde art脹k neredeyse t端m t脹bbi
    cihazlar脹n dijital hale gelmesi bu sonucu doal hale
    getirmitir.
   Ka脹t 端zerinde veri toplanan klasik hastane bilgi
    sistemlerinden farkl脹 olarak buradaki verilerden
    yararlanmak her ne kadar 巽ok daha kolay gibi g旦r端nse
    de, asl脹nda dier alanlardaki veriler gibi bunlar脹n da
    bireysel 巽al脹malarla ilenmesi ve yorumlanmas脹
    imkans脹z hale gelmitir.
T脹p alan脹nda veri madencilii uygulamalar脹na 旦rnek
olarak;
   antipsikotik ila巽lar脹n kalp kas脹 hastal脹klar脹 端zerine etkisi
   solunum fonksiyon testlerinin analizi
   genetik bozukluklar脹n tespiti
   ila巽 yan etkilerinin tan脹mlanmas脹
    gibi 巽eitli 巽al脹malar脹 sayabiliriz.
   Veri madencilii; belirli bir alanda ve belirli bir ama巽 i巽in
toplanan   veriler   aras脹ndaki   gizli   kalm脹   ilikilerin   ortaya
konulmas脹d脹r.
   Bunun yan脹nda, gelecee d旦n端k kararlar almam脹zda bize fikir
verir.
   Veri madencilii, disiplinler aras脹 doas脹ndan dolay脹 istatistik,
veri tabanlar脹, makine 旦renmesi, bilgi toplama, g旦rselletirme,
paralel ve da脹t脹k hesaplama gibi bir巽ok disiplinden yard脹m al脹r.
Data Mining Aamalar脹;


   Uygulama Alan脹n Ortaya Konulmas脹

   Veri Ambar脹n脹n Oluturulmas脹

   Modelin Kurulmas脹 ve Deerlendirilmesi

   ablonlar脹n ve 聴likilerin Yorumlanmas脹
Veri Madenciliindeki Problemler;

  Veri madencilii girdi olarak ham veriyi salamak
 端zere veri tabanlar脹na dayan脹r.
  Bu da veri tabanlar脹n脹n dinamik, eksiksiz, geni
 ve net veri i巽ermemesi durumunda sorunlar
 dourur. Dier sorunlar da verinin konu ile
 uyumsuzluundan doabilir.
  S脹n脹fland脹rmak gerekirse bal脹ca sorunlar
 unlard脹r :
   S脹n脹rl脹 Bilgi : Veri tabanlar脹 genel olarak veri madencilii d脹脹ndaki ama巽lar i巽in
    tasarlanm脹lard脹r. Bu y端zden, 旦renme g旦revini kolaylat脹racak baz脹 旦zellikler
    bulunmayabilir.

   G端r端lt端 ve Eksik Deerler : Veri 旦zellikleri ya da s脹n脹flar脹ndaki hatalara g端r端lt端
    ad脹 verilir. Veri tabanlar脹ndaki eksik bilgi ve bu yanl脹lardan dolay脹 veri
    madencilii amac脹na tam olarak ulamayabilir. Bu bilgi yanl脹l脹脹, 旦l巽端m
    hatalar脹ndan, ya da 旦znel yakla脹mdan olabilir.

   Belirsizlik : Yanl脹l脹klar脹n iddeti ve verideki g端r端lt端n端n derecesi ile ilgilidir. Veri
    tahmini bir keif sisteminde 旦nemli bir husustur.

   Ebat, g端ncellemeler ve konu d脹脹 sahalar : Veri tabanlar脹ndaki bilgiler, veri
    eklendik巽e ya da silindik巽e deiebilir. Veri madencilii perspektifinden
    bak脹ld脹脹nda, kurallar脹n hala ayn脹 kal脹p kalmad脹脹 ve istikrarl脹l脹脹 problemi ortaya
    巽脹kar. renme sistemi, kimi verilerin zamanla deimesine ve keif sisteminin
    verinin zamans脹zl脹脹na kar脹n zaman duyarl脹 olmal脹d脹r.
T脹bbi Verinin Oluturulmas脹;
   T脹bbi veriler 端zerinde 巽al脹ma yapmak bu verileri iyi tan脹makla
    m端mk端nd端r.
   T脹p alan脹nda belirli bir standard脹n olmay脹脹 ve varolan standartlar
    aras脹nda tam bir uyumun olmamas脹 nedeniyle, bu alan脹nda bir veri
    ambar脹n脹n oluturulmas脹 olduk巽a zor bir ilemdir.
    Bunun yan脹 s脹ra t脹p alan脹ndaki terimlerin hem kar脹脹k hem de
    birbirine yakla脹k olmas脹 da veri ambar脹 oluumunu negatif y旦nde
    etkilemektedir.
   T脹p alan脹ndaki veri genellikle farkl脹 kaynaklarda toplanmaktad脹r.
    rnein hastan脹n laboratuar ile ilgili verileri ile hastan脹n tehis
    bilgileri farkl脹 kaynaklarda ve farkl脹 ekillerde tutulmaktad脹r.
T脹pta Veri Madencilii Uygulama Alanlar脹;

   A.Kusiak ve arkadalar脹 taraf脹ndan akcier deki t端m旦r端n iyi huylu
    olup olmad脹脹na dair, karar destek ama巽l脹 bir 巽al脹ma yap脹lm脹t脹r.
    聴statistiklere g旦re Amerika da 160.000 den fazla akcier kanseri
    vakas脹n脹n olduu ve bunlar脹n %90脹n脹n 旦ld端端 belirlenmitir. Bu
    balamda bu t端m旦r端n erken ve doru olarak tehisi 旦nem
    kazanmaktad脹r. Noninvaziv testler ile elde edilen bilgi sayesinde
    %40-60 oran脹nda doru tehis konabilmektedir. 聴nsanlar kanser
    olup olmad脹klar脹ndan emin olmak i巽in biyopsi yapt脹rmay脹 tercih
    etmektedirler. Biyopsi gibi invaziv testler hem maliyeti y端ksek
    hem 巽eitli riskler ta脹maktad脹r. Fakl脹 yerlerde ve farkl脹
    zamanlarda kliniklerde toplanan invaziv test verileri aras脹nda
    yap脹lan veri madencilii 巽al脹malar脹 tehiste %100 oran脹nda
    doruluk salam脹t脹r.
   Baka bir 巽al脹ma ise Kore T脹bbi Sigorta Kurumu
    taraf脹ndan haz脹rlanan bir veri taban脹 端zerinde yap脹lan
    y端ksek tansiyon ile ilgili bir 巽al脹mad脹r. Bu 巽al脹ma 1998
    y脹l脹na ait 127,886 kay脹t 端zerinde yap脹lm脹t脹r. 聴lk aamada
    y端ksek tansiyona sahip 9,103 kay脹t 端zerinde, daha sonra
    ayn脹 say脹da y端ksek tansiyonu olmayan kay脹tlar 端zerinde
    巽al脹脹lm脹t脹r. Bu 旦rnek 13,689 kay脹ttan oluan 旦renme ve
    4,588 kay脹ttan oluan test setine b旦l端nerek modelin eitimi
    yap脹lm脹t脹r. Bu 巽al脹malar sonu巽unda y端ksek tansiyon
    tahmininde etkili deerler urinary protein, kan glikozu,
    kolesterol deerleridir. Yaam koullar脹n脹n (diyet, al脹nan tuz
    miktar脹, alkol, t端t端n gibi) hi巽birinin tahminde etkili
    olmad脹脹 ayr脹ca grafiksel deerlerde de yaln脹zca ya脹n etkili
    olduu saptanm脹t脹r.
WEKA;

   WEKA bir proje olarak balay脹p bug端n d端nya 端zerinde bir巽ok
    insan taraf脹ndan kullan脹lmaya balanan bir Veri Madencilii
    uygulamas脹 gelitirme program脹d脹r.
   Java platformu 端zerinde gelitirilmi a巽脹k kodlu bir
    programd脹r.
   WEKA n脹n i巽erisinde Veri 聴leme, Veri S脹n脹fland脹rma, Veri
    K端meleme, Veri 聴likilendirme 旦zellikleri mevcuttur.
   Projenin amac脹na g旦re uygun algoritma veya algoritmalar
    se巽ilerek veriler 端zerine uygulanmakta ve en doru sonucu
    veren algoritma se巽ilebilmektedir.
Her bir veri madencilii algoritmas脹n脹n WEKA daki
    kullan脹m脹na ilikin 旦rnek uygulamas脹;

   Bu uygulamalar esnas脹nda kullan脹lacak veri k端mesi 285
    adet 旦rnek mide kanseri verisi i巽ermekte olup 9 s脹n脹f ve
    7 adeti n端merik kalanlar脹 ise kategorik olmak 端zere 68
    nitelie sahiptir. Veritaban脹 i巽erisinde 970 adet kay脹p veri
    bulunmakta olup b端t端n veritaban脹 i巽erisinde %5lik bir
    belirsizlik s旦z konusudur.
皆脹稼脹韓鉛温稼糸脹姻馨温;
悪端馨艶鉛艶馨艶;
Medical data mining applications
   Son olarak unu s旦yleyebiliriz; Data Mining
    旦zellikle insan sal脹脹 ile ilgili olduu i巽in t脹bbi
    kullan脹m脹 ile olduk巽a 旦nemli bir uygulama alan脹
    bulacakt脹r. Bu konuda 旦nemini son y脹llarda giderek
    artan 巽al脹malar ile de ortaya koymaya balam脹t脹r.

More Related Content

Medical data mining applications

  • 1. TIP ALANINDA DATA MINING UYGULAMALARI ESRANUR RETMEN 080401040
  • 2. Verilerin dijital ortamda saklanmaya balanmas脹 ile birlikte, yery端z端ndeki bilgi miktar脹n脹n her 20 ayda bir iki kat脹na 巽脹kt脹脹 g端n端m端zde, veri tabanlar脹n脹n say脹s脹 da benzer, hatta daha y端ksek bir oranda artmaktad脹r. Ak脹ll脹 veri ileme metodu olan veri madencilii, d端nya 端zerinde artan veri miktar脹n脹n etkili bir bi巽imde kullan脹lmas脹n脹n neredeyse tek 巽旦z端m端 olarak g旦r端nmektedir. Bu gelime dier alanlarda olduu gibi t脹p alan脹nda da ilgi oda脹 haline gelmitir. zellikle t脹p alan脹ndaki verinin b端y端kl端端 ve hayati 旦nem ta脹mas脹 bu alandaki uygulamalar脹 daha da 旦nemli k脹lmaktad脹r.
  • 3. T脹pta bir巽ok alanda a脹r脹 veri birikmesinin en youn yaand脹脹 alanlardan birisi de t脹bbi verilerdir. zellikle g端n端m端zde art脹k neredeyse t端m t脹bbi cihazlar脹n dijital hale gelmesi bu sonucu doal hale getirmitir. Ka脹t 端zerinde veri toplanan klasik hastane bilgi sistemlerinden farkl脹 olarak buradaki verilerden yararlanmak her ne kadar 巽ok daha kolay gibi g旦r端nse de, asl脹nda dier alanlardaki veriler gibi bunlar脹n da bireysel 巽al脹malarla ilenmesi ve yorumlanmas脹 imkans脹z hale gelmitir.
  • 4. T脹p alan脹nda veri madencilii uygulamalar脹na 旦rnek olarak; antipsikotik ila巽lar脹n kalp kas脹 hastal脹klar脹 端zerine etkisi solunum fonksiyon testlerinin analizi genetik bozukluklar脹n tespiti ila巽 yan etkilerinin tan脹mlanmas脹 gibi 巽eitli 巽al脹malar脹 sayabiliriz.
  • 5. Veri madencilii; belirli bir alanda ve belirli bir ama巽 i巽in toplanan veriler aras脹ndaki gizli kalm脹 ilikilerin ortaya konulmas脹d脹r. Bunun yan脹nda, gelecee d旦n端k kararlar almam脹zda bize fikir verir. Veri madencilii, disiplinler aras脹 doas脹ndan dolay脹 istatistik, veri tabanlar脹, makine 旦renmesi, bilgi toplama, g旦rselletirme, paralel ve da脹t脹k hesaplama gibi bir巽ok disiplinden yard脹m al脹r.
  • 6. Data Mining Aamalar脹; Uygulama Alan脹n Ortaya Konulmas脹 Veri Ambar脹n脹n Oluturulmas脹 Modelin Kurulmas脹 ve Deerlendirilmesi ablonlar脹n ve 聴likilerin Yorumlanmas脹
  • 7. Veri Madenciliindeki Problemler; Veri madencilii girdi olarak ham veriyi salamak 端zere veri tabanlar脹na dayan脹r. Bu da veri tabanlar脹n脹n dinamik, eksiksiz, geni ve net veri i巽ermemesi durumunda sorunlar dourur. Dier sorunlar da verinin konu ile uyumsuzluundan doabilir. S脹n脹fland脹rmak gerekirse bal脹ca sorunlar unlard脹r :
  • 8. S脹n脹rl脹 Bilgi : Veri tabanlar脹 genel olarak veri madencilii d脹脹ndaki ama巽lar i巽in tasarlanm脹lard脹r. Bu y端zden, 旦renme g旦revini kolaylat脹racak baz脹 旦zellikler bulunmayabilir. G端r端lt端 ve Eksik Deerler : Veri 旦zellikleri ya da s脹n脹flar脹ndaki hatalara g端r端lt端 ad脹 verilir. Veri tabanlar脹ndaki eksik bilgi ve bu yanl脹lardan dolay脹 veri madencilii amac脹na tam olarak ulamayabilir. Bu bilgi yanl脹l脹脹, 旦l巽端m hatalar脹ndan, ya da 旦znel yakla脹mdan olabilir. Belirsizlik : Yanl脹l脹klar脹n iddeti ve verideki g端r端lt端n端n derecesi ile ilgilidir. Veri tahmini bir keif sisteminde 旦nemli bir husustur. Ebat, g端ncellemeler ve konu d脹脹 sahalar : Veri tabanlar脹ndaki bilgiler, veri eklendik巽e ya da silindik巽e deiebilir. Veri madencilii perspektifinden bak脹ld脹脹nda, kurallar脹n hala ayn脹 kal脹p kalmad脹脹 ve istikrarl脹l脹脹 problemi ortaya 巽脹kar. renme sistemi, kimi verilerin zamanla deimesine ve keif sisteminin verinin zamans脹zl脹脹na kar脹n zaman duyarl脹 olmal脹d脹r.
  • 9. T脹bbi Verinin Oluturulmas脹; T脹bbi veriler 端zerinde 巽al脹ma yapmak bu verileri iyi tan脹makla m端mk端nd端r. T脹p alan脹nda belirli bir standard脹n olmay脹脹 ve varolan standartlar aras脹nda tam bir uyumun olmamas脹 nedeniyle, bu alan脹nda bir veri ambar脹n脹n oluturulmas脹 olduk巽a zor bir ilemdir. Bunun yan脹 s脹ra t脹p alan脹ndaki terimlerin hem kar脹脹k hem de birbirine yakla脹k olmas脹 da veri ambar脹 oluumunu negatif y旦nde etkilemektedir. T脹p alan脹ndaki veri genellikle farkl脹 kaynaklarda toplanmaktad脹r. rnein hastan脹n laboratuar ile ilgili verileri ile hastan脹n tehis bilgileri farkl脹 kaynaklarda ve farkl脹 ekillerde tutulmaktad脹r.
  • 10. T脹pta Veri Madencilii Uygulama Alanlar脹; A.Kusiak ve arkadalar脹 taraf脹ndan akcier deki t端m旦r端n iyi huylu olup olmad脹脹na dair, karar destek ama巽l脹 bir 巽al脹ma yap脹lm脹t脹r. 聴statistiklere g旦re Amerika da 160.000 den fazla akcier kanseri vakas脹n脹n olduu ve bunlar脹n %90脹n脹n 旦ld端端 belirlenmitir. Bu balamda bu t端m旦r端n erken ve doru olarak tehisi 旦nem kazanmaktad脹r. Noninvaziv testler ile elde edilen bilgi sayesinde %40-60 oran脹nda doru tehis konabilmektedir. 聴nsanlar kanser olup olmad脹klar脹ndan emin olmak i巽in biyopsi yapt脹rmay脹 tercih etmektedirler. Biyopsi gibi invaziv testler hem maliyeti y端ksek hem 巽eitli riskler ta脹maktad脹r. Fakl脹 yerlerde ve farkl脹 zamanlarda kliniklerde toplanan invaziv test verileri aras脹nda yap脹lan veri madencilii 巽al脹malar脹 tehiste %100 oran脹nda doruluk salam脹t脹r.
  • 11. Baka bir 巽al脹ma ise Kore T脹bbi Sigorta Kurumu taraf脹ndan haz脹rlanan bir veri taban脹 端zerinde yap脹lan y端ksek tansiyon ile ilgili bir 巽al脹mad脹r. Bu 巽al脹ma 1998 y脹l脹na ait 127,886 kay脹t 端zerinde yap脹lm脹t脹r. 聴lk aamada y端ksek tansiyona sahip 9,103 kay脹t 端zerinde, daha sonra ayn脹 say脹da y端ksek tansiyonu olmayan kay脹tlar 端zerinde 巽al脹脹lm脹t脹r. Bu 旦rnek 13,689 kay脹ttan oluan 旦renme ve 4,588 kay脹ttan oluan test setine b旦l端nerek modelin eitimi yap脹lm脹t脹r. Bu 巽al脹malar sonu巽unda y端ksek tansiyon tahmininde etkili deerler urinary protein, kan glikozu, kolesterol deerleridir. Yaam koullar脹n脹n (diyet, al脹nan tuz miktar脹, alkol, t端t端n gibi) hi巽birinin tahminde etkili olmad脹脹 ayr脹ca grafiksel deerlerde de yaln脹zca ya脹n etkili olduu saptanm脹t脹r.
  • 12. WEKA; WEKA bir proje olarak balay脹p bug端n d端nya 端zerinde bir巽ok insan taraf脹ndan kullan脹lmaya balanan bir Veri Madencilii uygulamas脹 gelitirme program脹d脹r. Java platformu 端zerinde gelitirilmi a巽脹k kodlu bir programd脹r. WEKA n脹n i巽erisinde Veri 聴leme, Veri S脹n脹fland脹rma, Veri K端meleme, Veri 聴likilendirme 旦zellikleri mevcuttur. Projenin amac脹na g旦re uygun algoritma veya algoritmalar se巽ilerek veriler 端zerine uygulanmakta ve en doru sonucu veren algoritma se巽ilebilmektedir.
  • 13. Her bir veri madencilii algoritmas脹n脹n WEKA daki kullan脹m脹na ilikin 旦rnek uygulamas脹; Bu uygulamalar esnas脹nda kullan脹lacak veri k端mesi 285 adet 旦rnek mide kanseri verisi i巽ermekte olup 9 s脹n脹f ve 7 adeti n端merik kalanlar脹 ise kategorik olmak 端zere 68 nitelie sahiptir. Veritaban脹 i巽erisinde 970 adet kay脹p veri bulunmakta olup b端t端n veritaban脹 i巽erisinde %5lik bir belirsizlik s旦z konusudur.
  • 17. Son olarak unu s旦yleyebiliriz; Data Mining 旦zellikle insan sal脹脹 ile ilgili olduu i巽in t脹bbi kullan脹m脹 ile olduk巽a 旦nemli bir uygulama alan脹 bulacakt脹r. Bu konuda 旦nemini son y脹llarda giderek artan 巽al脹malar ile de ortaya koymaya balam脹t脹r.