2. Verilerin dijital ortamda saklanmaya balanmas脹 ile
birlikte, yery端z端ndeki bilgi miktar脹n脹n her 20 ayda bir
iki kat脹na 巽脹kt脹脹 g端n端m端zde, veri tabanlar脹n脹n say脹s脹 da
benzer, hatta daha y端ksek bir oranda artmaktad脹r.
Ak脹ll脹 veri ileme metodu olan veri madencilii, d端nya
端zerinde artan veri miktar脹n脹n etkili bir bi巽imde
kullan脹lmas脹n脹n neredeyse tek 巽旦z端m端 olarak
g旦r端nmektedir. Bu gelime dier alanlarda olduu gibi
t脹p alan脹nda da ilgi oda脹 haline gelmitir. zellikle t脹p
alan脹ndaki verinin b端y端kl端端 ve hayati 旦nem ta脹mas脹
bu alandaki uygulamalar脹 daha da 旦nemli k脹lmaktad脹r.
3. T脹pta bir巽ok alanda a脹r脹 veri birikmesinin en youn
yaand脹脹 alanlardan birisi de t脹bbi verilerdir.
zellikle g端n端m端zde art脹k neredeyse t端m t脹bbi
cihazlar脹n dijital hale gelmesi bu sonucu doal hale
getirmitir.
Ka脹t 端zerinde veri toplanan klasik hastane bilgi
sistemlerinden farkl脹 olarak buradaki verilerden
yararlanmak her ne kadar 巽ok daha kolay gibi g旦r端nse
de, asl脹nda dier alanlardaki veriler gibi bunlar脹n da
bireysel 巽al脹malarla ilenmesi ve yorumlanmas脹
imkans脹z hale gelmitir.
4. T脹p alan脹nda veri madencilii uygulamalar脹na 旦rnek
olarak;
antipsikotik ila巽lar脹n kalp kas脹 hastal脹klar脹 端zerine etkisi
solunum fonksiyon testlerinin analizi
genetik bozukluklar脹n tespiti
ila巽 yan etkilerinin tan脹mlanmas脹
gibi 巽eitli 巽al脹malar脹 sayabiliriz.
5. Veri madencilii; belirli bir alanda ve belirli bir ama巽 i巽in
toplanan veriler aras脹ndaki gizli kalm脹 ilikilerin ortaya
konulmas脹d脹r.
Bunun yan脹nda, gelecee d旦n端k kararlar almam脹zda bize fikir
verir.
Veri madencilii, disiplinler aras脹 doas脹ndan dolay脹 istatistik,
veri tabanlar脹, makine 旦renmesi, bilgi toplama, g旦rselletirme,
paralel ve da脹t脹k hesaplama gibi bir巽ok disiplinden yard脹m al脹r.
6. Data Mining Aamalar脹;
Uygulama Alan脹n Ortaya Konulmas脹
Veri Ambar脹n脹n Oluturulmas脹
Modelin Kurulmas脹 ve Deerlendirilmesi
ablonlar脹n ve 聴likilerin Yorumlanmas脹
7. Veri Madenciliindeki Problemler;
Veri madencilii girdi olarak ham veriyi salamak
端zere veri tabanlar脹na dayan脹r.
Bu da veri tabanlar脹n脹n dinamik, eksiksiz, geni
ve net veri i巽ermemesi durumunda sorunlar
dourur. Dier sorunlar da verinin konu ile
uyumsuzluundan doabilir.
S脹n脹fland脹rmak gerekirse bal脹ca sorunlar
unlard脹r :
8. S脹n脹rl脹 Bilgi : Veri tabanlar脹 genel olarak veri madencilii d脹脹ndaki ama巽lar i巽in
tasarlanm脹lard脹r. Bu y端zden, 旦renme g旦revini kolaylat脹racak baz脹 旦zellikler
bulunmayabilir.
G端r端lt端 ve Eksik Deerler : Veri 旦zellikleri ya da s脹n脹flar脹ndaki hatalara g端r端lt端
ad脹 verilir. Veri tabanlar脹ndaki eksik bilgi ve bu yanl脹lardan dolay脹 veri
madencilii amac脹na tam olarak ulamayabilir. Bu bilgi yanl脹l脹脹, 旦l巽端m
hatalar脹ndan, ya da 旦znel yakla脹mdan olabilir.
Belirsizlik : Yanl脹l脹klar脹n iddeti ve verideki g端r端lt端n端n derecesi ile ilgilidir. Veri
tahmini bir keif sisteminde 旦nemli bir husustur.
Ebat, g端ncellemeler ve konu d脹脹 sahalar : Veri tabanlar脹ndaki bilgiler, veri
eklendik巽e ya da silindik巽e deiebilir. Veri madencilii perspektifinden
bak脹ld脹脹nda, kurallar脹n hala ayn脹 kal脹p kalmad脹脹 ve istikrarl脹l脹脹 problemi ortaya
巽脹kar. renme sistemi, kimi verilerin zamanla deimesine ve keif sisteminin
verinin zamans脹zl脹脹na kar脹n zaman duyarl脹 olmal脹d脹r.
9. T脹bbi Verinin Oluturulmas脹;
T脹bbi veriler 端zerinde 巽al脹ma yapmak bu verileri iyi tan脹makla
m端mk端nd端r.
T脹p alan脹nda belirli bir standard脹n olmay脹脹 ve varolan standartlar
aras脹nda tam bir uyumun olmamas脹 nedeniyle, bu alan脹nda bir veri
ambar脹n脹n oluturulmas脹 olduk巽a zor bir ilemdir.
Bunun yan脹 s脹ra t脹p alan脹ndaki terimlerin hem kar脹脹k hem de
birbirine yakla脹k olmas脹 da veri ambar脹 oluumunu negatif y旦nde
etkilemektedir.
T脹p alan脹ndaki veri genellikle farkl脹 kaynaklarda toplanmaktad脹r.
rnein hastan脹n laboratuar ile ilgili verileri ile hastan脹n tehis
bilgileri farkl脹 kaynaklarda ve farkl脹 ekillerde tutulmaktad脹r.
10. T脹pta Veri Madencilii Uygulama Alanlar脹;
A.Kusiak ve arkadalar脹 taraf脹ndan akcier deki t端m旦r端n iyi huylu
olup olmad脹脹na dair, karar destek ama巽l脹 bir 巽al脹ma yap脹lm脹t脹r.
聴statistiklere g旦re Amerika da 160.000 den fazla akcier kanseri
vakas脹n脹n olduu ve bunlar脹n %90脹n脹n 旦ld端端 belirlenmitir. Bu
balamda bu t端m旦r端n erken ve doru olarak tehisi 旦nem
kazanmaktad脹r. Noninvaziv testler ile elde edilen bilgi sayesinde
%40-60 oran脹nda doru tehis konabilmektedir. 聴nsanlar kanser
olup olmad脹klar脹ndan emin olmak i巽in biyopsi yapt脹rmay脹 tercih
etmektedirler. Biyopsi gibi invaziv testler hem maliyeti y端ksek
hem 巽eitli riskler ta脹maktad脹r. Fakl脹 yerlerde ve farkl脹
zamanlarda kliniklerde toplanan invaziv test verileri aras脹nda
yap脹lan veri madencilii 巽al脹malar脹 tehiste %100 oran脹nda
doruluk salam脹t脹r.
11. Baka bir 巽al脹ma ise Kore T脹bbi Sigorta Kurumu
taraf脹ndan haz脹rlanan bir veri taban脹 端zerinde yap脹lan
y端ksek tansiyon ile ilgili bir 巽al脹mad脹r. Bu 巽al脹ma 1998
y脹l脹na ait 127,886 kay脹t 端zerinde yap脹lm脹t脹r. 聴lk aamada
y端ksek tansiyona sahip 9,103 kay脹t 端zerinde, daha sonra
ayn脹 say脹da y端ksek tansiyonu olmayan kay脹tlar 端zerinde
巽al脹脹lm脹t脹r. Bu 旦rnek 13,689 kay脹ttan oluan 旦renme ve
4,588 kay脹ttan oluan test setine b旦l端nerek modelin eitimi
yap脹lm脹t脹r. Bu 巽al脹malar sonu巽unda y端ksek tansiyon
tahmininde etkili deerler urinary protein, kan glikozu,
kolesterol deerleridir. Yaam koullar脹n脹n (diyet, al脹nan tuz
miktar脹, alkol, t端t端n gibi) hi巽birinin tahminde etkili
olmad脹脹 ayr脹ca grafiksel deerlerde de yaln脹zca ya脹n etkili
olduu saptanm脹t脹r.
12. WEKA;
WEKA bir proje olarak balay脹p bug端n d端nya 端zerinde bir巽ok
insan taraf脹ndan kullan脹lmaya balanan bir Veri Madencilii
uygulamas脹 gelitirme program脹d脹r.
Java platformu 端zerinde gelitirilmi a巽脹k kodlu bir
programd脹r.
WEKA n脹n i巽erisinde Veri 聴leme, Veri S脹n脹fland脹rma, Veri
K端meleme, Veri 聴likilendirme 旦zellikleri mevcuttur.
Projenin amac脹na g旦re uygun algoritma veya algoritmalar
se巽ilerek veriler 端zerine uygulanmakta ve en doru sonucu
veren algoritma se巽ilebilmektedir.
13. Her bir veri madencilii algoritmas脹n脹n WEKA daki
kullan脹m脹na ilikin 旦rnek uygulamas脹;
Bu uygulamalar esnas脹nda kullan脹lacak veri k端mesi 285
adet 旦rnek mide kanseri verisi i巽ermekte olup 9 s脹n脹f ve
7 adeti n端merik kalanlar脹 ise kategorik olmak 端zere 68
nitelie sahiptir. Veritaban脹 i巽erisinde 970 adet kay脹p veri
bulunmakta olup b端t端n veritaban脹 i巽erisinde %5lik bir
belirsizlik s旦z konusudur.
17. Son olarak unu s旦yleyebiliriz; Data Mining
旦zellikle insan sal脹脹 ile ilgili olduu i巽in t脹bbi
kullan脹m脹 ile olduk巽a 旦nemli bir uygulama alan脹
bulacakt脹r. Bu konuda 旦nemini son y脹llarda giderek
artan 巽al脹malar ile de ortaya koymaya balam脹t脹r.