2. Bilgisayar sistemleri, her geçen gün ucuzlaması ve güçlerinin
giderek artması nedeniyle yaşamın her alanına hızla
girmektedir. İşlemcilerin hızlanması, disk kapasitelerinin
artması, bilgisayar ağlarındaki ilerleme sonucu her bir
bilgisayarın başka bilgisayarlardaki verilere ulaşması olanağı,
bilgisayarların çok büyük miktardaki verileri
saklayabilmesine ve daha kısa sürede işleyebilmesine olanak
sağlamaktadır.
Teknolojinin büyük hızla gelişmesi sonucu bu şekilde
durmadan büyüyen ve işlenmediği sürece değersiz gibi
görünen veri yığınları oluşmaktadır. Bu veri yığınlarını,
içlerinde altın madenleri bulunan dağlara benzetmek
mümkündür. Bu madenlere ulaşmak için kullanılan yöntem
ise, temelinde istatistik uygulamaları yatan “VERİ
MADENCİLİĞİDİR”.
3. Veri madenciliği; önceden bilinmeyen, geçerli ve
uygulanabilir bilginin veri yığınlarından dinamik bir
süreç ile elde edilmesi olarak tanımlanabilir. Bu
süreçte kümeleme, veri özetleme sınıflama
kurallarının öğrenilmesi, bağımlılık ağlarının
bulunması, değişkenlik analizi ve anomali tespiti gibi
farklı birçok teknik kullanılmaktadır.
Veri madenciliği ile büyük veri yığınlarından oluşan
database sistemleri içerisinde gizli kalmış bilgilerin
çekilmesi sağlanır. Bu işlem, istatistik,matematik
disiplinleri, modelleme teknikleri, database teknolojisi
ve çeşitli bilgisayar programları kullanılarak yapılır.
4. Veri madenciliği büyük miktarda veri inceleme amacı üzerine
kurulmuş olduğu için veri tabanları ile yakından ilişkilidir.
Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir
şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir.
Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları
günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye
daha uygun bir özetini saklamayı amaçlar.
Veri madenciliği kendi başına bir çözüm değil çözüme ulaşmak
için verilecek karar sürecini destekleyen, problemi çözmek için
gerekli bilgileri sağlamaya yarayan bir araçtır.
Veri madenciliği; analistin’e, iş yapma aşamasında oluşan veriler
arasındaki şablonları ve ilişkileri bulması konusunda yardım
etmektedir.
5. Veri Madenciliği;
1- Büyük ve karmaşık verilerle çalışır.
2- Her türlü veriyi kullanarak çözümler üretebilir.
3- İstatistik, yapay zeka, makine öğrenmesi, Veri
tabanlarında bilgi keşfi, bilgisayar bilimi, yapı tanıma vb. gibi
disiplinlerden faydalanır.
4- Daha önceden bilinmeyen, doğrulanabilir,
etkinleştirilebilir enformasyon arar.
5- Otomatik veya yarı otomatik olarak çalışan çözüm araçları
kullanır.
6- Birçok endüstride kullanılmaktadır.
7- Sorunlara göre değişen çözüm araçları vardır.
8- Hızla büyümekte olan bir sektördür.
8. Uygulama alanının incelenmesi: Öncelikle konuyla ilgili bilgi
ve uygulama amaçların belirlenmesi
Amaca uygun veri kümesi yaratma: Analiz edilecek verinin
hangi veritabanında yapılacağını belirterek, veri seçmek ya
da keşif edilecek alt veri örnekleri oluşturma
Veri ayıklama ve önişlem: Gürültülü ve tutarsız verileri silme
Veri azaltma ve veri dönüşümü: Analizde gerekli özellikleri
(boyutları) seçme, özellikler arasındaki ilişkiyi belirleme, veri
dönüşümü ya da veri birleşimi yaparak boyut azaltma
Veri madenciliği tekniği seçme: Sınıflandırma (classify),
bağlantı kuralları (association rules), kümeleme (clustering)
Veri madenciliği algoritması seçme.
Model değerlendirme ve bilgi sunma
Bulunan bilginin yorumlanması
10. Müşterilerin elde tutulmasına yardımcı olur.
Müşteri profilinin ortaya çıkarılmasını sağlar, bu sayede müşteri
davranışlarının anlaşılmasını sağlar.
Müşteri kazanımı için yapılan harcamaları düşürür.
Yüksek kazanç getirecek müşterilerin hedeflenmesine yardımcı
olur.
Yapılan araştırmalarda daha kolay yöntemler kullanılması ile
yapılan harcamalar minimize edilmiş olur. Araştırma maliyeti
kullanılan istatistiksel yöntemlerle hissedilir derecede düşürülür.
Sigortacılık, bankacılık ve telekomünikasyon alanlarında geçmiş
veriler kullanılarak sahtekarlık yapanlar için bir model oluşturma
ve benzer davranışlar gösterenleri belirleme konusunda veri
madenciliğinin önemli rollerinin olduğunu söyleyebiliriz. Örnek;
Araba sigortası, sağlık sigortası, kredi kartı başvurusu yapanların
geçmiş alışkanlıklarının incelenerek başvurunun kabul edilmesi
veya reddedilmesi gibi.
11. Sınırlı bilgi
Veri tabanı boyutu
Aykırı ve eksik veriler
12. SPSS
CLEMENTİNE
SAS
ENTERPRİSE MİNER
Günümüzde en çok kullanılan veri madenciliği
programlarının başında büyük çapta istatistik
programları olan SAS ve SPSS gelmektedir.
13. Merkezi Chicago’da bulunan SPSS 1967 yılından bu yana verilerdeki gizli bilgileri
keşfetme ve stratejik karar desteği sağlama yönünde ileri analitik çözümler sunmaktadır.
SPSS’in veri madenciliği metadolojisi olarak kabul ettiği CRISP DM (cross ındustry
standart processing for data mining) %50’nin üzerinde bir kullanıma sahiptir. Internet
kayıtlarına ve elde edilen verilere gelişmiş veri madenciliği teknikleri uygulayarak,
kullanıcılar ile birebir ilişki kurmayı sağlayacak öngörüler elde edilebilir. Bu aşamada
SPSS çözümlerine, teknolojilerine ve danışmanlığına başvurarak, güvenilir sonuçlar elde
etme yolunda bir adım atmış oluruz. SPSS veri madenciliği çalışmalarına kendi
yeteneğini ve tecrübesini getirerek, öğrenme süresini azaltacak, çalışmalara en hızlı
şekilde başlamamızı sağlayacaktır.
ÖRNEK 1: Hollanda’da bulunan IGNATIUS Hastanesi ise tedavi sürelerinin ve belirli bir
sürede tedavi ihtiyacı olan kişi sayısının ve her bir hasta için tedavi süresinin tahmin
edilmesi yönünde uygulamalar geliştirmiş ve yaptığı analizler sonucunda elde ettiği bilgi
ile hastane kadro ve kaynak ihtiyaçlarının doğru belirlenmesini sağlamış ve geçmiş hasta
verilerinden elde ettiği bilgi ile kalp hastalıklarında bypass ameliyatlarının riskini
minimuma indirmeyi başarmıştır.
14. ÖRNEK 2:HSBC Amerika, SPSS veri madenciliği çözümleri ile
yaptığı çalışmada müşteri ihtiyaçlarını ve davranışlarını tespit
etmiş ve doğru müşteriye doğru önerilerle giderek pazarlama
maliyetlerinde %30’luk bir azalma sağlarken, satışlarını %50
artırmıştır. Edinilen deneyim ve başarı ile öğrenen bir organizasyon
olma ve bilgiye dayalı yeni bir çalışma stratejisi benimsemiştir.
Banco Espírito Santo (BES) SPSS’ in veri madenciliği çözümleri
sayesinde, kendisi ile çalışmayı bırakmaya meyilli müşteri profilini
tanımlayabilmiştir. Stratejik planlama ekibi, bu müşteri profilini
canlı tutan, kaybetmeden önce geri kazanmaya ve müşteriyi
memnun etmeye yönelik modeller geliştirmiştir. Sonuç olarak,
müşterinin hareketlerinden fayda yaratma kabiliyeti edinerek,
müşteri kaybını %15-20 azaltmış, karlılıklarını %10-20
arttırmışlardır.
15. SAS’ın dünya çapında 112 ülkede 44000’i aşkın
kullanıcısı bulunmaktadır. En son versiyonu 9.1.3
2007 yılının son aylarında piyasaya sunulmuştur.
Kullanımı SPSS programına göre biraz daha
zordur. SAS programında komut yazmak gerekir.
Veriler üzerinde gerekli istatistik tekniklerini
kullanarak tahmini sonuçlar verir. SAS
Araştırma, Kamu ,Perakende, Sigorta,
Bankacılık, Medya, Eğitim ve Telekomünikasyon
sektörlerinde kullanılmaktadır.
16. ÖRNEK 3: Fiyat endekslerinin hesaplanması, işgücü ve istihdam
endeksleri, hane halkı bütçe anketleri, gelir dağılımı, yoksulluk
çalışmaları, dış ticaret istatistikleri gibi birçok çalışmada SAS
çözümlerinden yaralanan TÜİK ‘2003 yılı Hane Halkı Bütçe Anketi’
çalışmasını bu sistem aracılığıyla tamamlamıştır.
ÖRNEK 4: Garanti Bankası müşterilerine sunduğu hizmetleri daha iyi bir
noktaya taşımak amacıyla SAS’ın veri madenciliği ürününü tercih
etmiştir. Müşterilerin finansal davranış modelleri ile ilgili detaylı bilgi elde
etmeyi hedefleyen Garanti, böylelikle daha etkin müşteri ilişkileri
yönetimi çalışmaları yapabilecektir.
18. Kurumlarda biriken veri içinden kurum için
yararlı olanlarını bulup ortaya çıkarma işine veri
madenciliği denir.
Veri madenciliği uygulamalarında altyapı
gereksinimini ise veri ambarı sağlar.
Veri madenciliği bir süreçtir.Verinin
temizlenmesinden
başlar;bütünleştirilmesi,indirgenmesi,dönüştürül
mesi,veri madenciliği yöntemlerinin
uygulanması ve sonuçların değerlendirilmesi gibi
adımlardan oluşur.
19. Veri madenciliğinde temel olarak üç modelden
bahsedilir.Sınıflama,kümeleme ve birliktelik
kuralları.
Veri içindeki gizli örüntülerin ortaya çıkarılması
amacıyla sınıflandırma modelleri kullanılır.
Verinin kendi aralarındaki benzerliklerinden yola
çıkarak gruplandırılması kümeleme yöntemleri
ile gerçekleşir.
Gözlemlerin birbiriyle olan ilişkisi ele alınarak
hangi olayların birlikte gerçekleştiği birliktelik
kuralları yöntemi ile ortaya konur.