2. Kaynaklar
• Han, J. and Kamber, M., 2006, Data
Mining: Concepts and Techniques,
The Morgan Kaufmann, Second
Edition.
• Olson, D.L.; Delen, D., 2008,
Advanced Data Mining Techniques,
Springer Publishing
3. Ajanda – 1.Hafta
• 1.1. Veri Madenciliği Nedir?
• 1.1.1. Temel Kavramlar
• 1.2. Veri Madenciliğine Giriş
• 1.2.1. Veri Madenciliğindeki Gelişim Süreci
• 1.2.2. Veri Madenciliği ve İstatistiksel Yöntemler Arasındaki
Farklılıklar ve Benzerlikler
• 1.3. Veri ve Verinin Saklanması
• 1.3.1. Veri Kaynakları
• 1.3.2. Veri Tabanı – Veri Ambarı – Data Mart Nedir?
• 1.3.3. Yapısal ve Yapısal Olmayan Veri Nedir?
4. …
HAM VERİ
•İngilizcesi “raw data” olan, düzenlenmemiş veri olarak ifade
edilebilir.
VERİ
•Satır ve kolonlar bazında ifade edilmiş, bir formata sahip olan
verileri ifade etmektedir.
•Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile
elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve
sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer
bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.
•Kategorik ve sürekli olarak ayrımını yapacağımız bu yapı daha
da derin bir bileşen yapısına sahiptir.
5. …
BİLGİ
•İngilizcesi “information” olan olgudur.
•Sorgu ve raporlama fonksiyonları sayesinde, veritabanındaki
verinin çekilerek bilgiye dönüşümü sağlanır. Örneğin, ürün,
miktar ve fiyat toplamları, satılan ürünlerle bunların miktar ve
hacimleri bilgiyi sağlar.
NİTELİKLİ BİLGİ
•İngilizcesi “knowledge” olan olgudur.
•Veri madenciliği teknolojisi içeren uygulamalar sayesinde, veri
içerisindeki gizli eğilim ve örüntülerin belirlenmesi olarak
düşünülebilir.
8. …
VERİ KAYNAKLARI
•Verinin tutulduğu alanları ifade eder. Veritabanları, text
dosyaları, excel dosyaları, XML dosyaları, sav dosyaları, sas
dosyaları gibi kaynaklar veri kaynakları olabilir.
VERİ DÖNÜŞTÜRME (ETL)
•ETL harfleri İngilizce karşılığı olan “veriyi çıkar, değiştir ve
yükle” işlemlerini ifade eder.
9. …
• Projelerde veri her zaman aynı biçimlerde ve istediğiniz detay
veya özet durumunda bulunmayabilir. Zaman zaman ihtiyaca
göre aynı verinin kullanım amacına bağlı olarak, farklı
düzenlerde kullanılması gerekir.
• ETL araçları ile verilerinin kaynaklarından ham olarak işlenecek
kaynağa çevrilmesi yapılır. Bu aşamada farklı erişim
protokolleri (ODBC, JDBC, doğal), dosya biçimleri kullanır. Elde
edilen veriler incelenir, çeşitli filtreleme, temizlik, eşleme,
sıralama, ek bilgiler ile zenginleştirme, ayrıştırma gibi işlemler
uygulanır.
10. …
VERİ AMBARI
•Veri ambarı, iş hedefleri doğrultusunda sorgulamalar ve analiz
yapmak için özelleşmiş bir veritabanıdır. Temel amacı, işletmeye
ait güncel olmayan kayıtları saklamak ve bu kayıtlar üzerinde
daha kolay analizler yapılmasını sağlayarak iş ihtiyaçlarını
anlamaya ve işletme fonksiyonlarını yenilemeye yardımcı olmak,
yani iş zekasına kolaylık sağlamaktır.
•Bildiğimiz
ilişkisel
veritabanları,
olaylar
ve
işlemlerle(transaction) ilgili verileri saklar, bu yüzden devamlı bir
veri giriş çıkışı içerisindedirler ve en güncel veriyi taşırlar. Veri
ambarları ise, bu veritabanlarındaki verilerle diğer dış
kaynaklardan alınan verilerin belirli periyodlarda derlenip
arşivlenmesi ile oluşturulan, bu sayede dönemsel analizlerin
yapılmasına olanak sağlayan yapılardır.
11. …
• Veri ambarları, veri saklama işlevinin dışında ETL, veri
madenciliği, raporlama, tahminleme çözümleri sunan
uygulamalar tarafından da kullanılarak, ham verilerin kullanışlı
bilgilere dönüştürülmesine olanak tanır.
12. …
DATA MART
•Data Mart’lar veri ambarlarının alt kümeleridir. Veri ambarları
bir iş probleminin tamamına yönelik bir bakış sağlarken, data
mart'lar sadece belli bir kısma bakış sağlarlar.
•İşletme üzerindeki karar vericilerin, işe ait tüm veriler üzerinde
analiz yapmasına gerek olmayabilir. Bu kişiler sadece kendi
birimleriyle ilgili verilere ulaşarak bunlara bağlı analizler yapmayı
isteyebilirler, bu durumda veri ambarındaki tüm karmaşıklıklık
içinde boğulmalarına gerek yoktur. Veri ambarlarının sadece bir
konu kapsamında alt kümesini temsil eden data mart'lar, veri
ambarları kadar ayrıntılı veri de barındırmazlar. Bu yüzden kolay
anlaşılabilir ve yönlendirilebilirlerdir.
13. …
OLAP ve OLTP Kavramları
•OLAP(On-Line Analytical Processing), veriler üzerinde çok
boyutlu analizler yapılmasına olanak sağlayan bir yaklaşımdır.
•Doğal olarak OLAP veri ambarlarına ait sorgulama ve oluşturma
işlemlerini de kapsar. Çok boyutlu veritabanı olarak tasarlanmış
bir veri ambarında, sözgelimi satışlarla ilgili bilgilerin yer aldığı
bir tabloda, "zaman" boyutunun elemanlarına denk gelen günhafta-ay-yıl gibi sütunlar bulunabilir, bu da OLAP'ın boyut
modellemesine olanak sağlar.
14. …
• Fakat veri ambarı ve OLAP terimlerinin birbirleri yerine
kullanılması yanlıştır, veri ambarı üstte bahsettiğim gibi
özelleşmiş bir veritabanını belirtirken, OLAP eldeki veriler
üzerinde çok boyutlu sorgular yapmayı kolaylaştıran bir analiz
yaklaşımıdır. Yani OLAP istemci uygulamaların veri ambarını
kullanmasını kolaylaştıran teknolojidir.
• OLAP küpü, boyut, fact gibi kavramlar da aslında veri ambarı
ile doğrudan bağlantılı değildir; OLAP süreçleri veri ambarı
gerektirmeyebilir, her veri ambarı da OLAP sürecine
sokulmayabilir. OLAP konuları ayrı bir derya, şimdilik
değinmeyeceğim. Ama OLAP denince akla veri ambarları
üzerinde yapılan boyutsal analiz işlemleri akla gelse yeterli.
15. …
İŞ ZEKASI
•Literatürdeki tüm kavram karmaşasına rağmen İş Zekası,
işletmelerin karar verme süreçlerini etkileyen ve optimize eden
tüm araçların kullanımını, verilerin toplanmasını, saklanmasını,
düzenlenmesini, analiz edilmesini ve görselleştirilmesini,
verilerin en etkin ve kolay biçimde yönetilmesini sağlayan tüm
süreçleri kapsayan bir anlayıştır. Verilerden bilgiye geçiş
sürecinde İş Zekası bir takım yöntem ve teknolojilerle bütünleşik
bir yapı sunmaktadır.
16. …
İSTATİSTİKSEL ANALİZLER
•17. Yüzyıla kadar sadece ham veri kaydetme şeklinde
gerçekleşen istatistiksel çalışmalar, 18. ve 19. Yüzyıllarda J.
Bernoulli ve K. Gauss’un katkılarıyla matematik temelleri üzerine
oturtulmuş, olasılık teorisi geliştirilmiştir. Dar anlamda istatistik;
geçmiş ve şimdiki durumla ilgili toplanmış sayısal verileri
geliştirilmiş olan bazı yöntemler ile analiz ederek gelecek
hakkında karar vermemizi kolaylaştıran bilim dalıdır. İstatistiksel
analizler temelde iki amaç doğrultusunda gerçekleştirilmektedir.
•Tanımlayıcı,
•Tahmin Edici.
17. …
VERİ MADENCİLİĞİ
•Veri madenciliği ile ilgili farklı tanımlar yapılmıştır. Bu
tanımlardan bazılarına aşağıda yer verilmiştir.
•Piatetsky-Shapiro’ya göre, veriden anlamlı ilişkiler ve örüntüler
(patterns) çıkarma sürecine, “veri madenciliği”, “bilgi çıkarımı”,
“bilgi keşfi”, “veri arkeolojisi” ve “veri şablon işleme” gibi isimler
verilmektedir. Veri madenciliği tanımını daha çok istatistikçiler,
veri analizcileri ve yönetim bilişim sistemleri kullanıcıları
kullanmaktadır. İlk olarak 1989 yılında bir atölye çalışmasında,
veri işleme sürecinde bilginin son ürün olduğunu vurgulamak
için “veri tabanlarında bilgi keşfi” tanımlaması kullanılmıştır.
18. …
• Adrians ve Zantinge’e göre veri tabanlarında zengin bilgiye
sahip olan pek çok organizasyon, bu bilgiyi yönetmenin çok zor
olması sebebiyle, bilgisayarları kullanmaktadır. Bilgisayarların
kullanılarak veriler içerisinden anlamlı bilgilerin çıkarılması,
veri madenciliği olarak tanımlanmıştır.
• Veri madenciliği, gelecekteki kararlara yardımcı olmak için
veritabanlarından eğilimler (trends), örüntüler ve iliskiler
bulur. VM, sadece uzmanlara veriyi anlamada ve iyi karar
vermede yardımcı olur.
19. DİKKAT!!!
• Veri madenciliği, ham veriden nitelikli bilgiye ulaşmada
kullanılan bir süreçtir. Buna rağmen VM sihir değildir. Bu
işlemin bizi iyi sonuçlara götüreceğini hiç kimse garanti
edemez. VM, araştırma ve çözümlemenin birden fazla disiplin
kullanılarak yapılmasıdır. Makine öğrenimi, istatistik,
veritabanı teknolojisi ve verilerin görüntülenmesi (data
visualization) gibi yöntemlerin birlikte kullanıldığı bir
yöntemdir. Her bir disiplin bu veri kesfine kendi özünü
katmaktadır.
21. Kavramlar - Karışıklık
• VM ile benzer ve tamamen farklı anlamlar taşıyan buna eş
değer başka kullanımlar da literatüre geçmiştir.
Veritabanlarından Bilgi Madenleme (knowledge mining from
databases), Bilgi Çıkarımı (knowledge extraction), Veri ve
Örüntü Çözümlemesi (data/pattern analysis), Veri Arkeolojisi
ve Veri Tarama gibi terimler literatürde kullanılmaktadır.
• Bunların arasındaki en popüler kullanım Veritabanlarında Bilgi
Kesfi (VTBK, Knowledge Discovery From Databases, KDD)'dir
ve birçok insan VM’yi en çok VTBK ile eş anlamda
kullanmaktadır.
22. VM Proje Safhaları
• Veri madenciliğinin bir çok disiplini barındıran yapısı ve farklı
uygulama alanlarındaki görevlerle prosedürlerin çeşitliliği, veri
büyüklüğünden dolayı farklı ve kirli veri kaynakları ile
çalışmadaki zorluklardan dolayı standart bir metodolojiye
ihtiyaç duymaktadır.
• CRISP-DM (Cross Industry Standard Process for Data Mining)
projesi, bir süreç modeli tanımlayarak bu problemlere hitap
eder. CRISP-DM süreç modeli, Daimler Chrysler AG, SPSS, NCR
ve OHRA gibi lider veri madenciliği kullanıcıları ve
tedarikçilerinden oluşan bir konsorsiyum tarafından
geliştirilmiştir.
24. Veri Madenciliği Modelleri
• VM’de kullanılan modeller, tahmin edici (predictive) ve
tanımlayıcı (descriptive) olmak üzere iki ana baslık altında
incelenmektedir.
• Tanımlayıcı modellerde ise karar vermeye rehberlik etmede
kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması
sağlanmaktadır. X/Y aralığında geliri, evi ve arabası olan, ayrıca
çocukları okul çağında olan aileler ile, çocuğu olmayan ve geliri
X/Y aralığından düşük olan ailelerin satın alma örüntülerinin
birbirlerine benzerlik gösterdiğinin belirlenmesi tanımlayıcı
modellere bir örnektir.
25. Veri Madenciliği Modelleri
• Tahmin edici modellerde, sonuçları bilinen verilerden hareket
edilerek bir model geliştirilmesi ve kurulan bu modelden
yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç
değerlerin tahmin edilmesi amaçlanmaktadır.
VM modellerini gördükleri islevlere göre,
• Sınıflama (Classification) ve Regresyon,
• Kümeleme (Clustering),
• Birliktelik Kuralları (Association Rules) ve Ardısık Zamanlı
Örüntüler (Sequential Patterns)
üç ana başlıkta toplanabilir.
27. VM Kullanılan Alanlar
• Kara Para Aklamanın Tespiti
• Sahtekârlık İle Mücadele
• Bölgesel Kalkınmışlık ve Gelişmişlik Tespiti ve Profillerin
Belirlenmesi
• Risk Analizleri
• Müşteri Memnuniyeti ve Profillerinin Belirlenmesi
• Müşteri İlişkileri Yönetimi (CRM)
• Müşteri Sadakat Analizi
• Müşteri Segmentasyon Analizleri
28. VM Kullanılan Alanlar
•
•
•
•
•
Hilekarlık ve Suistimal Analizleri ve Profillerinin Belirlenmesi
Mağaza / Satış / ATM /Şube Noktası Tespiti
Ürün ve Raf Düzeni
Çapraz Satış
Çalışan Memnuniyeti ve Profillerinin Belirlenmesi
• SAĞLIK, TELEKOM, PERAKENDE, EĞİTİM, ULAŞIM, İK, FİNANS,
KAMU…
36. Veri Tabanı
Veri Tabanı
Bilgisi
Bilgisi
İş bilgisi
İş bilgisi
••VeriMadenciliği ile cevaplanacak
Veri Madenciliği ile cevaplanacak
iş probleminin çerçevesinin çizilmesi
iş probleminin çerçevesinin çizilmesi
••Eldeedilen sonuçların iş hedefleri
Elde edilen sonuçların iş hedefleri
doğrultusunda değerlendirilmesi
doğrultusunda değerlendirilmesi
••İşalanı ve organizasyon yapısı
İş alanı ve organizasyon yapısı
hakkında bilgi ve tecrübe gerektiren
hakkında bilgi ve tecrübe gerektiren
öneriler ve yönlendirmelerde
öneriler ve yönlendirmelerde
bulunulması
bulunulması
••Organizasyonunyüzleştiği kritik
Organizasyonun yüzleştiği kritik
konuları iyi bilen iş kullanıcısı veri
konuları iyi bilen iş kullanıcısı veri
madenciliğinin adres göstereceği
madenciliğinin adres göstereceği
kritik soruları cevaplamak için
kritik soruları cevaplamak için
yardımcı
yardımcı
olacaktır.
olacaktır.
Veri Madenciliği
Veri Madenciliği
Bilgisi
Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
37. Veri Tabanı
Veri Tabanı
Bilgisi
Bilgisi
İş bilgisi
İş bilgisi
••Bubileşen olmadan bir veri
Bu bileşen olmadan bir veri
madenciliği projesi, aslında iş
madenciliği projesi, aslında iş
açısından önemsiz olan
açısından önemsiz olan
problemler için teknik açıdan
problemler için teknik açıdan
iyi bir çözümler üretme
iyi bir çözümler üretme
riskine sahip olacaktır.
riskine sahip olacaktır.
Veri Madenciliği
Veri Madenciliği
Bilgisi
Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
38. Veri Tabanı Bilgisi
Veri Tabanı Bilgisi
••Birveri madenciliği projesi elde iyi bir veri olmadığı sürece başarılı olamaz.
Bir veri madenciliği projesi elde iyi bir veri olmadığı sürece başarılı olamaz.
••Hangiveri tabloları ve dosyalar ulaşılabilir durumda?
Hangi veri tabloları ve dosyalar ulaşılabilir durumda?
••Birbirleriile nasıl ilişkilendirilmişler?
Birbirleri ile nasıl ilişkilendirilmişler?
••Alanlarnasıl kodlanmış? Hangi alanların düzenlenmeye ihtiyacı var?
Alanlar nasıl kodlanmış? Hangi alanların düzenlenmeye ihtiyacı var?
••Hangideğerler açıklanabilir? Hangileri hatalı, uç ya da ekstrem değerler?
Hangi değerler açıklanabilir? Hangileri hatalı, uç ya da ekstrem değerler?
••Sadeceanaliz edilecek verilere aşina, organizasyonun veri sistemleri
Sadece analiz edilecek verilere aşina, organizasyonun veri sistemleri
hakkında kapsamlı bilgiye sahip birisi bu ve diğer soruları cevaplayabilecektir.
hakkında kapsamlı bilgiye sahip birisi bu ve diğer soruları cevaplayabilecektir.
İş Bilgisi
İş Bilgisi
Veri Madenciliği
Veri Madenciliği
Bilgisi
Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
39. Veri Tabanı Bilgisi
Veri Tabanı Bilgisi
••Bubileşen olmadan en iyi yöntem
Bu bileşen olmadan en iyi yöntem
kullanıldığı halde doğru iş problemine
kullanıldığı halde doğru iş problemine
yanlış çözüm bulma ya da ulaşılabilir
yanlış çözüm bulma ya da ulaşılabilir
bir çözüm bulamama riski ile karşı
bir çözüm bulamama riski ile karşı
karşıya kalınacaktır.
karşıya kalınacaktır.
İş Bilgisi
İş Bilgisi
Veri Madenciliği
Veri Madenciliği
Bilgisi
Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
40. Veri Tabanı
Veri Tabanı
Bilgisi
Bilgisi
Veri Madenciliği Bilgisi
Veri Madenciliği Bilgisi
••Belirleneniş problemi için
Belirlenen iş problemi için
••enuygun veri madenciliği
en uygun veri madenciliği
aracının tespit edilmesi
aracının tespit edilmesi
••Birtekniğin optimum
Bir tekniğin optimum
ayarlarınıntespit edilmesi
ayarlarınıntespit edilmesi
••Tuhafve kayıp değerlerin
Tuhaf ve kayıp değerlerin
Analiz üzerindeki etkilerinin
Analiz üzerindeki etkilerinin
ölçülmesi
ölçülmesi
İş Bilgisi
İş Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
41. Veri Tabanı
Veri Tabanı
Bilgisi
Bilgisi
Veri Madenciliği Bilgisi
Veri Madenciliği Bilgisi
••Bubileşen olmadan önemli
Bu bileşen olmadan önemli
bir iş problemi elde faydalı
bir iş problemi elde faydalı
bir veri olduğu halde
bir veri olduğu halde
cevaplanamayabilir ya da
cevaplanamayabilir ya da
yanlış cevaplanabilir.
yanlış cevaplanabilir.
İş Bilgisi
İş Bilgisi
Entegrasyon
Entegrasyon
Bilgisi
Bilgisi
42. Veri Tabanı
Veri Tabanı
Bilgisi
Bilgisi
İş Bilgisi
İş Bilgisi
Veri Madenciliği
Veri Madenciliği
Bilgisi
Bilgisi
Entegrasyon Bilgisi
Entegrasyon Bilgisi
••Birmodelin yeni veri setine entegrasyonu Clementine’ın dışından, veri tabanı
Bir modelin yeni veri setine entegrasyonu Clementine’ın dışından, veri tabanı
tarafında yapılabilir.
tarafında yapılabilir.
••Clementinetarafından yaratılmış bir model kullanılabilir fakat farklı bir
Clementine tarafından yaratılmış bir model kullanılabilir fakat farklı bir
uygulamaya gömülebilir.
uygulamaya gömülebilir.
••Butip implementasyonlar için spesifik uzmanlıklara ihtiyaç duyulmaktadır.
Bu tip implementasyonlar için spesifik uzmanlıklara ihtiyaç duyulmaktadır.
Programlama bilgisi gibi bir veri madenciliği uzmanının sahip olmayabileceği
Programlama bilgisi gibi bir veri madenciliği uzmanının sahip olmayabileceği
uzmanlıkların diğer takım arkadaşları tarafından sağlanmasına ihtiyaç duyulabilir.
uzmanlıkların diğer takım arkadaşları tarafından sağlanmasına ihtiyaç duyulabilir.