ݺߣ

ݺߣShare a Scribd company logo
Veri	Madenciliği,	Bilimi,		
(Data	Mining)	
adi	Evren	EKER
January	13,	2017	 2	
Doç. Dr. adi Evren EKER
Eğitim: Bilg Müh. BSc. , MSc. 7Tepe Ünv.
M.A. İTÜ STS, PhD. Yıldız Teknik Bilg. Müh. , PostDoc UT
Dallas Comp. Sci.,
İstanbul ehir Üniversitesi, Yönetim Bilişim Sistemleri.
Smith College, Computer Science
6 Farklı Ülkede 17 Farklı üniversitede ders vermek
www.SadiEvrenSEKER.com
YouTube:Bilgisayar Kavramları
©2016 adi Evren EKER, bütün hakları saklıdır.
January	13,	2017	 Data	Mining:	Concepts	Techniques	 3	
www.SadiEvrenSEKER.com
www.BilgisayarKavramlari.com	
January	13,	2017	 Data	Mining:	Concepts	and	Techniques	 4
YouTube:	Bilgisayar	Kavramları	
January	13,	2017	 Data	Mining:	Concepts	and	Techniques	 5
Hype	Cycle	2014	Gartner
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Dayanılan	Disiplinler
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
İş	Zekası	(Business	Intelligence)
Veri	Olgunluğu	
Uygulama	Katmanı	
Veri	Tabanları	
Arayüz	Katmanları	
•  Veri	Cahilliği	(olgunluk	0.0)	
•  Yöne_min	önünde	çalışanlar		(olgunluk	
0.5):	Excel,	mikro	uygulamalar	
•  Veri	Farkındalığı	(olgunluk	1.0)	:	Veri	
Tabanı	/	Dosya	
•  Veriyi	etkili	hale	ge_rmek	(olgunluk	1.5)	:	
View	kullanımı	
•  Etkili	Veri	Arayışı	(olgunluk	2.0)	:	Veri	
Ambarları	
•  Problemin	farkına	varma	(olgunluk	2.5)	
•  Bütün	veriya	anında	ve	her	amaç	için	
erişim	(olgunluk	3.0):	Büyük	Veri
Veri	Olgunluk	Seviyeleri	
•  1.	Veri	Bir	Varlıkfr	
•  2.	Veri	Tabanları	(RDBMS)	
•  2.5.	View	Yapıları	
•  3.	Veri	Ambarları	
•  3.5.	Gelişmiş	Martlar,	Veri	Küpleri	ve	OLAP	in-
memory	
•  4.	Büyük	Veri,	NoSQL	ve	Bulut	
16
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Bazı	Uygulama	Alanları	
•  Finansal	Veri	Analizi	
•  Parekende	Sektörü	
•  Telekom	
•  Biyolojik	Veriler	
•  Saldırgan	Yakalanması	
•  Sosyal	Ağlar
Finans/Pazarlama	Alanı	
•  Müşteri	davranışları	ve	Kredi	Karf	harcamaları	
•  Borsa	ve	diğer	finansal	araçların	analizi	
•  Kara	para	aklama	
•  Hedeflenmiş	pazarlama	
•  XRM	
•  Customer	Churn	Analysis	
•  Sigorta	Pirimleri
Parekende	Sektörü	
•  Çok	boyutlu	raporlar	(müşteri,	ürün,	zaman,	
şube	vs.)	
•  Kampanya	oluşturma/	başarısı	/	Analizi	
•  Ürün	tavsiyeleri	
•  Raf	analizleri
Telekom	Sektörü	
•  Hileli	aramaların	yakalanması	
•  Müşteri	profillemesi	
•  CRM	
•  Customer	Churn	Analysis	
•  Görselleş_rme
Biyoenforma_k	
•  Protein	veya	gen	dizilimlerinin	analizi	
•  Görselleş_rme	
•  Protein	veay	genlerin	indekslenmesi,	
kategorilenmesi	veya	aranması
Saldırganların	Yakalanması	
•  Akan	verinin	analizi	
•  Davranış	analizi	
•  Monitor	ve	alarm	mekanizmaları	
•  Görselleş_rme	ve	sorgu	araçları
Sosyal	Ağ	Analizi	
•  Hareketli	ortamın	modellenmesi	ve	tahmini	
•  Yazar	tanıma	
•  Grup	ve	arkadaşlık	analizleri	
•  Davranış	analizi	(tepkiler)	
•  Argüman	ve	trendler
NORA
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
Trendler	
•  Applica_on	Explora_on.	
•  Scalable	and	interac_ve	data	mining	methods.	
•  Integra_on	of	data	mining	with	database	systems,	data	warehouse	
systems	and	web	database	systems.	
•  Standardiza_on	of	data	mining	query	language.	
•  Visual	data	mining.	
•  New	methods	for	mining	complex	types	of	data.	
•  Biological	data	mining.	
•  Data	mining	and	sorware	engineering.	
•  Web	mining.	
•  Distributed	data	mining.	
•  Real	_me	data	mining.	
•  Mul_	database	data	mining.	
•  Privacy	protec_on	and	informa_on	security	in	data	mining.
Trendler	
•  Applica_on	Explora_on.	
•  Scalable	and	interac_ve	data	mining	methods.	
•  Integra_on	of	data	mining	with	database	systems,	data	warehouse	
systems	and	web	database	systems.	
•  Standardiza_on	of	data	mining	query	language.	
•  Visual	data	mining.	
•  New	methods	for	mining	complex	types	of	data.	
•  Biological	data	mining.	
•  Data	mining	and	sorware	engineering.	
•  Web	mining.	
•  Distributed	data	mining.	
•  Real	_me	data	mining.	
•  Mul_	database	data	mining.	
•  Privacy	protec_on	and	informa_on	security	in	data	mining.	
Veri	
Madenciliği,	
Verinin	olduğu	
her	yerdedir.
29	
Veri	Madenciliği	ve	Bazı	Problemler	
•  Verinin	büyüyen	hızı	her	geçen	gün	daha	da	yakalanamaz	olmaktadır.	
–  Verinin	büyüyen	hızı	önceleri	büyük	veriyi	tanımlarken	arfk	büyük	veri	5V	olarak	
tanımlanmaktadır.		
•  Veriyi	toplamak,	saklamak	ve	işlemek	için	otoma_ze	edilmiş	araçlara	ih_yaç	
artmaktadır	
–  Genelde	verinin	bolca	bulunduğu	alanlar	
•  İş	Dünyası:	Web,	E-Ticaret,	Safş/Banka/Süreç	İşlemleri	(Transac_ons),	Borsa,	
PAZARLAMA!!!!	…	
•  Bilim:	Uzaktan	Algılama,	Biyoinforma_k,	simülasyonlar,	…		
•  Toplum	ve	Halk	için:	Haberler,	Dijital	Kameralar,	YouTube,	..	
•  Bolca	veri	içerisinde	yüzüyoruz	ama	çoğu	zaman	bilgiden	yoksunuz.	
•  Buluşlar ihtiyaçlardan doğar!
Data Warehouse: A Multi-Tiered Architecture
Data
Warehouse
(Veri Ambarı)
Extract
Transform
Load
Refresh
OLAP Engine
Analysis
Query
Reports
Data mining
Monitor
&
Integrator
Metadata
Veri Kaynakları Front-End Tools
Serve
Data Marts
Operational
DBs
Other
sources
Data Storage
OLAP Server
ETL	
Extract	
(Çıkarım)	
PreProcess	
(Temizleme)	
Transform	
(Dönüşüm)	
Load	
(Yükleme)	
Veri	Taban(lar)ı	
Veri	Ambarı	
Kabul	Edilmeyen		
Veri	
Kademe	-	Sahne	(Staging	Area)	
Kabul	Edilmeyen		
Veri
Meslekler	–	Nereden	Başlamalı?	
No	Veri	Tabanı	
No	SQL	
Data	Mining	
Visualiza_on	(BI)	
No	DBA	
Yazılım	Geliş_rme	Uzmanı	
Veri	Bilimcisi	
Görselleş_rme	
Güvenlik	
SysOp	/	DevOp	/	Sys	Admin	
Maliyet	Hesabı	
Veri	Sahipliği	(governance)	
Büyük	Veri	Yöne_mi	
Proje	Yöne_mi	
Yazılım	Proje	Yöne_cisi
Pazar	Payları	ve	Teknolojiler
2015	Big	Data
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
üü
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş
İş	Rolleri
Web 1.0
Info – Centric Web
•  The first generation of the WorldWideWeb (WWW),
characterized by separate static websites.
•  It is one-way broadcasting.
•  It is invented 1989 byTim Berners- Lee.
•  It was widely used between 1998 and 2001, and it is still
used besideWeb 2.0 in almost all web sites.
Web	2.0	
People	Centric	Web	
!  Technologies	and	Trends	
!  Social	networking	sites:		
! Facebook,	MySpace,	
Hi5,	…	etc.	
!  Tagging	or	Labeling	Content:	
! Del.icio.us.	
!  Wikis:	
! Wikipedia.	
!  Community-generated	
content:	
! eBay.	
!  Open	Services:		
! Google.	
!  P2P:	
! Bit	Torrent.	
!  New	Web	technologies:	
! XML,	RSS,	Ajax.	
!  Open	Source	Sorware
Web	3.0	
Machine	Centric	Web	
•  Different meanings are intended to describe the
evolution ofWeb usage and interaction between
the many possible evolutionary paths.
•  The third generation ofWeb technologies and
services that emphasize a machine-facilitated
understanding of information on theWeb.
Web 3.0
Evolution Paths
•  SemanticWeb
•  Intelligent System Planning
•  Business and NetworkApplications
•  … etc.
•  VideoWeb
•  Web 3D
•  Ubiquitous and PervasiveWeb
Web 3.0
Semantic Web
•  It is a group of methods and technologies to allow
machines to understand the meaning - or "semantics" -
of information on theWorldWideWeb.
•  The semantic web is a vision of information that is
understandable by computers, so computers can
perform more of the tedious work involved in finding,
combining, and acting upon information on the web.
Semantic Web
The Technology
•  It involves publishing in languages specifically designed for
data: Resource Description Framework (RDF), Web Ontology
Language (OWL), and Extensible Markup Language (XML):
! HTML describes documents and the links between them.
! RDF, OWL, and XML, by contrast, can describe arbitrary
things such as people, meetings, or airplane parts.
Web	3.0	Web	2.0	Web	1.0	
Now	Before	 Future
Web	3.0	Web	2.0	Web	1.0	
Now	Before	 Future
Web	3.0
Veri	Madenciliği	Gelişim	Aşamaları	
•  Descrip/ve	Analy_cs,	which	use	data	aggrega_on	and	
data	mining	techniques	to	provide	insight	into	the	past	
and	answer:	“What	has	happened?”	:	Social	Analy_cs	
(Summarize	Data)	
•  Predic/ve	Analy_cs,	which	use	sta_s_cal	models	and	
forecasts	techniques	to	understand	the	future	and	
answer:	“Not	only	future	also,	What	could	happen?”	:	
Sen_mental	Analysis,		
•  Prescrip/ve	Analy_cs,	which	use	op_miza_on	and	
simula_on	algorithms	to	advice	on	possible	outcomes	
and	answer:	“What	should	we	do?”,	Recommender	
Algorithms	
January	13,	2017	 Data	Mining:	Concepts	and	Techniques	 48
January	13,	2017	 Data	Mining:	Concepts	and	Techniques	 49	
Architecture:	Typical	Data	Mining	System	
data cleaning, integration, and selection
Database	or	Data	Warehouse	
Server	
Data	Mining	Engine	
Pa{ern	Evalua_on	
Graphical	User	Interface	
Knowl
edge-
Base	
Database
Data
Warehouse
World-Wide
Web
Other Info
Repositories
Büyük	Veri	?	
•  Bilgisayar	işleme	kapasitesi	
•  5V
Büyük	Veri	ve	Map-Reduce	
•  Büyük	veri	için	kri_k	şartlar:	
– Map	
– Ölçeklenebilirlik	(Scalability	)	
– Problemin	Dağıflabilirliği	
•  Paralel	Programlama	
•  Dağıfk	Sistemler	
– Veri	Geçişi	
– Reduce
Map	Reduce	Nedir?	
MAP
Map	Reduce	Nedir?	
Reduce
Map	Reduce	Nedir?
WordCount	Örneği
NoSQL	
•  Scalability	(Ölçeklenebilirlik)	ve	büyümenin	
kontrol	edilmesi	
•  Coğrafi	limitlerin	kalkması	
•  Scheme	on	Read	
•  Lazy	Update	(OLTP	sistemi	değildir,	kesinlikle	
değildir!)	
•  Örnek	sosyal	ağlar
NoSQL	Ne	Sağlar?	
•  Yerel	veri	erişimi	
•  Verilerin	yapısız	olması	(unstructured)	
•  Veri	güncellemesinde	gereksiz	aşamaların	
azalflması	
•  DDOS	koruması
Big	Data		and	Data	Mining	Problems	
•  Classifica_on	
•  Clustering	
•  Associa_on	Rule	Mining	
•  Predic_on
Oracle	Big	Data	Mimarisi	
Çalışfrma	
(Execu_on)	
Yenilik	
(Innova_on)	
Veri	Entegrasyonu
İle_şim	
•  adi	Evren	EKER	
•  www.SadiEvrenSEKER.com	
•  www.MISSozluk.com	
•  www.BilgisayarKavramlari.com	
•  www.YBSAnsiklopledi.com	
•  YouTube:	Bilgisayar	Kavramları	
•  Current	Affilia_on:	İstanbul	ehir	Üniversitesi
Soru	-	Cevap	
•  YouTube:	bilgisayar	kavramları	
•  Mail:	ses@SadiEvrenSEKER.com	
•  Konular:	Akademik	hayat,	bilişim	sektörü,	
büyük	veri,	iş	hayaf,	veri	madenciliği,	
mahremiyet,	sosyal	ağlar,	kariyer	planlaması,	
öğrencilik,	bilgisayar	mühendisliği,	veri	
tabanları,	nosql,	yurt	dışı	(çalışmak	/	
öğrencilik)

More Related Content

Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş