際際滷

際際滷Share a Scribd company logo
Introducere 樽n Data Mining
Curs 3: Explorarea datelor
Lucian Sasu, Ph.D.
Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic
April 7, 2014
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 1 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 2 / 63
Explorarea datelor
Explorarea datelor reprezint investigarea preliminar a datelor, cu
scopul de a ob釘ine o 樽n釘elegere a caracteristicilor lor
Pasul de explorare poate 鍖 de folos 樽n alegerea pailor de preprocesare
sau analiz
Se poate folosi abilitatea natural a oamenilor de a recunoate
pattern-uri
Domeniul a fost introdus de ctre statisticianul John Tukey:
Exploratory Data Analysis, Addison-Wesley
AED este domeniu opus lui Con鍖rmatory Data Analysis, care are ca
scop testarea ipotezelor statistice, calculul intervalelor de 樽ncredere
etc.
Curs de AED: aici
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 3 / 63
Explorarea datelor
n AED, aa cum este de鍖nit de Tukey:
Focus-ul este pe vizualizare
Gruparea (clustering) i detectarea de anomalii sunt vzute ca tehnici
exploratorii
Acestea dou sunt subdomenii aparte ale DM, dincolo de analiz
exploratorie
Con釘inutul prezentrii:
statistici de sumarizare
vizualizare
On-line Analytical Processing
Primele dou: clasice
OLAP: util pentru explorarea datelor multidimensionale, cu scopul
ob釘inerii de sumarizri: pentru v但nzri raportate 樽n forma cantitate,
loca釘ie, dat, produs, OLAP permite crearea de sumarizri care
descriu v但nzrile pentru un anumit produs/loca釘ie/lun
OLAP este inclus deseori ca auxiliar al SGBD-urilor actuale
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 4 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 5 / 63
Setul de date Iris
Setul de date pe care se exempli鍖c 樽n acest curs: Iris
Const 樽n date msurate pentru 150 de 鍖ori de iris, din 3 specii (Iris
Setosa, Iris Versicolour, Iris Virginica, c但te 50 de exemplare pe specie)
Msurtorile sunt pentru lungimea/l釘imea petalelor/sepalelor 樽n
centimetri (4 coloane)
A cincea coloan este specia 鍖orii  atribut nominal
Datele se pot descrca de aici
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 6 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 7 / 63
Statistici de sumarizare
Statisticile de sumarizare sunt numere care schi釘eaz caracteristicile
unui set de valori
Reprezint manifestarea cea mai vizibil a statisticii
Exemple: frecven釘a, media, dispersia
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 8 / 63
Frecven釘a i valoarea modal
Pentru un set de m date categoriale cu valorile {v1, . . . , vi , . . . , vk}
frecven釘a unei valori vi este:
frecventa(vi ) =
Numrul de obiecte cu valoarea vi
m
Valoarea modal (sau moda) este valoarea cu cea mai mare
frecven釘:
moda = arg max
vi
frecventa(vi )
Aten釘ie la situa釘ia c但nd o anume valoare este folosit pentru a
semni鍖ca lipsa datelor: null-ul poate aprea ca mod
Pot exista seturi de date pentru care frecven釘a maxim s 鍖e atins
pentru mai multe valori = seturi multimodale
Pentru valori continue, conceptele de mod/frecven釘 nu sunt utile,
cu excep釘ia cazului c但nd se aplic un pas de discretizare
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 9 / 63
Percentile
Pentru cazul valorilor ordonate se pot considera percentilele
Pentru un atribut continuu sau ordinal x i un numr p 樽ntreg 樽ntre 0
i 100, a p-a percentil xp este o valoare din irul de valori ale lui x
astfel 樽nc但t p% din aceste valori sunt mai mici dec但t xp
Nu exist o de鍖ni釘ie standardizat pentru percentile, cea de mai sus
este luat pentru 鍖xare
Pentru cazul 樽n care se calculeaz percentile pentru set mare de date,
diferen釘ele datorate diferitelor moduri de de鍖nire devin neesen釘iale
Tradi釘ional se consider x0% = min(x) iar din de鍖ni釘ie se poate arta
c x100% = max(x)
Mod de calcul pentru determinarea celei de a p-a percentile: pentru
un set de n date se calculeaz valoarea 樽ntreag k cea mai apropiat
de n
100 p + 1
2 i se ia valoarea corespunztoare acestui rang k 樽n irul x
sortat
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 10 / 63
Msurarea loca釘iei: media i mediana
Pentru un set de valori {x1, x2, . . . , xm} valoarea medie este:
x = media(x) =
1
m
m
i=1
xi
Pentru a鍖area medianei este nevoie s se fac sortarea valorilor
ini釘iale, ob釘in但nduse mul釘imea (permutarea) x(1), x(2), . . . , x(m) ;
mediana este
mediana(x) =
x(r+1) dac m = 2r + 1
x(r)+x(r+1)
2 dac m = 2r
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 11 / 63
Msurarea loca釘iei: media i mediana
Media este valoare de mijloc doar dac distribu釘ia datelor este
simetric
Dac distribu釘ia este asimetric, atunci mediana este un indicator mai
bun pentru valoare de mijloc
Media este in鍖uen釘at de outliers, 樽n timp ce mediana  nu
Medie retezat (eng: trimmed mean) se utilizeaz pentru a exlude
anomaliile: se 鍖xeaz un procent p 樽ntre 0 i 100; se elimin primele i
ultimele (p/2)% din date; se calculeaz media pentru ceea ce rm但ne
media standard se ob釘ine din media retezat cu p = 0
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 12 / 63
Msurarea loca釘iei: media i mediana
Exemple:
Considerm valorile {1, 2, 3, 4, 5, 90}. Media este 17.5, mediana este
3.5. Valoarea de trimmed mean pentru p = 40% este 3.5, considerabil
diferit fa釘 de media setului 樽ntreg de date
Media, medianele i valoarea de trimmed mean pentru iris sunt:
Msura Lungimea Lungimea Lungimea Lungimea
sepalelor sepalelor petalelor petalelor
Media 5.84 3.05 3.76 1.20
Mediana 5.80 3.00 4.35 1.30
Trimmed mean (20%) 5.79 3.02 3.72 1.12
Exerci釘iu: dac valoarea medianei este mai mic dec但t media, ce pute釘i
spune despre date?
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 13 / 63
Msurari ale 樽mprtierii datelor
Sunt msuri care cuanti鍖c concentrarea datelor
Diametrul domeniului de valori (eng: range) al unui set de date
{x1, x2, . . . , xm} corespunztor atributului x este
range(x) = max(x)  min(x) = x(m)  x(1)
Range-ul este nerelevant, deoarece putem avea c majoritatea datelor
sunt concentrate 樽ntro zon 樽ngust, dar c但teva valori outlier mresc
arti鍖cial raza setului
Varian釘a (dispersia) unui set de date de m valori este:
varianta(x) = s2
x =
1
m  1
m
i=1
(xi  x)2
Utilizarea numitorului m  1 樽n loc de m este numit Corec釘ia Bessel
i are ca scop corectarea abaterii din estimarea varian釘ei de popula釘ie
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 14 / 63
Msurari ale 樽mprtierii datelor
Abaterea standard este sx = s2
x i are aceeai unitate de msur ca
i atributul x
Deoarece media poate s 鍖e distorsionat de outliers, rezult c
dispersia poate 鍖 i ea in鍖uen釘at
Se prefer considerarea altor trei msuri:
absolute average deviation, AAD:
AAD(x) =
1
m
m
i=1
|xi  x|
median absolute deviation, MAD
MAD(x) = median ({|x1  x|, . . . , |xm  x|})
interquartile range
interquartile range(x) = x75%  x25%
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 15 / 63
Statistici de sumarizare a datelor multivariate
Date multivariate: date cu mai multe atribute
Pentru atributul xi calculm media xi
Media setului de obiecte este x = (x1, . . . , xn)
Analog se poate calcula dispersia, mediana etc. pe 鍖ecare dimensiune
Matricea de covarian釘: elementul sij de pe linia i i coloana j este
covarian釘a atributelor xi i xj:
sij = covarianta (xi , xj) =
1
m  1
m
k=1
(xki  xi )(xkj  xj)
unde xpq este a p-a valoare a atributului xq
sij este msur a gradului 樽n care dou atribute variaz 樽mpreun (mai
precis: care este gradul lor de dependen釘 liniar) i depinde de
magnitudinea valorilor atributelor
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 16 / 63
Statistici de sumarizare a datelor multivariate
sij = 0 樽nseamn c atributele si i sj nu sunt liniar dependente
Matrice de corela釘ie:
rij = corelatia(xi , xj) =
covarianta(xi , xj)
si sj
 [1, 1]
rij se mai numete corela釘ia Pearson a atributelor xi i xj
rij = 賊1 indic faptul c xi este 樽n rela釘ie liniar cu xj:
xki = a 揃 xkj + b cu sgn(a) = sgn(rij)
Figure 1: Seturi de date (x, y) 樽mpreun cu coe鍖cientul de corela釘ie. Coe鍖cientul de corela釘ie surprinde gradul 樽n care un
nor de puncte poate 鍖 aproximat printr-o dreapt (sus) precum i modul 樽n care ele sunt legate liniar (cretere simultan sau
evolu釘ii 樽n sensuri diferite), dar nu i panta acestei legturi (鍖gurile din mijloc) sau rela釘ii mai complexe 樽ntre date (r但ndul de
jos). Sursa: Wikipedia.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 17 / 63
Statistici de sumarizare a datelor multivariate
Legat de coe鍖cientul de corela釘ie, c但teva observa釘ii :
Corela釘ia nu 樽nseamn cauzalitate  nu se poate folosi o valoare
absolut apropiat de 1 ca argument c 樽ntre dou atribute exist o
rela釘ie de cauzalitate. Corela釘ie mare poate 鍖 o condi釘ie necesar
pentru legtur de cauzalitate, dar nu asigur i su鍖cien釘a. Cu toate
acestea, corela釘ia mare poate 鍖 folosit ca punct de pornire 樽n
cercetarea unei legturi 樽ntre diferite fenomene.
Corela釘ia i liniaritatea  coe鍖cientul Pearson reprezint puterea unei
rela釘ii liniare 樽ntre dou seturi de valori, dar nu caracterizeaz complet
rela釘ia dintre date.
Exemplu: 4 seturi de date cu dou atribute; 樽n toate situa釘iile media
i dispersia lui y este aceeai, de asemenea avem acelai coe鍖cient de
corela釘ie 樽n 鍖ecare caz (0.816); cu toate acestea, legtura dintre x i
y e extrem de diferit de la un caz la altul.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 18 / 63
Statistici de sumarizare a datelor multivariate
Figure 2: Date cu caracteristici numerice identice (medie, dispersie, corela釘ie),
dar esen釘ial diferite ca natur: cvartetul lui Anscombe. Sursa: Wikipedia
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 19 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 20 / 63
Vizualizare
Scopul vizualizrii: reprezentarea informa釘iei 樽ntrun mod tabular sau
gra鍖c
Caracteristicile datelor i rela釘iile dintre elemente pot 鍖 analizate sau
raportate
Calit釘i:
oamenii au o abilitate natural de analiz pentru cantit釘i mari de date
prezentate vizual
oamenii pot detecta relativ uor abloane i tendin釘e
se pot detecta uor outliers i grupri neobinuite
Alt utilizare: reprezentare a datelor ob釘inute dup analiz i
confruntarea cu cunotin釘ele unor exper釘i umani sau se pot elimina
pattern-urile neinteresante
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 21 / 63
Vizualizare - exemplu
Exemplu: date reprezent但nd temperatura la suprafa釘a apei 樽n Iulie 1982 =
zeci de mii de valori.
Figure 3: Rezultat uor de 樽n釘eles i recunoscut: cu c但t te 樽ndeprtezi de ecuator,
cu at但t temperatura scade.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 22 / 63
Vizualizare - reprezentarea
Reprezentare = asocierea datelor cu elemente gra鍖ce
Rezultat: obiectele, atributele i rela釘iile dintre ele sunt transformate
樽n elemente gra鍖ce (puncte, linii, forme, culori)
Exemple:
Obiectele sunt deseori reprezentate ca puncte 樽n spa釘iul 2D sau 3D
Atributele pot 鍖 asociate cu pozi釘ia punctelor sau cu atribute ale lor:
culoare, form, dimensiune
Dac se folosete pozi釘ia punctelor atunci se poate percepe uor o
rela釘ie de grupare, disimilaritate sau un outlier
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 23 / 63
Vizualizare - aranjarea
Se refer la plasarea elementelor vizuale pe display
Rearanjarea datelor i a a atributelor poate s 鍖e la fel de important
ca alegerea reprezentrii 樽n sine
Exemplu: reordonarea de atribute i obiecte
Figure 4: Un tabel cu nou obiecte i
ase atribute binare.
Figure 5: Dup efectuarea de permutri
de obiecte i atribute, gruparea
obiectelor 樽n func釘ie de valori devine
vizibil.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 24 / 63
Vizualizare - selectarea
Selectarea = eliminarea sau deaccentuarea obiectelor sau a atributelor
Bene鍖cii: selectarea atributelor poate permite reprezentarea lor 2D
sau 3D; eliminarea de 樽nregistrri poate duce la ob釘inerea unei
reprezentri inteligibile
Exemplu: se pot alege perechi de atribute care s se reprezinte gra鍖c;
dac nu sunt prea multe atribute, atunci se pot reprezenta toate
perechile de atribute
Exist i alte metode mai so鍖sticate de selectare a atributelor: analiza
componentelor principale
Eliminarea de obiecte: se poate face prin eantionare, dar cu pstrarea
datelor 樽n regiuni slab populate; sau concentrarea doar pe un anumit
subset al colec釘iei ini釘iale (e.g. o clas de obiecte: Iris Setosa)
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 25 / 63
Vizualizare - tehnici
Metodele de vizualizare sunt deseori specializate pe tipurile de date
Exist i tehnici clasice ce sunt specializate dup:
numrul de atribute
existen釘a de legturi de tip ierarhic sau graf 樽ntre date
tipurile de atribute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 26 / 63
Vizualizare: stem and leaf
Stem and leaf (sau stemplot): util pentru reprezentarea distribu釘iei
de date 樽ntregi sau continue unidimensionale
Mod de lucru pentru valori 樽ntregi: se 樽mpart valorile 樽n grupuri, unde
鍖ecare grup con釘ine valori care sunt egale, abstrac釘ie fc但nd de ultima
cifr
Tulpinile sunt grupurile, iar frunzele sunt cifrele unit釘ilor
Exemplu: pentru valorile 35, 36, 42, 51 avem tulpinile 3, 4, 5 iar
frunzele sunt respectiv {5, 6}, {2} i {1}.
Reprezentare:
3 56
4 2
5 1
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 27 / 63
Vizualizare: stem and leaf
Pentru Iris considerm atributul lungimea sepalei cu valorile
樽nmul釘ite cu 10; se ob釘ine:
43, 44, 44, 44, 45, 46, 46, 46, 46, 47, 47, 48, 48, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 50, 50, 50, 50,
50, 51, 51, 51, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 53, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 55, 56, 56, 56,
56, 56, 56, 57, 57, 57, 57, 57, 57, 57, 57, 58, 58, 58, 58, 58, 58, 58, 59, 59, 59, 60, 60, 60, 60, 60, 60, 61, 61, 61, 61,
61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 67, 67,
67, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69, 69, 69, 70, 71, 72, 72, 72, 73, 74, 76, 77, 77, 77, 77, 79
Reprezentarea prin stem and leaf duce la:
4 34444566667788888999999
5 0000000000111111111222234444445555555666666777777778888888999
6 000000111111222233333333344444445555566777777778889999
7 0122234677779
Utilitate:
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 28 / 63
Vizualizare: stem and leaf
Pentru Iris considerm atributul lungimea sepalei cu valorile
樽nmul釘ite cu 10; se ob釘ine:
43, 44, 44, 44, 45, 46, 46, 46, 46, 47, 47, 48, 48, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 50, 50, 50, 50,
50, 51, 51, 51, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 53, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 55, 56, 56, 56,
56, 56, 56, 57, 57, 57, 57, 57, 57, 57, 57, 58, 58, 58, 58, 58, 58, 58, 59, 59, 59, 60, 60, 60, 60, 60, 60, 61, 61, 61, 61,
61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 67, 67,
67, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69, 69, 69, 70, 71, 72, 72, 72, 73, 74, 76, 77, 77, 77, 77, 79
Reprezentarea prin stem and leaf duce la:
4 34444566667788888999999
5 0000000000111111111222234444445555555666666777777778888888999
6 000000111111222233333333344444445555566777777778889999
7 0122234677779
Utilitate:
se poate vizualiza rapid densitatea relativ datelor; e.g. grupul cel mai
numeros este 樽ntre 5 i 6 cm.
se pot vedea rapid valorile outlier
Restric釘ie: pentru date 樽n cantitate moderat, p但n la 200 de obiecte
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 28 / 63
Vizualizare: histograme
Domeniul de valori este 樽mpr釘it 樽n subintervale; pentru 鍖ecare
subinterval se contorizeaz c但te valori sunt incluse 樽n el
Pentru valori categoriale contorizarea se face pentru 鍖ecare valoare;
dac sunt prea multe valori categoriale, atunci acestea se combin
cumva
Se construiete c但te un dreptunghi aferent 鍖ecrui interval/categorie
cu 樽nl釘imea propor釘ional cu numrul de valori
(a) Lungimea sepalelor, discretizare
樽n 10 subintervale
(b) Lungimea sepalelor, discretizare
樽n 20 de subintervale
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 29 / 63
Vizualizare: histograme
Se pot reprezenta mai multe valori simultan pe o histogram:
Pentru cazul datelor categoriale, histograma Pareto este la fel cu
histograma normal, dar categoriile sunt sortate 樽n descresctor dup
numrul de obiecte con釘inute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 30 / 63
Vizualizare: histograme bidimensionale
Con釘in contorizri pentru dou dimensiuni
Exemplu: lungimea i l釘imea petalelor
Ce arat histograma de mai sus? ce probleme pot 鍖 la reprezentare?
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 31 / 63
Vizualizare: boxplots
Introduse de J. Tukey
Arat distribu釘ia valorilor pentru un singur atribut numeric
Figura de mai jos explic componentele unui boxplot
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 32 / 63
Vizualizare: boxplots
Se pot compara mai multe serii de date
a1=lungimea sepalei, a2=l釘imea sepalei, a3=lungimea petalei,
a4=l釘imea petalei
(a) Boxplot pentru cele patru
atribute ale setului de date Iris
(b) Matrice de boxplots
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 33 / 63
Vizualizare: pie charts
Folosite de regul pentru atribute categoriale cu pu釘ine valori distincte
Ariile dau o idee asupra repartizrii datelor 樽n categorii
Des folosite 樽n lucrri de popularizare sau de raportare
Rar folosite 樽n scrierile tehnice, tocmai din cauz c e greu s se
judece i s se compare aria zonelor
n scrieri tehnice se prefer histogramele
Figure 6: Piechart Figure 7: Ring
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 34 / 63
Vizualizare: Scatter plots
Valorile atributelor determin pozi釘ia 樽n plan
Cel mai des folosite: scatter plots 2D, dar se pot realiza i 3D
Atribute adi釘ionale pot 鍖 reprezentate folosind culori, forme,
dimensiuni ale obiectelor gra鍖ce
Cel mai des folosite: matrice de scatter plots care reprezint perechi
de atribute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 35 / 63
Vizualizare: Matrix scatter plots
Figure 9: Matrice de scatter plots. a1=lungimea sepalei, a2=l釘imea sepalei,
a3=lungimea petalei, a4=l釘imea petalei
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 36 / 63
Vizualizare: Scatter plots - utilitate
Arat rela釘ia dintre dou atribute; de exemplu, poate permite
determinarea vizual a gradului 樽n care exist o legtur liniar 樽ntre
valori (鍖gura de mai jos)
Dac seturile de date sunt grupate pe clase, atunci se poate utiliza un
scatter plot pentru a vedea 樽n ce msur dou atribute separ clase
 vezi 樽n matricea de scatterplot, combina釘ia a3  a4 sau a3  a2.
Separabilitatea poate s 鍖e liniar (o dreapt produce dou semiplane
care con釘in 鍖ecare exclusiv c但te o clas) sau folosind o curb mai
complex. Dac nu se poate construi o astfel de curb, atunci
probabil c este nevoie de mai multe atribute care s permit
discriminarea claselor, sau o alt metod (e.g. kernel methods).
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 37 / 63
Vizualizare: Scatter plots - extindere multidimensional
Scatter plot-urile pot 鍖 extinse pentru a include 樽nc nite atribute
Pentru o reprezentare 3D se pot folosi atribute categoriale (e.g. clasa)
Figure 10: 4 dimensiuni reprezentate pe un scatter plot
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 38 / 63
Vizualizare: contour plots
Utilizate atunci c但nd un atribut continuu este msurat peste un
domeniu
Se ob釘ine o parti釘ionare a spa釘iului 樽n zone pentru care valorile sunt
aproximative egale
Liniile de contur care separ regiuni diferite conecteaz valori egale
Exemplu comun: hr釘i pe care se reprezint altitudinea
Pot de asemenea s reprezinte: temperatura, cantitatea de
precipita釘ii, presiunea aerului etc.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 39 / 63
Vizualizare: contour plots
Figure 11: Temperatura medie, decembrie 1998
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 40 / 63
Alte modalit釘i de vizualizare
Surface plots
Vector 鍖elds plot
Lower dimensional slices
Anima釘ii
Sursa: Introduction to Data Mining, cap 3
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 41 / 63
Vizualizarea datelor multidimensionale: matrice de imagini
Utile c但nd obiectele sunt grupate pe clase; se permite detectarea
faptului c obiecte din aceeai clas au valori similare
O matrice de date este un tablou dreptunghiular de valori
Valorile pot 鍖 reprezentate prin puncte pe ecran, in鍖uen釘但nd culoarea
i strlucirea punctelor
Dac atributele au domenii de valori diferite, atunci ele pot 鍖
standardizate pentru a avea media 0 i dispersia 1; astfel se evit ca
un atribut s domine reprezentarea gra鍖c
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 42 / 63
Vizualizarea datelor multidimensionale: matrice de imagini
Figure 12: Vizualizarea matricei de date pentru setul Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 43 / 63
Vizualizarea datelor multidimensionale: matrice de imagini
Florile din aceeai categorie sunt cele mai similare 樽ntre ele, dar Versicolour
i Virginica sunt mai similare 樽ntre ele dec但t cu Setosa.
Figure 13: Vizualizarea matricei de corela釘ie setul Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 44 / 63
Vizualizarea datelor multidimensionale: coordonate paralele
Au o ax vertical pentru 鍖ecare din atribute; axele sunt paralele 樽ntre
ele
Fiecare valoare a 鍖ecrui atribut este asociat cu o pozi釘ie pe ax
Dac obiectele au tendin釘a de a 鍖 apropiate 樽ntre ele 樽n cadrul
aceluiai grup, dar relativ bine separate pentru grupuri diferite, acest
lucru se va vedea din reprezentare
Func釘ioneaz bine cu un numr mediu de obiecte, p但n la 200
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 45 / 63
Vizualizarea datelor multidimensionale: coordonate paralele
Figure 14: Reprezentare prin coordonate paralele pentru Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 46 / 63
Vizualizarea datelor multidimensionale: coordonate paralele
Figure 15: Variant bazat pe coordonate paralele
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 47 / 63
Vizualizarea datelor multidimensionale: alte variante
Star plots
Similar cu coordonate paralele, dar axele radiaz dintrun punct central
Liniile care conecteaz valorile unui obiect creeaz un poligon
Fe釘e Cherno鍖
Fiecare atribut este asociat cu o trstur facial
Valorile atributelor determin apari釘ia trsturilor
Fiecare obiect devine o fa釘 separat
Metoda se bazeaz pe abilitatea de a distinge fe釘e
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 48 / 63
Vizualizarea datelor multidimensionale: Star plots
(a) Star plot:
schema
(b) Star plot pentru 15 obiecte Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 49 / 63
Vizualizarea datelor multidimensionale: fe釘e Cherno鍖
(a) O fa釘 Cher-
no鍖
(b) Fe釘e Cherno鍖 pentru 15 obiecte iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 50 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 51 / 63
OLAP i analiza datelor multidimensionale
On-Line Analytical Processing (OLAP) a fost propus de E. F. Codd,
printele bazelor de date rela釘ionale
Bazele de date rela釘ionale folosesc tabele pentru gruparea datelor,
OLAP folosete tablouri multidimensionale
Se prevede posibilitatea de a interac釘iona cu tabloul, de exemplu prin
selectarea numrului de dimensiuni sau expandri/agregri pe anumite
dimensiuni
Exist opera釘ii de analiz i explorare a datelor care lucreaz uor cu
reprezentare OLAP
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 52 / 63
OLAP i analiza datelor multidimensionale
Paii pentru convertirea datelor tabulare 樽ntrun tablou multidimensional:
1 Se identi鍖c atributele care vor deveni dimensiuni i care vor deveni
valori 樽n cadrul tabloului  valori 釘int
atributele folosite ca dimensiuni trebuie s aib valori discrete
valoarea 釘int este o valoare de contorizare sau o valoare real
exprim但nd cantitate, sum, cost etc.
se poate s nu 鍖e nicio variabil 釘int continu i 樽n acest caz se face
numrarea obiectelor pe dimensiuni
2 Se calculeaz valorile din 鍖ecare celul a tabloului multidimensional
prin 樽nsumri de valori sau prin numrri de obiecte
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 53 / 63
OLAP i analiza datelor multidimensionale
Exemplu: pentru Iris se aleg lungimea, l釘imea petalelor i tipul de
鍖oare ca atribute;
Dimensiunile lungimea i l釘imea petalelor se discretizeaz:
lungimea petalelor: low [0, 2.5), medium [2.5, 5), high [5, )
l釘imea petalelor: low [0, 0.75), medium [0.75, 1.75), high [1.75, )
Se ob釘ine tabelul:
Lungimea petalelor L釘imea petalelor Specia Numrul
low low Setosa 46
low medium Setosa 2
medium low Setosa 2
medium medium Versicolour 43
medium high Versicolour 3
medium high Virginica 3
high medium Versicolour 2
high medium Virginica 3
high high Versicolour 2
high high Virginica 44
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 54 / 63
OLAP i analiza datelor multidimensionale
Pentru orice combina釘ie de valori ale atributelor este corespunztoare
o singur celul 樽n cadrul tabloului
Acestei celule 樽i este asignata numrul de 鍖ori care respect valorile
corespunztoare ale atributelor
Figure 16: Reprezentare multidimensional pentru setul de date Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 55 / 63
OLAP i analiza datelor multidimensionale
Feliile de tablou sunt artate mai jos:
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 56 / 63
OLAP i analiza datelor multidimensionale
Opera釘ia cheie 樽n OLAP este crearea cuburilor de date
Un cub de date este o reprezentare multidimensional, 樽mpreun cu
toate agregrile posibile
Prin toate agregrile posibile 樽n釘elegem agregrile care se ob釘in prin
alegerea unui subset propriu de dimensiuni i 樽nsum但nd valorile peste
toate celelate dimensiuni
Exemplu (banal): dac se consider dimensiunea specie i se fac
contorizri peste celelate 4 dimensiuni (lungimi/l釘imi . . . ), atunci se
ob釘ine un vector unidimensional care are ca valori numrul de plante
din 鍖ecare specie (50)
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 57 / 63
OLAP i analiza datelor multidimensionale
Exemplu: 鍖e un set de date 樽n care se 樽nregistreaz v但nzrile de
produse pentru nite companii, la date diferite
Datele ob釘inute pot 鍖 reprezentate ca un tablou tridimensional
Exist 3 agregri bidimensionale (combinri de 3 luate c但te 2), 3
agregri unidimensionale i o agregare fr dimensiune = totalul
general
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 58 / 63
OLAP i analiza datelor multidimensionale
Figure 17: Tabelul reprezint o agregare bidimensional, iar pe cele dou margini
sunt agregri unidimensionale. n col釘ul din dreapta jos se a鍖 agregarea fr
dimensiune.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 59 / 63
Opera釘ii OLAP: slicing, dicing
Slicing: selectarea unui grup de celule prin speci鍖carea unor valori
concrete pentru anumite dimensiuni
Dicing: selectarea unui subset de celule prin speci鍖carea unui set de
valori pentru atribute
n practic, ambele opera釘ii pot 鍖 acompaniate de agregare pe nite
dimensiuni
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 60 / 63
Opera釘ii OLAP: roll-up, drill-down
Datele au deseori o structur ierahic
o dat este asociat unei sptm但ni, luni, an
o loca釘ie este asociat unui ora, regiune, 釘ar, continent
produsele pot 鍖 divizate 樽n c但teva categorii: hran, 樽mbrcminte etc.
Categoriile deseori se con釘in unele pe altele
Roll-up: se poate face agregare a v但nzrilor de la datele zilnice la luni
sau ani
Drill-down: invers fa釘 de roll-up; dac se dau v但nzrile pe ani, se
poate detalia la nivel de lun sau sptm但n
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 61 / 63
Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 62 / 63
Resurse
Cr釘ile lui Edward Tufte: The Visual Display of Quantitative
Information etc.
Seven Basic Tools of Quality
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 63 / 63

More Related Content

Curs 3 Data Mining

  • 1. Introducere 樽n Data Mining Curs 3: Explorarea datelor Lucian Sasu, Ph.D. Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic April 7, 2014 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 1 / 63
  • 2. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 2 / 63
  • 3. Explorarea datelor Explorarea datelor reprezint investigarea preliminar a datelor, cu scopul de a ob釘ine o 樽n釘elegere a caracteristicilor lor Pasul de explorare poate 鍖 de folos 樽n alegerea pailor de preprocesare sau analiz Se poate folosi abilitatea natural a oamenilor de a recunoate pattern-uri Domeniul a fost introdus de ctre statisticianul John Tukey: Exploratory Data Analysis, Addison-Wesley AED este domeniu opus lui Con鍖rmatory Data Analysis, care are ca scop testarea ipotezelor statistice, calculul intervalelor de 樽ncredere etc. Curs de AED: aici lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 3 / 63
  • 4. Explorarea datelor n AED, aa cum este de鍖nit de Tukey: Focus-ul este pe vizualizare Gruparea (clustering) i detectarea de anomalii sunt vzute ca tehnici exploratorii Acestea dou sunt subdomenii aparte ale DM, dincolo de analiz exploratorie Con釘inutul prezentrii: statistici de sumarizare vizualizare On-line Analytical Processing Primele dou: clasice OLAP: util pentru explorarea datelor multidimensionale, cu scopul ob釘inerii de sumarizri: pentru v但nzri raportate 樽n forma cantitate, loca釘ie, dat, produs, OLAP permite crearea de sumarizri care descriu v但nzrile pentru un anumit produs/loca釘ie/lun OLAP este inclus deseori ca auxiliar al SGBD-urilor actuale lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 4 / 63
  • 5. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 5 / 63
  • 6. Setul de date Iris Setul de date pe care se exempli鍖c 樽n acest curs: Iris Const 樽n date msurate pentru 150 de 鍖ori de iris, din 3 specii (Iris Setosa, Iris Versicolour, Iris Virginica, c但te 50 de exemplare pe specie) Msurtorile sunt pentru lungimea/l釘imea petalelor/sepalelor 樽n centimetri (4 coloane) A cincea coloan este specia 鍖orii atribut nominal Datele se pot descrca de aici lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 6 / 63
  • 7. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 7 / 63
  • 8. Statistici de sumarizare Statisticile de sumarizare sunt numere care schi釘eaz caracteristicile unui set de valori Reprezint manifestarea cea mai vizibil a statisticii Exemple: frecven釘a, media, dispersia lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 8 / 63
  • 9. Frecven釘a i valoarea modal Pentru un set de m date categoriale cu valorile {v1, . . . , vi , . . . , vk} frecven釘a unei valori vi este: frecventa(vi ) = Numrul de obiecte cu valoarea vi m Valoarea modal (sau moda) este valoarea cu cea mai mare frecven釘: moda = arg max vi frecventa(vi ) Aten釘ie la situa釘ia c但nd o anume valoare este folosit pentru a semni鍖ca lipsa datelor: null-ul poate aprea ca mod Pot exista seturi de date pentru care frecven釘a maxim s 鍖e atins pentru mai multe valori = seturi multimodale Pentru valori continue, conceptele de mod/frecven釘 nu sunt utile, cu excep釘ia cazului c但nd se aplic un pas de discretizare lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 9 / 63
  • 10. Percentile Pentru cazul valorilor ordonate se pot considera percentilele Pentru un atribut continuu sau ordinal x i un numr p 樽ntreg 樽ntre 0 i 100, a p-a percentil xp este o valoare din irul de valori ale lui x astfel 樽nc但t p% din aceste valori sunt mai mici dec但t xp Nu exist o de鍖ni釘ie standardizat pentru percentile, cea de mai sus este luat pentru 鍖xare Pentru cazul 樽n care se calculeaz percentile pentru set mare de date, diferen釘ele datorate diferitelor moduri de de鍖nire devin neesen釘iale Tradi釘ional se consider x0% = min(x) iar din de鍖ni釘ie se poate arta c x100% = max(x) Mod de calcul pentru determinarea celei de a p-a percentile: pentru un set de n date se calculeaz valoarea 樽ntreag k cea mai apropiat de n 100 p + 1 2 i se ia valoarea corespunztoare acestui rang k 樽n irul x sortat lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 10 / 63
  • 11. Msurarea loca釘iei: media i mediana Pentru un set de valori {x1, x2, . . . , xm} valoarea medie este: x = media(x) = 1 m m i=1 xi Pentru a鍖area medianei este nevoie s se fac sortarea valorilor ini釘iale, ob釘in但nduse mul釘imea (permutarea) x(1), x(2), . . . , x(m) ; mediana este mediana(x) = x(r+1) dac m = 2r + 1 x(r)+x(r+1) 2 dac m = 2r lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 11 / 63
  • 12. Msurarea loca釘iei: media i mediana Media este valoare de mijloc doar dac distribu釘ia datelor este simetric Dac distribu釘ia este asimetric, atunci mediana este un indicator mai bun pentru valoare de mijloc Media este in鍖uen釘at de outliers, 樽n timp ce mediana nu Medie retezat (eng: trimmed mean) se utilizeaz pentru a exlude anomaliile: se 鍖xeaz un procent p 樽ntre 0 i 100; se elimin primele i ultimele (p/2)% din date; se calculeaz media pentru ceea ce rm但ne media standard se ob釘ine din media retezat cu p = 0 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 12 / 63
  • 13. Msurarea loca釘iei: media i mediana Exemple: Considerm valorile {1, 2, 3, 4, 5, 90}. Media este 17.5, mediana este 3.5. Valoarea de trimmed mean pentru p = 40% este 3.5, considerabil diferit fa釘 de media setului 樽ntreg de date Media, medianele i valoarea de trimmed mean pentru iris sunt: Msura Lungimea Lungimea Lungimea Lungimea sepalelor sepalelor petalelor petalelor Media 5.84 3.05 3.76 1.20 Mediana 5.80 3.00 4.35 1.30 Trimmed mean (20%) 5.79 3.02 3.72 1.12 Exerci釘iu: dac valoarea medianei este mai mic dec但t media, ce pute釘i spune despre date? lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 13 / 63
  • 14. Msurari ale 樽mprtierii datelor Sunt msuri care cuanti鍖c concentrarea datelor Diametrul domeniului de valori (eng: range) al unui set de date {x1, x2, . . . , xm} corespunztor atributului x este range(x) = max(x) min(x) = x(m) x(1) Range-ul este nerelevant, deoarece putem avea c majoritatea datelor sunt concentrate 樽ntro zon 樽ngust, dar c但teva valori outlier mresc arti鍖cial raza setului Varian釘a (dispersia) unui set de date de m valori este: varianta(x) = s2 x = 1 m 1 m i=1 (xi x)2 Utilizarea numitorului m 1 樽n loc de m este numit Corec釘ia Bessel i are ca scop corectarea abaterii din estimarea varian釘ei de popula釘ie lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 14 / 63
  • 15. Msurari ale 樽mprtierii datelor Abaterea standard este sx = s2 x i are aceeai unitate de msur ca i atributul x Deoarece media poate s 鍖e distorsionat de outliers, rezult c dispersia poate 鍖 i ea in鍖uen釘at Se prefer considerarea altor trei msuri: absolute average deviation, AAD: AAD(x) = 1 m m i=1 |xi x| median absolute deviation, MAD MAD(x) = median ({|x1 x|, . . . , |xm x|}) interquartile range interquartile range(x) = x75% x25% lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 15 / 63
  • 16. Statistici de sumarizare a datelor multivariate Date multivariate: date cu mai multe atribute Pentru atributul xi calculm media xi Media setului de obiecte este x = (x1, . . . , xn) Analog se poate calcula dispersia, mediana etc. pe 鍖ecare dimensiune Matricea de covarian釘: elementul sij de pe linia i i coloana j este covarian釘a atributelor xi i xj: sij = covarianta (xi , xj) = 1 m 1 m k=1 (xki xi )(xkj xj) unde xpq este a p-a valoare a atributului xq sij este msur a gradului 樽n care dou atribute variaz 樽mpreun (mai precis: care este gradul lor de dependen釘 liniar) i depinde de magnitudinea valorilor atributelor lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 16 / 63
  • 17. Statistici de sumarizare a datelor multivariate sij = 0 樽nseamn c atributele si i sj nu sunt liniar dependente Matrice de corela釘ie: rij = corelatia(xi , xj) = covarianta(xi , xj) si sj [1, 1] rij se mai numete corela釘ia Pearson a atributelor xi i xj rij = 賊1 indic faptul c xi este 樽n rela釘ie liniar cu xj: xki = a 揃 xkj + b cu sgn(a) = sgn(rij) Figure 1: Seturi de date (x, y) 樽mpreun cu coe鍖cientul de corela釘ie. Coe鍖cientul de corela釘ie surprinde gradul 樽n care un nor de puncte poate 鍖 aproximat printr-o dreapt (sus) precum i modul 樽n care ele sunt legate liniar (cretere simultan sau evolu釘ii 樽n sensuri diferite), dar nu i panta acestei legturi (鍖gurile din mijloc) sau rela釘ii mai complexe 樽ntre date (r但ndul de jos). Sursa: Wikipedia. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 17 / 63
  • 18. Statistici de sumarizare a datelor multivariate Legat de coe鍖cientul de corela釘ie, c但teva observa釘ii : Corela釘ia nu 樽nseamn cauzalitate nu se poate folosi o valoare absolut apropiat de 1 ca argument c 樽ntre dou atribute exist o rela釘ie de cauzalitate. Corela釘ie mare poate 鍖 o condi釘ie necesar pentru legtur de cauzalitate, dar nu asigur i su鍖cien釘a. Cu toate acestea, corela釘ia mare poate 鍖 folosit ca punct de pornire 樽n cercetarea unei legturi 樽ntre diferite fenomene. Corela釘ia i liniaritatea coe鍖cientul Pearson reprezint puterea unei rela釘ii liniare 樽ntre dou seturi de valori, dar nu caracterizeaz complet rela釘ia dintre date. Exemplu: 4 seturi de date cu dou atribute; 樽n toate situa釘iile media i dispersia lui y este aceeai, de asemenea avem acelai coe鍖cient de corela釘ie 樽n 鍖ecare caz (0.816); cu toate acestea, legtura dintre x i y e extrem de diferit de la un caz la altul. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 18 / 63
  • 19. Statistici de sumarizare a datelor multivariate Figure 2: Date cu caracteristici numerice identice (medie, dispersie, corela釘ie), dar esen釘ial diferite ca natur: cvartetul lui Anscombe. Sursa: Wikipedia lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 19 / 63
  • 20. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 20 / 63
  • 21. Vizualizare Scopul vizualizrii: reprezentarea informa釘iei 樽ntrun mod tabular sau gra鍖c Caracteristicile datelor i rela釘iile dintre elemente pot 鍖 analizate sau raportate Calit釘i: oamenii au o abilitate natural de analiz pentru cantit釘i mari de date prezentate vizual oamenii pot detecta relativ uor abloane i tendin釘e se pot detecta uor outliers i grupri neobinuite Alt utilizare: reprezentare a datelor ob釘inute dup analiz i confruntarea cu cunotin釘ele unor exper釘i umani sau se pot elimina pattern-urile neinteresante lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 21 / 63
  • 22. Vizualizare - exemplu Exemplu: date reprezent但nd temperatura la suprafa釘a apei 樽n Iulie 1982 = zeci de mii de valori. Figure 3: Rezultat uor de 樽n釘eles i recunoscut: cu c但t te 樽ndeprtezi de ecuator, cu at但t temperatura scade. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 22 / 63
  • 23. Vizualizare - reprezentarea Reprezentare = asocierea datelor cu elemente gra鍖ce Rezultat: obiectele, atributele i rela釘iile dintre ele sunt transformate 樽n elemente gra鍖ce (puncte, linii, forme, culori) Exemple: Obiectele sunt deseori reprezentate ca puncte 樽n spa釘iul 2D sau 3D Atributele pot 鍖 asociate cu pozi釘ia punctelor sau cu atribute ale lor: culoare, form, dimensiune Dac se folosete pozi釘ia punctelor atunci se poate percepe uor o rela釘ie de grupare, disimilaritate sau un outlier lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 23 / 63
  • 24. Vizualizare - aranjarea Se refer la plasarea elementelor vizuale pe display Rearanjarea datelor i a a atributelor poate s 鍖e la fel de important ca alegerea reprezentrii 樽n sine Exemplu: reordonarea de atribute i obiecte Figure 4: Un tabel cu nou obiecte i ase atribute binare. Figure 5: Dup efectuarea de permutri de obiecte i atribute, gruparea obiectelor 樽n func釘ie de valori devine vizibil. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 24 / 63
  • 25. Vizualizare - selectarea Selectarea = eliminarea sau deaccentuarea obiectelor sau a atributelor Bene鍖cii: selectarea atributelor poate permite reprezentarea lor 2D sau 3D; eliminarea de 樽nregistrri poate duce la ob釘inerea unei reprezentri inteligibile Exemplu: se pot alege perechi de atribute care s se reprezinte gra鍖c; dac nu sunt prea multe atribute, atunci se pot reprezenta toate perechile de atribute Exist i alte metode mai so鍖sticate de selectare a atributelor: analiza componentelor principale Eliminarea de obiecte: se poate face prin eantionare, dar cu pstrarea datelor 樽n regiuni slab populate; sau concentrarea doar pe un anumit subset al colec釘iei ini釘iale (e.g. o clas de obiecte: Iris Setosa) lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 25 / 63
  • 26. Vizualizare - tehnici Metodele de vizualizare sunt deseori specializate pe tipurile de date Exist i tehnici clasice ce sunt specializate dup: numrul de atribute existen釘a de legturi de tip ierarhic sau graf 樽ntre date tipurile de atribute lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 26 / 63
  • 27. Vizualizare: stem and leaf Stem and leaf (sau stemplot): util pentru reprezentarea distribu釘iei de date 樽ntregi sau continue unidimensionale Mod de lucru pentru valori 樽ntregi: se 樽mpart valorile 樽n grupuri, unde 鍖ecare grup con釘ine valori care sunt egale, abstrac釘ie fc但nd de ultima cifr Tulpinile sunt grupurile, iar frunzele sunt cifrele unit釘ilor Exemplu: pentru valorile 35, 36, 42, 51 avem tulpinile 3, 4, 5 iar frunzele sunt respectiv {5, 6}, {2} i {1}. Reprezentare: 3 56 4 2 5 1 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 27 / 63
  • 28. Vizualizare: stem and leaf Pentru Iris considerm atributul lungimea sepalei cu valorile 樽nmul釘ite cu 10; se ob釘ine: 43, 44, 44, 44, 45, 46, 46, 46, 46, 47, 47, 48, 48, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 51, 51, 51, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 53, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 55, 56, 56, 56, 56, 56, 56, 57, 57, 57, 57, 57, 57, 57, 57, 58, 58, 58, 58, 58, 58, 58, 59, 59, 59, 60, 60, 60, 60, 60, 60, 61, 61, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 67, 67, 67, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69, 69, 69, 70, 71, 72, 72, 72, 73, 74, 76, 77, 77, 77, 77, 79 Reprezentarea prin stem and leaf duce la: 4 34444566667788888999999 5 0000000000111111111222234444445555555666666777777778888888999 6 000000111111222233333333344444445555566777777778889999 7 0122234677779 Utilitate: lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 28 / 63
  • 29. Vizualizare: stem and leaf Pentru Iris considerm atributul lungimea sepalei cu valorile 樽nmul釘ite cu 10; se ob釘ine: 43, 44, 44, 44, 45, 46, 46, 46, 46, 47, 47, 48, 48, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 51, 51, 51, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 53, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 55, 56, 56, 56, 56, 56, 56, 57, 57, 57, 57, 57, 57, 57, 57, 58, 58, 58, 58, 58, 58, 58, 59, 59, 59, 60, 60, 60, 60, 60, 60, 61, 61, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 67, 67, 67, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69, 69, 69, 70, 71, 72, 72, 72, 73, 74, 76, 77, 77, 77, 77, 79 Reprezentarea prin stem and leaf duce la: 4 34444566667788888999999 5 0000000000111111111222234444445555555666666777777778888888999 6 000000111111222233333333344444445555566777777778889999 7 0122234677779 Utilitate: se poate vizualiza rapid densitatea relativ datelor; e.g. grupul cel mai numeros este 樽ntre 5 i 6 cm. se pot vedea rapid valorile outlier Restric釘ie: pentru date 樽n cantitate moderat, p但n la 200 de obiecte lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 28 / 63
  • 30. Vizualizare: histograme Domeniul de valori este 樽mpr釘it 樽n subintervale; pentru 鍖ecare subinterval se contorizeaz c但te valori sunt incluse 樽n el Pentru valori categoriale contorizarea se face pentru 鍖ecare valoare; dac sunt prea multe valori categoriale, atunci acestea se combin cumva Se construiete c但te un dreptunghi aferent 鍖ecrui interval/categorie cu 樽nl釘imea propor釘ional cu numrul de valori (a) Lungimea sepalelor, discretizare 樽n 10 subintervale (b) Lungimea sepalelor, discretizare 樽n 20 de subintervale lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 29 / 63
  • 31. Vizualizare: histograme Se pot reprezenta mai multe valori simultan pe o histogram: Pentru cazul datelor categoriale, histograma Pareto este la fel cu histograma normal, dar categoriile sunt sortate 樽n descresctor dup numrul de obiecte con釘inute lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 30 / 63
  • 32. Vizualizare: histograme bidimensionale Con釘in contorizri pentru dou dimensiuni Exemplu: lungimea i l釘imea petalelor Ce arat histograma de mai sus? ce probleme pot 鍖 la reprezentare? lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 31 / 63
  • 33. Vizualizare: boxplots Introduse de J. Tukey Arat distribu釘ia valorilor pentru un singur atribut numeric Figura de mai jos explic componentele unui boxplot lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 32 / 63
  • 34. Vizualizare: boxplots Se pot compara mai multe serii de date a1=lungimea sepalei, a2=l釘imea sepalei, a3=lungimea petalei, a4=l釘imea petalei (a) Boxplot pentru cele patru atribute ale setului de date Iris (b) Matrice de boxplots lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 33 / 63
  • 35. Vizualizare: pie charts Folosite de regul pentru atribute categoriale cu pu釘ine valori distincte Ariile dau o idee asupra repartizrii datelor 樽n categorii Des folosite 樽n lucrri de popularizare sau de raportare Rar folosite 樽n scrierile tehnice, tocmai din cauz c e greu s se judece i s se compare aria zonelor n scrieri tehnice se prefer histogramele Figure 6: Piechart Figure 7: Ring lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 34 / 63
  • 36. Vizualizare: Scatter plots Valorile atributelor determin pozi釘ia 樽n plan Cel mai des folosite: scatter plots 2D, dar se pot realiza i 3D Atribute adi釘ionale pot 鍖 reprezentate folosind culori, forme, dimensiuni ale obiectelor gra鍖ce Cel mai des folosite: matrice de scatter plots care reprezint perechi de atribute lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 35 / 63
  • 37. Vizualizare: Matrix scatter plots Figure 9: Matrice de scatter plots. a1=lungimea sepalei, a2=l釘imea sepalei, a3=lungimea petalei, a4=l釘imea petalei lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 36 / 63
  • 38. Vizualizare: Scatter plots - utilitate Arat rela釘ia dintre dou atribute; de exemplu, poate permite determinarea vizual a gradului 樽n care exist o legtur liniar 樽ntre valori (鍖gura de mai jos) Dac seturile de date sunt grupate pe clase, atunci se poate utiliza un scatter plot pentru a vedea 樽n ce msur dou atribute separ clase vezi 樽n matricea de scatterplot, combina釘ia a3 a4 sau a3 a2. Separabilitatea poate s 鍖e liniar (o dreapt produce dou semiplane care con釘in 鍖ecare exclusiv c但te o clas) sau folosind o curb mai complex. Dac nu se poate construi o astfel de curb, atunci probabil c este nevoie de mai multe atribute care s permit discriminarea claselor, sau o alt metod (e.g. kernel methods). lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 37 / 63
  • 39. Vizualizare: Scatter plots - extindere multidimensional Scatter plot-urile pot 鍖 extinse pentru a include 樽nc nite atribute Pentru o reprezentare 3D se pot folosi atribute categoriale (e.g. clasa) Figure 10: 4 dimensiuni reprezentate pe un scatter plot lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 38 / 63
  • 40. Vizualizare: contour plots Utilizate atunci c但nd un atribut continuu este msurat peste un domeniu Se ob釘ine o parti釘ionare a spa釘iului 樽n zone pentru care valorile sunt aproximative egale Liniile de contur care separ regiuni diferite conecteaz valori egale Exemplu comun: hr釘i pe care se reprezint altitudinea Pot de asemenea s reprezinte: temperatura, cantitatea de precipita釘ii, presiunea aerului etc. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 39 / 63
  • 41. Vizualizare: contour plots Figure 11: Temperatura medie, decembrie 1998 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 40 / 63
  • 42. Alte modalit釘i de vizualizare Surface plots Vector 鍖elds plot Lower dimensional slices Anima釘ii Sursa: Introduction to Data Mining, cap 3 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 41 / 63
  • 43. Vizualizarea datelor multidimensionale: matrice de imagini Utile c但nd obiectele sunt grupate pe clase; se permite detectarea faptului c obiecte din aceeai clas au valori similare O matrice de date este un tablou dreptunghiular de valori Valorile pot 鍖 reprezentate prin puncte pe ecran, in鍖uen釘但nd culoarea i strlucirea punctelor Dac atributele au domenii de valori diferite, atunci ele pot 鍖 standardizate pentru a avea media 0 i dispersia 1; astfel se evit ca un atribut s domine reprezentarea gra鍖c lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 42 / 63
  • 44. Vizualizarea datelor multidimensionale: matrice de imagini Figure 12: Vizualizarea matricei de date pentru setul Iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 43 / 63
  • 45. Vizualizarea datelor multidimensionale: matrice de imagini Florile din aceeai categorie sunt cele mai similare 樽ntre ele, dar Versicolour i Virginica sunt mai similare 樽ntre ele dec但t cu Setosa. Figure 13: Vizualizarea matricei de corela釘ie setul Iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 44 / 63
  • 46. Vizualizarea datelor multidimensionale: coordonate paralele Au o ax vertical pentru 鍖ecare din atribute; axele sunt paralele 樽ntre ele Fiecare valoare a 鍖ecrui atribut este asociat cu o pozi釘ie pe ax Dac obiectele au tendin釘a de a 鍖 apropiate 樽ntre ele 樽n cadrul aceluiai grup, dar relativ bine separate pentru grupuri diferite, acest lucru se va vedea din reprezentare Func釘ioneaz bine cu un numr mediu de obiecte, p但n la 200 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 45 / 63
  • 47. Vizualizarea datelor multidimensionale: coordonate paralele Figure 14: Reprezentare prin coordonate paralele pentru Iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 46 / 63
  • 48. Vizualizarea datelor multidimensionale: coordonate paralele Figure 15: Variant bazat pe coordonate paralele lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 47 / 63
  • 49. Vizualizarea datelor multidimensionale: alte variante Star plots Similar cu coordonate paralele, dar axele radiaz dintrun punct central Liniile care conecteaz valorile unui obiect creeaz un poligon Fe釘e Cherno鍖 Fiecare atribut este asociat cu o trstur facial Valorile atributelor determin apari釘ia trsturilor Fiecare obiect devine o fa釘 separat Metoda se bazeaz pe abilitatea de a distinge fe釘e lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 48 / 63
  • 50. Vizualizarea datelor multidimensionale: Star plots (a) Star plot: schema (b) Star plot pentru 15 obiecte Iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 49 / 63
  • 51. Vizualizarea datelor multidimensionale: fe釘e Cherno鍖 (a) O fa釘 Cher- no鍖 (b) Fe釘e Cherno鍖 pentru 15 obiecte iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 50 / 63
  • 52. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 51 / 63
  • 53. OLAP i analiza datelor multidimensionale On-Line Analytical Processing (OLAP) a fost propus de E. F. Codd, printele bazelor de date rela釘ionale Bazele de date rela釘ionale folosesc tabele pentru gruparea datelor, OLAP folosete tablouri multidimensionale Se prevede posibilitatea de a interac釘iona cu tabloul, de exemplu prin selectarea numrului de dimensiuni sau expandri/agregri pe anumite dimensiuni Exist opera釘ii de analiz i explorare a datelor care lucreaz uor cu reprezentare OLAP lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 52 / 63
  • 54. OLAP i analiza datelor multidimensionale Paii pentru convertirea datelor tabulare 樽ntrun tablou multidimensional: 1 Se identi鍖c atributele care vor deveni dimensiuni i care vor deveni valori 樽n cadrul tabloului valori 釘int atributele folosite ca dimensiuni trebuie s aib valori discrete valoarea 釘int este o valoare de contorizare sau o valoare real exprim但nd cantitate, sum, cost etc. se poate s nu 鍖e nicio variabil 釘int continu i 樽n acest caz se face numrarea obiectelor pe dimensiuni 2 Se calculeaz valorile din 鍖ecare celul a tabloului multidimensional prin 樽nsumri de valori sau prin numrri de obiecte lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 53 / 63
  • 55. OLAP i analiza datelor multidimensionale Exemplu: pentru Iris se aleg lungimea, l釘imea petalelor i tipul de 鍖oare ca atribute; Dimensiunile lungimea i l釘imea petalelor se discretizeaz: lungimea petalelor: low [0, 2.5), medium [2.5, 5), high [5, ) l釘imea petalelor: low [0, 0.75), medium [0.75, 1.75), high [1.75, ) Se ob釘ine tabelul: Lungimea petalelor L釘imea petalelor Specia Numrul low low Setosa 46 low medium Setosa 2 medium low Setosa 2 medium medium Versicolour 43 medium high Versicolour 3 medium high Virginica 3 high medium Versicolour 2 high medium Virginica 3 high high Versicolour 2 high high Virginica 44 lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 54 / 63
  • 56. OLAP i analiza datelor multidimensionale Pentru orice combina釘ie de valori ale atributelor este corespunztoare o singur celul 樽n cadrul tabloului Acestei celule 樽i este asignata numrul de 鍖ori care respect valorile corespunztoare ale atributelor Figure 16: Reprezentare multidimensional pentru setul de date Iris lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 55 / 63
  • 57. OLAP i analiza datelor multidimensionale Feliile de tablou sunt artate mai jos: lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 56 / 63
  • 58. OLAP i analiza datelor multidimensionale Opera釘ia cheie 樽n OLAP este crearea cuburilor de date Un cub de date este o reprezentare multidimensional, 樽mpreun cu toate agregrile posibile Prin toate agregrile posibile 樽n釘elegem agregrile care se ob釘in prin alegerea unui subset propriu de dimensiuni i 樽nsum但nd valorile peste toate celelate dimensiuni Exemplu (banal): dac se consider dimensiunea specie i se fac contorizri peste celelate 4 dimensiuni (lungimi/l釘imi . . . ), atunci se ob釘ine un vector unidimensional care are ca valori numrul de plante din 鍖ecare specie (50) lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 57 / 63
  • 59. OLAP i analiza datelor multidimensionale Exemplu: 鍖e un set de date 樽n care se 樽nregistreaz v但nzrile de produse pentru nite companii, la date diferite Datele ob釘inute pot 鍖 reprezentate ca un tablou tridimensional Exist 3 agregri bidimensionale (combinri de 3 luate c但te 2), 3 agregri unidimensionale i o agregare fr dimensiune = totalul general lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 58 / 63
  • 60. OLAP i analiza datelor multidimensionale Figure 17: Tabelul reprezint o agregare bidimensional, iar pe cele dou margini sunt agregri unidimensionale. n col釘ul din dreapta jos se a鍖 agregarea fr dimensiune. lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 59 / 63
  • 61. Opera釘ii OLAP: slicing, dicing Slicing: selectarea unui grup de celule prin speci鍖carea unor valori concrete pentru anumite dimensiuni Dicing: selectarea unui subset de celule prin speci鍖carea unui set de valori pentru atribute n practic, ambele opera釘ii pot 鍖 acompaniate de agregare pe nite dimensiuni lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 60 / 63
  • 62. Opera釘ii OLAP: roll-up, drill-down Datele au deseori o structur ierahic o dat este asociat unei sptm但ni, luni, an o loca釘ie este asociat unui ora, regiune, 釘ar, continent produsele pot 鍖 divizate 樽n c但teva categorii: hran, 樽mbrcminte etc. Categoriile deseori se con釘in unele pe altele Roll-up: se poate face agregare a v但nzrilor de la datele zilnice la luni sau ani Drill-down: invers fa釘 de roll-up; dac se dau v但nzrile pe ani, se poate detalia la nivel de lun sau sptm但n lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 61 / 63
  • 63. Outline 1 Ce este explorarea datelor? 2 Setul de date Iris 3 Statistici de sumarizare 4 Vizualizare 5 OLAP i analiza datelor multidimensionale 6 Alte resurse lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 62 / 63
  • 64. Resurse Cr釘ile lui Edward Tufte: The Visual Display of Quantitative Information etc. Seven Basic Tools of Quality lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 63 / 63