1. Introducere 樽n Data Mining
Curs 3: Explorarea datelor
Lucian Sasu, Ph.D.
Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic
April 7, 2014
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 1 / 63
2. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 2 / 63
3. Explorarea datelor
Explorarea datelor reprezint investigarea preliminar a datelor, cu
scopul de a ob釘ine o 樽n釘elegere a caracteristicilor lor
Pasul de explorare poate 鍖 de folos 樽n alegerea pailor de preprocesare
sau analiz
Se poate folosi abilitatea natural a oamenilor de a recunoate
pattern-uri
Domeniul a fost introdus de ctre statisticianul John Tukey:
Exploratory Data Analysis, Addison-Wesley
AED este domeniu opus lui Con鍖rmatory Data Analysis, care are ca
scop testarea ipotezelor statistice, calculul intervalelor de 樽ncredere
etc.
Curs de AED: aici
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 3 / 63
4. Explorarea datelor
n AED, aa cum este de鍖nit de Tukey:
Focus-ul este pe vizualizare
Gruparea (clustering) i detectarea de anomalii sunt vzute ca tehnici
exploratorii
Acestea dou sunt subdomenii aparte ale DM, dincolo de analiz
exploratorie
Con釘inutul prezentrii:
statistici de sumarizare
vizualizare
On-line Analytical Processing
Primele dou: clasice
OLAP: util pentru explorarea datelor multidimensionale, cu scopul
ob釘inerii de sumarizri: pentru v但nzri raportate 樽n forma cantitate,
loca釘ie, dat, produs, OLAP permite crearea de sumarizri care
descriu v但nzrile pentru un anumit produs/loca釘ie/lun
OLAP este inclus deseori ca auxiliar al SGBD-urilor actuale
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 4 / 63
5. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 5 / 63
6. Setul de date Iris
Setul de date pe care se exempli鍖c 樽n acest curs: Iris
Const 樽n date msurate pentru 150 de 鍖ori de iris, din 3 specii (Iris
Setosa, Iris Versicolour, Iris Virginica, c但te 50 de exemplare pe specie)
Msurtorile sunt pentru lungimea/l釘imea petalelor/sepalelor 樽n
centimetri (4 coloane)
A cincea coloan este specia 鍖orii atribut nominal
Datele se pot descrca de aici
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 6 / 63
7. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 7 / 63
8. Statistici de sumarizare
Statisticile de sumarizare sunt numere care schi釘eaz caracteristicile
unui set de valori
Reprezint manifestarea cea mai vizibil a statisticii
Exemple: frecven釘a, media, dispersia
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 8 / 63
9. Frecven釘a i valoarea modal
Pentru un set de m date categoriale cu valorile {v1, . . . , vi , . . . , vk}
frecven釘a unei valori vi este:
frecventa(vi ) =
Numrul de obiecte cu valoarea vi
m
Valoarea modal (sau moda) este valoarea cu cea mai mare
frecven釘:
moda = arg max
vi
frecventa(vi )
Aten釘ie la situa釘ia c但nd o anume valoare este folosit pentru a
semni鍖ca lipsa datelor: null-ul poate aprea ca mod
Pot exista seturi de date pentru care frecven釘a maxim s 鍖e atins
pentru mai multe valori = seturi multimodale
Pentru valori continue, conceptele de mod/frecven釘 nu sunt utile,
cu excep釘ia cazului c但nd se aplic un pas de discretizare
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 9 / 63
10. Percentile
Pentru cazul valorilor ordonate se pot considera percentilele
Pentru un atribut continuu sau ordinal x i un numr p 樽ntreg 樽ntre 0
i 100, a p-a percentil xp este o valoare din irul de valori ale lui x
astfel 樽nc但t p% din aceste valori sunt mai mici dec但t xp
Nu exist o de鍖ni釘ie standardizat pentru percentile, cea de mai sus
este luat pentru 鍖xare
Pentru cazul 樽n care se calculeaz percentile pentru set mare de date,
diferen釘ele datorate diferitelor moduri de de鍖nire devin neesen釘iale
Tradi釘ional se consider x0% = min(x) iar din de鍖ni釘ie se poate arta
c x100% = max(x)
Mod de calcul pentru determinarea celei de a p-a percentile: pentru
un set de n date se calculeaz valoarea 樽ntreag k cea mai apropiat
de n
100 p + 1
2 i se ia valoarea corespunztoare acestui rang k 樽n irul x
sortat
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 10 / 63
11. Msurarea loca釘iei: media i mediana
Pentru un set de valori {x1, x2, . . . , xm} valoarea medie este:
x = media(x) =
1
m
m
i=1
xi
Pentru a鍖area medianei este nevoie s se fac sortarea valorilor
ini釘iale, ob釘in但nduse mul釘imea (permutarea) x(1), x(2), . . . , x(m) ;
mediana este
mediana(x) =
x(r+1) dac m = 2r + 1
x(r)+x(r+1)
2 dac m = 2r
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 11 / 63
12. Msurarea loca釘iei: media i mediana
Media este valoare de mijloc doar dac distribu釘ia datelor este
simetric
Dac distribu釘ia este asimetric, atunci mediana este un indicator mai
bun pentru valoare de mijloc
Media este in鍖uen釘at de outliers, 樽n timp ce mediana nu
Medie retezat (eng: trimmed mean) se utilizeaz pentru a exlude
anomaliile: se 鍖xeaz un procent p 樽ntre 0 i 100; se elimin primele i
ultimele (p/2)% din date; se calculeaz media pentru ceea ce rm但ne
media standard se ob釘ine din media retezat cu p = 0
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 12 / 63
13. Msurarea loca釘iei: media i mediana
Exemple:
Considerm valorile {1, 2, 3, 4, 5, 90}. Media este 17.5, mediana este
3.5. Valoarea de trimmed mean pentru p = 40% este 3.5, considerabil
diferit fa釘 de media setului 樽ntreg de date
Media, medianele i valoarea de trimmed mean pentru iris sunt:
Msura Lungimea Lungimea Lungimea Lungimea
sepalelor sepalelor petalelor petalelor
Media 5.84 3.05 3.76 1.20
Mediana 5.80 3.00 4.35 1.30
Trimmed mean (20%) 5.79 3.02 3.72 1.12
Exerci釘iu: dac valoarea medianei este mai mic dec但t media, ce pute釘i
spune despre date?
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 13 / 63
14. Msurari ale 樽mprtierii datelor
Sunt msuri care cuanti鍖c concentrarea datelor
Diametrul domeniului de valori (eng: range) al unui set de date
{x1, x2, . . . , xm} corespunztor atributului x este
range(x) = max(x) min(x) = x(m) x(1)
Range-ul este nerelevant, deoarece putem avea c majoritatea datelor
sunt concentrate 樽ntro zon 樽ngust, dar c但teva valori outlier mresc
arti鍖cial raza setului
Varian釘a (dispersia) unui set de date de m valori este:
varianta(x) = s2
x =
1
m 1
m
i=1
(xi x)2
Utilizarea numitorului m 1 樽n loc de m este numit Corec釘ia Bessel
i are ca scop corectarea abaterii din estimarea varian釘ei de popula釘ie
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 14 / 63
15. Msurari ale 樽mprtierii datelor
Abaterea standard este sx = s2
x i are aceeai unitate de msur ca
i atributul x
Deoarece media poate s 鍖e distorsionat de outliers, rezult c
dispersia poate 鍖 i ea in鍖uen釘at
Se prefer considerarea altor trei msuri:
absolute average deviation, AAD:
AAD(x) =
1
m
m
i=1
|xi x|
median absolute deviation, MAD
MAD(x) = median ({|x1 x|, . . . , |xm x|})
interquartile range
interquartile range(x) = x75% x25%
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 15 / 63
16. Statistici de sumarizare a datelor multivariate
Date multivariate: date cu mai multe atribute
Pentru atributul xi calculm media xi
Media setului de obiecte este x = (x1, . . . , xn)
Analog se poate calcula dispersia, mediana etc. pe 鍖ecare dimensiune
Matricea de covarian釘: elementul sij de pe linia i i coloana j este
covarian釘a atributelor xi i xj:
sij = covarianta (xi , xj) =
1
m 1
m
k=1
(xki xi )(xkj xj)
unde xpq este a p-a valoare a atributului xq
sij este msur a gradului 樽n care dou atribute variaz 樽mpreun (mai
precis: care este gradul lor de dependen釘 liniar) i depinde de
magnitudinea valorilor atributelor
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 16 / 63
17. Statistici de sumarizare a datelor multivariate
sij = 0 樽nseamn c atributele si i sj nu sunt liniar dependente
Matrice de corela釘ie:
rij = corelatia(xi , xj) =
covarianta(xi , xj)
si sj
[1, 1]
rij se mai numete corela釘ia Pearson a atributelor xi i xj
rij = 賊1 indic faptul c xi este 樽n rela釘ie liniar cu xj:
xki = a 揃 xkj + b cu sgn(a) = sgn(rij)
Figure 1: Seturi de date (x, y) 樽mpreun cu coe鍖cientul de corela釘ie. Coe鍖cientul de corela釘ie surprinde gradul 樽n care un
nor de puncte poate 鍖 aproximat printr-o dreapt (sus) precum i modul 樽n care ele sunt legate liniar (cretere simultan sau
evolu釘ii 樽n sensuri diferite), dar nu i panta acestei legturi (鍖gurile din mijloc) sau rela釘ii mai complexe 樽ntre date (r但ndul de
jos). Sursa: Wikipedia.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 17 / 63
18. Statistici de sumarizare a datelor multivariate
Legat de coe鍖cientul de corela釘ie, c但teva observa釘ii :
Corela釘ia nu 樽nseamn cauzalitate nu se poate folosi o valoare
absolut apropiat de 1 ca argument c 樽ntre dou atribute exist o
rela釘ie de cauzalitate. Corela釘ie mare poate 鍖 o condi釘ie necesar
pentru legtur de cauzalitate, dar nu asigur i su鍖cien釘a. Cu toate
acestea, corela釘ia mare poate 鍖 folosit ca punct de pornire 樽n
cercetarea unei legturi 樽ntre diferite fenomene.
Corela釘ia i liniaritatea coe鍖cientul Pearson reprezint puterea unei
rela釘ii liniare 樽ntre dou seturi de valori, dar nu caracterizeaz complet
rela釘ia dintre date.
Exemplu: 4 seturi de date cu dou atribute; 樽n toate situa釘iile media
i dispersia lui y este aceeai, de asemenea avem acelai coe鍖cient de
corela釘ie 樽n 鍖ecare caz (0.816); cu toate acestea, legtura dintre x i
y e extrem de diferit de la un caz la altul.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 18 / 63
19. Statistici de sumarizare a datelor multivariate
Figure 2: Date cu caracteristici numerice identice (medie, dispersie, corela釘ie),
dar esen釘ial diferite ca natur: cvartetul lui Anscombe. Sursa: Wikipedia
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 19 / 63
20. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 20 / 63
21. Vizualizare
Scopul vizualizrii: reprezentarea informa釘iei 樽ntrun mod tabular sau
gra鍖c
Caracteristicile datelor i rela釘iile dintre elemente pot 鍖 analizate sau
raportate
Calit釘i:
oamenii au o abilitate natural de analiz pentru cantit釘i mari de date
prezentate vizual
oamenii pot detecta relativ uor abloane i tendin釘e
se pot detecta uor outliers i grupri neobinuite
Alt utilizare: reprezentare a datelor ob釘inute dup analiz i
confruntarea cu cunotin釘ele unor exper釘i umani sau se pot elimina
pattern-urile neinteresante
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 21 / 63
22. Vizualizare - exemplu
Exemplu: date reprezent但nd temperatura la suprafa釘a apei 樽n Iulie 1982 =
zeci de mii de valori.
Figure 3: Rezultat uor de 樽n釘eles i recunoscut: cu c但t te 樽ndeprtezi de ecuator,
cu at但t temperatura scade.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 22 / 63
23. Vizualizare - reprezentarea
Reprezentare = asocierea datelor cu elemente gra鍖ce
Rezultat: obiectele, atributele i rela釘iile dintre ele sunt transformate
樽n elemente gra鍖ce (puncte, linii, forme, culori)
Exemple:
Obiectele sunt deseori reprezentate ca puncte 樽n spa釘iul 2D sau 3D
Atributele pot 鍖 asociate cu pozi釘ia punctelor sau cu atribute ale lor:
culoare, form, dimensiune
Dac se folosete pozi釘ia punctelor atunci se poate percepe uor o
rela釘ie de grupare, disimilaritate sau un outlier
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 23 / 63
24. Vizualizare - aranjarea
Se refer la plasarea elementelor vizuale pe display
Rearanjarea datelor i a a atributelor poate s 鍖e la fel de important
ca alegerea reprezentrii 樽n sine
Exemplu: reordonarea de atribute i obiecte
Figure 4: Un tabel cu nou obiecte i
ase atribute binare.
Figure 5: Dup efectuarea de permutri
de obiecte i atribute, gruparea
obiectelor 樽n func釘ie de valori devine
vizibil.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 24 / 63
25. Vizualizare - selectarea
Selectarea = eliminarea sau deaccentuarea obiectelor sau a atributelor
Bene鍖cii: selectarea atributelor poate permite reprezentarea lor 2D
sau 3D; eliminarea de 樽nregistrri poate duce la ob釘inerea unei
reprezentri inteligibile
Exemplu: se pot alege perechi de atribute care s se reprezinte gra鍖c;
dac nu sunt prea multe atribute, atunci se pot reprezenta toate
perechile de atribute
Exist i alte metode mai so鍖sticate de selectare a atributelor: analiza
componentelor principale
Eliminarea de obiecte: se poate face prin eantionare, dar cu pstrarea
datelor 樽n regiuni slab populate; sau concentrarea doar pe un anumit
subset al colec釘iei ini釘iale (e.g. o clas de obiecte: Iris Setosa)
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 25 / 63
26. Vizualizare - tehnici
Metodele de vizualizare sunt deseori specializate pe tipurile de date
Exist i tehnici clasice ce sunt specializate dup:
numrul de atribute
existen釘a de legturi de tip ierarhic sau graf 樽ntre date
tipurile de atribute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 26 / 63
27. Vizualizare: stem and leaf
Stem and leaf (sau stemplot): util pentru reprezentarea distribu釘iei
de date 樽ntregi sau continue unidimensionale
Mod de lucru pentru valori 樽ntregi: se 樽mpart valorile 樽n grupuri, unde
鍖ecare grup con釘ine valori care sunt egale, abstrac釘ie fc但nd de ultima
cifr
Tulpinile sunt grupurile, iar frunzele sunt cifrele unit釘ilor
Exemplu: pentru valorile 35, 36, 42, 51 avem tulpinile 3, 4, 5 iar
frunzele sunt respectiv {5, 6}, {2} i {1}.
Reprezentare:
3 56
4 2
5 1
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 27 / 63
29. Vizualizare: stem and leaf
Pentru Iris considerm atributul lungimea sepalei cu valorile
樽nmul釘ite cu 10; se ob釘ine:
43, 44, 44, 44, 45, 46, 46, 46, 46, 47, 47, 48, 48, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 50, 50, 50, 50,
50, 51, 51, 51, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 53, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 55, 56, 56, 56,
56, 56, 56, 57, 57, 57, 57, 57, 57, 57, 57, 58, 58, 58, 58, 58, 58, 58, 59, 59, 59, 60, 60, 60, 60, 60, 60, 61, 61, 61, 61,
61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 67, 67,
67, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69, 69, 69, 70, 71, 72, 72, 72, 73, 74, 76, 77, 77, 77, 77, 79
Reprezentarea prin stem and leaf duce la:
4 34444566667788888999999
5 0000000000111111111222234444445555555666666777777778888888999
6 000000111111222233333333344444445555566777777778889999
7 0122234677779
Utilitate:
se poate vizualiza rapid densitatea relativ datelor; e.g. grupul cel mai
numeros este 樽ntre 5 i 6 cm.
se pot vedea rapid valorile outlier
Restric釘ie: pentru date 樽n cantitate moderat, p但n la 200 de obiecte
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 28 / 63
30. Vizualizare: histograme
Domeniul de valori este 樽mpr釘it 樽n subintervale; pentru 鍖ecare
subinterval se contorizeaz c但te valori sunt incluse 樽n el
Pentru valori categoriale contorizarea se face pentru 鍖ecare valoare;
dac sunt prea multe valori categoriale, atunci acestea se combin
cumva
Se construiete c但te un dreptunghi aferent 鍖ecrui interval/categorie
cu 樽nl釘imea propor釘ional cu numrul de valori
(a) Lungimea sepalelor, discretizare
樽n 10 subintervale
(b) Lungimea sepalelor, discretizare
樽n 20 de subintervale
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 29 / 63
31. Vizualizare: histograme
Se pot reprezenta mai multe valori simultan pe o histogram:
Pentru cazul datelor categoriale, histograma Pareto este la fel cu
histograma normal, dar categoriile sunt sortate 樽n descresctor dup
numrul de obiecte con釘inute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 30 / 63
32. Vizualizare: histograme bidimensionale
Con釘in contorizri pentru dou dimensiuni
Exemplu: lungimea i l釘imea petalelor
Ce arat histograma de mai sus? ce probleme pot 鍖 la reprezentare?
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 31 / 63
33. Vizualizare: boxplots
Introduse de J. Tukey
Arat distribu釘ia valorilor pentru un singur atribut numeric
Figura de mai jos explic componentele unui boxplot
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 32 / 63
34. Vizualizare: boxplots
Se pot compara mai multe serii de date
a1=lungimea sepalei, a2=l釘imea sepalei, a3=lungimea petalei,
a4=l釘imea petalei
(a) Boxplot pentru cele patru
atribute ale setului de date Iris
(b) Matrice de boxplots
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 33 / 63
35. Vizualizare: pie charts
Folosite de regul pentru atribute categoriale cu pu釘ine valori distincte
Ariile dau o idee asupra repartizrii datelor 樽n categorii
Des folosite 樽n lucrri de popularizare sau de raportare
Rar folosite 樽n scrierile tehnice, tocmai din cauz c e greu s se
judece i s se compare aria zonelor
n scrieri tehnice se prefer histogramele
Figure 6: Piechart Figure 7: Ring
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 34 / 63
36. Vizualizare: Scatter plots
Valorile atributelor determin pozi釘ia 樽n plan
Cel mai des folosite: scatter plots 2D, dar se pot realiza i 3D
Atribute adi釘ionale pot 鍖 reprezentate folosind culori, forme,
dimensiuni ale obiectelor gra鍖ce
Cel mai des folosite: matrice de scatter plots care reprezint perechi
de atribute
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 35 / 63
37. Vizualizare: Matrix scatter plots
Figure 9: Matrice de scatter plots. a1=lungimea sepalei, a2=l釘imea sepalei,
a3=lungimea petalei, a4=l釘imea petalei
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 36 / 63
38. Vizualizare: Scatter plots - utilitate
Arat rela釘ia dintre dou atribute; de exemplu, poate permite
determinarea vizual a gradului 樽n care exist o legtur liniar 樽ntre
valori (鍖gura de mai jos)
Dac seturile de date sunt grupate pe clase, atunci se poate utiliza un
scatter plot pentru a vedea 樽n ce msur dou atribute separ clase
vezi 樽n matricea de scatterplot, combina釘ia a3 a4 sau a3 a2.
Separabilitatea poate s 鍖e liniar (o dreapt produce dou semiplane
care con釘in 鍖ecare exclusiv c但te o clas) sau folosind o curb mai
complex. Dac nu se poate construi o astfel de curb, atunci
probabil c este nevoie de mai multe atribute care s permit
discriminarea claselor, sau o alt metod (e.g. kernel methods).
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 37 / 63
39. Vizualizare: Scatter plots - extindere multidimensional
Scatter plot-urile pot 鍖 extinse pentru a include 樽nc nite atribute
Pentru o reprezentare 3D se pot folosi atribute categoriale (e.g. clasa)
Figure 10: 4 dimensiuni reprezentate pe un scatter plot
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 38 / 63
40. Vizualizare: contour plots
Utilizate atunci c但nd un atribut continuu este msurat peste un
domeniu
Se ob釘ine o parti釘ionare a spa釘iului 樽n zone pentru care valorile sunt
aproximative egale
Liniile de contur care separ regiuni diferite conecteaz valori egale
Exemplu comun: hr釘i pe care se reprezint altitudinea
Pot de asemenea s reprezinte: temperatura, cantitatea de
precipita釘ii, presiunea aerului etc.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 39 / 63
42. Alte modalit釘i de vizualizare
Surface plots
Vector 鍖elds plot
Lower dimensional slices
Anima釘ii
Sursa: Introduction to Data Mining, cap 3
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 41 / 63
43. Vizualizarea datelor multidimensionale: matrice de imagini
Utile c但nd obiectele sunt grupate pe clase; se permite detectarea
faptului c obiecte din aceeai clas au valori similare
O matrice de date este un tablou dreptunghiular de valori
Valorile pot 鍖 reprezentate prin puncte pe ecran, in鍖uen釘但nd culoarea
i strlucirea punctelor
Dac atributele au domenii de valori diferite, atunci ele pot 鍖
standardizate pentru a avea media 0 i dispersia 1; astfel se evit ca
un atribut s domine reprezentarea gra鍖c
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 42 / 63
44. Vizualizarea datelor multidimensionale: matrice de imagini
Figure 12: Vizualizarea matricei de date pentru setul Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 43 / 63
45. Vizualizarea datelor multidimensionale: matrice de imagini
Florile din aceeai categorie sunt cele mai similare 樽ntre ele, dar Versicolour
i Virginica sunt mai similare 樽ntre ele dec但t cu Setosa.
Figure 13: Vizualizarea matricei de corela釘ie setul Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 44 / 63
46. Vizualizarea datelor multidimensionale: coordonate paralele
Au o ax vertical pentru 鍖ecare din atribute; axele sunt paralele 樽ntre
ele
Fiecare valoare a 鍖ecrui atribut este asociat cu o pozi釘ie pe ax
Dac obiectele au tendin釘a de a 鍖 apropiate 樽ntre ele 樽n cadrul
aceluiai grup, dar relativ bine separate pentru grupuri diferite, acest
lucru se va vedea din reprezentare
Func釘ioneaz bine cu un numr mediu de obiecte, p但n la 200
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 45 / 63
47. Vizualizarea datelor multidimensionale: coordonate paralele
Figure 14: Reprezentare prin coordonate paralele pentru Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 46 / 63
48. Vizualizarea datelor multidimensionale: coordonate paralele
Figure 15: Variant bazat pe coordonate paralele
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 47 / 63
49. Vizualizarea datelor multidimensionale: alte variante
Star plots
Similar cu coordonate paralele, dar axele radiaz dintrun punct central
Liniile care conecteaz valorile unui obiect creeaz un poligon
Fe釘e Cherno鍖
Fiecare atribut este asociat cu o trstur facial
Valorile atributelor determin apari釘ia trsturilor
Fiecare obiect devine o fa釘 separat
Metoda se bazeaz pe abilitatea de a distinge fe釘e
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 48 / 63
50. Vizualizarea datelor multidimensionale: Star plots
(a) Star plot:
schema
(b) Star plot pentru 15 obiecte Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 49 / 63
51. Vizualizarea datelor multidimensionale: fe釘e Cherno鍖
(a) O fa釘 Cher-
no鍖
(b) Fe釘e Cherno鍖 pentru 15 obiecte iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 50 / 63
52. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 51 / 63
53. OLAP i analiza datelor multidimensionale
On-Line Analytical Processing (OLAP) a fost propus de E. F. Codd,
printele bazelor de date rela釘ionale
Bazele de date rela釘ionale folosesc tabele pentru gruparea datelor,
OLAP folosete tablouri multidimensionale
Se prevede posibilitatea de a interac釘iona cu tabloul, de exemplu prin
selectarea numrului de dimensiuni sau expandri/agregri pe anumite
dimensiuni
Exist opera釘ii de analiz i explorare a datelor care lucreaz uor cu
reprezentare OLAP
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 52 / 63
54. OLAP i analiza datelor multidimensionale
Paii pentru convertirea datelor tabulare 樽ntrun tablou multidimensional:
1 Se identi鍖c atributele care vor deveni dimensiuni i care vor deveni
valori 樽n cadrul tabloului valori 釘int
atributele folosite ca dimensiuni trebuie s aib valori discrete
valoarea 釘int este o valoare de contorizare sau o valoare real
exprim但nd cantitate, sum, cost etc.
se poate s nu 鍖e nicio variabil 釘int continu i 樽n acest caz se face
numrarea obiectelor pe dimensiuni
2 Se calculeaz valorile din 鍖ecare celul a tabloului multidimensional
prin 樽nsumri de valori sau prin numrri de obiecte
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 53 / 63
55. OLAP i analiza datelor multidimensionale
Exemplu: pentru Iris se aleg lungimea, l釘imea petalelor i tipul de
鍖oare ca atribute;
Dimensiunile lungimea i l釘imea petalelor se discretizeaz:
lungimea petalelor: low [0, 2.5), medium [2.5, 5), high [5, )
l釘imea petalelor: low [0, 0.75), medium [0.75, 1.75), high [1.75, )
Se ob釘ine tabelul:
Lungimea petalelor L釘imea petalelor Specia Numrul
low low Setosa 46
low medium Setosa 2
medium low Setosa 2
medium medium Versicolour 43
medium high Versicolour 3
medium high Virginica 3
high medium Versicolour 2
high medium Virginica 3
high high Versicolour 2
high high Virginica 44
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 54 / 63
56. OLAP i analiza datelor multidimensionale
Pentru orice combina釘ie de valori ale atributelor este corespunztoare
o singur celul 樽n cadrul tabloului
Acestei celule 樽i este asignata numrul de 鍖ori care respect valorile
corespunztoare ale atributelor
Figure 16: Reprezentare multidimensional pentru setul de date Iris
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 55 / 63
57. OLAP i analiza datelor multidimensionale
Feliile de tablou sunt artate mai jos:
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 56 / 63
58. OLAP i analiza datelor multidimensionale
Opera釘ia cheie 樽n OLAP este crearea cuburilor de date
Un cub de date este o reprezentare multidimensional, 樽mpreun cu
toate agregrile posibile
Prin toate agregrile posibile 樽n釘elegem agregrile care se ob釘in prin
alegerea unui subset propriu de dimensiuni i 樽nsum但nd valorile peste
toate celelate dimensiuni
Exemplu (banal): dac se consider dimensiunea specie i se fac
contorizri peste celelate 4 dimensiuni (lungimi/l釘imi . . . ), atunci se
ob釘ine un vector unidimensional care are ca valori numrul de plante
din 鍖ecare specie (50)
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 57 / 63
59. OLAP i analiza datelor multidimensionale
Exemplu: 鍖e un set de date 樽n care se 樽nregistreaz v但nzrile de
produse pentru nite companii, la date diferite
Datele ob釘inute pot 鍖 reprezentate ca un tablou tridimensional
Exist 3 agregri bidimensionale (combinri de 3 luate c但te 2), 3
agregri unidimensionale i o agregare fr dimensiune = totalul
general
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 58 / 63
60. OLAP i analiza datelor multidimensionale
Figure 17: Tabelul reprezint o agregare bidimensional, iar pe cele dou margini
sunt agregri unidimensionale. n col釘ul din dreapta jos se a鍖 agregarea fr
dimensiune.
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 59 / 63
61. Opera釘ii OLAP: slicing, dicing
Slicing: selectarea unui grup de celule prin speci鍖carea unor valori
concrete pentru anumite dimensiuni
Dicing: selectarea unui subset de celule prin speci鍖carea unui set de
valori pentru atribute
n practic, ambele opera釘ii pot 鍖 acompaniate de agregare pe nite
dimensiuni
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 60 / 63
62. Opera釘ii OLAP: roll-up, drill-down
Datele au deseori o structur ierahic
o dat este asociat unei sptm但ni, luni, an
o loca釘ie este asociat unui ora, regiune, 釘ar, continent
produsele pot 鍖 divizate 樽n c但teva categorii: hran, 樽mbrcminte etc.
Categoriile deseori se con釘in unele pe altele
Roll-up: se poate face agregare a v但nzrilor de la datele zilnice la luni
sau ani
Drill-down: invers fa釘 de roll-up; dac se dau v但nzrile pe ani, se
poate detalia la nivel de lun sau sptm但n
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 61 / 63
63. Outline
1 Ce este explorarea datelor?
2 Setul de date Iris
3 Statistici de sumarizare
4 Vizualizare
5 OLAP i analiza datelor multidimensionale
6 Alte resurse
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 62 / 63
64. Resurse
Cr釘ile lui Edward Tufte: The Visual Display of Quantitative
Information etc.
Seven Basic Tools of Quality
lucian.sasu@ieee.org (UNITBV) Curs 3 April 7, 2014 63 / 63