2. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
O mnie¡
2
3. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Zainteresowania zawodowe
? Zachowania konsument¨®w,
szczeg¨®lnie w zakresie wp?ywu ICT na
nie,
? Badania marketingowe ¨C ilo?ciowe i
jako?ciowe, badania internetowe
? Analiza danych ilo?ciowych i
jako?ciowych ¨C psychometria i
ekonometria
? E-commerce, e-marketing
? Logistyka miejska i aglomeracyjna
3
4. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Projekty badawcze i doradcze ¨C ciekawsze
4
5. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Moje oczekiwania
? Zaanga?owanie i pasja:
? Nienawidz?: kombinatorstwa, zachowa¨½ nieetycznych i
braku szczero?ci.
5
6. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Kontakt
? Konsultacje:
¨C ?roda, 9.30-11.00, p. 506
? Dy?ur:
¨C czwartek, 9.30-12:00, p. 506 lub 301
(za wyj?tkiem dni obrad Rady Wydzia?u)
? E-mail:
¨C radoslaw.macik@umcs.lublin.pl ? og¨®lny do kontaktu
¨C rmacik@hektor.umcs.lublin.pl ? do przesy?ania ?wicze¨½
temat maila stacjonarne: [AD], niestacjonarne [AD_NS]
? Informacje:
¨C http://radoslawmacik.wordpress.com
6
7. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Profil osobowy, ?stara strona¡±, blog dydaktyczny
7
8. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Zaliczenie przedmiotu
? Udzia? w badaniach prowadz?cego:
¨C 2-3 razy w ci?gu semestru, udzia? osobisty lub
rekrutacja w?a?ciwego uczestnika
? Zadania/case study
¨C Nieobecno?ci nie upowa?niaj? do nie wykonywania
?wicze¨½
¨C 3-cia nieobecno?? powoduje skre?lenie z listy
? Zaliczenie praktyczne:
¨C w ?rodku semestru i na koniec ¨C na komputerze
¨C wi?cej szczeg¨®?¨®w w swoim czasie
8
9. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Zaliczenie przedmiotu ¨C st. niestacjonarne
? Udzia? w badaniach prowadz?cego:
¨C Max. 2 razy w ci?gu semestru, udzia? osobisty lub
rekrutacja w?a?ciwego uczestnika
? Zadania/case study
¨C Nieobecno?ci nie upowa?niaj? do nie wykonywania
?wicze¨½
¨C 3-cia nieobecno?? powoduje skre?lenie z listy
? Zaliczenie praktyczne:
¨C na koniec semestru ¨C na komputerze
¨C wi?cej szczeg¨®?¨®w w swoim czasie
9
10. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Literatura
? Anna Malarska, STATYSTYCZNA ANALIZA
DANYCH WSPOMAGANA PROGRAMEM SPSS,
Predictive Solutions, Krak¨®w 2010
? Jaros?aw G¨®rniak, Janusz Wachnicki,
PIERWSZE KROKI W ANALIZIE DANYCH,
Predictive Solutions, Krak¨®w 2011
? ANALIZA DANYCH ZASTANYCH PRZEWODNIK
DLA STUDENT?W, red. nauk. Marta
Makowska, Wyd. SCHOLAR, Warszawa 2013
? Piotr Francuz, Rafa? Mackiewicz, LICZBY NIE
WIEDZ?, SK?D POCHODZ?. PRZEWODNIK PO
METODOLOGII I STATYSTYCE NIE TYLKO DLA
PSYCHOLOG?W, Wyd. KUL, Lublin 2007
? Screencasty i webcasty ¨C do znalezienia np.
na YouTube itd.
slajd 10
12. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Zbieramy dane do analizy¡
? Prosz? wype?ni? samodzielnie kwestionariusz
pod adresem:
https://www.surveymonkey.com
/r/esurvey_perception
slajd 12
13. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Dane ? ¡
slajd 13
M?dro??
Wiedza
Informacja
Dane
14. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Dane, informacja, wiedza - zale?no?ci
slajd 14
15. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Czym jest analiza danych?
? Analiza danych jest procesem kontroli,
czyszczenia, transformacji i modelowania danych
w celu uzyskania z nich u?ytecznych informacji,
zasugerowania wniosk¨®w i wsparcia
podejmowania decyzji.
? Analiza danych ma wiele aspekt¨®w i podej??
obejmuj?cych r¨®?ne techniki analityczne
(wyst?puj?ce cz?sto pod r¨®?nymi nazwami) w
r¨®?nych dziedzinach ¨C biznesie, naukach
przyrodniczych, czy te? spo?ecznych.
16. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Skalowanie wielowymiarowe
Stress = 0,098
R2 = 0,946
17. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Model ?cie?kowy
18. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Alternatywne modele
¨C co jest artefaktem, a co jest rzeczywisto?ci? ?
18
19. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
SPSS
? Dzisiaj to rodzina IBM SPSS Statistics + AMOS
20. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
?wiczenie 1
? Przygotowanie pliku danych i wprowadzanie danych ¨C
bezpo?rednio do SPSS
¨C Najpierw ?wiczymy samodzielnie
? Import danych z pliku Excela
¨C http://marketing.umcs.lublin.pl/rmacik/dane.xls
¨C Na co uwa?a??
¨C Sprawdzamy: http://marketing.umcs.lublin.pl/rmacik/dane.sav
? Plik ?kompletny¡±:
http://marketing.umcs.lublin.pl/rmacik/dane2.sav
22. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rozk?ad normalny
? To jeden z najwa?niejszych
rozk?ad¨®w prawdopodobie¨½stwa,
jego potwierdzenie upowa?nia do
stosowania wielu metod i test¨®w
statystycznych nazywanych
parametrycznymi. Wykres funkcji
prawdopodobie¨½stwa tego
rozk?adu jest krzyw? w kszta?cie
dzwonu (krzywa normalna)
? Wiele zjawisk w naturze posiada
rozk?ad zbli?ony do normalnego.
? Rozk?ad normalny to rozk?ad
ci?g?y, w praktyce wiele
rozk?ad¨®w ma charakter
dyskretny (nieci?g?y) co utrudnia
uznanie za rozk?ad normalny.
22
G?sto??
prawdopodobie¨½stwa
Dystybuanta
(skumulowane
prawdopodobie¨½stwo)
23. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Regu?a trzech sigm
? Istnieje niesko¨½czenie wiele rozk?ad¨®w normalnych.
? We wszystkich rozk?adach normalnych funkcja g?sto?ci jest
symetryczna wzgl?dem warto?ci ?redniej rozk?adu.
? Oko?o 68,3% pola pod wykresem krzywej znajduje si? w odleg?o?ci
jednego odchylenia standardowego od ?redniej, oko?o 95,5% w
odleg?o?ci dw¨®ch odchyle¨½ standardowych i oko?o 99,7% w
odleg?o?ci trzech (regu?a trzech sigm).
? Punkt przegi?cia krzywej znajduje si?
w odleg?o?ci jednego odchylenia
standardowego od ?redniej.
23
24. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Parametry rozk?adu
? Warto?? oczekiwana ¨C warto?? okre?laj?ca spodziewany wynik
do?wiadczenia losowego. Estymatorem warto?ci oczekiwanej rozk?adu
cechy w populacji jest ?rednia arytmetyczna.
? Mediana (drugi kwartyl) ¨C warto?? cechy w szeregu uporz?dkowanym,
powy?ej i poni?ej kt¨®rej znajduje si? jednakowa liczba obserwacji. Odporna
na warto?ci odstaj?ce.
? Wariancja - miara zmienno?ci, jest ?redni? arytmetyczn? kwadrat¨®w
odchyle¨½ poszczeg¨®lnych warto?ci cechy od warto?ci oczekiwanej
? Odchylenie standardowe ¨C miara zmienno?ci - jest pierwiastkiem
kwadratowym z wariancji. Im mniejsze odchylenie tym obserwacje s?
bardziej skupione wok¨®? ?redniej.
? Sko?no?? rozk?adu odnosi si? do jego asymetrii
? Kurtoza
24
25. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Sko?no??
? Wsp¨®?czynnik sko?no?ci
przyjmuje warto?ci:
¨C zero dla rozk?adu symetrycznego,
¨C warto?ci ujemne dla lewostronnej
asymetrii (wyd?u?one lewe rami?
rozk?adu)
¨C warto?ci dodatnie dla prawostronnej
asymetrii (wyd?u?one prawe rami?
rozk?adu).
? Je?li rozk?ad ma ?lewy ogon d?u?szy" to nazywamy go lewostronnie sko?nym,
ujemnie sko?nym, lewostronnie asymetrycznym. Rozk?ad taki ma warto??
oczekiwan? (?redni?) mniejsz? od mediany. Sprawdza si? relacja: Dominanta >
Mediana > ?rednia
? Je?li rozk?ad ma "prawy ogon d?u?szy" to nazywamy go prawostronnie
sko?nym, dodatnio sko?nym, prawostronnie asymetrycznym. Rozk?ad taki ma
warto?? oczekiwan? (?redni?) wi?ksz? od mediany. Sprawdza si? relacja:
Dominanta < Mediana < ?rednia
25
26. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Kurtoza
? Kurtoza to miara zag?szczenia (koncentracji) wynik¨®w wok¨®? warto?ci
centralnej. To druga obok sko?no?ci miara kszta?tu rozk?adu.
¨C Kurtoza w rozk?adzie normalnym przyjmuje warto?? ?0¡±.
¨C Kurtoza wi?ksza od zera oznacza rozk?ad leptokurtycznym (wysmuk?y).
¨C Kurtoza mniejsza od zera oznacza rozk?ad platokurtyczny (sp?aszczony).
26
K < 0 ? platokurtyczny
K > 0 ? leptokurtyczny
K = 0 ? mezokurtyczny
27. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rozk?ady dyskretne, w tym mniej typowe
? Co mo?na powiedzie? o ich normalno?ci?
27
28. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Sprawdzenie normalno?ci rozk?adu
? Hipotezy:
¨C H0: Rozk?ad jest normalny
(o empirycznie ustalonej ?redniej i odchyleniu standardowym)
¨C H1: Rozk?ad odbiega od normalnego
? Typowe testy:
¨C Shapiro-Wilka (oryginalnie dla pr¨®b 3-50 obserwacji,
wsp¨®?cze?nie do 5000 obserwacji, test mocny)
¨C Ko?mogorowa-Smirnowa (mo?e te? s?u?y? do innych
cel¨®w)
? H0 odrzucamy na rzecz H1 je?li p?0,05
28
29. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
?wiczenie 2
? Sprawdzanie rozk?ad¨®w
¨C Plik: http://marketing.umcs.lublin.pl/rmacik/rozkl.sav
¨C Zazwyczaj po??dany jest rozk?ad normalny lub
jednostajny (zm. grupuj?ce)
? Analizy tabelaryczne
¨C Plik: http://marketing.umcs.lublin.pl/rmacik/dane2.sav
¨C Tabele liczebno?ci
¨C Tabele krzy?owe ¨C niezale?no?? zmiennych ¨C test ¦Ö2
(chi-kwadrat)
30. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rozk?ad zbli?ony do normalnego
? Czasem, szczeg¨®lnie dla zmiennych o du?ej dyskretyzacji
rozk?adu trudno potwierdzi? jego normalno??, pomimo ?e
wygl?da na ?normalny¡± ;)
? Za pomoc? histogramu i wykresu QQ (kwartyl-kwartyl)
mo?na wtedy zdecydowa? o traktowaniu rozk?adu jako
zbli?onego do normalnego, pomimo warto?ci test¨®w
normalno?ci wskazuj?cych na odrzucenie hipotezy co do
normalno?ci rozk?adu (oczywi?cie przy
prawdopodobie¨½stwie zwykle wi?kszym ni? 0,000!)
? Robimy to jednak na w?asne ryzyko
30
31. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Normalno?? a wykresy QQ
? Rozk?ad normalny Rozk?ad odbiegaj?cy od normalnego
31
Shapiro-Wilk Test
PERF_D
W 0,981273
p-value 0,050467
alpha 0,05
normal yes
-3
-2
-1
0
1
2
3
0 1 2 3 4 5
StdNormal
Data
QQ Plot
Shapiro-Wilk Test
PERF_CM
W 0,944177
p-value 0,000019
alpha 0,05
normal no
-3
-2
-1
0
1
2
3
4
0 1 2 3 4 5
StdNormal
Data
QQ Plot
32. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Histogramy o r¨®?nych warto?ciach ?koszyka¡±
? Bin=0,25 bin=0,5 bin=1
? Rozmiar ?koszyka¡± wyra?ony jest w jednostkach skali
pomiaru zmiennej
32
0
5
10
15
20
25
30
35
1.08
1.33
1.58
1.83
2.08
2.33
2.58
2.83
3.08
3.33
3.58
3.83
4.08
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
1.33
1.83
2.33
2.83
3.33
3.83
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
70
80
1.33
2.33
3.33
4.33
Frequency
Bin
Histogram
34. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Obserwacje odstaj?ce (outliers)
? Obserwacja odstaj?ca (outlier) ¨C obserwacja posiadaj?ca nietypow?
warto?? zmiennej niezale?nej (obja?niaj?cej) lub nietypowe warto?ci
obydwu zmiennych ¨C zale?nej (obja?nianej) i obja?niaj?cej, co oznacza,
?e zwi?zek mi?dzy Xi a Yi dla danej obserwacji jest inny ni? dla reszty
obserwacji w zbiorze danych.
? Obserwacje odstaj?ce s? na og¨®? spowodowane b??dami w danych, na
skutek b??d¨®w pomiaru, pomy?ek w kodowaniu itp. Du?a liczba
element¨®w odstaj?cych mo?e te? by? sygna?em dobrania z?ego modelu.
? Obserwacje odstaj?ce utrudniaj? a nawet uniemo?liwiaj? analiz?. Ma?o
odporne na nie s? metody bazuj?ce na za?o?eniu rozk?adu normalnego i
zale?no?ciach liniowych, takie jak korelacja Pearsona, regresja liniowa
? Konieczne jest wi?c albo usuwanie obserwacji odstaj?cych, albo
stosowanie odpornych metod statystycznych np. metod rangowych (np.
korelacji rang Spearmana albo tau Kendalla).
34
35. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Wykrywanie obserwacji odstaj?cych (1)
? Wizualnie na wykresie, g?¨®wnie dla szereg¨®w czasowych ¨C niedok?adne
? W oparciu kryterium kwartylowe (metoda Tukeya):
¨C oblicza si? pierwszy (?1) i trzeci kwartyl (?3) oraz rozst?p
mi?dzykwartylowy ??? = ?3 ¨C ?1 (interquartile range IQR).
¨C obserwacje podejrzane za odstaj?ce to te, kt¨®rych warto?ci wykraczaj? poza
przedzia? ?1¨C 1,5???, ?3 + 1,5???
¨C obserwacje ekstremalnie odstaj?ce to te, kt¨®rych warto?ci wykraczaj? poza
przedzia? ?1¨C 3???, ?3 + 3???
? W oparciu o odchylenie standardowe:
¨C dane standaryzuje si? do rozk?adu normalnego o ?redniej ? = 0 i odchyleniu
standardowym ?? = 1, tj. ? 0,1
¨C obserwacje odstaj?ce to te kt¨®re wykraczaj? poza przedzia? ?2,5??, +2,5??
? Test Grubbsa ? http://www.statystycy.pl/t4873_test_grubbsa.php
? Wg odleg?o?ci (np. euklidesowych) mi?dzy danymi - wielowymiarowe
35
36. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Obserwacje odstaj?ce w szeregu czasowym
36
37. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
?wiczenie 3
? Sprawdzanie poprawno?ci danych
? Plik: http://marketing.umcs.lublin.pl/rmacik/dane-2zaj.sav
? Co sprawdzamy:
¨C Obecno?? warto?ci spoza zakresu:
? Potencjalne b??dy kodowania ¨C jak wykry?, kiedy i jak korygowa??
? Nie zdefiniowane warto?ci zmiennej
¨C Obserwacje odstaj?ce:
? Co to takiego i w czym przeszkadzaj??
? Jak zidentyfikowa??
? Co z nimi robi??
¨C Rozk?ad zmiennej
? Zazwyczaj po??dany jest rozk?ad normalny lub jednostajny (zm. grupuj?ce)
38. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Metoda kwartylowa i test Grubbsa
? Plik P1.xlsx
? G?¨®wna seria danych to liczba u?ytkowanych samochod¨®w
dostawczych w badanej firmie
? Sprawdzamy czy s? obserwacje odstaj?ce metod? kwartylow?:
¨C Obliczamy kwartyle: Q1 i Q3 oraz rozst?p mi?dzykwartylowy IQR
=KWARTYL(zakres,nr_kwartyla)
¨C Obliczamy granice przedzia?¨®w dla obserwacji odstaj?cych i ekstremalnych ¨C
oddzielnie doln? i g¨®rn?
¨C Formu?ujemy warunek przynale?no?ci do przedzia?¨®w wzgl?dem granic
? Test Grubbsa (je?eli mamy narz?dzia by go obliczy?):
¨C Z dodatku Real Statistics wybieramy opcj? Descriptive Statistics and Normality
¨C Zaznaczamy w oknie dialogowym test Grubbsa, wpisujemy testowan? liczb?
obserwacji odstaj?cych, np. 6, 8 itd.
38
39. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Metoda kwartylowa - rozwi?zanie
39
Q1 1
Q3 3
IQR 2
odst_d¨®? -2
odst_g¨®ra 6
ekstr_d¨®? -5
ekstr_g¨®ra 9
Q1 =KWARTYL(B2:B82;1)
Q3 =KWARTYL(B2:B82;3)
IQR =I2-I1
odst_d¨®? =I1-1,5*I3
odst_g¨®ra =I2+1,5*I3
ekstr_d¨®? =I1-3*I3
ekstr_g¨®ra =I2+3*I3
odstaj?ca ekstremalna
=JE?ELI(LUB(B2<$I$5;B2>$I$6);"tak";"nie") =JE?ELI(LUB(B2<$I$7;B2>$I$8);"tak";"nie")
Nr respondentaile pojazd¨®wDominuj?ca marka odstaj?ca ekstremalna
297 20 lublin tak tak
298 4 LUBLIN,HONKER nie nie
299 3 Lublinek nie nie
300 1 Lublin nie nie
303 2 Citroen nie nie
305 4 Lublin nie nie
316 2 lublin nie nie
318 3 Ford Transit nie nie
319 5 HONKER nie nie
321 2 renault nie nie
324 3 Mercedes nie nie
325 200 ?uk lublin tak tak
326 2 Lublin nie nie
Formu?y
Wyniki
40. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Obserwacje odstaj?ce w dwu wymiarach
? Trudniej wykrywalne, czasem ?atwiej zauwa?y? wizualnie
ni? wykry? analitycznie
40
Liniami przerywanymi
zaznaczono granice
przedzia?¨®w
??1¨C 1,5???, ?3 + 1,5????
dla obu zmiennych
Obserwacja
odstaj?ca
41. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
?wiczenie 4
? Tabele krzy?owe
¨C Co m¨®wi test niezale?no?ci?
¨C Kiedy wolno pos?ugiwa? si? korelacjami?
¨C Plik danych:
http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
? ?wiczenie samodzielne do wys?ania na maila:
¨C Plik danych: http://marketing.umcs.Lublin.pl/rmacik/ai.sav
¨C Analiza jak preferencje udzia?u w ankietach internetowych zale??
od wybranych zmiennych grupuj?cych ? Pytanie q0003
wzgl?dem pyta¨½ q0014 i q0017 (??cznie z wiekiem ¨C zmienna
wieku kodowana do wybranej liczby grup ¨C procedura RECODE)
41
43. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Weryfikacja hipotez statystycznych
? Weryfikacja hipotez statystycznych to sprawdzanie s?d¨®w o
populacji przez badanie jej wycinka (pr¨®by).
? St?d, w wi?kszo?ci przypadk¨®w, nie ma sensu testowanie hipotez
statystycznych w badaniach wyczerpuj?cych.
? Hipotez? statystyczn? jest dowolne przypuszczenie co do rozk?adu
populacji generalnej (jego postaci funkcyjnej lub warto?ci
parametr¨®w).
? Testem statystycznym nazywamy regu?? post?powania, kt¨®ra ka?dej
mo?liwej pr¨®bie przyporz?dkowuje decyzj? odrzucenia hipotezy lub
braku podstaw do jej odrzucenia.
43
44. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Hipotezy badawcze a hipotezy statystyczne
? Nie mo?na ich ze sob? uto?samia?!
? Hipoteza badawcza jest przypuszczaln? odpowiedzi? na pytanie
badawcze.
? Weryfikacja hipotezy badawczej (np. w badaniach jako?ciowych)
mo?e by? opisowa.
? Hipoteza badawcza zwykle ma posta? hipotezy alternatywnej
(zak?ada np. istnienie r¨®?nic mi?dzy grupami, niezerow? warto??
?redniej).
? Hipotez? badawcz? mo?na weryfikowa? za pomoc? co najmniej
jednej hipotezy statystycznej, weryfikuj?c hipotez? zerow? (a wi?c o
braku r¨®?nic mi?dzy grupami, zerowej warto?ci ?redniej itd.), i j?
odrzucaj?c, b?d? stwierdzaj?c brak podstaw do tego.
44
45. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Warunki stosowalno?ci test¨®w
? Stosowanie wi?kszo?ci test¨®w statystycznych wymaga spe?nienia
wielu za?o?e¨½, czasem nawet ma?o realistycznych w prawdziwych
badaniach. Naruszenie za?o?e¨½ skutkuje wynikami, kt¨®re wprowadzaj?
w b??d, a w skrajnym przypadku s? zupe?nie nieodpowiednie
? Typowe za?o?enia co do danych to:
¨C Normalno?? ¨C dane powinny mie? rozk?ad normalny lub zbli?ony do
normalnego (bez silnej asymetrii)
¨C Jednorodno?? wariancji w grupach ¨C r¨®wna wariancja we wszystkich
analizowanych grupach, dla wielu test¨®w istniej? warianty dla grup
niespe?niaj?cych tego za?o?enia, ale ich moc jest mniejsza
¨C Liniowo?? ¨C liniowe zale?no?ci mi?dzy zmiennymi
¨C Niezale?no?? ¨C obserwacje powinny by? niezale?ne od siebie (chyba ?e
testujemy dane zale?ne ¨C schemat!)
? Minimalna liczebno?? ka?dej grupy ¨C ok. 16-20 obserwacji, rzadko mniej
45
46. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
B??dy I-go i II-go rodzaju
Hipoteza zerowa
Prawdziwa
Brak podstaw do
odrzucenia H0
Odrzucono H0,
b??dnie
przyjmuj?c H1 ?
b??d I rodzaju
Fa?szywa
B??dnie uznano,
?e brak podstaw
do odrzucenia H0
? b??d II rodzaju
Odrzucono H0,
przyjmuj?c H1
46
47. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Typowa procedura weryfikacji hipotez stat.
? Sformu?owanie hipotezy zerowej i alternatywnej
? Wyb¨®r statystyki testowej
? Okre?lenie poziomu istotno?ci ¦Á
? Wyznaczenie obszaru krytycznego testu
? Obliczenie statystyki na podstawie pr¨®by
? Podj?cie decyzji weryfikacyjnej
47
48. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Typowa interpretacja wynik¨®w test¨®w
? Narz?dzia obliczeniowe i pakiety statystyczne podaj? poziom
prawdopodobie¨½stwa P-value (krytyczny poziom istotno?ci;
prawdopodobie¨½stwo testowe).
? Jest to najmniejszy poziom istotno?ci przy kt¨®rym dla
zaobserwowanej warto?ci statystyki testowej odrzuciliby?my
hipotez? zerow?.
? Hipotez? zerow? odrzucamy, gdy wyliczone prawdopodobie¨½stwo
testowe (?) oka?e si? nie wi?ksze od przyj?tego przez nas poziomu
istotno?ci (zwykle 0,05) ? ? ¡Ü ??????
? Pos?ugiwanie si? unormowan? wielko?ci?, w przeciwie¨½stwie do
r¨®?norodnych statystyk testowych (Z, F, t, itd.) pozwala bezpo?rednio
oceni? wynik weryfikacji hipotezy poprzez proste por¨®wnanie
warto?ci ? z poziomem istotno?ci, np. 0,05; 0,1 czy te? 0,001
48
49. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Testy jednostronne i dwustronne
? Test dwustronny:
? ?: ? = ?0
? ?: ? ¡Ù ?0
? Test lewostronny:
? ?: ? ¡Ý ?0
? ?: ? < ?0
? Test prawostronny:
? ?: ? ¡Ü ?0
? ?: ? > ?0
49
Obszarykrytyczne
51. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Schemat wyboru testu
Sytuacja
Cel testowania
Testy
Zwi?zek
mi?dzy
zmiennymi
Ten sam
poziom
pomiaru
R¨®?ne
poziomy
pomiaru
Por¨®wnania
mi?dzy-
grupowe
Grupy
niezale?ne
Grupy
zale?ne
51
52. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Schemat wyboru testu ¨C testowanie zwi?zku
Typ testu
Poziom pomiaru
Sytuacja
Cel testowania
Zwi?zek
mi?dzy
zmiennymi
Ten sam
poziom
pomiaru
nominalny
Chi-kwadrat
niezale?no?ci
porz?dkowy
Rho Spearmana,
Tau Kendalla
ilo?ciowy
r Pearsona
R¨®?ne
poziomy
pomiaru
nominalny x
porz?dkowy
Gdy ma?o grup:
chi-kwadrat,
por¨®wnania
mi?dzygrupowe
nominalny x
ilo?ciowy
Por¨®wnania
mi?dzygrupowe
porz?dkowy
x ilo?ciowy
Rho Spearmana,
Tau Kendalla
52
W wi?kszo?ci ? dzie¨½ 2 ? wsp¨®?zmienno??
53. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Por¨®wnania mi?dzygrupowe ¨C grupy niezale?ne
Typ testu
Rozk?ad
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
niezale?ne
2 grupy
Nomi-
nalny
Chi-
kwadrat
Porz?d-
kowy
U
Manna-
Whitneya
Ilo?cio-
wy
Odbiegaj?cy
od
normalnego
U
Manna-
Whitneya
Normalny
lub
zbli?ony
t dla pr¨®b
niezale?-
nych
3 lub
wi?cej
grup
Nomi-
nalny
Chi-
kwadrat,
Porz?d-
kowy
H
Kruskala
-Wallisa
Ilo?cio-
wy
Odbiegaj?cy
od
normalnego
H
Kruskala
-Wallisa
Normalny
lub
zbli?ony
F
ANOVA
53
54. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Por¨®wnania mi?dzygrupowe ¨C grupy zale?ne
Typ testu
Rozk?ad
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
zale?ne
2 grupy
Nomi-
nalny
Q
Cochrana
Porz?d-
kowy
Test
rango-
wanych
znak¨®w
Ilo?cio-
wy
Odbiegaj?cy
od
normalnego
Test
rango-
wanych
znak¨®w
Normalny
lub
zbli?ony
t dla pr¨®b
zale?-
nych
3 lub
wi?cej
grup
Nomi-
nalny
Q
Cochrana
Porz?d-
kowy
Test
Friedma-
na
Ilo?cio-
wy
Odbiegaj?cy
od
normalnego
Test
Friedma-
na
Normalny
lub
zbli?ony
Powta-
rzane
pomiary
ANOVA
54
55. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Por¨®wnanie
3+ grup
niezale?nych
55
56. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
?wiczenie 5
? Por¨®wnania 2 grup
¨C Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
¨C 2 grupy niezale?ne i 2 grupy zale?ne ¨C testy parametryczne i
nieparametryczne ? schemat!
? ?wiczenie samodzielne do wys?ania na maila:
¨C Plik danych j.w.
¨C Analiza por¨®wnania cz?sto?ci dokonywania zakup¨®w w r¨®?nych
format¨®w sklep¨®w (itemy P2) wzgl?dem p?ci (grupy niezale?ne)
¨C Analiza por¨®wnania cz?sto?ci dokonywania zakup¨®w w r¨®?nych
formatach sklep¨®w wzgl?dem siebie u tych samych os¨®b (grupy
zale?ne)
¨C Wybieramy po 4 dowolne itemy z P2
56
57. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Testy - ?wiczenia
? Plik http://marketing.umcs.Lublin.pl/rmacik/dane2_v3.sav
? Sprawdzamy losowo?? i normalno?? rozk?adu ? wyci?gamy wnioski
? Przygotowujemy roboczy arkusz ze zmiennymi wed?ug grup
? Zaczynamy od por¨®wna¨½ mi?dzygrupowych
¨C Por¨®wnajmy r¨®?nice w cz?sto?ci kupowania w r¨®?nych formatach
sklep¨®w wg p?ci respondenta (jakie testy?)
¨C J.w. ale wed?ug kategorii miejsca zamieszkania ¨C uwaga na liczebno??
grup! (jakie testy)
¨C Czy cz?sto?? kupowania w jednym formacie sklepu wi??e si? z
cz?sto?ci? kupowania w innym formacie (dla tych samych os¨®b) ¨C jakie
testy
¨C Czy mo?na por¨®wna? testami dla pr¨®b zale?nych cz?sto?? kupowania w
okre?lonym formacie sklep¨®w z jego lubieniem? (dlaczego tak/nie???)
57
58. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Test serii
? Test serii (test serii Walda-Wolfowitza) to nieparametryczny test
losowo?ci pr¨®by.
? Hipotez? zerow? i alternatywn? formu?ujemy w spos¨®b nast?puj?cy:
¨C H0: dob¨®r jednostek do pr¨®by jest losowy.
¨C H1: dob¨®r jednostek do pr¨®by nie jest losowy.
? Seria to ka?dy ci?g identycznych element¨®w w zbiorze
uporz?dkowanym wed?ug przyj?tego kryterium
¨C Np. ci?g danych wg p?ci ma 8 serii: M M ? ? M ? ? ? M M ? M ? ? ?.
¨C Dane ilo?ciowe nale?y zdychotomizowa? w oparciu o median?.
? Og¨®lna liczba serii w ci?gu n-elementowym jest zmienn? losow? K o
znanym i uj?tym w tablice rozk?adzie.
¨C Zliczon? w pr¨®bie liczb? serii ? por¨®wnujemy z warto?ciami krytycznymi testu.
¨C Je?eli i ? ¡Ü ?1 lub ? ¡Ý ?2, odrzucamy H0 na rzecz H1 ? pr¨®ba nie jest losowa
58
60. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
G?¨®wne cele stosowania metod
wielowymiarowych
? Redukcja liczby wymiar¨®w
¨C Dla 2-3 wymiar¨®w mo?liwa interpretacja graficzna
? Odkrycie ukrytych struktur
¨C Okre?lenie (nie)podobie¨½stwa zmiennych lub
obiekt¨®w
¨C Wskazanie naturalnych skupie¨½ obiekt¨®w
60
61. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rzetelno?? i trafno?? pomiaru
? Rzetelno?? -
powt¨®rzenie
pomiaru w tych
samych
warunkach daje
ten sam rezultat
? Trafno?? -
instrument mierzy
t? cech?, kt¨®r?
chcemy zmierzy?
? Wysoka rzetelno??
= ma?y b??d
przypadkowy
? Wysoka trafno?? =
ma?y b??d
systematyczny
61
Pomiar
ma?o
trafny
i ma?o
rzetelny
Pomiar
trafny
ale ma?o
rzetelny
Pomiar
ma?o
trafny
ale
rzetelny
Pomiar
trafny
rzetelny
62. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Praktyka ustalania trafno?ci i rzetelno?ci
? Ustalenie trafno?ci czynnikowej ? EFA
? Okre?lenie rzetelno?ci dla ka?dego czynnika ?
? Cronbacha lub CR
? Modyfikacje na podstawie analizy pozycji i
sugestii z EFA
? Potwierdzenie istnienia wymiar¨®w ?
Konfirmacyjna analiza czynnikowa (CFA)
62
64. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Analizy czynnikowe
? Jedna z metod redukcji wymiar¨®w ¨C celem analizy czynnikowej jest
zredukowanie du?ej liczby zmiennych do mniejszego zbioru, co
uzyskujemy przez za?o?enie, ?e pewne grupy zmiennych reprezentuj?
zmienno?? tych samych czynnik¨®w.
? G?¨®wne zastosowania to odnajdywanie ukrytych wymiar¨®w lub struktur
w zbiorze zmiennych.
? Dwa podej?cia:
¨C eksploracyjna analiza czynnikowa (EFA - Exploratory Factor Analysis) - czynniki
s? pocz?tkowo nieznane i zostaj? wyodr?bnione dzi?ki analizie posiadanych
danych, to podej?cie jest bardziej rozpowszechnione,
¨C konfirmacyjna analiza czynnikowa (CFA - Confirmatory Factor Analysis) -
zak?adamy istnienie pewnego okre?lonego zbioru czynnik¨®w i
przyporz?dkowania zmiennych do tych czynnik¨®w - badamy zasadno?? naszego
przypuszczenia poprzez modelowanie r¨®wna¨½ strukturalnych ? np. w AMOS
64
65. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Eksploracyjne analizy czynnikowe - procedura
? Sprawdzenie w?asno?ci macierzy korelacji
¨C miara KMO > 0,7;
¨C test sferyczno?ci Bartletta ¨C p<0,05 (odrzucamy H0 ?e macierz
wsp¨®?czynnik¨®w korelacji jest macierz? jednostkow?, co oznacza, ?e nie ma
istotnych korelacji mi?dzy zmiennymi; odrzucenie H0 jest potwierdzeniem, ?e
analiza przyniesie sensowny rezultat.
? Wyb¨®r metody wyodr?bniania czynnik¨®w ¨C typowo: PCA ¨C analiza
g?¨®wnych sk?adowych i rotacji czynnik¨®w ¨C zwykle Varimax (czynniki
ortogonalne) lub Oblimin (czynniki uko?ne)
? Kryteria wyboru liczby czynnik¨®w:
¨C Skumulowany procent wariancji ¨C czynniki maj? wyja?ni? > 60% wariancji
¨C Warto?? w?asna czynnika > 1 (Kryterium Kaisera) ¨C czynnik ma zast?pi? wi?cej
ni? jedn? zmienn? wej?ciow? (czasem po rotacji)
¨C Test osypiska (kryterium Cattella) ¨C wybra? tyle czynnik¨®w ile nie le?y w
osypisku
65
66. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Wykres osypiska
66
Osypisko si? wyp?aszcza
przy 3-4 czynnikach
Poniewa? warto?? w?asna
4 czynnika (bez rotacji)
jest bliska 1,
prawdopodobnie 4
czynniki s? lepszym
wyborem
67. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
EFA ¨C procedura (2)
? Dla wybranej liczby czynnik¨®w analizujemy macierz
rotowanych sk?adowych
? Zmienne z ?adunkami czynnikowymi >0,7 pasuj? dobrze
do danej sk?adowej, mi?dzy 0,58 a 0,7 s?abiej, ale je?li nie
ma ?adunk¨®w krzy?owych (podobnej warto?ci ?adunk¨®w
w r¨®?nych sk?adowych) mo?na je zaliczy? do danej
sk?adowej.
? Nazywamy wyodr?bnione sk?adowe ¨C trudno?? nazwania
¨C trudno?? interpretacji czynnika
67
68. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
EFA ¨C przyk?adowe wyniki
? Macierz danych - OK
? 2 czynniki, wyb¨®r na
podstawie testu
osypiska, wyja?niaj?
prawie 81% wariancji
? Przyporz?dkowanie
zmiennych do
sk?adowych
zaznaczono
68
Uwaga:
?adunek
krzy?owy,
jeszcze nie
przeszkadza
bardzo, ale
jest
70. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Obliczenie rzetelno?ci skali
? Spos¨®b:
¨C Dawniej: Test ¨C retest lub metoda po?¨®wkowa
¨C Dzisiaj: Poprzez zgodno?? wewn?trzn?: wsp¨®?czynnik ? Cronbacha
lub wz¨®r KR-20, lepiej te? u?y? wsp¨®?czynnika CR (Composite
Reliability ¨C tzw. rzetelno?? ??czna)
? Po??dana warto?? wsp¨®?czynnik¨®w ? i CR to:
0,7<?<0,95
? ?>0,95 sugeruje wsp¨®?liniowo?? pozycji skali ¨C pytamy
respondent¨®w ?w k¨®?ko¡± o to samo ¨C zazwyczaj niepotrzebnie
? Dla skali kr¨®tkiej - o 2-3 stwierdzeniach dopuszcza si? ?>0,6
? Wykonaj analiz? pozycji ¨C by? mo?e trzeba jeszcze co?
poprawi?, usun??, doda? ¨C to jest ju? podej?cie empiryczne!
71. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rzetelno?? i analiza pozycji - przyk?ad
71
Ch?tnie
zmieniam
marki, kt¨®re
kupuj?
73. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Analiza skupie¨½ - klasteryzacja
? Analiza skupie¨½ (cluster analysis) - jest to metoda
grupowania element¨®w we wzgl?dnie jednorodne klasy.
? Podstaw? grupowania w wi?kszo?ci algorytm¨®w jest
podobie¨½stwo/niepodobie¨½stwo pomi?dzy elementami ¨C
wyra?one przy pomocy funkcji (metryki) podobie¨½stwa ¨C
zwykle okre?lonej miary odleg?o?ci mi?dzy elementami
grupowanego zbioru
? Jest to metoda eksploracyjna, generalnie s?u??ca
klasyfikacji, odkrywaniu nieznanej struktury
analizowanych danych (kt¨®ra ?ukrywa¡± si? w wielu
wymiarach
73
74. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Typowe miary odleg?o?ci
? Euklidesowa ? ? = ?=1
?
?? ? ??
2
tutaj: ? ? = 5 ? 1 2 + 4 ? 1 2 = 16 + 9 = 5
? Kwadrat odleg?o?ci euklidesowej ? ?2 = ? ?
2
tu: ? ?2 = 52 = 25
? Miejska (Manhattan) ? ? = ?=1
?
?? ? ??
tu: ? ? = 4 + 3 = 7
? Czebyszewa ? ? = ??? ?? ? ??
tu: ? ? = 4
? U?ycie odleg?o?ci euklidesowej przy wielu wymiarach ?sp?aszcza¡±
r¨®?nice, jej kwadratu lub odleg?o?ci miejskiej ¨C uwypukla,
? dla odleg?o?ci Czebyszewa znaczenie ma tylko jeden wymiar z
najwi?ksz? r¨®?nic?, inne s? pomijane.
74
0
1
2
3
4
5
0 1 2 3 4 5 6
75. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Odleg?o?? euklidesowa a miejska
75
Ile wynosi odleg?o?? euklidesowa,
a ile miejska w tym przypadku?
76. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Algorytmy skupiania
? metody hierarchiczne ¨C algorytm tworzy dla zbioru obiekt¨®w hierarchi?
klasyfikacji, istniej? dwa rodzaje metod hierarchicznych:
¨C procedury aglomeracyjne (ang. agglomerative) ¨C tworz? macierz podobie¨½stw
klasyfikowanych obiekt¨®w, a nast?pnie w kolejnych krokach ??cz? w skupienia
obiekty najbardziej do siebie podobne,
¨C procedury deglomeracyjne (ang. divisive) ¨C odwrotnie, tj. zaczynaj? od skupienia
obejmuj?cego wszystkie obiekty, a nast?pnie w kolejnych krokach dziel? je na
mniejsze grupy.
? metoda k-?rednich (ang. k-means) - grupowanie polega na wst?pnym
podzieleniu populacji na z g¨®ry za?o?on? liczb? klas. Nast?pnie uzyskany
podzia? jest poprawiany przez iteracyjne przenoszenie niekt¨®rych element¨®w
do innych klas, tak, aby uzyska? minimaln? wariancj? wewn?trz skupie¨½.
? metody rozmytej analizy skupie¨½ (ang. fuzzy clustering), w?r¨®d kt¨®rych
najbardziej znan? jest metoda c-?rednich (c-means). Metody rozmytej analizy
skupie¨½ mog? przydziela? element do wi?cej ni? jednej kategorii z okre?lonym
prawdopodobie¨½stwem.
76
78. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Dendrogram: Podobie¨½stwo rynku pracy woj. lubelskiego do innychwojew¨®dztw
Wed?ug
wska?nik¨®w
charakteryzuj?cych
aktywno??
zawodow?, poziom
zatrudnienia i
bezrobocie (??cznie
13 zmiennych ¨C po
odrzuceniu
zmiennych wysoko
ze sob?
skorelowanych
?r¨®d?o: Opracowanie w?asne na podstawie danych Banku Danych Lokalnych, GUS.
78
79. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Dendrogram: Podobie¨½stwo rynku pracy woj. lubelskiego do innychwojew¨®dztw
Wed?ug udzia?¨®w
sektor¨®w
gospodarczych
w zatrudnieniu
(??cznie 5
zmiennych)
?r¨®d?o: Opracowanie w?asne na podstawie danych Banku Danych Lokalnych, GUS.
79
80. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Dendrogram: podobie¨½stwo format¨®w sklep¨®w
? Skupiane zmienne,
? Odleg?o?? euklidesowa
? Wi?zanie Warda
80
81. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Porady
? Jak dobra? zmienne?
¨C Unikamy bardzo wysokich dodatnich korelacji ¨C wsp¨®?liniowo??
jest niepo??dana
? Co je?li warto?ci zmiennych maj? r¨®?ne rz?dy wielko?ci?
¨C Standaryzujemy dane
? Ile wybra? skupie¨½?
¨C Szukamy rozwi?zania stabilnego ¨C kiedy przez d?u?szy czas ?nic
si? nie dzieje¡±
? Trudno?ci w interpretacji?
¨C Zmieniamy miar? odleg?o?ci i/lub algorytm skupiania ¨C wolno
nam, bo analiza skupie¨½ jest metod? eksploracyjn?
81
82. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Metoda k-?rednich (Quick Cluster)
? Grupowanie po wst?pnym podzieleniu populacji na z g¨®ry
za?o?on? liczb? klas iteracyjnie jest poprawiane tak, by
uzyska? minimaln? wariancj? wewn?trz klas.
? Podstawowy algorytm:
¨C losowy wyb¨®r ?rodk¨®w (centroid¨®w) klas (skupie¨½),
¨C przypisanie punkt¨®w do najbli?szych centroid¨®w,
¨C wyliczenie nowych ?rodk¨®w skupie¨½,
¨C powtarzanie algorytmu a? do osi?gni?cia kryterium zbie?no?ci (do
kroku, w kt¨®rym nie zmieni?a si? przynale?no?? punkt¨®w do klas).
? Nadaje si? do klasyfikacji nowych obiekt¨®w do istniej?cych klas
? Tabela ANOVA jako wska?nik efektywno?ci grupowania
82
83. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Rozrzut w 3 wymiarach
83
84. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Wyniki k-?rednich
84
85. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Segmentacja za pomoc? analizy skupie¨½
? Hierarchiczna analiza ¨C przegl?d dendrogramu ¨C
wyb¨®r orientacyjnej liczby skupie¨½
? Lub: powt¨®rzenie analizy za pomoc? k-?rednich
dla wybranej liczby skupie¨½ (przy dodawaniu nowych
obiekt¨®w do istniej?cych skupie¨½ tylko klasyfikacja po wczytaniu z
pliku centr¨®w skupie¨½)
? Profilowanie skupie¨½/segment¨®w [wykres
profilowy]
85
86. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarz?dzanie II st.
Profile segment¨®w
86
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
1
2
3
4
5