2. ANOVA – po co nam to?
• Czasami chcemy porównać więcej niż jedna grupę, np.
siedem grup poddanych różnemu leczeniu. Co możemy
zrobić?
• Pierwsza myśl, zrobić test t i porównać wszystkie 21
możliwych par
• Dlaczego nie? Zauważmy, że gdy obierzemy tę strategię, to
błędy I rodzaju dla wszystkich analiz sumują nam się, a
prawdopodobieństwo odrzucenia prawdziwej hipotezy
zerowej rośnie do ok. 0,66
– ������ = 1 − (0,95)21
• I jeszcze jedno nawet jeśli wykonamy wszystkie 21
porównań to i tak nie mamy obrazu całości, mamy jego 21
części
3. ANOVA – wprowadzenie
• Jednoczynnikowa ANOVA pozwala na
porównywanie dwóch lub więcej grup
jednocześnie.
• Jest blisko spokrewniona z testem t. W
przypadku porównania dwóch grup obie
techniki dają tożsame oszacowania. Test t
można więc potraktować jako specyficzny
przykład ANOVY
4. ANOVA – wprowadzenie
• Pomimo tego, że mówimy o analizie wariancji
technika ta posłuży nam do testowania różnic
pomiędzy średnimi
• Stąd H0 : ������������ = ������������ = ������������ = ⋯ = ������������
– Gdzie k oznacza liczbę warunków
eksperymentalnych/grup
– Oczywiście hipoteza alternatywna zakłada, że mamy
przynajmniej jedną różnicę, niezależnie pomiędzy,
który dwie średnimi
– Może ona być jedna, a może być ich kilka
– Nie ma sensu mówić o hipotezie kierunkowej jeśli k>2
5. ANOVA – wprowadzenie
• Całkowite zróżnicowanie między wszystkimi
wynikami podzielić możemy na:
– Zróżnicowanie wewnątrzgrupowe (inherentne) – jest
ono niezależne od warunku eksperymentalnego,
wynika np. z losowej zmienności próby – inaczej
nazywane błędem
– Zróżnicowanie międzygrupowe – zróżnicowanie
średnich dla różnych warunków eksperymentalnych
będące efektem zróżnicowania inherentnego oraz
manipulacji eksperymentalnej
6. ANOVA – wprowadzenie
• Logika ANOVA
– W skrócie ANOVA polega na dokonaniu dwóch
niezależnych oszacowań wariancji populacyjnej
oraz porównaniu ich ze sobą
– Pierwsze oszacowanie (wewnątrzgrupowe)
oszacowanie tzw. wariancji błędu dokonywane jest
na podstawie oszacowań wariancji w
poszczególnych grupach oraz wyciągnięciu z nich
������ 2
średniej
������
– Drugie (międzygrupowe)
7. ANOVA – podział sum kwadratów
• Każdy pojedynczy wynik jak otrzymaliśmy
możemy zapisać jako:
– X=średnia generalna + efekt oddziaływań +
zróżnicowanie inherentne
– Gdzie: średnia generalna to średnia ze wszystkich
wyników, oznaczać ją będziemy: ������
– Czyli: ������ = ������ + ������ − ������ + ������ − ������
• ������ oznacza średnią z grupy, z której pochodzi dany X
8. ANOVA – podział sum kwadratów
• Idąc dalej każdy wynik możemy zapisać jako jego
odchylenie od średniej generalnej:
������ − ������ = ������ − ������ + ������ − ������
• To daje nam już możliwość obliczenia sumy kwadratów
odchyleń od średniej generalnej oraz dla zróżnicowania
wew. i międzygrupowego
– ������������������������ł. = ������������������������������������������������������ (������ − ������)2
– ������������������������������. = ������������������������������������������������������ (������ − ������)2
������
– ������������ ������������������������������. = ������������ (������������ − ������)2
• Gdzie k – liczba grup, ������������ - liczba wyników i-tej grupie, a ������������ - średnia
i-tej grupy
12. ANOVA – stosunek F
• Hipoteza zerowa jest utrzymywana jeśli
stosunek tych dwóch wariancji jest równy (w
granicach błędu losowego)
2
������������������������������������. ������������������.������������ℎ������������������������������������������+������������������������������
• ������ = 2 =
������������������������. ������������������.������������ℎ������������������������������������������
• Jeśli hipoteza zerowa jest prawdziwa to F=1
• Jeśli nie, to stosunek F powinien być większy
– Skąd wiadomo o ile większy? Odnosimy to do
rozkładu F (tak jak wcześniej do rozkładu t)
13. Rozkład F dla różnych df
• Tablica:
http://pl.wikisource.org/wiki/Tablica_rozk%C5
%82adu_F_Snedecora
Wikipedia
14. Rozkład F dla różnych df
• Rozkład jest zawsze prawoskośny, stąd cały
obszar odrzucenia znajduje się po jednej
stronie rozkładu
• Wartość F nie może być mniejsza od zera
(oszacowania wariancji nie mogą być bowiem
mniejsze nić zero, w końcu są kwadratami SS)
• Jeśli F<1 to zapewne mamy do czynienia z
jakimś błędem próby
15. Założenia ANOVA
• Rozkład normalny w populacjach
• Homogeniczność wariancji
• Dobór do każdej z prób jest niezależny
• Próby wybierane losowo zgodnie ze
schematem losowania zwrotnego.
16. ANOVA – wielkość efektu
• Miara ta należy do rodziny r (nazywamy ją eta
kwadrat):
������������������������������������������.
– η2 =
������������������������ł.
17. Co dalej?
• ANOVA odpowiada nam na pytanie, czy gdzieś
jest różnica, pytanie co różni się od czego?
• Mamy do wyboru dwie opcje dalszej analizy
– Porównania post hoc – nie wymagają one
wcześniejszych założeń
– Porównania zaplanowane
18. Porównania post hov
• Aby użyć, któregoś z testów pozwalającego
dokonać porównań post hoc, musimy najpierw
otrzymać istotny stosunek F
• Jednym z takich testów jest test HSD Tukeya
• W przypadków tych testów, nie narażamy się na
sumowanie się błędów I rodzaju, dlaczego?
– Ponieważ nie używamy tutaj rozkładu, średnie istotne
stat. to po prostu takie średnie, które będą się różnić o
daną wartość
– Różnice te jednak muszą być większe niż te wymagane
przez test t, aby nie narażać nas na błąd I rodzaju
19. Porównania zaplanowane
• Planujemy wcześniej co będziemy
porównywać, nie zawsze interesują nas
wszystkie porównania
• Nie jest wymagana istotność F
• Aby je wykonać stosujemy test t dla prób
niezależnych, jednak jako błąd przyjmujemy
2
wartość ������������������������. co daje nam dokładniejsze
oszacowanie, a nie obliczamy go tylko na
podstawie porównywanych grup