ANOVA dla grup niezależnych

Jednoczynnikowa analiza wariancji (ANOVA) dla grup niezależnych (ang. one-way analysis of variance) zaproponowana przez Ronalda Fishera, służy do weryfikacji hipotezy o równości średnich badanej zmiennej w kilku ($k\geq2$) populacjach.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \mu_1=\mu_2=...=\mu_k,\\
\mathcal{H}_1: & $nie wszystkie $\mu_j$ są sobie równe $(j=1,2,...,k)$$,
\end{array}

gdzie:

$\mu_1$,$\mu_2$,…,$\mu_k$ $-$ średnie badanej zmiennej w populacjach, z których pobrano próby.

Statystyka testowa ma postać:

\begin{displaymath}
F=\frac{MS_{BG}}{MS_{WG}},
\end{displaymath}

gdzie:

$\displaystyle MS_{BG} = \frac{SS_{BG}}{df_{BG}}$ - średnia kwadratów między grupami,

$\displaystyle MS_{WG} = \frac{SS_{WG}}{df_{WG}}$ - średnia kwadratów wewnątrz grup,

$\displaystyle SS_{BG} = \sum_{j=1}^k{\frac{\left(\sum_{i=1}^{n_j}x_{ij}\right)^2}{n_j}}-\frac{\left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}}\right)^2}{N}$ - suma kwadratów między grupami,

$\displaystyle SS_{WG} = SS_{T}-SS_{BG}$ - suma kwadratów wewnątrz grup,

$\displaystyle SS_{T} = \left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}^2}\right)-\frac{\left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}}\right)^2}{N}$ - całkowita suma kwadratów,

$df_{BG}=k-1$ - stopnie swobody (między grupami),

$df_{WG}=df_{T}-df_{BG}$ - stopnie swobody (wewnątrz grup),

$df_{T}=N-1$ - całkowite stopnie swobody,

$N=\sum_{j=1}^k n_j$,

$n_j$ - liczności prób dla $(j=1,2,...k)$,

$x_{ij}$ - wartości zmiennej w próbach dla $(i=1,2,...n_j)$, $(j=1,2,...k)$.

Statystyka ta podlega rozkładowi F Snedecora z $df_{BG}$ i $df_{WG}$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Wielkość efektu - cząstkowa $\eta^2$

Wielkość ta określa proporcję wariancji wyjaśnionej do wariancji całkowitej związanej z danym czynnikiem. Zatem w modelu jednoczynnikowej ANOVA dla grup niezależnych wskazuje jaka część wewnątrzosobowej zmienności wyników może być przypisana badanemu czynnikowi wyznaczającemu grupy niezależne.

\begin{displaymath}
\eta^2=\frac{SS_{BC}}{SS_{BC}+SS_{res}}
\end{displaymath}

Testy POST-HOC

Wprowadzenie do kontrastów i testów POST-HOC

Okno z ustawieniami opcji jednoczynnikowej ANOVA dla grup niezależnych wywołujemy poprzez menu StatystykaTesty parametryczneANOVA dla grup niezależnych lub poprzez Kreator.

Przykład (plik wiek ANOVA.pqs)

W pewnym doświadczeniu bierze udział 150 osób wybranych w sposób losowy z populacji pracowników 3 różnych firm przewozowych. Z każdej firmy do próby wybrano 50 osób. Przed przystąpieniem do eksperymentu należy sprawdzić czy średni wiek pracowników tych firm jest podobny, od tego bowiem zależeć będzie kolejny etap eksperymentu. Wiek każdego uczestnika eksperymentu zapisano w latach.

Wiek (przewoźnik 1): 27, 33, 25, 32, 34, 38, 31, 34, 20, 30, 30, 27, 34, 32, 33, 25, 40, 35, 29, 20, 18, 28, 26, 22, 24, 24, 25, 28, 32, 32, 33, 32, 34, 27, 34, 27, 35, 28, 35, 34, 28, 29, 38, 26, 36, 31, 25, 35, 41, 37

Wiek (przewoźnik 2): 38, 34, 33, 27, 36, 20, 37, 40, 27, 26, 40, 44, 36, 32, 26, 34, 27, 31, 36, 36, 25, 40, 27, 30, 36, 29, 32, 41, 49, 24, 36, 38, 18, 33, 30, 28, 27, 26, 42, 34, 24, 32, 36, 30, 37, 34, 33, 30, 44, 29

Wiek (przewoźnik 3): 34, 36, 31, 37, 45, 39, 36, 34, 39, 27, 35, 33, 36, 28, 38, 25, 29, 26, 45, 28, 27, 32, 33, 30, 39, 40, 36, 33, 28, 32, 36, 39, 32, 39, 37, 35, 44, 34, 21, 42, 40, 32, 30, 23, 32, 34, 27, 39, 37, 35

Rozważanie tego przykładu warto zacząć od analogicznego zadania, ale odwołującego się tylko do dwóch grup.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $średnia wieku dla pracowników wszystkich badanych firm przewozowych $\\
&$jest taka sama,$\\   
\mathcal{H}_1: & $przynajmniej 2 średnie są różne.$
\end{array}
$

Porównując wartość $p=0.005147$ jednoczynnikowej analizy wariancji z poziomem istotności $\alpha=0.05$ stwierdzamy, że średni wiek pracowników tych firm przewozowych jest różny. Na podstawie wyniku samej ANOVA nie możemy odpowiedzieć sobie na pytanie, które grupy różnią się pod względem wieku. By uzyskać taką wiedzę wykorzystany zostanie jeden z testów POST-HOC, np. test Tukeya. W tym celu {wznawiamy analizę} przyciskiem i w oknie opcji testu wybieramy Tukey HSD oraz dołączmy wykres.

Najmniejsza istotna różnica (NIR) wyznaczona dla każdej pary porównań jest taka sama (ponieważ liczności grup są sobie równe) i wynosi 2.730855. Porównanie wartości NIR z wartością różnicy średnich wskazuje, że istotne różnice występują tylko pomiędzy wartością średnią dla wieku pracowników pierwszej i trzeciej firmy przewozowej (tylko w przypadku porównania tych dwóch grup wartość NIR jest mniejsza od różnicy średnich). Ten sam wniosek wyciągniemy porównując wartości $p$ testu POST-HOC z poziomem istotności $\alpha=0.05$. Pracownicy pierwszej firmy są młodsi średnio o nieco ponad 3 lata od pracowników trzeciej firmy.

Uwaga!

Warunki stawiane jednoczynnikowej analizie wariancji są spełnione:

  • rozkład wieku w każdej z analizowanych firm przewozowych jest rozkładem normalnym (wartość $p$ testu Lillieforsa wynosi odpowiednio $p=0.134516$, $p=0.603209$, $p=0.607648$),
  • test Browna-Forsythea wskazuje na brak istotnych różnic w wariancjach wieku pracowników firm przewozowych ($p=0.430173$).

Narzędzia witryny