PQStat - Baza Wiedzy

ANOVA dla grup niezależnych

Jednoczynnikowa analiza wariancji (ANOVA) dla grup niezależnych (ang. one-way analysis of variance) zaproponowana przez Ronalda Fishera, służy do weryfikacji hipotezy o równości średnich badanej zmiennej w kilku ( $k\geq2$ ) populacjach.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu badanej zmiennej w każdej populacji,
model niezależny,
równość wariancji badanej zmiennej wszystkich populacji.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \mu_1=\mu_2=...=\mu_k,\\ \mathcal{H}_1: & $nie wszystkie $\mu_j$ są sobie równe $(j=1,2,...,k)$$, \end{array}$

gdzie:

$\mu_1$ , $\mu_2$ ,…, $\mu_k$ $-$ średnie badanej zmiennej w populacjach, z których pobrano próby.

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{MS_{BG}}{MS_{WG}}, \end{displaymath}$

gdzie:

$\displaystyle MS_{BG} = \frac{SS_{BG}}{df_{BG}}$ - średnia kwadratów między grupami,

$\displaystyle MS_{WG} = \frac{SS_{WG}}{df_{WG}}$ - średnia kwadratów wewnątrz grup,

$\displaystyle SS_{BG} = \sum_{j=1}^k{\frac{\left(\sum_{i=1}^{n_j}x_{ij}\right)^2}{n_j}}-\frac{\left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}}\right)^2}{N}$ - suma kwadratów między grupami,

$\displaystyle SS_{WG} = SS_{T}-SS_{BG}$ - suma kwadratów wewnątrz grup,

$\displaystyle SS_{T} = \left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}^2}\right)-\frac{\left(\sum_{j=1}^k{\sum_{i=1}^{n_j}x_{ij}}\right)^2}{N}$ - całkowita suma kwadratów,

$df_{BG}=k-1$ - stopnie swobody (między grupami),

$df_{WG}=df_{T}-df_{BG}$ - stopnie swobody (wewnątrz grup),

$df_{T}=N-1$ - całkowite stopnie swobody,

$N=\sum_{j=1}^k n_j$ ,

$n_j$ - liczności prób dla $(j=1,2,...k)$ ,

$x_{ij}$ - wartości zmiennej w próbach dla $(i=1,2,...n_j)$ , $(j=1,2,...k)$ .

Statystyka ta podlega rozkładowi F Snedecora z $df_{BG}$ i $df_{WG}$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Wielkość efektu - cząstkowa $\eta^2$

Wielkość ta określa proporcję wariancji wyjaśnionej do wariancji całkowitej związanej z danym czynnikiem. Zatem w modelu jednoczynnikowej ANOVA dla grup niezależnych wskazuje jaka część wewnątrzosobowej zmienności wyników może być przypisana badanemu czynnikowi wyznaczającemu grupy niezależne.

$\begin{displaymath} \eta^2=\frac{SS_{BG}}{SS_{BG}+SS_{res}} \end{displaymath}$

Testy POST-HOC

Wprowadzenie do kontrastów i testów POST-HOC

Okno z ustawieniami opcji jednoczynnikowej ANOVA dla grup niezależnych wywołujemy poprzez menu Statystyka→Testy parametryczne→ANOVA dla grup niezależnych lub poprzez Kreator.

Przykład (plik wiek ANOVA.pqs)

W pewnym doświadczeniu bierze udział 150 osób wybranych w sposób losowy z populacji pracowników 3 różnych firm przewozowych. Z każdej firmy do próby wybrano 50 osób. Przed przystąpieniem do eksperymentu należy sprawdzić czy średni wiek pracowników tych firm jest podobny, od tego bowiem zależeć będzie kolejny etap eksperymentu. Wiek każdego uczestnika eksperymentu zapisano w latach.

Wiek (przewoźnik 1): 27, 33, 25, 32, 34, 38, 31, 34, 20, 30, 30, 27, 34, 32, 33, 25, 40, 35, 29, 20, 18, 28, 26, 22, 24, 24, 25, 28, 32, 32, 33, 32, 34, 27, 34, 27, 35, 28, 35, 34, 28, 29, 38, 26, 36, 31, 25, 35, 41, 37

Wiek (przewoźnik 2): 38, 34, 33, 27, 36, 20, 37, 40, 27, 26, 40, 44, 36, 32, 26, 34, 27, 31, 36, 36, 25, 40, 27, 30, 36, 29, 32, 41, 49, 24, 36, 38, 18, 33, 30, 28, 27, 26, 42, 34, 24, 32, 36, 30, 37, 34, 33, 30, 44, 29

Wiek (przewoźnik 3): 34, 36, 31, 37, 45, 39, 36, 34, 39, 27, 35, 33, 36, 28, 38, 25, 29, 26, 45, 28, 27, 32, 33, 30, 39, 40, 36, 33, 28, 32, 36, 39, 32, 39, 37, 35, 44, 34, 21, 42, 40, 32, 30, 23, 32, 34, 27, 39, 37, 35

Przed przystąpieniem do analizy ANOVA potwierdzono normalność rozkładu danych.

W oknie analizy sprawdzono założenie równości wariancji, uzyskując w obydwu testach p>0.05.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $średnia wieku dla pracowników wszystkich badanych firm przewozowych $\\ &$jest taka sama,$\\ \mathcal{H}_1: & $przynajmniej 2 średnie są różne.$ \end{array}$

Porównując wartość $p=0.0051$ jednoczynnikowej analizy wariancji z poziomem istotności $\alpha=0.05$ stwierdzamy, że średni wiek pracowników tych firm przewozowych jest różny. Na podstawie wyniku samej ANOVA nie możemy odpowiedzieć sobie na pytanie, które grupy różnią się pod względem wieku. By uzyskać taką wiedzę wykorzystany zostanie jeden z testów POST-HOC, np. test Tukeya. W tym celu {wznawiamy analizę} przyciskiem i w oknie opcji testu wybieramy Tukey HSD oraz dołączmy wykres.

Najmniejsza istotna różnica (NIR) wyznaczona dla każdej pary porównań jest taka sama (ponieważ liczności grup są sobie równe) i wynosi 2.7309. Porównanie wartości NIR z wartością różnicy średnich wskazuje, że istotne różnice występują tylko pomiędzy wartością średnią dla wieku pracowników pierwszej i trzeciej firmy przewozowej (tylko w przypadku porównania tych dwóch grup wartość NIR jest mniejsza od różnicy średnich). Ten sam wniosek wyciągniemy porównując wartości $p$ testu POST-HOC z poziomem istotności $\alpha=0.05$ . Pracownicy pierwszej firmy są młodsi średnio o nieco ponad 3 lata od pracowników trzeciej firmy. Uzyskano dwie, zazębiające się grupy jednorodne, które zaznaczono również na wykresie.

Dokładny opis danych możemy przedstawić wybierając w oknie analizy statystyki opisowe

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

ANOVA dla grup niezależnych

Narzędzia strony