ANOVA Kruskala-Wallisa

Jednoczynnikowa analiza wariancji dla rang Kruskala-Walisa, czyli ANOVA Kruskala-Wallisa (ang. Kruskal-Wallis one-way analysis of variance by ranks) opisana przez Kruskala (1952)1) oraz Kruskala i Wallisa (1952)2) jest rozszerzeniem testu U-Manna-Whitneya na więcej niż dwie populacje. Test ten służy do weryfikacji hipotezy o braku przesunięcia porównywanych rozkładów tzn. najczęsciej nieistotności różnic pomiędzy medianami badanej zmiennej w kilku ($k\geq2$) populacjach (przy czym zakładamy, że rozkłady zmiennej są sobie bliskie - porównanie wariancji rang można sprawdzić testem dla rang Conovera).

Dodatkowe analizy:

Podstawowe warunki stosowania:

Hipotezy dotyczą równości średnich rang dla kolejnych populacji lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: & \phi_1=\phi_2=...=\phi_k,\\
\mathcal{H}_1: & $nie wszystkie $\phi_j$ są sobie równe $(j=1,2,...,k)$$,
\end{array}

gdzie:

$\phi_1,\phi_2,...\phi_k$ to rozkłady badanej zmiennej w populacjach, z których pobrano próby.

Statystyka testowa ma postać:

\begin{displaymath}
H=\frac{1}{C}\left(\frac{12}{N(N+1)}\sum_{j=1}^k\left(\frac{\left(\sum_{i=1}^{n_j}R_{ij}\right)^2}{n_j}\right)-3(N+1)\right),
\end{displaymath}

gdzie:

$N=\sum_{j=1}^k n_j$,

$n_j$ - liczności prób dla $(j=1,2,...k)$,

$R_{ij}$ - rangi przypisane do wartości zmiennej, dla $(i=1,2,...n_j)$, $(j=1,2,...k)$,

$\displaystyle C=1-\frac{\sum(t^3-t)}{N^3-N}$ - korekta na rangi wiązane,

$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $H$ zawiera poprawkę na rangi wiązane $C$. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $C=1$).

Statystyka $H$ ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df = (k - 1)$.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Testy POST-HOC

Wprowadzenie do kontrastów i testów POST-HOC przeprowadzone zostało w rozdziale dotyczącym jednoczynnikowej analizy wariancji.

Test Dunna

Dla porównań prostych, zarówno równolicznych jak i różnolicznych grup.

Test Dunna (Dunn 19643)) zawiera poprawkę na rangi wiązane (Zar 20104)) i jest testem korygowanym ze względu na wielokrotne testowanie. Najczęściej wykorzystuje się tu korektę Bonferroniego lub Sidaka, chociaż dostępne są również inne, nowsze korekty opisane szerzej w dziale Wielokrotne porównania.

Przykład - porównania proste (porównanie pomiędzy sobą 2 wybranych median / średnich rang):

\begin{array}{cc}
\mathcal{H}_0: & \theta_j=\theta_{j+1},\\
\mathcal{H}_1: & \theta_j \neq \theta_{j+1}.
\end{array}

\begin{displaymath}
NIR=Z_{\alpha(corrected)}\sqrt{\left(\frac{N(N+1)}{12}-\frac{\sum(t^3-t)}{12(N-1)}\right)\sum_{j=1}^k \frac{c_j^2}{n_j}},
\end{displaymath}

gdzie:

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej

$\displaystyle Z_{\alpha(corrected)}$ - to wartość krytyczna (statystyka) rozkładu normalnego dla poziomu istotności $\alpha$ skorygowanego o liczbę możliwych porównań prostych $c$ zgodnie z wybraną poprawką.

\begin{displaymath}
Z=\frac{\sum_{j=1}^k c_j\overline{R}_j}{\sqrt{\left(\frac{N(N+1)}{12}-\frac{\sum(t^3-t)}{12(N-1)}\right)\sum_{j=1}^k \frac{c_j^2}{n_j}}},
\end{displaymath}

gdzie:

$\overline{R}_j$ - średnia rang $j$-tej grupy, dla $(j=1,2,...k)$,

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, ponieważ $\sum(t^3-t)=0$).

Statystyka ta ma asymptotycznie (dla dużych liczności próby) rozkład normalny, a wartość p jest korygowana o liczbę możliwych porównań prostych $c$ zgodnie z wybraną poprawką.

Test Conover-Iman

Nieparametryczny odpowiednik LSD Fishera5), stosowany dla porównań prostych zarówno równolicznych jak i różnolicznych grup.

\begin{displaymath}
NIR=\sqrt{F_{\alpha,1,N-k}}\cdot\sqrt{S^2\frac{N-1-H}{N-k}\sum_{j=1}^k \frac{c_j^2}{n_j}},
\end{displaymath}

gdzie:

$\displaystyle S^2=\frac{1}{N-1}\left(\sum_{j=1}^k\sum_{i=1}^{n_j}R_{ij}^2-N\frac{(N+1)^2}{4}\right)$

$\displaystyle F_{\alpha,1,N-k}$ to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz dla stopni swobody odpowiednio: 1 i $N-k$.

\begin{displaymath}
t=\frac{\sum_{j=1}^k c_j\overline{R}_j}{\sqrt{S^2\frac{N-1-H}{N-k}\sum_{j=1}^k \frac{c_j^2}{n_j}}},
\end{displaymath}

gdzie:

$\overline{R}_j$ - średnia rang $j$-tej grupy, dla $(j=1,2,...k)$,

Statystyka ta podlega rozkładowi t-Studenta z $N-k$ stopniami swobody.

Okno z ustawieniami opcji ANOVA Kruskala-Wallisa wywołujemy poprzez menu StatystykaTesty nieparametryczneANOVA Kruskala-Wallisa lub poprzez Kreator.

Przykład (satysfakcjaZpracy.pqs)

Przepytano grupę 120 osób, dla których wykonywane zajęcie jest ich pierwszą pracą uzyskaną po otrzymaniu odpowiedniego wykształcenia. Ankietowani oceniali satysfakcję z wykonywanej pracy w pięciostopniowej skali, gdzie:

1- praca niesatysfakcjonująca,

2- praca dająca niewielką satysfakcję,

3- praca dająca przeciętny poziom satysfakcji,

4- praca dająca dość dużą satysfakcję ,

5- praca bardzo satysfakcjonująca.

Sprawdzimy czy poziom deklarowanej satysfakcji z pracy nie zmienia się dla poszczególnych kategorii wykształcenia.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $poziom satysfakcji z pracy jest taki sam dla każdej kategorii wykształcenia,$\\
\mathcal{H}_1: & $przynajmniej jedna kategoria wykształcenia (jedna populacja) charakteryzuje się  $ \\
&$innym poziomem satysfakcji z pracy.$
\end{array}
$

Uzyskana wartość $p=0.001034$ świadczy o istotnej różnicy poziomu satysfakcji pomiędzy porównywanymi kategoriami wykształcenia. Przeprowadzona analiza POST-HOC Dunna z korektą Bonferroniego wskazuje, że istotne różnice dotyczą osób z wykształceniem podstawowym i średnim oraz z wykształceniem podstawowym i wyższym. Nieco więcej różnic możemy potwierdzić wybierająć silniejszy POST-HOC Conover-Iman.

Na wykresie przedstawiającym mediany i kwartyle możemy zobaczyć grupy jednorodne wyznaczone przez test POST-HOC. Jeśli zdecydujemy się na przedstawienie wyników Dunna z korektą Bonferroniego zobaczymy dwie grupy jednorodne, które nie są zupełnie odrębne, tzn. grupę (a) - osoby słabiej oceniające satysfakcję z pracy i grupę (b)- osoby lepiej oceniające tę satysfakcję. Wykształcenie zawodowe przynależy do obydwu tych grup, co oznacza, że osoby z tym wykształceniem oceniają satysfakcję z pracy dość różnorodnie. Ten sam opis grup jednorodnych możemy znaleźć w wynikach testów POST-HOC.

Dokładny opis danych możemy przedstawić wybierając w oknie analizy statystyki opisowe i wskazując na dodanie do opisu liczności i procentów.

Rozkład odpowiedzi możemy też przedstawić na wykresie liczności.

1)
Kruskal W.H. (1952), A nonparametric test for the several sample problem. Annals of Mathematical Statistics, 23, 525-540
2)
Kruskal W.H., Wallis W.A. (1952), Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association, 47, 583-621
3)
Dunn O. J. (1964), Multiple comparisons using rank sums. Technometrics, 6: 241–252
4)
Zar J. H., (2010), Biostatistical Analysis (Fifth Editon). Pearson Educational
5)
Conover W. J. (1999), Practical nonparametric statistics (3rd ed). John Wiley and Sons, New York