Test U Manna-Whitneya

Test U Manna-Whitneya (ang. Mann-Whitney U test) znany jest również jako test Wilcoxona Manna-Whitneya (ang. Wilcoxon Mann-Whitney test), Mann i Whitney (1947)1) oraz Wilcoxon (1949)2). Test ten służy do weryfikacji hipotezy o nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach (przy czym zakładamy, że rozkłady zmiennej są sobie bliskie).

Podstawowe warunki stosowania:

Hipotezy dotyczą równości średnich rang dla porównywanych populacji lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: & \theta_1=\theta_2,\\
\mathcal{H}_1: & \theta_1\neq\theta_2,
\end{array}

gdzie:

$\theta_1, \theta_2$ to mediany badanej zmiennej w pierwszej i drugiej populacji.

Wyznaczamy wartość statystyki testowej, a na jej podstawie wartość $p$, którą porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • Dla małej liczności próby

\begin{displaymath}
U=n_1n_2+\frac{n_1(n_1+1)}{2}-R_1,
\end{displaymath}

lub

\begin{displaymath}
U'=n_1n_2+\frac{n_2(n_2+1)}{2}-R_2,
\end{displaymath}

gdzie $n_1, n_2$ to liczności prób, $R_1, R_2$ to sumy rang dla prób.

Statystyka ta podlega rozkładowi Manna-Whitneya i nie zawiera poprawki na rangi wiązane. Wartość dokładnego prawdopodobieństwa z rozkładu Manna-Whitneya wyliczana jest z dokładnością do części setnej ułamka.

  • Dla próby o dużej liczności

\begin{displaymath}
Z=\frac{U-\frac{n_1n_2}{2}}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}},
\end{displaymath}

gdzie:

$U$ można zastąpić przez $U'$,

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}=0$)

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Manna-Whitneya (Marascuilo and McSweeney (1977)3))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy:

\begin{displaymath}
Z=\frac{\left|U-\frac{n_1n_2}{2}\right|-0.5}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}}.
\end{displaymath}

Okno z ustawieniami opcji testu U Manna-Whitneya wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane)Mann-Whitney lub poprzez ''Kreator''.

Przykład (plik komputer.pqs)

Wysunięto hipotezę, że na pewnej uczelni studenci matematyki spędzają statystycznie więcej czasu przed komputerem niż studentki matematyki. W celu weryfikacji tego przypuszczenia z populacji osób studiujących matematykę na tej uczelni wylosowano próbę liczącą 54 osoby (25 kobiet i 29 mężczyzn). Osoby te zapytano o to jak dużo czasu dziennie spędzają przy komputerze (czas w godzinach) i otrzymano następujące wyniki:

(czas, płeć): (2, k) (2, m) (2, m) (3, k) (3, k) (3, k) (3, k) (3, m) (3, m) (4, k) (4, k) (4, k) (4, k) (4, m) (4, m) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, m) (5, m) (5, m) (5, m) (6, k) (6, k) (6, k) (6, k) (6, k) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (7, k) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (8, k) (8, m) (8, m).}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $mediana czasu spędzanego przed komputerem jest taka sama $\\
& $w populacji studentek i studentów badanej uczelni, $\\
\mathcal{H}_1: & $mediana czasu spędzanego przed komputerem jest inna$\\
& $dla populacji studentek i dla studentów badanej uczelni.$
\end{array}
$

Na podstawie przyjętego poziomu $\alpha=0.05$ i statystyki $Z$ testu Manna-Whitneya bez poprawki na ciągłość ($p$=0.015441) jak i z tą poprawką $p=0.015821$, jak też na podstawie dokładnej statystyki $U$ ($p$=0.014948) możemy przyjąć, że istnieją ważne statystycznie różnice pomiędzy studentkami a studentami matematyki w ilości czasu spędzanego przed komputerem. Różnice te polegają na tym, że studentki spędzają mniej czasu przed komputerem niż studenci (średnia rang dla kobiet wynosi 22.02 (mediana 5) i jest znacznie niższa niż średnia rang dla mężczyzn, która wynosi 32.22 (mediana 6)).

1)
Mann H. and Whitney D. (1947), On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 1 8 , 5 0 4
2)
Wilcoxon F. (1949), Some rapid approximate statistical procedures. Stamford, CT: Stamford Research Laboratories, American Cyanamid Corporation
3)
Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks/Cole Publishing Company

Narzędzia witryny