pl:statpqpl:porown1grpl:nparpl

Testy nieparametryczne

Test Wilcoxona (rangowanych znaków)

Test Wilcoxona rangowanych znaków (ang. Wilcoxon signed-ranks test) znany również pod nazwą testu Wilcoxona dla pojedynczej próby, Wilcoxon (1945, 1949)¹⁾. Test ten służy do weryfikacji hipotezy, że badana próba pochodzi z populacji, dla której mediana ( $\theta$ ) to znana wartość.

Podstawowe warunki stosowania:

pomiar na skali porządkowej lub interwałowej.

Hipotezy dotyczą równości sumy rang dodatnich i ujemnych lub są upraszczane do median:

$\begin{array}{cl} \mathcal{H}_0: & \theta=\theta_0,\\ \mathcal{H}_1: & \theta\neq \theta_0. \end{array}$

gdzie:

$\theta$ - mediana badanej cechy w populacji reprezentowanej przez badaną próbę,

$\theta_0$ - zadana wartość.

Wyznaczamy wartość statystyki testowej $Z$ ( $T$ - dla małej liczności próby), a na jej podstawie wartość $p$ .

Porównujemy wartość $p$ z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \end{array}$

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

dla małej liczności próby
$\begin{displaymath} T=\min\left(\sum R_-,\sum R_+\right), \end{displaymath}$

gdzie: $\sum R_+$ i $\sum R_-$ to odpowiednio: suma rang dodatnich i suma rang ujemnych.

Statystyka ta podlega rozkładowi Wilcoxona

dla próby o dużej liczności
$\begin{displaymath} Z=\frac{T-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}}, \end{displaymath}$

gdzie: $n$ - liczba rangowanych znaków (liczba rang),
$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\left(\sum t^3-\sum t\right)/48=0$ .

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Wilcoxona (Marascuilo and McSweeney (1977)²⁾)

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy wzorem:
$\begin{displaymath} Z=\frac{\left|T-\frac{n(n+1)}{4}\right|-0.5}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}}. \end{displaymath}$

Standaryzowana wielkość efektu

Rozkład statystyki testu Wilcoxona jest aproksymowany przez rozkłady normalny, który można przekształcić na wielkość efektu $r=\left|Z/n\right|$ ³⁾ by następnie uzyskać wartość d-Cohena zgodnie ze standardową konwersją stosowaną przy meta-analizach:

$\begin{displaymath} d=\frac{2r}{\sqrt{1-r^2}} \end{displaymath}$

Przy interpretacji efektu badacze często posługują się ogólnymi, określonymi przez Cohena ⁴⁾ wskazówkami definiującymi małą (0.2), średnią (0.5) i dużą (0.8) wielkość efektu.

Okno z ustawieniami opcji testu Wilcoxona (rangowanych znaków) wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Wilcoxon (rangowanych znaków) lub poprzez ''Kreator''.

Przykład (plik kurier.pqs) c.d

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $mediana liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\ &$kurierską wynosi 3$\\ \mathcal{H}_1: & $mediana liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\ &$kurierską jest różna od 3$ \end{array}$

Porównując wartość $p= 0.123212$ testu Wilcoxona opartego o statystykę $T$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że nie mamy podstaw by odrzucić hipotezę zerową mówiącą, że zwykle liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę kurierską wynosi 3. Taką samą decyzję podjęlibyśmy również na podstawie wartości $p=0.111161$ lub $p=0.115817$ testu Wilcoxona opartego o statystykę $Z$ lub $Z$ z poprawką na ciągłość.

2014/08/22 20:00

Test chi-kwadrat zgodności

Test $\chi^2$ zgodności (dobroci dopasowania) (ang. Chi-square goodnes-of-fit test) nazywany jest również testem $\chi^2$ dla pojedynczej próby, przeznaczony jest do testowania zgodności wartości obserwowanych dla $r$ ( $r>=2$ ) kategorii $X_1, X_2,..., X_r$ jednej cechy $X$ z hipotetycznymi wartościami oczekiwanymi dla tej cechy. Wartości wszystkich $n$ pomiarów należy zebrać w postaci tabeli składającej się z $r$ wierszy (kategorii: $X_1, X_2, ..., X_r$ ). Dla każdej kategorii $X_i$ zapisuje się częstość jej występowania $O_i$ , oraz częstość dla niej oczekiwaną $E_i$ lub prawdopodobieństwo jej wystąpienia $p_i$ . Częstość oczekiwana jest wyznaczana jako iloczyn $E_i=np_i$ .
Utworzona tabela może przyjąć jedną z poniższych postaci:

$\begin{tabular}[t]{c@{\hspace{1cm}}c} \begin{tabular}{c|c c} Kategorie $X_i$ & $O_i$ & $E_i$ \\\hline $X_1$ & $O_1$ & $E_i$ \\ $X_2$ & $O_2$ & $E_2$ \\ ... & ... & ...\\ $X_r$ & $O_r$ & $E_r$ \\ \end{tabular} & \begin{tabular}{c|c c} Kategorie $X_i$ & $O_i$ & $p_i$ \\\hline $X_1$ & $O_1$ & $p_1$ \\ $X_2$ & $O_2$ & $p_2$ \\ ... & ... & ...\\ $X_r$ & $O_r$ & $p_r$ \\ \end{tabular} \end{tabular}$

Podstawowe warunki stosowania:

pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę,
duże liczności oczekiwane według interpretacji Cochrana (1952)⁵⁾,
suma liczności obserwowanych powinna być taka sama jak suma liczności oczekiwanych, a suma wszystkich prawdopodobieństw $p_i$ powinna wynosić 1.

Hipotezy:

$\mathcal{H}_0 : O_i=E_i$ dla wszystkich kategorii,
$\mathcal{H}_1 : O_i \neq E_i$ dla przynajmniej jednej kategorii.

Statystyka testowa ma postać: $\begin{displaymath} \chi^2=\sum_{i=1}^r\frac{(O_i-E_i)^2}{E_i}. \end{displaymath}$ Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)$ .
Wyznaczoną na podstawie wartości statystyki i rozkładu $\chi^2$ wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Okno z ustawieniami opcji testu Chi-kwadrat zgodności wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Chi-kwadrat lub poprzez ''Kreator''.

Przykład (plik obiady.pqs)

Chcielibyśmy się dowiedzieć, czy liczba wydawanych obiadów w kolejnych dniach tygodnia (od poniedziałku do piątku) w pewnej szkolnej stołówce jest statystycznie taka sama. W tym celu pobrano tygodniową próbę i zapisano dla niej liczbę wydanych obiadów w poszczególnych dniach: poniedziałek - 33, wtorek - 29, środa - 32, czwartek - 36, piątek - 20.}

Łącznie przez cały tydzień (5 dni) wydano 150 obiadów. Zakładamy, że w każdy dzień prawdopodobieństwo wydania obiadu jest takie samo, czyli wynosi $\frac{1}{5}$ . Oczekiwana liczba wydanych obiadów dla każdego z pięciu dni tygodnia wynosi więc $E_i=150\cdot\frac{1}{5}=30$ .

Postawiono hipotezy:

$\begin{array}{p{0.15\linewidth} p{0.8\linewidth}} $\mathcal{H}_0:$ & liczba wydawanych obiadów w badanej stołówce szkolnej w kolejnych dniach tygodnia jest zgodna z oczekiwaną liczbą wydawanych obiadów w tych dniach\\ $\mathcal{H}_1:$ & liczba wydawanych obiadów w badanej stołówce szkolnej w kolejnych dniach tygodnia nie jest zgodna z oczekiwaną liczbą wydawanych obiadów w tych dniach\\ \end{array}$

Wartość $p$ z rozkładu $\chi^2$ dla 4 stopni swobody wynosi 0.287297. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że nie mamy podstaw, aby odrzucić hipotezę zerową mówiącą o zgodności liczby wydawanych obiadów z oczekiwaną liczbą wydawanych obiadów w poszczególnych dniach.

Uwaga!

Gdybyśmy chcieli w ramach jednego badania dokonać większej liczby porównań, moglibyśmy zastosować poprawkę Bonferroniego ⁶⁾ lub inną z poprawek opisanych w dziale Wielokrotne porównania. Ta poprawka jest używana by ograniczyć wielkość popełnionego błędu pierwszego rodzaju, gdy porównujemy wartości obserwowane i oczekiwane pomiędzy wybranymi dniami np:

Pt $\Longleftrightarrow$ Pn,

Pt $\Longleftrightarrow$ Wt,

Pt $\Longleftrightarrow$ Śr,

Pt $\Longleftrightarrow$ Czw,

przy założeniu, że porównania wykonujemy niezależnie. Poziom istotności $\alpha$ dla każdego porównania wyznaczamy zgodnie z tą poprawką według wzoru: $\alpha=\frac{0.05}{r}$ , gdzie $r$ to liczba wykonywanych porównań. Poziom istotności dla pojedynczego porównania zgodnie z poprawką Bonferroniego wynosi dla naszego przykładu $\alpha=\frac{0.05}{4}=0.0125$ .

Należy jednak pamiętać, że redukując $\alpha$ dla każdego porównania zmniejszamy również moc testu.

2014/08/22 20:00

Testy dla jednej proporcji

Testy dla jednej proporcji stosujemy, gdy mamy do uzyskania dwa możliwe wyniki (jeden z nich to wynik wyróżniony o liczności $m$ ) i wiemy, jak często te wyniki pojawiają się w próbie (znamy proporcję $p$ ). W zależności od wielkości próby $n$ mamy do wyboru test $Z$ dla jednej proporcji $-$ dla dużych prób oraz test dokładny dwumianowy $-$ dla prób o małej liczności. Testy te służą do weryfikacji hipotezy, że proporcja w populacji z której pochodzi próba to zadana wartość.

Podstawowe warunki stosowania:

pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Dodatkowy warunek dla testu $Z$ dla jednej proporcji:

duża liczność (według interpretacji Marascuilo i McSweeney (1977)⁷⁾ każda z wartości $np>5$ i $n(1-p)>5$ ).

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & p=p_0,\\ \mathcal{H}_1: & p\neq p_0, \end{array}$

gdzie:

$p$ $-$ prawdopodobieństwo (wyróżniona proporcja) w populacji,

$p_0$ $-$ prawdopodobieństwo oczekiwane (proporcja oczekiwana).

Test $Z$ dla jednej proporcji

Test $Z$ dla jednej proporcji (ang. Z test for one proportion).

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}, \end{displaymath}$ gdzie:

$p=\frac{m}{n}$ proporcja dla próby z tej populacji,

$m$ -liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{|p-p_0|-\frac{1}{2n}}{\sqrt{\frac{p_0(1-p_0)}{n}}}. \end{displaymath}$

Statystyka $Z$ bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Test dwumianowy

Test dwumianowy (ang. Binominal test for one proportion) wykorzystuje w sposób bezpośredni rozkład dwumianowy zwany również rozkładem Bernoulliego, który należy do grupy rozkładów dyskretnych (czyli takich, w których badana zmienna przyjmuje skończoną liczbę wartości). Analizowana zmienna może przyjmować $k=2$ wartości, pierwszą oznaczaną zwykle mianem sukcesu a drugą porażki. Prawdopodobieństwo wystąpienia sukcesu to $p_0$ , a porażki $1-p_0$ .

Prawdopodobieństwo dla konkretnego punktu w tym rozkładzie wyliczane jest ze wzoru:

$\begin{displaymath} P(m)={n \choose m}p_0^m(1-p_0)^{n-m}, \end{displaymath}$ gdzie:

${n \choose m}=\frac{n!}{m!(n-m)!}$ ,

$m$ - liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Na podstawie sumy odpowiednich prawdopodobieństw $P$ wyznacza się wartość $p$ jednostronną i dwustronną, przy czym dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw. Wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Uwaga!

Dla estymatora z próby jakim jest w tym przypadku wartość proporcji $p$ wyznacza się przedział ufności. Dla prób o dużej liczności można bazować na przedziałach opartych o rozkład normalny - tzw. przedziały Walda. Bardziej uniwersalne są natomiast przedziały zaproponowane przez Wilsona (1927)⁸⁾ a także Agresti i Coull (1998)⁹⁾. Przedziały Cloppera i Pearsona (1934)¹⁰⁾ są dokładniejsze dla prób o mniejszej liczności.

Porównanie metod budowania przedziałów dla proporcji można znaleźć w pracy Brown L.D i innych (2001)¹¹⁾.

Okno z ustawieniami opcji testu Z dla jednej proporcji wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Z dla proporcji.

Przykład c.d. (plik obiady.pqs)

Załóżmy, że chcielibyśmy sprawdzić, czy w piątek wydawana jest $\frac{1}{5}$ spośród wszystkich obiadów wydawanych w szkolnej stołówce w ciągu tygodnia. Dla pobranej próby $m=20$ , $n=150$ .

Przy ustawianiu opcji analizy włączamy filtr wybierając odpowiedni dzień tygodnia - czyli piątek. Brak ustawienia filtru nie generuje błędu a jedynie wyliczenie kolejnych statystyk dla kolejnych dni tygodnia.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $w piątek, w stołówce szkolnej wydaje się $\frac{1}{5} \\ & $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce,$\\ \mathcal{H}_1: & $w piatek, w stołówce szkolnej wydaje się istotnie więcej lub mniej niż $\frac{1}{5} \\ & $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce.$ \end{array}$

Proporcja wartości wyróżnionych w próbie to $p=\frac{m}{n}=0.133$ a 95% przedział ufności Cloppera-Pearsona dla tej frakcji $(0.083, 0.198)$ nie zawiera hipotetycznej wartości 0.2.

Na podstawie testu $Z$ bez poprawki na ciągłość ( $p$ =0.041227) jak i na podstawie dokładnej wartości prawdopodobieństwa wyliczonego z rozkładu dwumianowego ( $p$ =0.044711) moglibyśmy przyjąć (na poziomie istotności $\alpha=0.05$ ), że w piątek wydaje się statystycznie mniej niż $\frac{1}{5}$ obiadów wydawanych przez cały tydzień. Po zastosowaniu poprawki na ciągłość jednak nie udaje się odrzucić hipotezy zerowej ( $p$ =0.052479).

2014/08/22 20:00

¹⁾

Wilcoxon F. (1945), Individual comparisons by ranking methods. Biometries 1, 80-83

²⁾ , ⁷⁾

Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks Cole Publishing Company

³⁾

Fritz C.O., Morris P.E., Richler J.J.(2012), Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General., 141(1):2–18.

⁴⁾

Cohen J. (1988), Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum Associates, Hillsdale, New Jersey

⁵⁾

Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345

⁶⁾

Abdi H. (2007), Bonferroni and Sidak corrections for multiple comparisons, in N.J. Salkind (ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks, CA: Sage

⁸⁾

E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212

⁹⁾

Agresti A., Coull B.A. (1998), Approximate is better than „exact” for interval estimation of binomial proportions. American Statistics 52: 119-126

¹⁰⁾

Clopper C. and Pearson S. (1934), The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26: 404-413

¹¹⁾

Brown L.D., Cai T.T., DasGupta A. (2001), Interval Estimation for a Binomial Proportion. Statistical Science, Vol. 16, no. 2, 101-133

Spis treści

Testy nieparametryczne

Test Wilcoxona (rangowanych znaków)

Test chi-kwadrat zgodności

Testy dla jednej proporcji