Spis treści

Testy nieparametryczne

Test U Manna-Whitneya

Test U Manna-Whitneya (ang. Mann-Whitney U test) znany jest również jako test Wilcoxona Manna-Whitneya (ang. Wilcoxon Mann-Whitney test), Mann i Whitney (1947)1) oraz Wilcoxon (1949)2). Test ten służy do weryfikacji hipotezy o braku przesunięcia porównywanych rozkładów tzn. najczęsciej nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach (przy czym zakładamy, że rozkłady zmiennej są sobie bliskie - porównanie wariancji rang można sprawdzić testem dla rang Conovera).

Podstawowe warunki stosowania:

Hipotezy dotyczą równości średnich rang dla porównywanych populacji lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: & \phi_1=\phi_2,\\
\mathcal{H}_1: & \phi_1\neq\phi_2,
\end{array}

gdzie:

$\phi_1, \phi_2$ to rozkłady badanej zmiennej w pierwszej i drugiej populacji.

Wyznaczamy wartość statystyki testowej, a na jej podstawie wartość $p$, którą porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • Dla małej liczności próby

\begin{displaymath}
U=n_1n_2+\frac{n_1(n_1+1)}{2}-R_1,
\end{displaymath}

lub

\begin{displaymath}
U'=n_1n_2+\frac{n_2(n_2+1)}{2}-R_2,
\end{displaymath}

gdzie $n_1, n_2$ to liczności prób, $R_1, R_2$ to sumy rang dla prób.

Standardowo interpretacji podlega mniejsza z wartości $U$ lub $U'$.

Statystyka ta podlega rozkładowi Manna-Whitneya i nie zawiera poprawki na rangi wiązane. Wartość dokładnego prawdopodobieństwa z rozkładu Manna-Whitneya wyliczana jest z dokładnością do części setnej ułamka.

  • Dla próby o dużej liczności

\begin{displaymath}
Z=\frac{U-\frac{n_1n_2}{2}}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}},
\end{displaymath}

gdzie:

$U$ można zastąpić przez $U'$,

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}=0$)

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Manna-Whitneya (Marascuilo and McSweeney (1977)3))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy:

\begin{displaymath}
Z=\frac{\left|U-\frac{n_1n_2}{2}\right|-0.5}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}}.
\end{displaymath}

Standaryzowana wielkość efektu

Rozkład statystyki testu Manna-Whitneya jest aproksymowany przez rozkłady normalny, który można przekształcić na wielkość efektu $r=\left|Z/(n_1+n_2)\right|$ 4) by następnie uzyskać wartość d-Cohena zgodnie ze standardową konwersją stosowaną przy meta-analizach:

\begin{displaymath}
	d=\frac{2r}{\sqrt{1-r^2}}
\end{displaymath}

Przy interpretacji efektu badacze często posługują się ogólnymi, określonymi przez Cohena 5) wskazówkami definiującymi małą (0.2), średnią (0.5) i dużą (0.8) wielkość efektu.

Okno z ustawieniami opcji testu U Manna-Whitneya wywołujemy poprzez menu StatystykaTesty nieparametryczneMann-Whitney lub poprzez ''Kreator''.

Przykład (plik komputer.pqs)

Wysunięto hipotezę, że na pewnej uczelni studenci matematyki spędzają statystycznie więcej czasu przed komputerem niż studentki matematyki. W celu weryfikacji tego przypuszczenia z populacji osób studiujących matematykę na tej uczelni wylosowano próbę liczącą 54 osoby (25 kobiet i 29 mężczyzn). Osoby te zapytano o to jak dużo czasu dziennie spędzają przy komputerze (czas w godzinach) i otrzymano następujące wyniki:

(czas, płeć): (2, k) (2, m) (2, m) (3, k) (3, k) (3, k) (3, k) (3, m) (3, m) (4, k) (4, k) (4, k) (4, k) (4, m) (4, m) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, m) (5, m) (5, m) (5, m) (6, k) (6, k) (6, k) (6, k) (6, k) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (7, k) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (8, k) (8, m) (8, m).}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $mediana czasu spędzanego przed komputerem jest taka sama $\\
& $w populacji studentek i studentów badanej uczelni, $\\
\mathcal{H}_1: & $mediana czasu spędzanego przed komputerem jest inna$\\
& $dla populacji studentek i dla studentów badanej uczelni.$
\end{array}
$

Na podstawie przyjętego poziomu $\alpha=0.05$ i statystyki $Z$ testu Manna-Whitneya bez poprawki na ciągłość ($p$=0.015441) jak i z tą poprawką $p=0.015821$, jak też na podstawie dokładnej statystyki $U$ ($p$=0.014948) możemy przyjąć, że istnieją ważne statystycznie różnice pomiędzy studentkami a studentami matematyki w ilości czasu spędzanego przed komputerem. Różnice te polegają na tym, że studentki spędzają mniej czasu przed komputerem niż studenci. Opisać je można na podstawie mediany, kwartyli oraz wartości największej i najmniejszej, które widzimy również na wykresie typu ramka-wąsy. Innym sposobem opisu różnic jest przedstawienie czasu spędzonego przed komputerem na podstawie tabeli liczności i procentów (które uruchamiamy w oknie analizy ustawiając statystyki opisowe ) lub na podstawie wykresu kolumnowego.

2014/08/22 20:00

Test Wilcoxona (kolejności par)

Test kolejności par Wilcoxona (ang. Wilcoxon matched-pairs test), znany również pod nazwą testu Wilcoxona dla grup zależnych, Wilcoxon (19456),19497)). Stosuje się go w sytuacji gdy pomiarów badanej zmiennej dokonujemy dwukrotnie w różnych warunkach. Jest on rozszerzeniem na dwie zależne próby testu rangowanych znaków Wilcoxona (przeznaczonego dla jednej próby). Interesuje nas różnica pomiędzy parami pomiarów badanej cechy ($d_i=x_{1i}-x_{2i}$) dla każdego z $i$ badanych obiektów. Różnica ta wykorzystywana jest do weryfikacji hipotezy o tym, że mediana dla niej (dla różnicy) w badanej populacji wynosi 0.

Podstawowe warunki stosowania:

Hipotezy dotyczą równości sumy rang dodatnich i ujemnych lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: &  \theta_0=0, \\
\mathcal{H}_1: &  \theta_0\neq 0,
\end{array}

gdzie:

$ \theta_0$ to - mediana $d_i$ w populacji.

Wyznaczamy wartość statystyki testowej, a na jej podstawie wartość $p$, którą porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • Dla małej liczności próby

\begin{displaymath}
T=\min\left(\sum R_-,\sum R_+\right),
\end{displaymath}

gdzie:

$\sum R_+$ $-$ suma rang dodatnich,

$\sum R_-$ $-$ suma rang ujemnych.

Statystyka ta podlega rozkładowi Wilcoxona i nie zawiera poprawki na rangi wiązane.

  • Dla próby o dużej liczności

\begin{displaymath}
Z=\frac{T-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}},
\end{displaymath}

gdzie:

$n$ $-$ ilość rangowanych znaków (ilość rang),

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\frac{\sum t^3-\sum t}{48}=0$).

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Wilcoxona (Marascuilo and McSweeney (1977)8))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy wzorem:

\begin{displaymath}
Z=\frac{\left|T-\frac{n(n+1)}{4}\right|-0.5}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}}.
\end{displaymath}

Uwaga! Od wersji 1.8.0 mediana wyliczana w dla kolumny różnica obejmuje wszystkie pary wyników za wyjątkiem tych, których różnica wynosi 0.

Standaryzowana wielkość efektu

Rozkład statystyki testu Wilcoxona jest aproksymowany przez rozkłady normalny, który można przekształcić na wielkość efektu $r=\left|Z/n\right|$ 9) by następnie uzyskać wartość d-Cohena zgodnie ze standardową konwersją stosowaną przy meta-analizach:

\begin{displaymath}
	d=\frac{2r}{\sqrt{1-r^2}}
\end{displaymath}

Przy interpretacji efektu badacze często posługują się ogólnymi, określonymi przez Cohena 10) wskazówkami definiującymi małą (0.2), średnią (0.5) i dużą (0.8) wielkość efektu.

Okno z ustawieniami opcji testu Wilcoxona dla grup zależnych wywołujemy poprzez menu StatystykaTesty nieparametryczneWilcoxon (kolejności par) lub poprzez ''Kreator''.

Przykład (plik ból.pqs)

Pobrano próbę 22 pacjentów cierpiących na raka. Badano u nich poziom odczuwanego bólu (na skali od 1 do 10, gdzie 1 to brak bólu a 10 to ból największy). Badanie to powtórzono po miesiącu stosowania kuracji nowym lekiem mającym obniżyć poziom odczuwanego bólu. Otrzymano następujące wyniki:

(przed, po): (2, 2) (2, 3) (3, 1) (3,1) (3, 2) (3, 2) (3, 3) (4, 1) (4, 3) (4, 4) (5, 1) (5, 1) (5, 2) (5, 4) (5, 4) (6, 1) (6, 3) (7, 2) (7, 4) (7, 4) (8, 1) (8, 3). Chcemy sprawdzić, czy zastosowana kuracja ma wpływ na poziom odczuwanego bólu w populacji z której pochodzi próba.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $w badanej populacji mediana różnic pomiędzy poziomem bólu przed $\\
& $i po miesiącu kuracji wynosi 0,$\\
\mathcal{H}_1: & $w badanej populacji mediana różnic pomiędzy poziomem bólu przed $\\
& $i po miesiącu kuracji jest różna od 0.$
\end{array}
$

Porównując wartość $p= 0.0001$ testu Wilcoxona opartego o statystykę $T$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie różnica w poziomie odczuwanego bólu pomiędzy dwoma badaniami. Różnica te polega na tym, że poziom bólu spadł (suma rang ujemnych jest znacznie większa niż suma rang dodatnich). Taką samą decyzję podjęlibyśmy również na podstawie wartości $p=0.00021$ lub $p=0.00023$ testu Wilcoxona opartego o statystykę $Z$ lub $Z$ z poprawką na ciągłość. Różnice możemy zaobserwować na wykresie typu ramka-wąsy lub wykresie kolumnowym.

2014/08/22 20:00

Testy chi-kwadrat

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech, cechy X i cechy Y, z których pierwsza ma $r$ a druga $c$ kategorii, a więc powstała tabela ma $r$ wierszy i $c$ kolumn. Z tego względu możemy mówić o teście chi-kwadrat 2×2 (dla tabel o dwóch wierszach i dwóch kolumnach) lub o teście chi-kwadrat RxC (o wielu wierszach i kolumnach).

Szczegółowe informacje na temat testu chi-kwadrat dwóch cech możemy przeczytać tutaj:

test chi-kwadrat 2x2

test chi-kwadrat RxC

Podstawowe warunki stosowania:

Dodatkowy warunek dla testu $\chi^2$ :

Hipotezy w brzmieniu ogólnym:

$\mathcal{H}_0: & O_{ij}=E_{ij} $ dla wszystkich kategorii,
$\mathcal{H}_1: & O_{ij} \neq E_{ij} $ dla przynajmniej jednej kategorii.

gdzie:

$O_{ij}$ $-$ liczności obserwowane w tabeli kontyngencji,
$E_{ij}$ $-$ liczności oczekiwane w tabeli kontyngencji.

Hipotezy w brzmieniu testu niezależności:

$\mathcal{H}_0: & $ nie istnieje zależność pomiędzy badanymi cechami populacji (obie klasyfikacje ze względu na cechę X i na cechę Y są statystycznie niezależne),
$\mathcal{H}_1: & $ istnieje zależność pomiędzy badanymi cechami populacji.

Wyznaczoną wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Dodatkowo

  • W przypadku gdy uzyskamy tabelę Rx2, i kategorie R można uporządkować, możliwe jest wyznaczanie trendu:

    test chi-kwadrat dla trendu dla tabel Rx2

  • W przypadku, gdy na podstawie testu wykonanego dla tabeli większej niż 2×2 stwierdzimy występowanie istotnych zależności lub różnic, wówczas można wykonać wielokrotne porównania wraz z odpowiednią korektą porównań wielokrotnych po to, by zlokalizować umiejscowienie tych zależności/różnic. Korekta taka może być dokonana automatycznie, gdy tabela ma wiele kolumn. Wówczas w oknie opcji testu należy zaznaczyć Wielokrotne porównania kolumn (RxC).

  • W przypadku, gdy chcemy opisać siłę związku między cechą X i cechą Y możemy wyznaczyć:

    miary zależności

  • W przypadku, gdy chcemy opisać dla tabel 2×2 wielkość wpływu czynnika ryzyka możemy wyznaczyć:

    Iloraz szans (OR) i relatywne ryzyko (RR)

2020/10/06 12:43 · admin

Test chi-kwadrat dla dużych tabel

Test ten opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których pierwsza ma możliwe $r$ kategorii $X_1, X_2,..., X_r$ a druga $c$ kategorii $Y_1, Y_2,..., Y_c$.

Test $\chi^2$dla tabel $r\times c$ znany jest również pod nazwą testu $\chi^2$ Pearsona (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest rozszerzeniem na 2 cechy testu chi-kwadrat (dobroci dopasowania). Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)(c-1)$.
Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher, OR/RR lub poprzez ''Kreator''.

Przykład (plik kraj-wykształcenie.pqs)

Rozpatrujemy próbę 605 osób ($n=605$), dla których badamy 2 cechy ($X$=kraj zamieszkania, $Y$=wykształcenie). Pierwsza cecha występuje w 4, a druga w 3 kategoriach ($X_1$=Kraj 1, $X_2$=Kraj 2, $X_3$=Kraj 3, $X_4$=Kraj 4, $Y_1$=podstawowe, $Y_2$=średnie, $Y_3$=wyższe). Rozkład danych przedstawia tabela kontyngencji:

Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy wykształceniem a krajem zamieszkania.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji.$
\end{array}
$

Warunek Cochrana jest spełniony.

Wartość $p=0.0006$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy krajem zamieszkania a wykształceniem w badanej populacji.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że jedynie drugi kraj różni się poziomem wykształcenia od pozostałych krajów w sposób istotny statystycznie.

2014/08/22 20:00

Test chi-kwadrat dla małych tabel

Test ten opiera się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których każda ma możliwe 2 kategorie $X_1, X_2$ oraz $Y_1, Y_2$.

Okno z ustawieniami opcji testu Chi-kwadrat oraz jego poprawek wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher, OR/RR lub poprzez ''Kreator''.

Test $\chi^2$ dla tabel $2\times 2$ (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest zawężeniem testu chi-kwadrat dla tabel (r x c).

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^2\sum_{j=1}^2\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z jednym stopniem swobody.

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ($n=170$), dla których badamy 2 cechy ($X$=płeć, $Y$=zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ($X_1$=k, $X_2$=m, $Y_1$=tak, $Y_2$=nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline
\multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5}
& m & 20 & 60 & 80 \\\cline{2-5}
& suma & 70 & 100 & 170\\\hline
\end{tabular}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji.$
\end{array}
$

Tabela liczności oczekiwanych nie zawiera wartości mniejszych niż 5. Warunek Cochrana jest spełniony.

Przy przyjętym poziomie istotności $\alpha=0.05$ wszystkie wykonane testy potwierdziły prawdziwość hipotezy alternatywnej:

  • test chi-kwadrat, wartość $p=0.000053$,
  • test chi-kwadrat z poprawką Yeatesa, wartość $p=0.000103$,
  • test dokładny Fishera, wartość $p=0.000083$,
  • test mid-p, wartość $p=0.000054$

Zatem istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin)

2014/08/22 20:00

Test Fishera dla tabel dużych tabel

Test Fishera dla tabel $r\times c$ zwany jest również testem Fishera-Freemana-Haltona (ang. Fisher-Freeman-Halton test), Freeman G.H., Halton J.H. (1951)12). Test ten jest rozszerzeniem na tabele $r\times c$ testu dokładnego Fishera. Określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych.

Jeśli sumy brzegowe wierszy zdefiniujemy jako:

\begin{displaymath}
W_i=\sum_{j=1}^cO_{ij},
\end{displaymath}

gdzie:

$ O_{ij} $ $-$ liczności obserwowane w tabeli kontyngencji,

a sumy brzegowe kolumn jako:

\begin{displaymath}
K_i=\sum_{i=1}^rO_{ij}.
\end{displaymath}

To przy ustalonych sumach brzegowych, dla różnych układów wartości obserwowanych oznaczonych jako $U_{ij}$ wyznaczamy prawdopodobieństwa $P$:

\begin{displaymath}
P=\frac{D^{-1}\prod_{j=1}^{c}K_j!}{U_{1j}!U_{2j}!\dots U_{rj}},
\end{displaymath}

gdzie \begin{displaymath}
D=\frac{(W_1+W_2+\dots+W_r)!}{W_1!W_2!\dots W_r!}.
\end{displaymath}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw $P$ (wyznaczonych dla nowych wartości $U_{ij}$), które są mniejsze lub równe prawdopodobieństwu $P$ tabeli z wartościami początkowymi $O_{ij}$
Porównujemy dokładną wartość $p$ z poziomem istotności $\alpha$:.
Okno z ustawieniami opcji testu dokładny Fishera (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher OR/RR lub poprzez ''Kreator''.

Info.

Procedura obliczania wartości $p$ dla tego testu bazuje na algorytmie opublikowanym w pracy Mehta (1986)13).

Przykład (plik praca-profilaktyka.pqs)

W populacji osób zamieszkujących na obszarach wiejskich gminy Komorniki badano czy wykonywanie badań profilaktyki zdrowia jest uzależnione od rodzaju aktywność zawodowej mieszkańców. Zebrano losową próbę 120 osób i zapytano o wykształcenie oraz o to czy osoby te wykonują badania profilaktyczne. Pełną odpowiedź uzyskano od 113 osób.

dane_praca_profilaktyka

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.$
\end{array}
$

Warunek Cochrana nie jest spełniony, przez co nie powinniśmy stosować testu chi-kwadrat.

Wartość $p<0.0001$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy wykonywaniem badań profilaktycznych a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że specjaliści do spraw zdrowia istotnie częściej niż pozostałe grupy wykonują badania profilaktyczne (100% osób w tej grupie wykonało badania), a bezrobotni istotnie rzadziej (nikt w tej grupie nie wykonał badania). Rolnicy, inni pracownicy fizyczni i inni pracownicy umysłowi w około 50% wykonują badania profilaktyczne co powoduje, że te trzy grupy nie różnią się od siebie istotnie statystycznie. Część wartości p uzyskanych w tabeli oznaczona jest gwiazdką, oznacza ona te wyniki które powstały poprzez użycie testu dokładnego Fishera wraz z poprawką Benjaminiego-Hochberga, wartości nie oznaczone są wynikiem testu chi-kwadrat wraz z poprawką Benjaminiego-Hochberga, przy którym założenia Cochrana były spełnione

2020/10/06 12:50 · admin

Poprawki testu chi-kwadrat dla małych tabel

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których każda ma możliwe 2 kategorie $X_1, X_2$ oraz $Y_1, Y_2$.

Test chi-kwadrat z poprawką Yatesa na ciągłość

Test $\chi^2$ z poprawką Yatesa (ang. Chi-square test with Yates correction), Frank Yates (1934)14) jest testem bardziej konserwatywny od testu chi-kwadrat (trudniej niż test chi-kwadrat odrzuca hipotezę zerową). Poprawka na ciągłość ma zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu chi-kwadrat.

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^2\sum_{j=1}^2\frac{(|O_{ij}-E_{ij}|-0.5)^2}{E_{ij}}.
\end{displaymath}

Test Fishera dla tabel 2×2

Test Fishera dla tabel $2\times 2$ nazywany jest również testem dokładnym Fishera (ang. Fisher exact test), R. A. Fisher (193415), 193516)). Test ten określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych. \begin{displaymath}
P=\frac{{O_{11}+O_{21} \choose O_{11}}{O_{12}+O_{22} \choose O_{12}}}{{O_{11}+O_{12}+O_{21}+O_{22} \choose O_{11}+O_{12}}}.
\end{displaymath} Przy znanych sumach brzegowych, dla różnych układów wartości obserwowanych wyznaczamy prawdopodobieństwa $P$. Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw, które są mniejsze lub równe badanemu prawdopodobieństwu.

Test mid-p

mid-p jest korektą testu dokładnego Fishera. Ta zmodyfikowana wartość $p$ jest rekomendowana przez wielu statystyków (Lancaster 196117), Anscombe 198118), Pratt i Gibbons 198119), Plackett 198420), Miettinen 198521) i Barnard 198922), Rothman 200823)) jako metoda zmniejszenia konserwatyzm testu dokładnego Fishera. W rezultacie testem mid-p szybciej odrzucimy hipotezę zerowa niż dokładnym testem Fishera. Dla dużych prób wartość $p$ otrzymana przy pomocy testu $\chi^2$ z poprawką Yatesa i test Fishera dają zbliżone wyniki, natomiast wartość $p$ testu $\chi^2$ bez korekcji koresponduje z wartością mid-p.

Wartość $p$ mid-p wyznaczana jest przez przekształcenie wartości prawdopodobieństwa dla testu dokładnego Fishera. Jednostronna wartość $p$ wyznaczana jest ze wzoru:

\begin{displaymath}
p_{I(mid-p)}=p_{I(Fisher)}-0.5\cdot P_{punktu(tabeli\quad zadanej)},
\end{displaymath}

gdzie:

$p_{I(mid-p)}$ $-$ wartość jednostronna $p$ testu mid-p

$p_{I(Fisher)}$ $-$ wartość jednostronna $p$ testu dokładnego Fishera

a dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw:

\begin{displaymath}
p_{II(mid-p)}=2p_{I(mid-p)},
\end{displaymath}

gdzie:

$p_{II(mid-p)}$ $-$ wartość dwustronna $p$ testu mid-p.

2020/10/06 13:39 · admin

Test chi-kwadrat dla trendu

Test $\chi^2$ dla trendu nazywany również testem dla trendu Cochrana-Armitage (ang. Cochran-Armitage test for trend)24)25) służy do weryfikacji hipotezy o istnieniu trendu w proporcjach dla poszczególnych kategorii badanej zmiennej (cechy). Opiera się na danych zebranych w postaci tabeli kontyngencji 2 cech, z których pierwsza ma możliwe $r$ uporządkowanych kategorii: $X_1, X_2,..., X_r$ a druga 2 kategorie $G_1$, $G_2$.

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{Cecha 2 (grupa)}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & $G_1$ & $G_2$ & Suma \\\hline \hline
\multirow{5}{*}{Cecha 1 (cecha $X$)}& $X_1$& $O_{11}$ & $O_{12}$ & $W_1=O_{11}+O_{12}$  \\\cline{2-5}
& $X_2$ & $O_{21}$ & $O_{22}$ & $W_2=O_{21}+O_{22}$  \\\cline{2-5}
& ... & ... & ... & ...  \\\cline{2-5}
& $X_r$ & $O_{r1}$ & $O_{r2}$ & $W_r=O_{r1}+O_{r2}$  \\\cline{2-5}
& Suma & $C_1=\sum_{i=1}^rO_{i1}$ & $C_2=\sum_{i=1}^rO_{i2}$ & $n=C_1+C_2$\\\hline
\end{tabular}

Podstawowe warunki stosowania:

Niech $p_1, p_2, ..., p_r$ oznaczają proporcje $p_1=\frac{O_{11}}{W_1}$, $p_2=\frac{O_{21}}{W_2}$,…, $p_r=\frac{O_{r1}}{W_r}$.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $W badanej populacji nie istnieje trend w proporcjach $p_1, p_2, ..., p_r$, $\\
\mathcal{H}_1: & $W badanej populacji istnieje trend w proporcjach $p_1, p_2, ..., p_r$. $
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=\frac{\left[\left(\sum_{i=1}^r i\cdot O_{i1}\right) -C_1\left(\sum_{i=1}^r\frac{i\cdot W_i}{n}\right)\right]^2}{\frac{C_1}{n}\left(1-\frac{C_1}{n}\right)\left[\left(\sum_{i=1}^n i^2 W_i\right)-n\left(\sum_{i=1}^n\frac{i \cdot W_i}{n}\right)^2\right]}.
\end{displaymath}

Statystyk ta ma rozkład chi-kwadrat z 1 stopniem swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$ :

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji testu Chi-kwadrat dla trendu wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher, OR/RR, opcja Fisher, Yates i inne…Chi-kwadrat dla trendu.

Przykład (palenie-wykształcenie.pqs)

Sprawdzamy czy palenie papierosów związane jest z wykształceniem mieszkańców pewnej wsi. Wylosowano próbę 122 osób. Dane zapisano w pliku.

Zakładamy, że zależność może być dwojakiego typu tzn. czym bardziej wykształceni ludzie, tym częściej palą lub czym bardziej wykształceni ludzie, tym rzadziej palą. Poszukujemy zatem rosnącego lub malejącego trendu.

Przed przystąpieniem do analizy musimy przygotować dane, tzn. musimy wskazać kolejność w jakiej mają się pojawiać kategorie wykształcenia. W tym celu z właściwości zmiennej Wykształcenie wybieramy Kody/Etykiety/Format… i nadajemy kolejność podając kolejne liczby naturalne. Przypisujemy również etykiety.

Hipotezy:

\begin{array}{cl}
	\mathcal{H}_0: & $w populacji mieszkańców wsi nie istnieje trend wzrostu/spadku liczby palących $\\
		& $wraz ze wzrostem wykształcenia, $\\
	\mathcal{H}_1: & $w populacji mieszkańców wsi istnieje trend wzrostu/spadku liczby palących $\\
	& $wraz ze wzrostem wykształcenia. $
\end{array}

Wartość $p=0.0091$, co w porównaniu z poziomem istotności $\alpha$=0.05 świadczy o prawdziwości hipotezy alternatywnej mówiącej o występowaniu trendu.

Jak wynika z wykresu czym osoby są bardziej wykształcone, tym rzadziej palą. Jednak wynik uzyskany przez osoby o wykształceniu gimnazjalnym odbiega od tego trendu. Ponieważ wykształcenie gimnazjalne dotyczy tylko dwóch osób, nie miało to dużego wpływu na rysujący się trend. Ze względu na bardzo małą liczność tej grupy postanowiono analizę powtórzyć dla połączonych kategorii wykształcenia podstawowego i gimnazjalnego.

Uzyskano ponownie niewielką wartość $p=0.0078$ i potwierdzenie istotnego statystycznie trendu.

Przykład (plik widzowie.pqs)

Z powodu spadku oglądalności pewnego serialu telewizyjnego przeprowadzono badanie opinii widzów tego serialu. W tym celu przepytano 100 osób, które rozpoczęły oglądanie serialu w ostatnim czasie i 300, które oglądają systematycznie serial od początku. Zapytano ich między innymi o ocenę stopnia zaabsorbowania widza losami bohaterów. Wyniki zapisano w tabeli poniżej:

\begin{tabular}{|c||c|c|c|}
\hline
Stopień  & \multicolumn{3}{|c|}{grupa}\\\cline{2-4}
zaciekawienia & grupa nowych widzów & grupa stałych widzów & suma \\\hline \hline
raczej niewielki & 7 & 7 & 14  \\\hline
przeciętny & 13 & 25 & 38  \\\hline
raczej wysoki & 30 & 58 & 88  \\\hline
wysoki& 24 & 99 & 123\\\hline
bardzo wysoki  & 26& 111& 137\\\hline
suma & 100 & 300& 400\\\hline
\end{tabular}

Nowi widzowie stanowią 25% badanych. Taka proporcja nie utrzymuje się jednak dla każdej kategorii „stopnia zaciekawienia” ale przedstawia się następująco:

\begin{tabular}{|c||c|c|c|}
\hline
Stopień& \multicolumn{3}{|c|}{grupa}\\\cline{2-4}
zaciekawienia & grupa nowych widzów & grupa stałych widzów & suma \\\hline \hline
raczej niewielki & $p_1$=50.00\% & 50.00\% & 100\%  \\\hline
przeciętny & $p_2$=34.21\% & 65.79\% & 100\%  \\\hline
raczej wysoki & $p_3$=34.09\% & 65.91\% & 100\%  \\\hline
wysoki& $p_4$=19.51\% & 80.49\% & 100\%\\\hline
bardzo wysoki  & $p_5$=18.98\%& 81.02\%& 100\%\\\hline
\textbf{suma} & \textbf{25.00\%} & \textbf{75.00\%}& \textbf{100\%}\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $w populacji widzów serialu nie istnieje trend w proporcjach $p_1, p_2, p_3, p_4, p_5$, $\\
\mathcal{H}_1: & $w populacji widzów serialu istnieje trend w proporcjach $p_1, p_2, p_3, p_4, p_5$. $
\end{array}

Wartość $p=0.000436$, co w porównaniu z poziomem istotności $\alpha$=0.05 świadczy o prawdziwości hipotezy alternatywnej mówiącej o występowaniu trendu w proporcjach $p_1, p_2, ..., p_5$. Jak wynika z tabeli kontyngencji wartości procentowych wyliczanych z sumy kolumn, jest to trend malejący (im grupa widzów jest bardziej zainteresowana losami bohaterów serialu, tym mniejszą jej część stanowią nowi widzowie).

2014/08/22 20:00
 

Test Z dla dwóch niezależnych proporcji

Test $Z$ dla dwóch niezależnych proporcji stosujemy w podobnych sytuacjach jak test chi-kwadrat (2x2), tzn. gdy mamy 2 niezależne próby o liczności $n_1$ i $n_2$, w których możemy uzyskać 2 możliwe wyniki badanej cechy (jeden z nich to wynik wyróżniony o liczności $m_1$ - w pierwszej próbie i $m_2$ - w drugiej próbie). Dla prób tych możemy również wyznaczyć wyróżnione proporcje $p_1=\frac{m_1}{n_1}$ i $p_2=\frac{m_2}{n_2}$. Test ten służy do weryfikacji hipotezy, że wyróżnione proporcje $P_1$ i $P_2$ w populacjach, z których pochodzą próby są sobie równe.
Podstawowe warunki stosowania:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & P_1=P_2,\\
\mathcal{H}_1: & P_1\neq P_2,
\end{array}
$

gdzie:

$P_1$, $P_2$ frakcja dla pierwszej i drugiej populacji.

Statystyka testowa ma postać: \begin{displaymath}
Z=\frac{p_1-p_2}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}},
\end{displaymath}

gdzie:

$p=\frac{m_1+m_2}{n_1+n_2}$.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p_1-p_2-\frac{1}{2}\left(\frac{1}{n_1}+\frac{1}{n_2} \right)}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}.
\end{displaymath}

Statystyka bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

W programie oprócz różnicy proporcji wyliczana jest wartość wskaźnika NNT i/lub NNH.

NNT (ang. number needed to treat) $-$ wskaźnik stosowany w medycynie, oznacza liczbę pacjentów, których trzeba poddać leczeniu przez określony czas, aby wyleczyć jedną osobę, która w innych okolicznościach nie wyzdrowiałaby. NNT wyliczane jest z wzoru:

\begin{displaymath}
NNT=\frac{1}{|p_1-p_2|}
\end{displaymath}

i jest cytowane wtedy, gdy różnica $p_1-p_2$ jest dodatnia.

NNH (ang. number needed to harm) $-$ wskaźnik stosowany w medycynie, oznacza liczbę pacjentów, których narażenie na ryzyko przez określony czas, powoduje uszczerbek na zdrowiu u jednej osoby, która w innych okolicznościach nie doznałaby uszczerbku. NNH wyliczane jest w ten sam sposób co NNT, ale jest cytowane wtedy, gdy różnica $p_1-p_2$ jest ujemna.

Przedział ufności $-$ im węższy przedział ufności, tym bardziej precyzyjne oszacowanie. Jeśli w przedziale ufności zawarte jest 0 dla różnicy ryzyka, a $\infty$ dla NNT i/lub NNH, to jest wskazanie do tego, by dany wynik traktować jako nieistotny statystycznie.

Uwaga!

Przedziały ufności dla różnicy dwóch niezależnych proporcji od wersji PQStat 1.3.0 estymowane są w oparciu o metodę Newcomba-Wilsona (Bender (2001)26), Newcombe (1998)27), Wilson (1927)28)). W poprzednich wersjach były estymowane w oparciu o metodę Walda.

Uzasadnienie zmiany:

Przedziały ufności oparte o klasyczną metodę Walda są odpowiednie dla dużych rozmiarów próbek i różnicy proporcji dalekiej od 0 lub 1. Dla małych prób i różnicy proporcji bliskiej tym skrajnym wartościom, w wielu sytuacjach praktycznych, metoda Walda może prowadzić do wyników niewiarygodnych (Newcombe 199829), Miettinen 198530), Beal 198731), Wallenstein 199732)). Porównanie i przeanalizowanie wielu metod, które mogą być używane zamiast prostej metody Walda, można znaleźć w pracy Newcombe (1998)33). Sugerowaną, odpowiednią również dla skrajnych wartości proporcji, jest roszerzona na przedziały dla różnicy dwóch niezależnych proporcji, metoda opublikowana po raz pierwszy przez Wilsona (1927)34).

Uwaga!

Przedział ufności dla NNT i/lub NNH wyliczany jest jako odwrotność przedziału dla proporcji, zgodnie ze sposobem zaproponowanym przez Altmana (Altman (1998)35)).

Okno z ustawieniami opcji testu Z dla dwóch niezależnych proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczneZ dla dwóch niezależnych proporcji.

Przykład c.d. (plik płeć-egzamin.pqs)

Wiemy, że $\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdaje pozytywnie egzamin i $\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdaje egzamin pozytywnie. Dane możemy zapisać na dwa sposoby $-$ jako licznik i mianownik dla każdej próby, lub jako proporcja i mianownik dla każdej próby:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest taka$\\
&$ sama jak kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji,$\\
\mathcal{H}_1: & $proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest inna niż$\\
&$ proporcja kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji.$
\end{array}
$

Uwaga!

Ponieważ w arkuszu danych znajduje się więcej informacji, przed rozpoczęciem analizy należy zaznaczyć odpowiedni obszar (dane bez nagłówków). W oknie testu natomiast wybrać opcję mówiącą o zawartości zmiennej (liczność (licznik) lub proporcja). Różnica proporcji wyróżnionych w próbie to 30.56%, a 95% przedział ufności dla niej (15.90%, 43.35%) nie zawiera 0.

Na podstawie testu $Z$ bez poprawki na ciągłość ($p$=0.000053) jak też z poprawką na ciągłość ($p$=0.0001), na poziomie istotności $\alpha$=0.05 (podobnie jak w przypadku testu dokładnego Fishera, jego poprawki mid-p, testu $\chi^2$ i testu $\chi^2$ z poprawką Yatesa) przyjmujemy hipotezę alternatywną. Zatem proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest inna niż proporcja kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin).

Przykład

Załóżmy, że choroba ma śmiertelność 100% bez leczenia, a terapia zmniejsza śmiertelność do 50% - jest to wynik 20 letnich badań. Chcemy wiedzieć jak wiele osób będzie trzeba leczyć, aby zapobiec w ciągu 20 lat 1 śmierci. By odpowiedzieć na to pytanie pobrano dwie 100 osobowe próby z populacji osób chorych. W próbie nieleczonych mamy 100 chorych pacjentów, wiemy, że bez leczenia wszyscy oni umrą. W próbie leczonych mamy również 100 pacjentów, z których 50 przeżyje.

\begin{tabular}{|c|c||c|c|}\hline
\multicolumn{2}{|c||}{Chorzy $-$ nie leczeni }& \multicolumn{2}{|c|}{Chorzy $-$ leczeni}\\\hline
liczność licznik&liczność próby (mianownik)&liczność licznik&liczność próby (mianownik)\\\hline
100&100&50&100\\\hline
\end{tabular}

Wyliczymy wskaźnik NNT.

Różnica pomiędzy proporcjami jest istotna statystycznie ($p<0.000001$), ale nas interesuje wskaźnik NNT - wynosi on 2, czyli stosowanie leczenia u 2 chorych przez 20 lat zapobiegnie 1 śmierci. Wyliczony 95% przedział ufności należy zaokrąglić do wartości całkowitych, co daje NNT od 2 do 3 chorych.

Przykład

Wartość pewnej różnicy proporcji w badaniu porównującym skuteczność leku 1 vs lek 2 wynosiła różnica(95%CI)=-0.08 (-0.27 do 0.11). Ta ujemna różnica proporcji sugeruje, że lek 1 był mniej skuteczny niż lek 2, jego zastosowanie naraziło więc chorych na ryzyko. Ponieważ różnica proporcji jest ujemna, to wyznaczoną odwrotność nazywamy NNH, a ponieważ przedział ufności zawiera nieskończoność NNH(95%CI)= 2.5 (NNH 3.7 to ∞ to NNT 9.1) i przechodzi z NNH do NNT, należy uznać że uzyskany wynik nie jest istotny statystycznie (Altman (1998)36)).

2014/08/22 20:00

Test Z dla dwóch zależnych proporcji

Test $Z$ dla dwóch zależnych proporcji stosujemy w podobnych sytuacjach jak test Test McNemara, tzn. gdy mamy 2 zależne grupy pomiarów ($X^{(1)}$ i $X^{(2)}$), w których możemy uzyskać 2 możliwe wyniki badanej cechy ( $(+)$ i $(-)$ ).

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{$X^{(2)}$} \\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$}&\textbf{(+)}&\textbf{($-$)}& \textbf{Suma}\\\hline \hline
\multirow{3}{*}{$X^{(1)}$} & \textbf{(+)} & $O_{11}$ & $O_{12}$ & $O_{11}+O_{12}$ \\\cline{2-5}
&\textbf{($-$)}& $O_{21}$ & $O_{22}$ & $O_{21}+O_{22}$\\\cline{2-5}
&\textbf{Suma} & $O_{11}+O_{21}$ & $O_{12}+O_{22}$ & $n=O_{11}+O_{12}+O_{21}+O_{22}$\\\hline
\end{tabular}

Dla grup tych możemy również wyliczyć wyróżnione proporcje $p_1=\frac{O_{11}+O_{12}}{n}$ i $p_2=\frac{O_{11}+O_{21}}{n}$. Test ten służy do weryfikacji hipotezy, że wyróżnione proporcje $P_1$ i $P_2$ w populacji, z której pochodzi próba są sobie równe.
Podstawowe warunki stosowania:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & P_1-P_2=0,\\
\mathcal{H}_1: & P_1-P_2\neq 0,
\end{array}
$

gdzie:

$P_1$, $P_2$ frakcja dla pierwszego i drugiego pomiaru.

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p_1-p_2}{\sqrt{O_{21}+O_{12}}}\cdot n,
\end{displaymath}

Statystyka Z ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Przedział ufności dla różnicy dwóch zależnych proporcji estymowany jest w oparciu o metodę Newcomba-Wilsona.

Okno z ustawieniami opcji testu Z dla dwóch zależnych proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczneZ dla dwóch zależnych proporcji.

Przykład c.d. (plik opinia.pqs)

Gdy ograniczymy nasze badanie do osób mających zdefiniowany pogląd na temat wykładowcy (tzn. oceniają tylko pozytywnie lub negatywnie), to takich studentów uzyskamy 152. Dane do obliczeń to: $O_{11}=50$, $O_{12}=4$, $O_{21}=44$, $O_{22}=54$. Wiemy, że $\frac{50+4}{152}=35.53\%$ studentów przed egzaminem wyrażało negatywną opinię. Po egzaminie odpowiedni procent wynosił $\frac{50+44}{152}=61.84\%$.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $brak różnicy pomiędzy liczbą negatywnych ocen dotyczących $\\
&$wykładowcy przed egzaminem i po egzaminie,$\\
\mathcal{H}_1: & $istnieje różnica pomiędzy liczbą negatywnych ocen dotyczących $\\
&$wykładowcy przed egzaminem i po egzaminie.$
\end{array}
$

Różnica proporcji wyróżnionych w próbie to 26.32%, a 95% przedział ufności dla niej (18.07%, 33.88%) nie zawiera 0.

Na podstawie testu $Z$ ($p$=0.0001), na poziomie istotności $\alpha$=0.05 (podobnie jak w przypadku testu McNemara) przyjmujemy hipotezę alternatywną. Zatem proporcja negatywnych ocen przed egzaminem jest inna niż proporcja negatywnych ocen po egzaminie. Po egzaminie istotnie częściej wykładowca jest oceniany negatywnie.

2014/08/22 20:00

Test McNemara, test wewnętrznej symetrii Bowkera

Podstawowe warunki stosowania:

Test McNemara

Test McNemara (ang. McNemar test), NcNemar (1947)37). Test ten służy do weryfikacji hipotezy o zgodności pomiędzy wynikami dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ (pomiędzy dwiema zmiennymi zależnymi $X^{(1)}$ i $X^{(2)}$). Badana cecha może mieć tylko 2 kategorie (oznaczone przez nas $(+)$ i $(-)$). Test McNemara można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $2\times 2$.

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{$X^{(2)}$} \\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$}&\textbf{(+)}&\textbf{($-$)}& \textbf{Suma}\\\hline \hline
\multirow{3}{*}{$X^{(1)}$} & \textbf{(+)} & $O_{11}$ & $O_{12}$ & $O_{11}+O_{12}$ \\\cline{2-5}
&\textbf{($-$)}& $O_{21}$ & $O_{22}$ & $O_{21}+O_{22}$\\\cline{2-5}
&\textbf{Suma} & $O_{11}+O_{21}$ & $O_{12}+O_{22}$ & $n=O_{11}+O_{12}+O_{21}+O_{22}$\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & O_{12}=O_{21}, \\
\mathcal{H}_1: & O_{12}\neq O_{21}.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\frac{(O_{12}-O_{21})^2}{O_{12}+O_{21}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z jednym stopniem swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Poprawka na ciągłość testu McNemara

Poprawka ta jest testem bardziej konserwatywny od testu McNemara (trudniej niż test McNemara odrzuca hipotezę zerową). Ma ona zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu $\chi^2$. Część źródeł podaje, że poprawkę na ciągłość powinno się wykonywać zawsze, natomiast część uznaje, że tylko wtedy, gdy liczności w tabeli są małe.

Statystyka testowa testu McNemara z poprawką na ciągłość ma postać:

\begin{displaymath}
\chi^2=\frac{(|O_{12}-O_{21}|-1)^2}{O_{12}+O_{21}}.
\end{displaymath}

Dokładny test McNemara

Powszechną, ogólną zasadą ważności asymptotycznego testu McNemara chi-kwadrat jest warunek Rufibach, czyli to, że liczba niezgodnych par jest większa niż 10: $O_{12}+O_{21}\geq10$ 38), gdy warunek ten nie jest spełniony, wówczas powinniśmy bazować na dokładnych wartościach prawdopodobieństwa tego testu 39). Dokładna wartość prawdopodobieństwa testu oparta jest o rozkład dwumianowy i jest testem konserwatywnym, dlatego obok dokładnej wartości testu MnNemara podano również polecaną wartość dokładną mid-p testu McNemara.

Iloraz szans na zmianę wyniku

Jeśli przeprowadzone zostało 2 krotnie badanie tej samej cechy na tych samych obiektach - wówczas dla takiej tabeli wylicza się iloraz szans na zmianę wyniku (z $(+)$ na $(-)$ i odwrotnie).

Szansa zmiany wyniku z $(+)$ na $(-)$ wynosi $O_{12}$, a szansa zmiany wyniku z $(-)$ na $(+)$ wynosi $O_{21}$.

Iloraz szans (ang. odds ratio - OR) to:

\begin{displaymath}
OR=\frac{O_{12}}{O_{21}}.
\end{displaymath}

Przedział ufności dla ilorazu szans buduje się w oparciu o błąd standardowy: \begin{displaymath}
SE=\sqrt{\frac{1}{O_{12}}+\frac{1}{O_{21}}}.
\end{displaymath}

Uwaga!

Dodatkowo, dla prób o niewielkich licznościach, można wyznaczyć dokładny zakres przedziału ufności dla Ilorazu Szans 40).

Okno z ustawieniami opcji testu Bowkera-McNemara wywołujemy poprzez menu StatystykaTesty nieparametryczneBowker-McNemar lub poprzez ''Kreator''.

Test wewnętrznej symetrii Bowkera

Test wewnętrznej symetrii Bowkera (ang. Bowker test of internal symmetry), Bowker (1948)41). Test ten jest rozszerzeniem testu McNemara na 2 zmienne o więcej niż dwóch kategoriach ($c>2$). Służy do weryfikacji hipotezy o symetryczności wyników dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ (symetryczności 2 zmiennych zależnych $X^{(1)}$ i $X^{(2)}$). Badana cecha może mieć więcej niż 2 kategorie. Test wewnętrznej symetrii Bowker można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $c\times c$.

\begin{tabular}{|c|c||c|c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności  obserwowane }& \multicolumn{5}{|c|}{$X^{(2)}$}\\\cline{3-7}
\multicolumn{2}{|c||}{$O_{ij}$} & $X_1^{(2)}$ & $X_2^{(2)}$ & ... & $X_c^{(2)}$ & Suma \\\hline \hline
\multirow{5}{*}{$X^{(1)}$}& $X_1^{(1)}$ & $O_{11}$ & $O_{12}$ & ... & $O_{1c}$& $\sum_{j=1}^cO_{1j}$  \\\cline{2-7}
& $X_2^{(1)}$ & $O_{21}$ & $O_{22}$ & ... & $O_{2c}$& $\sum_{j=1}^cO_{2j}$   \\\cline{2-7}
& ...& ... & ... & ... & ...& ...  \\\cline{2-7}
& $X_c^{(1)}$ & $O_{c1}$ & $O_{c2}$ & ... & $O_{cc}$& $\sum_{j=1}^cO_{cj}$   \\\cline{2-7}
& Suma & $\sum_{i=1}^cO_{i1}$ & $\sum_{i=1}^cO_{i2}$ & ... & $\sum_{i=1}^cO_{ic}$& $n=\sum_{i=1}^c\sum_{j=1}^cO_{ij}$\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & O_{ij}=O_{ji},\\
\mathcal{H}_1: & O_{ij}\neq O_{ji} $ dla przynajmniej jednej pary $ O_{ij}, O_{ji},
\end{array}

gdzie $j\neq i$, $j\in{1,2,...,c}$, $i\in{1,2,...,c}$, zatem $O_{ij}$ i $O_{ji}$ to liczności symetrycznych par w tabeli $c\times c$

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=\sum_{i=1}^c\sum_{j>i}\frac{(O_{ij}-O_{ji})^2}{O_{ij}+O_{ji}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z liczbą stopni swobody wyliczaną według wzoru $df=\frac{c(c-1)}{2}$.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład (plik opinia.pqs)

Przeprowadzono 2 badania opinii studentów na temat określonego wykładowcy akademickiego. Oba badania pozwalały ocenić wykładowcę negatywnie, pozytywnie, lub wybrać odpowiedź neutralną - nie mam zdania. Oba badania przeprowadzono na tej samej próbie 250 studentów z tym, że pierwsze badanie dokonano dzień przed egzaminem z przedmiotu prowadzonego przez ocenianego wykładowcę a drugie dzień po egzaminie. Poniżej przedstawiono fragment danych w postaci surowej oraz całość danych w postaci tabeli kontyngencji. Chcemy zbadać, czy obydwa badania dają podobne wyniki.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $liczba studentów którzy zmienili swoją opinię jest taka sama$\\
&$ dla każdej z możliwych symetrycznych zmian opinii,$\\
\mathcal{H}_1: & $liczba studentów którzy zmienili swoją opinię jest inna$\\
&$ dla przynajmniej jednej z możliwych (symetrycznych) zmian opinii,$
\end{array}
$

gdzie np. zmiana opinii z pozytywnej na negatywną jest symetryczna względem zmiany opinii z negatywnej na pozytywną.

Porównując wartość $p$ dla testu Bowkera $p<0.000001$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że opinie studentów zmieniły się. Z tabeli wynika, że istotnie więcej było tych studentów, którzy zmienili swoją opinię na negatywną po egzaminie niż tych którzy zmienili ją na pozytywną, oraz wielu studentów oceniających przed egzaminem wykładowcę pozytywnie po egzaminie nie wyrażało już takiego zdania.

Gdybyśmy ograniczyli nasze badanie do osób mających zdefiniowany pogląd na temat wykładowcy (tzn. oceniają tylko pozytywnie lub negatywnie), to moglibyśmy wykorzystać test McNemara:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $liczba studentów którzy zmienili swoją opinię z negatywnej na pozytywną$\\
&$ jest taka sama jak tych, którzy zmienili ją z pozytywnej na negatywną,$\\
\mathcal{H}_1: & $liczba studentów którzy zmienili swoją opinię z negatywnej na pozytywną$\\
&$ jest inna niż tych, którzy zmienili ją z pozytywnej na negatywną.$
\end{array}
$

Porównując wartość $p$ dla testu McNemara $p<0.000001$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że opinie studentów zmieniły się. Istotnie więcej było tych studentów, którzy zmienili swoją opinie na negatywną po egzaminie niż tych którzy zmienili ją na pozytywną. Szansa zmiany opinii z pozytywnej (przed egzaminem) na negatywną (po egzaminie) jest jedenaście $\left(\frac{44}{4}\right)$ razy większa niż z negatywnej na pozytywną (szansa zmiany opinii w przeciwną stronę to: $\left(\frac{4}{44}\right)$ czyli 0.090909).

2014/08/22 20:00
1)
Mann H. and Whitney D. (1947), On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 1 8 , 5 0 4
2) , 7)
Wilcoxon F. (1949), Some rapid approximate statistical procedures. Stamford, CT: Stamford Research Laboratories, American Cyanamid Corporation
3) , 8)
Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks/Cole Publishing Company
4) , 9)
Fritz C.O., Morris P.E., Richler J.J.(2012), Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General., 141(1):2–18.
5) , 10)
Cohen J. (1988), Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum Associates, Hillsdale, New Jersey
6)
Wilcoxon F. (1945), Individual comparisons by ranking methods. Biometries, 1, 80-83
11)
Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345
12)
Freeman G.H. and Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika 38:141-149
13)
Mehta C.R. and Patel N.R. (1986), Algorithm 643. FEXACT: A Fortran subroutine for Fisher's exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software, 12, 154–161
14)
Yates F. (1934), Contingency tables involving small numbers and the chi-square test. Journal of the Royal Statistical Society, 1,2 17-235
15)
Fisher R.A. (1934), Statistical methods for research workers (5th ed.). Edinburgh: Oliver and Boyd.
16)
Fisher R.A. (1935), The logic of inductive inference. Journal of the Royal Statistical Society, Series A, 98,39-54
17)
Lancaster H.O. (1961), Significance tests in discrete distributions. Journal of the American Statistical Association 56:223-234
18)
Anscombe F.J. (1981), Computing in Statistical Science through APL. Springer-Verlag, New York
19)
Pratt J.W. and Gibbons J.D. (1981), Concepts of Nonparametric Theory. Springer-Verlag, New York
20)
Plackett R.L. (1984), Discussion of Yates' „Tests of significance for 2×2 contingency tables”. Journal of Royal Statistical Society Series A 147:426-463
21)
Miettinen O.S. (1985), Theoretical Epidemiology: Principles of Occurrence Research in Medicine. John Wiley and Sons, New York
22)
Barnard G.A. (1989), On alleged gains in power from lower p-values. Statistics in Medicine 8:1469-1477
23)
Rothman K.J., Greenland S., Lash T.L. (2008), Modern Epidemiology, 3rd ed. (Lippincott Williams and Wilkins) 221-225
24)
Cochran W.G. (1954), Some methods for strengthening the common chi-squared tests. Biometrics. 10 (4): 417–451
25)
Armitage P. (1955), Tests for Linear Trends in Proportions and Frequencies. Biometrics. 11 (3): 375–386
26)
Bender R. (2001), Calculating confidence intervals for the number needed to treat. Controlled Clinical Trials 22:102–110
27) , 29) , 33)
Newcombe R.G. (1998), Interval Estimation for the Difference Between Independent Proportions: Comparison of Eleven Methods. Statistics in Medicine 17: 873-890
28) , 34)
Wilson E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212
30)
Miettinen O.S. and Nurminen M. (1985), Comparative analysis of two rates. Statistics in Medicine 4: 213-226
31)
Beal S.L. (1987), Asymptotic confidence intervals for the difference between two binomial parameters for use with small samples. Biometrics 43: 941-950
32)
Wallenstein S. (1997), A non-iterative accurate asymptotic confidence interval for the difference between two Proportions. Statistics in Medicine 16: 1329-1336
35) , 36)
Altman D.G. (1998), Confidence intervals for the number needed to treat. BMJ. 317(7168): 1309–1312
37)
McNemar Q. (1947), Note on the sampling error of the difference between correlated proportions or percentages. Psychometrika, 12, 153-157
38)
Rufibach K. (2010), Assessment of paired binary data; Skeletal Radiology volume 40, pages1–4
39)
Fagerland M.W., Lydersen S., and Laake P. (2013), The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional, BMC Med Res Methodol; 13: 91
40)
Liddell F.D.K. (1983), Simplified exact analysis of case-referent studies; matched pairs; dichotomous exposure. Journal of Epidemiology and Community Health; 37:82-84
41)
Bowker A.H. (1948), Test for symmetry in contingency tables. Journal of the American Statistical Association, 43, 572-574