pqstat.pl

Narzędzia użytkownika

Testy nieparametryczne

Test U Manna-Whitneya

Test U Manna-Whitneya (ang. Mann-Whitney U test) znany jest również jako test Wilcoxona Manna-Whitneya (ang. Wilcoxon Mann-Whitney test), Mann i Whitney (1947)1) oraz Wilcoxon (1949)2). Test ten służy do weryfikacji hipotezy o nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach (przy czym zakładamy, że rozkłady zmiennej są sobie bliskie).

Podstawowe warunki stosowania:

Hipotezy dotyczą równości średnich rang dla porównywanych populacji lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: & \theta_1=\theta_2,\\
\mathcal{H}_1: & \theta_1\neq\theta_2,
\end{array}

gdzie:

$\theta_1, \theta_2$ to mediany badanej zmiennej w pierwszej i drugiej populacji.

Wyznaczamy wartość statystyki testowej, a na jej podstawie wartość $p$, którą porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • Dla małej liczności próby

\begin{displaymath}
U=n_1n_2+\frac{n_1(n_1+1)}{2}-R_1,
\end{displaymath}

lub

\begin{displaymath}
U'=n_1n_2+\frac{n_2(n_2+1)}{2}-R_2,
\end{displaymath}

gdzie $n_1, n_2$ to liczności prób, $R_1, R_2$ to sumy rang dla prób.

Statystyka ta podlega rozkładowi Manna-Whitneya i nie zawiera poprawki na rangi wiązane. Wartość dokładnego prawdopodobieństwa z rozkładu Manna-Whitneya wyliczana jest z dokładnością do części setnej ułamka.

  • Dla próby o dużej liczności

\begin{displaymath}
Z=\frac{U-\frac{n_1n_2}{2}}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}},
\end{displaymath}

gdzie:

$U$ można zastąpić przez $U'$,

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}=0$)

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Manna-Whitneya (Marascuilo and McSweeney (1977)3))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy:

\begin{displaymath}
Z=\frac{\left|U-\frac{n_1n_2}{2}\right|-0.5}{\sqrt{\frac{n_1n_2(n1+n_2+1)}{12}-\frac{n_1n_2\sum (t^3-t)}{12(n_1+n_2)(n_1+n_2-1)}}}.
\end{displaymath}

Okno z ustawieniami opcji testu U Manna-Whitneya wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane)Mann-Whitney lub poprzez ''Kreator''.

Przykład (plik komputer.pqs)

Wysunięto hipotezę, że na pewnej uczelni studenci matematyki spędzają statystycznie więcej czasu przed komputerem niż studentki matematyki. W celu weryfikacji tego przypuszczenia z populacji osób studiujących matematykę na tej uczelni wylosowano próbę liczącą 54 osoby (25 kobiet i 29 mężczyzn). Osoby te zapytano o to jak dużo czasu dziennie spędzają przy komputerze (czas w godzinach) i otrzymano następujące wyniki:

(czas, płeć): (2, k) (2, m) (2, m) (3, k) (3, k) (3, k) (3, k) (3, m) (3, m) (4, k) (4, k) (4, k) (4, k) (4, m) (4, m) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, k) (5, m) (5, m) (5, m) (5, m) (6, k) (6, k) (6, k) (6, k) (6, k) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (6, m) (7, k) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (7, m) (8, k) (8, m) (8, m).}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $mediana czasu spędzanego przed komputerem jest taka sama $\\
& $w populacji studentek i studentów badanej uczelni, $\\
\mathcal{H}_1: & $mediana czasu spędzanego przed komputerem jest inna$\\
& $dla populacji studentek i dla studentów badanej uczelni.$
\end{array}
$

Na podstawie przyjętego poziomu $\alpha=0.05$ i statystyki $Z$ testu Manna-Whitneya bez poprawki na ciągłość ($p$=0.015441) jak i z tą poprawką $p=0.015821$, jak też na podstawie dokładnej statystyki $U$ ($p$=0.014948) możemy przyjąć, że istnieją ważne statystycznie różnice pomiędzy studentkami a studentami matematyki w ilości czasu spędzanego przed komputerem. Różnice te polegają na tym, że studentki spędzają mniej czasu przed komputerem niż studenci (średnia rang dla kobiet wynosi 22.02 (mediana 5) i jest znacznie niższa niż średnia rang dla mężczyzn, która wynosi 32.22 (mediana 6)).

 

Test Wilcoxona (kolejności par)

Test kolejności par Wilcoxona (ang. Wilcoxon matched-pairs test), znany również pod nazwą testu Wilcoxona dla grup zależnych, Wilcoxon (19454),19495)). Stosuje się go w sytuacji gdy pomiarów badanej zmiennej dokonujemy dwukrotnie w różnych warunkach. Jest on rozszerzeniem na dwie zależne próby testu rangowanych znaków Wilcoxona (przeznaczonego dla jednej próby). Interesuje nas różnica pomiędzy parami pomiarów badanej cechy ($d_i=x_{1i}-x_{2i}$) dla każdego z $i$ badanych obiektów. Różnica ta wykorzystywana jest do weryfikacji hipotezy o tym, że mediana dla niej (dla różnicy) w badanej populacji wynosi 0.

Podstawowe warunki stosowania:

Hipotezy dotyczą równości sumy rang dodatnich i ujemnych lub są upraszczane do median:

\begin{array}{cl}
\mathcal{H}_0: &  \theta_0=0, \\
\mathcal{H}_1: &  \theta_0\neq 0,
\end{array}

gdzie:

$ \theta_0$ to - mediana $d_i$ w populacji.

Wyznaczamy wartość statystyki testowej, a na jej podstawie wartość $p$, którą porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • Dla małej liczności próby

\begin{displaymath}
T=\min\left(\sum R_-,\sum R_+\right),
\end{displaymath}

gdzie:

$\sum R_+$ $-$ suma rang dodatnich,

$\sum R_-$ $-$ suma rang ujemnych.

Statystyka ta podlega rozkładowi Wilcoxona i nie zawiera poprawki na rangi wiązane.

  • Dla próby o dużej liczności

\begin{displaymath}
Z=\frac{T-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}},
\end{displaymath}

gdzie:

$n$ $-$ ilość rangowanych znaków (ilość rang),

$t$ $-$ liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\frac{\sum t^3-\sum t}{48}=0$).

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Wilcoxona (Marascuilo and McSweeney (1977)6))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy wzorem:

\begin{displaymath}
Z=\frac{\left|T-\frac{n(n+1)}{4}\right|-0.5}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}}.
\end{displaymath}

Okno z ustawieniami opcji testu Wilcoxona dla grup zależnych wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane)Wilcoxon (kolejności par) lub poprzez ''Kreator''.

Przykład (plik ból.pqs)

Pobrano próbę 22 pacjentów cierpiących na raka. Badano u nich poziom odczuwanego bólu (na skali od 1 do 10, gdzie 1 to brak bólu a 10 to ból największy). Badanie to powtórzono po miesiącu stosowania kuracji nowym lekiem mającym obniżyć poziom odczuwanego bólu. Otrzymano następujące wyniki:

(przed, po): (2, 2) (2, 3) (3, 1) (3,1) (3, 2) (3, 2) (3, 3) (4, 1) (4, 3) (4, 4) (5, 1) (5, 1) (5, 2) (5, 4) (5, 4) (6, 1) (6, 3) (7, 2) (7, 4) (7, 4) (8, 1) (8, 3). Chcemy sprawdzić, czy zastosowana kuracja ma wpływ na poziom odczuwanego bólu w populacji z której pochodzi próba.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $w badanej populacji mediana różnic pomiędzy poziomem bólu przed $\\
& $i po miesiącu kuracji wynosi 0,$\\
\mathcal{H}_1: & $w badanej populacji mediana różnic pomiędzy poziomem bólu przed $\\
& $i po miesiącu kuracji jest różna od 0.$
\end{array}
$

Porównując wartość $p= 0.0001$ testu Wilcoxona opartego o statystykę $T$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie różnica w poziomie odczuwanego bólu pomiędzy dwoma badaniami. Różnica te polega na tym, że poziom bólu spadł (suma rang ujemnych jest znacznie większa niż suma rang dodatnich). Taką samą decyzję podjęlibyśmy również na podstawie wartości $p=0.00021$ lub $p=0.00023$ testu Wilcoxona opartego o statystykę $Z$ lub $Z$ z poprawką na ciągłość.

 

Testy dla tabel kontyngencji

Testy dla tabel kontyngencji mogą być wyliczane na podstawie danych zebranych w tabele kontyngencji lub na podstawie danych w postaci surowej. Przy czym istnieje możliwość transformacji danych z tabeli kontyngencji do postaci surowej lub odwrotnie.

Przykład (plik płeć-wykształcenie.pqs)

Rozpatrzmy próbę składającą się z 34 osób ($n=34$). Badamy 2 cechy tych osób ($X$=płeć, $Y$=wykształcenie). Płeć występuje w 2 kategoriach ($X_1$=kobieta, $X_2$=mężczyzna) wykształcenie w 3 kategoriach, ($Y_1$= podstawowe + zawodowe $Y_2$=średnie, $Y_3$=wyższe).

W przypadku danych surowych, po otwarciu okna opcji testu np. testu $\chi^2$ dla tabel $C\times R$, zaznaczona będzie automatycznie opcja dane surowe.

W przypadku danych zebranych w tabeli kontyngencji dobrze jest zaznaczyć te dane (wartości liczbowe bez nagłówków) przed uruchomieniem okna testu. Wówczas po otwarciu okna testu zaznaczona będzie automatycznie opcja tabela kontyngencji i dane z zaznaczenia zostaną wyświetlone.

W oknie testu zawsze możemy zmienić automatycznie wykryte ustawienie dotyczące formy organizacji danych, jak też wpisywać z poziomu okna dane do tabeli kontyngencji.

W rezultacie oprócz statystyki testowej i wartości p możemy zwrócić do raportu:

  • Tabelę kontyngencji liczności obserwowanych $-$ czyli dane w postaci tabeli kontyngencji. Tabela taka przedstawia rozkład obserwacji dla kilku cech (kilku zmiennych). Tabelę dla 2 cech ($X$, $Y$), z których pierwsza ma możliwych $r$ a druga $c$ kategorii przedstawiono poniżej).

\begin{tabular}{|c|c||c|c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności}& \multicolumn{5}{|c|}{Cecha Y}\\\cline{3-7}
\multicolumn{2}{|c||}{ obserwowane $O_{ij}$} & $Y_1$ & $Y_2$ & ... & $Y_c$ & Suma \\\hline \hline
\multirow{5}{*}{Cecha $X$}& $X_1$ & $O_{11}$ & $O_{12}$ & ... & $O_{1c}$& $\sum_{j=1}^cO_{1j}$  \\\cline{2-7}
& $X_2$ & $O_{21}$ & $O_{22}$ & ... & $O_{2c}$& $\sum_{j=1}^cO_{2j}$   \\\cline{2-7}
& ...& ... & ... & ... & ...& ...  \\\cline{2-7}
& $X_r$ & $O_{r1}$ & $O_{r2}$ & ... & $O_{rc}$& $\sum_{j=1}^cO_{rj}$   \\\cline{2-7}
& Suma & $\sum_{i=1}^rO_{i1}$ & $\sum_{i=1}^rO_{i2}$ & ... & $\sum_{i=1}^rO_{ic}$& $n=\sum_{i=1}^r\sum_{j=1}^cO_{ij}$\\\hline
\end{tabular}

Liczności obserwowane $O_{ij}$ ($i=1,2,\dots,r;j=1,2,\dots,c$) przedstawiają częstość występowania poszczególnych kategorii dla obu cech.

By tabela taka była zwrócona przez program należy w oknie testu wybrać opcję dołącz analizowane dane.

Dla danych z przykładu tabela kontyngencji liczności obserwowanych przedstawia się następująco:

  • Tabelę kontyngencji liczności oczekiwanych $-$ dla każdej tabeli kontyngencji liczności obserwowanych można utworzyć odpowiadającą jej tabelę liczności oczekiwanych: $E_{ij}$.

\begin{tabular}{|c|c||c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności }& \multicolumn{4}{|c|}{Cecha Y}\\\cline{3-6}
\multicolumn{2}{|c||}{oczekiwane $E_{ij}$} & $Y_1$ & $Y_2$ & ... & $Y_c$ \\\hline \hline
\multirow{4}{*}{Cecha $X$}& $X_1$ & $E_{11}$ & $E_{12}$ & ... & $E_{1c}$\\\cline{2-6}
& $X_2$ & $E_{21}$ & $E_{22}$  & ... & $E_{2c}$ \\\cline{2-6}
& ...& ... & ... & ... & ... \\\cline{2-6}
& $X_r$ & $E_{r1}$ & $E_{r2}$ & ... & $E_{rc}$\\\hline
\end{tabular}

gdzie:

$E_{11}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{1j}}{n}$, $E_{12}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{1j}}{n}$, $E_{1c}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{1j}}{n}$

$E_{21}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{2j}}{n}$, $E_{22}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{2j}}{n}$, $E_{2c}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{2j}}{n}$

$E_{r1}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{rj}}{n}$, $E_{r2}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{rj}}{n}$, $E_{rc}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{rj}}{n}$.

Dla danych z przykładu tabela kontyngencji liczności oczekiwanych przedstawia się następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy kolumn.

Dla danych z przykładu tabela ta przedstawia się następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy wierszy.

Dla danych z przykładu tabela ta przedstawia sie następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy całkowitej wierszy i kolumn.

Dla danych z przykładu tabela ta przedstawia się następująco:

W badaniu tabel kontyngencji możemy wyróżnić 2 podejścia. Możemy badać niezależność obu cech lub homogeniczność czyli sprawdzać czy występują różnice w rozkładach kategorii jednej cechy dla kategorii drugiej cechy. Oba te podejścia choć brzmią inaczej w rezultacie sprowadzają się do wykonywania tych samych obliczeń.

 

Test chi-kwadrat dla trendu dla tabel Rx2

Test $\chi^2$ dla trendu (ang. Chi-square test for trend) służy do weryfikacji hipotezy o istnieniu trendu w proporcjach dla poszczególnych kategorii badanej zmiennej (cechy). Opiera się na danych zebranych w postaci tabeli kontyngencji 2 cech, z których pierwsza ma możliwe $r$ uporządkowanych kategorii: $X_1, X_2,..., X_r$ a druga 2 kategorie $G_1$, $G_2$.

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{Cecha 2 (grupa)}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & $G_1$ & $G_2$ & Suma \\\hline \hline
\multirow{5}{*}{Cecha 1 (cecha $X$)}& $X_1$& $O_{11}$ & $O_{12}$ & $W_1=O_{11}+O_{12}$  \\\cline{2-5}
& $X_2$ & $O_{21}$ & $O_{22}$ & $W_2=O_{21}+O_{22}$  \\\cline{2-5}
& ... & ... & ... & ...  \\\cline{2-5}
& $X_r$ & $O_{r1}$ & $O_{r2}$ & $W_r=O_{r1}+O_{r2}$  \\\cline{2-5}
& Suma & $C_1=\sum_{i=1}^rO_{i1}$ & $C_2=\sum_{i=1}^rO_{i2}$ & $n=C_1+C_2$\\\hline
\end{tabular}

Podstawowe warunki stosowania:

Niech $p_1, p_2, ..., p_r$ oznaczają proporcje $p_1=\frac{O_{11}}{W_1}$, $p_2=\frac{O_{21}}{W_2}$,…, $p_r=\frac{O_{r1}}{W_r}$.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $W badanej populacji nie istnieje trend w proporcjach $p_1, p_2, ..., p_r$, $\\
\mathcal{H}_1: & $W badanej populacji istnieje trend w proporcjach $p_1, p_2, ..., p_r$. $
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=\frac{\left[\left(\sum_{i=1}^r i\cdot O_{i1}\right) -C_1\left(\sum_{i=1}^r\frac{i\cdot W_i}{n}\right)\right]^2}{\frac{C_1}{n}\left(1-\frac{C_1}{n}\right)\left[\left(\sum_{i=1}^n i^2 W_i\right)-n\left(\sum_{i=1}^n\frac{i \cdot W_i}{n}\right)^2\right]}.
\end{displaymath}

Statystyk ta ma rozkład chi-kwadrat z 1 stopniem swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$ :

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji testu Chi-kwadrat dla trendu wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane)Chi-kwadrat dla trendu lub poprzez ''Kreator''.

Przykład (plik widzowie.pqs)

Z powodu spadku oglądalności pewnego serialu telewizyjnego przeprowadzono badanie opinii widzów tego serialu. W tym celu przepytano 100 osób, które rozpoczęły oglądanie serialu w ostatnim czasie i 300, które oglądają systematycznie serial od początku. Zapytano ich między innymi o ocenę stopnia zaabsorbowania widza losami bohaterów. Wyniki zapisano w tabeli poniżej:

\begin{tabular}{|c||c|c|c|}
\hline
Stopień  & \multicolumn{3}{|c|}{grupa}\\\cline{2-4}
zaciekawienia & grupa nowych widzów & grupa stałych widzów & suma \\\hline \hline
raczej niewielki & 7 & 7 & 14  \\\hline
przeciętny & 13 & 25 & 38  \\\hline
raczej wysoki & 30 & 58 & 88  \\\hline
wysoki& 24 & 99 & 123\\\hline
bardzo wysoki  & 26& 111& 137\\\hline
suma & 100 & 300& 400\\\hline
\end{tabular}

Nowi widzowie stanowią 25% badanych. Taka proporcja nie utrzymuje się jednak dla każdej kategorii „stopnia zaciekawienia” ale przedstawia się następująco:

\begin{tabular}{|c||c|c|c|}
\hline
Stopień& \multicolumn{3}{|c|}{grupa}\\\cline{2-4}
zaciekawienia & grupa nowych widzów & grupa stałych widzów & suma \\\hline \hline
raczej niewielki & $p_1$=50.00\% & 50.00\% & 100\%  \\\hline
przeciętny & $p_2$=34.21\% & 65.79\% & 100\%  \\\hline
raczej wysoki & $p_3$=34.09\% & 65.91\% & 100\%  \\\hline
wysoki& $p_4$=19.51\% & 80.49\% & 100\%\\\hline
bardzo wysoki  & $p_5$=18.98\%& 81.02\%& 100\%\\\hline
\textbf{suma} & \textbf{25.00\%} & \textbf{75.00\%}& \textbf{100\%}\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $w populacji widzów serialu nie istnieje trend w proporcjach $p_1, p_2, p_3, p_4, p_5$, $\\
\mathcal{H}_1: & $w populacji widzów serialu istnieje trend w proporcjach $p_1, p_2, p_3, p_4, p_5$. $
\end{array}

Wartość $p=0.000436$, co w porównaniu z poziomem istotności $\alpha$=0.05 świadczy o prawdziwości hipotezy alternatywnej mówiącej o występowaniu trendu w proporcjach $p_1, p_2, ..., p_5$. Jak wynika z tabeli kontyngencji wartości procentowych wyliczanych z sumy kolumn, jest to trend malejący (im grupa widzów jest bardziej zainteresowana losami bohaterów serialu, tym mniejszą jej część stanowią nowi widzowie).

 

Test chi-kwadrat oraz test Fishera dużych tabel

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których pierwsza ma możliwe $r$ kategorii $X_1, X_2,..., X_r$ a druga $c$ kategorii $Y_1, Y_2,..., Y_c$.

Podstawowe warunki stosowania:

Dodatkowy warunek dla testu $\chi^2$ :

  • duże liczności oczekiwane (według interpretacji Cochrana (1952)7) żadna z liczności oczekiwanych nie może być $<1$ oraz nie więcej niż 20% liczności oczekiwanych może być $<5$).
  • Hipotezy w brzmieniu ogólnym:

$\mathcal{H}_0: & O_{ij}=E_{ij} $ dla wszystkich kategorii,
$\mathcal{H}_1: & O_{ij} \neq E_{ij} $ dla przynajmniej jednej kategorii.

gdzie:

$O_{ij}$ $-$ liczności obserwowane w tabeli kontyngencji,
$E_{ij}$ $-$ liczności oczekiwane w tabeli kontyngencji.

  • Hipotezy w brzmieniu testu niezależności:

$\mathcal{H}_0: & $ nie istnieje zależność pomiędzy badanymi cechami populacji (obie klasyfikacje ze względu na cechę X i na cechę Y są statystycznie niezależne),
$\mathcal{H}_1: & $ istnieje zależność pomiędzy badanymi cechami populacji.

  • Hipotezy w brzmieniu testu homogeniczności:

$\mathcal{H}_0 : & w badanej populacji rozkład kategorii cechy X jest taki sam dla każdej kategorii cechy Y,
$\mathcal{H}_1 : & w badanej populacji rozkład kategorii cechy X jest inny dla przynajmniej jednej kategorii cechy Y.

Wyznaczoną wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test chi-kwadrat dla tabel $R\times C$

Test $\chi^2$dla tabel $r\times c$ znany jest również pod nazwą testu $\chi^2$ Pearsona (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest rozszerzeniem na 2 cechy testu chi-kwadrat (dobroci dopasowania). Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)(c-1)$.
Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Chi-kwadrat (RxC) lub poprzez ''Kreator''.

Przykład (plik kraj-wykształcenie.pqs)

Rozpatrujemy próbę 605 osób ($n=605$), dla których badamy 2 cechy ($X$=kraj zamieszkania, $Y$=wykształcenie). Pierwsza cecha występuje w 4, a druga w 3 kategoriach ($X_1$=Kraj 1, $X_2$=Kraj 2, $X_3$=Kraj 3, $X_4$=Kraj 4, $Y_1$=podstawowe, $Y_2$=średnie, $Y_3$=wyższe). Rozkład danych przedstawia tabela kontyngencji:

Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy wykształceniem a krajem zamieszkania.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji.$
\end{array}
$

Tabela liczności oczekiwanych nie zawiera wartości mniejszych niż 5.

Wartość $p=0.03174$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy krajem zamieszkania a wykształceniem w badanej populacji.

Test Fishera dla tabel $R\times C$

Test Fishera dla tabel $r\times c$ zwany jest również testem Fishera-Freemana-Haltona (ang. Fisher-Freeman-Halton test), Freeman G.H., Halton J.H. (1951)8). Test ten jest rozszerzeniem na tabele $r\times c$ testu dokładnego Fishera. Określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych.

Jeśli sumy brzegowe wierszy zdefiniujemy jako:

\begin{displaymath}
W_i=\sum_{j=1}^cO_{ij},
\end{displaymath}

gdzie:

$ O_{ij} $ $-$ liczności obserwowane w tabeli kontyngencji,

a sumy brzegowe kolumn jako:

\begin{displaymath}
K_i=\sum_{i=1}^rO_{ij}.
\end{displaymath}

To przy ustalonych sumach brzegowych, dla różnych układów wartości obserwowanych oznaczonych jako $U_{ij}$ wyznaczamy prawdopodobieństwa $P$:

\begin{displaymath}
P=\frac{D^{-1}\prod_{j=1}^{c}K_j!}{U_{1j}!U_{2j}!\dots U_{rj}},
\end{displaymath}

gdzie \begin{displaymath}
D=\frac{(W_1+W_2+\dots+W_r)!}{W_1!W_2!\dots W_r!}.
\end{displaymath}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw $P$ (wyznaczonych dla nowych wartości $U_{ij}$), które są mniejsze lub równe prawdopodobieństwu $P$ tabeli z wartościami początkowymi $O_{ij}$
Porównujemy dokładną wartość $p$ z poziomem istotności $\alpha$:.
Okno z ustawieniami opcji testu dokładny Fishera (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Fisher (RxC) lub poprzez ''Kreator''.

Info.

Procedura obliczania wartości $p$ dla tego testu bazuje na algorytmie opublikowanym w pracy Mehta (1986)9).

Uwaga!

Porównania dotyczące 2 wybranych kategorii można wykonać wykorzystując testy dla tabel kontyngencji $2\times2$ i poprawkę Bonferroniego 10).

 

Test chi-kwadrat oraz test Fishera dla małych tabel

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których każda ma możliwe 2 kategorie $X_1, X_2$ oraz $Y_1, Y_2$.

Podstawowe warunki stosowania:

Dodatkowy warunek dla testu $\chi^2$:

  • duże liczności oczekiwane (według interpretacji Cochrana 195211) żadna z liczności oczekiwanych nie może być <1 oraz nie więcej niż 20% liczności oczekiwanych może być <5).
  • Hipotezy w brzmieniu ogólnym:


$
\begin{array}{cl}
\mathcal{H}_0: & O_{ij}=E_{ij} $ dla wszystkich kategorii,$\\
\mathcal{H}_1: & O_{ij} \neq E_{ij} $ dla przynajmniej jednej kategorii,$
\end{array}
$

gdzie:

$O_{ij}$ - liczności obserwowane w tabeli kontyngencji,

$E_{ij}$ - liczności oczekiwane w tabeli kontyngencji.

  • Hipotezy w brzmieniu testu niezależności:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy badanymi cechami populacji$\\
& $(obie klasyfikacje ze względu na cechę $X$ i $Y$ są statystycznie niezależne),$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy badanymi cechami populacji.$
\end{array}
$

  • Hipotezy w brzmieniu testu homogeniczności:


$
\begin{array}{cl}
\mathcal{H}_0: & $w badanej populacji rozkład kategorii cechy $X$ jest taki sam$\\
&$ dla obu kategorii cechy $Y$,$\\
\mathcal{H}_1: & $w badanej populacji rozkład kategorii cechy $X$ jest inny $\\
&$ dla obu kategorii cechy $Y$.$
\end{array}
$

Wyznaczoną wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Dodatkowo dla tabel kontyngencji $2\times 2$ program $\mathbb{PQ}$Stat wyznacza iloraz szans (ang. odds ratio - OR) jak też relatywne ryzyko (ang. relative risk - RR) wraz z przedziałami ufności. Przedziały te wyznaczane są na podstawie aproksymowanego rozkładu $\chi^2$ - gdy towarzyszą testowi $\chi^2$ lub dokładnych algorytmów - gdy towarzyszą testowi Fishera i mid-p.

Test chi-kwadrat dla tabel 2×2

Test $\chi^2$ dla tabel $2\times 2$ (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest zawężeniem testu chi-kwadrat dla tabel (r x c).

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^2\sum_{j=1}^2\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z jednym stopniem swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat, OR/RR (2×2) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Chi-kwadrat, OR/RR (2×2) lub poprzez ''Kreator''.

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ($n=170$), dla których badamy 2 cechy ($X$=płeć, $Y$=zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ($X_1$=k, $X_2$=m, $Y_1$=tak, $Y_2$=nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline
\multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5}
& m & 20 & 60 & 80 \\\cline{2-5}
& suma & 70 & 100 & 170\\\hline
\end{tabular}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji.$
\end{array}
$

Tabela liczności oczekiwanych nie zawiera wartości mniejszych niż 5.

Wartość $p=0.000053$. Zatem na poziomie istotności $\alpha=0.05$ przyjmujemy hipotezę alternatywną mówiącą o występowaniu zależności pomiędzy płcią a zdawalnością egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin)

Test chi-kwadrat z poprawką Yatesa na ciągłość

Test $\chi^2$ z poprawką Yatesa (ang. Chi-square test with Yates correction), Frank Yates (1934)12) jest testem bardziej konserwatywny od testu chi-kwadrat (trudniej niż test chi-kwadrat odrzuca hipotezę zerową). Poprawka na ciągłość ma zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu chi-kwadrat.

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^2\sum_{j=1}^2\frac{(|O_{ij}-E_{ij}|-0.5)^2}{E_{ij}}.
\end{displaymath}

Przykład c.d. (plik płeć-egzamin.pqs)

Wartość $p=0.000103$. Zatem przy użyciu poprawki Yatesa testu $\chi^2$ podobnie jak dla testu $\chi^2$ bez tej poprawki, na poziomie istotności $\alpha=0.05$ przyjmujemy hipotezę alternatywną mówiącą o występowaniu zależności pomiędzy płcią a zdawalnością egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin).

Test Fishera dla tabel 2×2

Test Fishera dla tabel $2\times 2$ nazywany jest również testem dokładnym Fishera (ang. Fisher exact test), R. A. Fisher (193413), 193514)). Test ten określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych. \begin{displaymath}
P=\frac{{O_{11}+O_{21} \choose O_{11}}{O_{12}+O_{22} \choose O_{12}}}{{O_{11}+O_{12}+O_{21}+O_{22} \choose O_{11}+O_{12}}}.
\end{displaymath} Przy znanych sumach brzegowych, dla różnych układów wartości obserwowanych wyznaczamy prawdopodobieństwa $P$. Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw, które są mniejsze lub równe badanemu prawdopodobieństwu.

Porównujemy dokładną wartość $p$ z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu dokładnego Fishera, mid-p (2×2) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Fisher, mid-p (2×2) lub poprzez ''Kreator''.

Przykład c.d. (plik płeć-egzamin.pqs)

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy płcią a zdawalnością egzaminu w badanej populacji.$
\end{array}
$

Dwustronna wartość $p = 0.000083$. Zatem przy użyciu testu dokładnego Fishera podobnie jak dla testu $\chi^2$ i $\chi^2$ z poprawką Yatesa, na poziomie istotności $\alpha=0.05$ przyjmujemy hipotezę alternatywną mówiącą o występowaniu zależności pomiędzy płcią a zdawalnością egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin).

mid-p

mid-p jest korektą testu dokładnego Fishera. Ta zmodyfikowana wartość $p$ jest rekomendowana przez wielu statystyków (Lancaster 196115), Anscombe 198116), Pratt i Gibbons 198117), Plackett 198418), Miettinen 198519) i Barnard 198920), Rothman 200821)) jako metoda zmniejszenia konserwatyzm testu dokładnego Fishera. W rezultacie testem mid-p szybciej odrzucimy hipotezę zerowa niż dokładnym testem Fishera. Dla dużych prób wartość $p$ otrzymana przy pomocy testu $\chi^2$ z poprawką Yatesa i test Fishera dają zbliżone wyniki, natomiast wartość $p$ testu $\chi^2$ bez korekcji koresponduje z wartością mid-p.

Wartość $p$ mid-p wyznaczana jest przez przekształcenie wartości prawdopodobieństwa dla testu dokładnego Fishera. Jednostronna wartość $p$ wyznaczana jest ze wzoru:

\begin{displaymath}
p_{I(mid-p)}=p_{I(Fisher)}-0.5\cdot P_{punktu(tabeli\quad zadanej)},
\end{displaymath}

gdzie:

$p_{I(mid-p)}$ $-$ wartość jednostronna $p$ testu mid-p

$p_{I(Fisher)}$ $-$ wartość jednostronna $p$ testu dokładnego Fishera

a dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw:

\begin{displaymath}
p_{II(mid-p)}=2p_{I(mid-p)},
\end{displaymath}

gdzie:

$p_{II(mid-p)}$ $-$ wartość dwustronna $p$ testu mid-p.

Przykład c.d. (plik płeć-egzamin.pqs)

Dwustronna wartość $p$ tabeli kontyngencji z przykładu (\ref{przykład plegzamin}) wynosi $p$=0.000054. Zatem na poziomie istotności $\alpha$=0.05 (podobnie jak w przypadku testu dokładnego Fishera, testu $\chi^2$ i testu $\chi^2$ z poprawką Yatesa) przyjmujemy hipotezę alternatywną mówiącą o występowaniu zależności pomiędzy płcią a zdawalnością egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin).

 

Relatywne Ryzyko i Iloraz Szans

Określenie Szansy lub Ryzyka wystąpienia badanego zjawiska na podstawie narażenia na czynnik mogący je wywoływać szacujemy na podstawie danych zebranych w tabeli kontyngencji $2\times2$:

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{badane zjawisko}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & występuje & nie występuje & Suma \\\hline \hline
\multirow{3}{*}{czynnik ryzyka}& występuje & $O_{11}$ & $O_{12}$ & $O_{11}+O_{12}$  \\\cline{2-5}
& nie występuje & $O_{21}$ & $O_{22}$ & $O_{21}+O_{22}$  \\\cline{2-5}
& Suma & $O_{11}+O_{21}$ & $O_{12}+O_{22}$ & $n=O_{11}+O_{12}+O_{21}+O_{22}$\\\hline
\end{tabular}

Jeśli przeprowadzone badanie jest badaniem typu przypadek-kontrola, wówczas dla takiej tabeli wylicza się Iloraz Szans na to, że badane zjawisko wystąpi. Zwykle są to badania retrospektywne - czyli takie, w których badacz sam decyduje o wielkości próby, w której badane zjawisko występuje i próby kontrolnej, wolnej od tego zjawiska.

Jeśli natomiast badanie jest badaniem kohortowym, wówczas dla takiej tabeli wylicza się Relatywne Ryzyko na to, że badane zjawisko wystąpi. Zwykle są to badania prospektywne - czyli takie, w których badacz dba o to, by warunki eksperymentu pozwalały na to by struktura występowania badanego zjawiska w próbie była zbliżona do struktury tego zjawiska w populacji.

Iloraz Szans (tabela $2\times 2$)

Dla wyznaczenia Ilorazu Szans (ang. Odds Ratio - OR) wylicza się szansę bycia przypadkiem w grupie narażonej na czynnik ryzyka i szansę bycia przypadkiem w grupie nie narażonej na czynnik ryzyka zgodnie z wzorami:

\begin{displaymath}
szansa_{ryzyko=tak}=\frac{O_{11}/(O_{11}+O_{12})}{O_{12}/(O_{11}+O_{12})}=\frac{O_{11}}{O_{12}},
\end{displaymath}

\begin{displaymath}
szansa_{ryzyko=nie}=\frac{O_{21}/(O_{21}+O_{22})}{O_{22}/(O_{21}+O_{22})}=\frac{O_{21}}{O_{22}}.
\end{displaymath}

Iloraz Szans to:

\begin{displaymath}
OR=\frac{O_{11}/O_{12}}{O_{21}/O_{22}}=\frac{O_{11}O_{22}}{O_{12}O_{21}}.
\end{displaymath}

  • Test do sprawdzenia istotności OR

Test ten służy do weryfikacji hipotezy o tym, że szansa na wystąpienie badanego zjawiska jest taka sama w grupie narażonej i w grupie nienarażonej na czynnik ryzyka.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & OR = 1, \\
\mathcal{H}_1: & OR \ne 1.
\end{array}

Statystyka testowa wyraża się wzorem: \begin{displaymath}
z=\frac{\ln(OR)}{SE},
\end{displaymath}

gdzie:

$SE=\sqrt{\frac{1}{O_{11}}+\frac{1}{O_{12}}+\frac{1}{O_{21}}+\frac{1}{O_{22}}}$ - błąd standardowy logarytmu Ilorazu Szans.

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Często w interpretacji istotności Ilorazu Szans posługujemy się wyznaczonym dla niego przedziałem ufności. Badamy wówczas, czy przedział ten zawiera wartość 1.

Iloraz Szans wraz z asymptotycznymi przedziałami ufności i test istotności Ilorazu Szans wyliczamy poprzez:

  • okno testu chi-kwadrat OR/RR (2×2),
  • okno Mantel-Haenszel OR/RR - dla każdej tabeli wyznaczonej przez warstwę.

Dokładne przedziały i przedziały mid-p dla Ilorazu Szans wyliczamy poprzez:

  • okno testu Fishera, mid-p (2×2).

Relatywne Ryzyko (tabela 2×2)

Dla badania kohortowego można wyznaczać Ryzyko wystąpienia badanego zjawiska (ponieważ próbaka powinna zbliżać się strukturą zjawiska, które interesuje badacza do populacji, z której została pobrana) oraz wyliczać Relatywne Ryzyko (ang. Relative Risk - RR).

Oszacowane Ryzyko wystąpienia badanego zjawiska wyraża się wzorem:

$R=\frac{O_{11}+O_{21}}{n}$

natomiast Relatywne Ryzyko:

\begin{displaymath}
RR=\frac{O_{11}/(O_{11}+O_{12})}{O_{21}/(O_{21}+O_{22})}
\end{displaymath}

  • Test do sprawdzenia istotności RR

Test ten służy do weryfikacji hipotezy o tym, że ryzyko wystąpienia badanego zjawiska jest takie samo w grupie narażonej i w grupie nienarażonej na czynnik ryzyka.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & RR = 1, \\
\mathcal{H}_1: & RR \ne 1.
\end{array}

Statystyka testowa wyraża się wzorem:

\begin{displaymath}
z=\frac{\ln(RR)}{SE},
\end{displaymath}

gdzie:

$SE=\sqrt{\frac{1}{O_{11}}-\frac{1}{0_{11}+0_{12}}+\frac{1}{O_{21}}-\frac{1}{0_{21}+0_{22}}}$ - błąd standardowy logarytmu Relatywnego Ryzyka.

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Często w interpretacji istotności Relatywnego Ryzyka posługujemy się wyznaczonym dla niego przedziałem ufności. Badamy wówczas, czy przedział ten zawiera wartość 1. Relatywne Ryzyko wraz z asymptotycznymi przedziałami ufności i test istotności Relatywnego Ryzyka wyliczamy poprzez:

  • okno testu chi-kwadrat OR/RR (2×2),
  • okno Mantel-Haenszel OR/RR - dla każdej tabeli wyznaczonej przez warstwę.
 

Test Z dla dwóch niezależnych proporcji

Test $Z$ dla dwóch niezależnych proporcji stosujemy w podobnych sytuacjach jak test chi-kwadrat (2x2), tzn. gdy mamy 2 niezależne próby o liczności $n_1$ i $n_2$, w których możemy uzyskać 2 możliwe wyniki badanej cechy (jeden z nich to wynik wyróżniony o liczności $m_1$ - w pierwszej próbie i $m_2$ - w drugiej próbie). Dla prób tych możemy również wyznaczyć wyróżnione proporcje $p_1=\frac{m_1}{n_1}$ i $p_2=\frac{m_2}{n_2}$. Test ten służy do weryfikacji hipotezy, że wyróżnione proporcje $P_1$ i $P_2$ w populacjach, z których pochodzą próby są sobie równe.
Podstawowe warunki stosowania:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & P_1=P_2,\\
\mathcal{H}_1: & P_1\neq P_2,
\end{array}
$

gdzie:

$P_1$, $P_2$ frakcja dla pierwszej i drugiej populacji.

Statystyka testowa ma postać: \begin{displaymath}
Z=\frac{p_1-p_2}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}},
\end{displaymath}

gdzie:

$p=\frac{m_1+m_2}{n_1+n_2}$.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p_1-p_2-\frac{1}{2}\left(\frac{1}{n_1}+\frac{1}{n_2} \right)}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}.
\end{displaymath}

Statystyka bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

W programie oprócz różnicy proporcji wyliczana jest wartość wskaźnika NNT.

NNT (ang. number needed to treat) $-$ wskaźnik stosowany w medycynie, oznacza liczbę pacjentów, których trzeba poddać leczeniu przez określony czas, aby wyleczyć jedną osobę.

Uwaga!

Przedziały ufności dla różnicy dwóch niezależnych proporcji od wersji PQStat 1.3.0 estymowane są w oparciu o metodę Newcomba-Wilsona. W poprzednich wersjach były estymowane w oparciu o metodę Walda.

Uzasadnienie zmiany:

Przedziały ufności oparte o klasyczną metodę Walda są odpowiednie dla dużych rozmiarów próbek i różnicy proporcji dalekiej od 0 lub 1. Dla małych prób i różnicy proporcji bliskiej tym skrajnym wartościom, w wielu sytuacjach praktycznych, metoda Walda może prowadzić do wyników niewiarygodnych (Newcombe 199822), Miettinen 198523), Beal 198724), Wallenstein 199725)). Porównanie i przeanalizowanie wielu metod, które mogą być używane zamiast prostej metody Walda, można znaleźć w pracy Newcombe (1998)26). Sugerowaną, odpowiednią również dla skrajnych wartości proporcji, jest roszerzona na przedziały dla różnicy dwóch niezależnych proporcji, metoda opublikowana po raz pierwszy przez Wilsona (1927)27).

Uwaga!

Przedział ufności dla NNT wyliczany jest w oparciu o metodę Newcomba-Wilsona (Bender (2001)28), Newcombe (1998)29), Wilson (1927)30)).

Okno z ustawieniami opcji testu Z dla dwóch niezależnych proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Z dla dwóch niezależnych proporcji.

Przykład c.d. (plik płeć-egzamin.pqs)

Wiemy, że $\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdaje pozytywnie egzamin i $\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdaje egzamin pozytywnie. Dane możemy zapisać na dwa sposoby $-$ jako licznik i mianownik dla każdej próby, lub jako proporcja i mianownik dla każdej próby:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest taka$\\
&$ sama jak kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji,$\\
\mathcal{H}_1: & $proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest inna niż$\\
&$ proporcja kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji.$
\end{array}
$

Uwaga!

Ponieważ w arkuszu danych znajduje się więcej informacji, przed rozpoczęciem analizy należy zaznaczyć odpowiedni obszar (dane bez nagłówków). W oknie testu natomiast wybrać opcję mówiącą o zawartości zmiennej (liczność (licznik) lub proporcja). Różnica proporcji wyróżnionych w próbie to 30.56%, a 95% przedział ufności dla niej (15.90%, 43.35%) nie zawiera 0.

Na podstawie testu $Z$ bez poprawki na ciągłość ($p$=0.000053) jak też z poprawką na ciągłość ($p$=0.0001), na poziomie istotności $\alpha$=0.05 (podobnie jak w przypadku testu dokładnego Fishera, jego poprawki mid-p, testu $\chi^2$ i testu $\chi^2$ z poprawką Yatesa) przyjmujemy hipotezę alternatywną. Zatem proporcja mężczyzn, uzyskujących pozytywny wynik egzaminu jest inna niż proporcja kobiet uzyskujących pozytywny wynik egzaminu w badanej populacji. Istotnie częściej ten egzamin zdają kobiety ($\frac{50}{90}=55.56\%$ z wszystkich kobiet w próbie zdało egzamin) niż mężczyźni ($\frac{20}{80}=25.00\%$ z wszystkich mężczyzn w próbie zdało egzamin).

Przykład

Załóżmy, że choroba ma śmiertelność 100% bez leczenia, a terapia zmniejsza śmiertelność do 50% - jest to wynik 20 letnich badań. Chcemy wiedzieć jak wiele osób będzie trzeba leczyć, aby zapobiec w ciągu 20 lat 1 śmierci. By odpowiedzieć na to pytanie pobrano dwie 100 osobowe próby z populacji osób chorych. W próbie nieleczonych mamy 100 chorych pacjentów, wiemy, że bez leczenia wszyscy oni umrą. W próbie leczonych mamy również 100 pacjentów, z których 50 przeżyje.

\begin{tabular}{|c|c||c|c|}\hline
\multicolumn{2}{|c||}{Chorzy $-$ nie leczeni }& \multicolumn{2}{|c|}{Chorzy $-$ leczeni}\\\hline
liczność licznik&liczność próby (mianownik)&liczność licznik&liczność próby (mianownik)\\\hline
100&100&50&100\\\hline
\end{tabular}

Wyliczymy wskaźnik NNT.

Różnica pomiędzy proporcjami jest istotna statystycznie ($p<0.000001$), ale nas interesuje wskaźnik NNT - wynosi on 2, czyli stosowanie leczenia u 2 chorych przez 20 lat zapobiegnie 1 śmierci. Wyliczony 95% przedział ufności należy zaokrąglić do wartości całkowitych, co daje NNT od 2 do 3 chorych.

 

Test McNemara, test wewnętrznej symetrii Bowkera

Podstawowe warunki stosowania:

Test McNemara

Test McNemara (ang. McNemar test), NcNemar (1947)31). Test ten służy do weryfikacji hipotezy o zgodności pomiędzy wynikami dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ (pomiędzy dwiema zmiennymi zależnymi $X^{(1)}$ i $X^{(2)}$). Badana cecha może mieć tylko 2 kategorie (oznaczone przez nas $(+)$ i $(-)$). Test McNemara można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $2\times 2$.

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{$X^{(2)}$} \\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$}&\textbf{(+)}&\textbf{($-$)}& \textbf{Suma}\\\hline \hline
\multirow{3}{*}{$X^{(1)}$} & \textbf{(+)} & $O_{11}$ & $O_{12}$ & $O_{11}+O_{12}$ \\\cline{2-5}
&\textbf{($-$)}& $O_{21}$ & $O_{22}$ & $O_{21}+O_{22}$\\\cline{2-5}
&\textbf{Suma} & $O_{11}+O_{21}$ & $O_{12}+O_{22}$ & $n=O_{11}+O_{12}+O_{21}+O_{22}$\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & O_{12}=O_{21}, \\
\mathcal{H}_1: & O_{12}\neq O_{21}.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\frac{(O_{12}-O_{21})^2}{O_{12}+O_{21}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z jednym stopniem swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Poprawka na ciągłość testu McNemara

Poprawka ta jest testem bardziej konserwatywny od testu McNemara (trudniej niż test McNemara odrzuca hipotezę zerową). Ma ona zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu $\chi^2$. Część źródeł podaje, że poprawkę na ciągłość powinno się wykonywać zawsze, natomiast część uznaje, że tylko wtedy, gdy liczności w tabeli są małe.

Statystyka testowa testu McNemara z poprawką na ciągłość ma postać:

\begin{displaymath}
\chi^2=\frac{(|O_{12}-O_{21}|-1)^2}{O_{12}+O_{21}}.
\end{displaymath}

Iloraz szans na zmianę wyniku

Jeśli przeprowadzone zostało 2 krotnie badanie tej samej cechy na tych samych obiektach - wówczas dla takiej tabeli wylicza się iloraz szans na zmianę wyniku (z $(+)$ na $(-)$ i odwrotnie).

Szansa zmiany wyniku z $(+)$ na $(-)$ wynosi $O_{12}$, a szansa zmiany wyniku z $(-)$ na $(+)$ wynosi $O_{21}$.

Iloraz szans (ang. odds ratio - OR) to:

\begin{displaymath}
OR=\frac{O_{12}}{O_{21}}.
\end{displaymath}

Przedział ufności dla ilorazu szans buduje się w oparciu o błąd standardowy: \begin{displaymath}
SE=\sqrt{\frac{1}{O_{12}}+\frac{1}{O_{21}}}.
\end{displaymath}

Okno z ustawieniami opcji testu Bowkera-McNemara wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Bowker-McNemar lub poprzez ''Kreator''.

Test wewnętrznej symetrii Bowkera

Test wewnętrznej symetrii Bowkera (ang. Bowker test of internal symmetry), Bowker (1948)32). Test ten jest rozszerzeniem testu McNemara na 2 zmienne o więcej niż dwóch kategoriach ($c>2$). Służy do weryfikacji hipotezy o symetryczności wyników dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ (symetryczności 2 zmiennych zależnych $X^{(1)}$ i $X^{(2)}$). Badana cecha może mieć więcej niż 2 kategorie. Test wewnętrznej symetrii Bowker można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $c\times c$.

\begin{tabular}{|c|c||c|c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności  obserwowane }& \multicolumn{5}{|c|}{$X^{(2)}$}\\\cline{3-7}
\multicolumn{2}{|c||}{$O_{ij}$} & $X_1^{(2)}$ & $X_2^{(2)}$ & ... & $X_c^{(2)}$ & Suma \\\hline \hline
\multirow{5}{*}{$X^{(1)}$}& $X_1^{(1)}$ & $O_{11}$ & $O_{12}$ & ... & $O_{1c}$& $\sum_{j=1}^cO_{1j}$  \\\cline{2-7}
& $X_2^{(1)}$ & $O_{21}$ & $O_{22}$ & ... & $O_{2c}$& $\sum_{j=1}^cO_{2j}$   \\\cline{2-7}
& ...& ... & ... & ... & ...& ...  \\\cline{2-7}
& $X_c^{(1)}$ & $O_{c1}$ & $O_{c2}$ & ... & $O_{cc}$& $\sum_{j=1}^cO_{cj}$   \\\cline{2-7}
& Suma & $\sum_{i=1}^cO_{i1}$ & $\sum_{i=1}^cO_{i2}$ & ... & $\sum_{i=1}^cO_{ic}$& $n=\sum_{i=1}^c\sum_{j=1}^cO_{ij}$\\\hline
\end{tabular}

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & O_{ij}=O_{ji},\\
\mathcal{H}_1: & O_{ij}\neq O_{ji} $ dla przynajmniej jednej pary $ O_{ij}, O_{ji},
\end{array}

gdzie $j\neq i$, $j\in{1,2,...,c}$, $i\in{1,2,...,c}$, zatem $O_{ij}$ i $O_{ji}$ to liczności symetrycznych par w tabeli $c\times c$

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=\sum_{i=1}^c\sum_{j>i}\frac{(O_{ij}-O_{ji})^2}{O_{ij}+O_{ji}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z liczbą stopni swobody wyliczaną według wzoru $df=\frac{c(c-1)}{2}$.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład (plik opinia.pqs)

Przeprowadzono 2 różne badania opinii studentów na temat określonego wykładowcy akademickiego. Oba badania pozwalały ocenić wykładowcę negatywnie, pozytywnie, lub wybrać odpowiedź neutralną - nie mam zdania. Oba badania przeprowadzono na tej samej próbie 250 studentów z tym, że pierwsze badanie dokonano dzień przed egzaminem z przedmiotu prowadzonego przez ocenianego wykładowcę a drugie dzień po egzaminie. Poniżej przedstawiono fragment danych w postaci surowej oraz całość danych w postaci tabeli kontyngencji. Chcemy zbadać, czy obydwa badania dają podobne wyniki.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $liczba studentów którzy zmienili swoją opinię jest taka sama$\\
&$ dla każdej z możliwych symetrycznych zmian opinii,$\\
\mathcal{H}_1: & $liczba studentów którzy zmienili swoją opinię jest inna$\\
&$ dla przynajmniej jednej z możliwych (symetrycznych) zmian opinii,$
\end{array}
$

gdzie np. zmiana opinii z pozytywnej na negatywną jest symetryczna względem zmiany opinii z negatywnej na pozytywną.

Porównując wartość $p$ dla testu Bowkera $p<0.000001$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że opinie studentów zmieniły się. Z tabeli wynika, że istotnie więcej było tych studentów, którzy zmienili swoją opinię na negatywną po egzaminie niż tych którzy zmienili ją na pozytywną, oraz wielu studentów oceniających przed egzaminem wykładowcę pozytywnie po egzaminie nie wyrażało już takiego zdania.

Gdybyśmy ograniczyli nasze badanie do osób mających zdefiniowany pogląd na temat wykładowcy (tzn. oceniają tylko pozytywnie lub negatywnie), to moglibyśmy wykorzystać test McNemara:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $liczba studentów którzy zmienili swoją opinię z negatywnej na pozytywną$\\
&$ jest taka sama jak tych, którzy zmienili ją z pozytywnej na negatywną,$\\
\mathcal{H}_1: & $liczba studentów którzy zmienili swoją opinię z negatywnej na pozytywną$\\
&$ jest inna niż tych, którzy zmienili ją z pozytywnej na negatywną.$
\end{array}
$

Porównując wartość $p$ dla testu McNemara $p<0.000001$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że opinie studentów zmieniły się. Istotnie więcej było tych studentów, którzy zmienili swoją opinie na negatywną po egzaminie niż tych którzy zmienili ją na pozytywną. Szansa zmiany opinii z pozytywnej (przed egzaminem) na negatywną (po egzaminie) jest jedenaście $\left(\frac{44}{4}\right)$ razy większa niż z negatywnej na pozytywną (szansa zmiany opinii w przeciwną stronę to: $\left(\frac{4}{44}\right)$ czyli 0.090909).

 

Test Z dla dwóch zależnych proporcji

Test $Z$ dla dwóch zależnych proporcji stosujemy w podobnych sytuacjach jak test Test McNemara, tzn. gdy mamy 2 zależne grupy pomiarów ($X^{(1)}$ i $X^{(2)}$), w których możemy uzyskać 2 możliwe wyniki badanej cechy ( $(+)$ i $(-)$ ).

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{$X^{(2)}$} \\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$}&\textbf{(+)}&\textbf{($-$)}& \textbf{Suma}\\\hline \hline
\multirow{3}{*}{$X^{(1)}$} & \textbf{(+)} & $O_{11}$ & $O_{12}$ & $O_{11}+O_{12}$ \\\cline{2-5}
&\textbf{($-$)}& $O_{21}$ & $O_{22}$ & $O_{21}+O_{22}$\\\cline{2-5}
&\textbf{Suma} & $O_{11}+O_{21}$ & $O_{12}+O_{22}$ & $n=O_{11}+O_{12}+O_{21}+O_{22}$\\\hline
\end{tabular}

Dla grup tych możemy również wyliczyć wyróżnione proporcje $p_1=\frac{O_{11}+O_{12}}{n}$ i $p_2=\frac{O_{11}+O_{21}}{n}$. Test ten służy do weryfikacji hipotezy, że wyróżnione proporcje $P_1$ i $P_2$ w populacji, z której pochodzi próba są sobie równe.
Podstawowe warunki stosowania:

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & P_1-P_2=0,\\
\mathcal{H}_1: & P_1-P_2\neq 0,
\end{array}
$

gdzie:

$P_1$, $P_2$ frakcja dla pierwszego i drugiego pomiaru.

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p_1-p_2}{\sqrt{O_{21}+O_{12}}}\cdot n,
\end{displaymath}

Statystyka Z ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Przedział ufności dla różnicy dwóch zależnych proporcji estymowany jest w oparciu o metodę Newcomba-Wilsona.

Okno z ustawieniami opcji testu Z dla dwóch zależnych proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Z dla dwóch zależnych proporcji.

Przykład c.d. (plik opinia.pqs)

Gdy ograniczymy nasze badanie do osób mających zdefiniowany pogląd na temat wykładowcy (tzn. oceniają tylko pozytywnie lub negatywnie), to takich studentów uzyskamy 152. Dane do obliczeń to: $O_{11}=50$, $O_{12}=4$, $O_{21}=44$, $O_{22}=54$. Wiemy, że $\frac{50+4}{152}=35.53\%$ studentów przed egzaminem wyrażało negatywną opinię. Po egzaminie odpowiedni procent wynosił $\frac{50+44}{152}=61.84\%$.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $brak różnicy pomiędzy liczbą negatywnych ocen dotyczących $\\
&$wykładowcy przed egzaminem i po egzaminie,$\\
\mathcal{H}_1: & $istnieje różnica pomiędzy liczbą negatywnych ocen dotyczących $\\
&$wykładowcy przed egzaminem i po egzaminie.$
\end{array}
$

Różnica proporcji wyróżnionych w próbie to 26.32%, a 95% przedział ufności dla niej (18.07%, 33.88%) nie zawiera 0.

Na podstawie testu $Z$ ($p$=0.0001), na poziomie istotności $\alpha$=0.05 (podobnie jak w przypadku testu McNemara) przyjmujemy hipotezę alternatywną. Zatem proporcja negatywnych ocen przed egzaminem jest inna niż proporcja negatywnych ocen po egzaminie. Po egzaminie istotnie częściej wykładowca jest oceniany negatywnie.

 
1) Mann H. and Whitney D. (1947), On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 1 8 , 5 0 4
2) , 5) Wilcoxon F. (1949), Some rapid approximate statistical procedures. Stamford, CT: Stamford Research Laboratories, American Cyanamid Corporation
3) , 6) Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks/Cole Publishing Company
4) Wilcoxon F. (1945), Individual comparisons by ranking methods. Biometries, 1, 80-83
7) , 11) Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345
8) Freeman G.H. and Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika 38:141-149
9) Mehta C.R. and Patel N.R. (1986), Algorithm 643. FEXACT: A Fortran subroutine for Fisher's exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software, 12, 154–161
10) Abdi H. (2007), Bonferroni and Sidak corrections for multiple comparisons„, in N.J. Salkind (ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks, CA: Sage
12) Yates F. (1934), Contingency tables involving small numbers and the chi-square test. Journal of the Royal Statistical Society, 1,2 17-235
13) Fisher R.A. (1934), Statistical methods for research workers (5th ed.). Edinburgh: Oliver and Boyd.
14) Fisher R.A. (1935), The logic of inductive inference. Journal of the Royal Statistical Society, Series A, 98,39-54
15) Lancaster H.O. (1961), Significance tests in discrete distributions. Journal of the American Statistical Association 56:223-234
16) Anscombe F.J. (1981), Computing in Statistical Science through APL. Springer-Verlag, New York
17) Pratt J.W. and Gibbons J.D. (1981), Concepts of Nonparametric Theory. Springer-Verlag, New York
18) Plackett R.L. (1984), Discussion of Yates' „Tests of significance for 2×2 contingency tables”. Journal of Royal Statistical Society Series A 147:426-463
19) Miettinen O.S. (1985), Theoretical Epidemiology: Principles of Occurrence Research in Medicine. John Wiley and Sons, New York
20) Barnard G.A. (1989), On alleged gains in power from lower p-values. Statistics in Medicine 8:1469-1477
21) Rothman K.J., Greenland S., Lash T.L. (2008), Modern Epidemiology, 3rd ed. (Lippincott Williams and Wilkins) 221-225
22) , 26) , 29) Newcombe R.G. (1998), Interval Estimation for the Difference Between Independent Proportions: Comparison of Eleven Methods. Statistics in Medicine 17: 873-890
23) Miettinen O.S. and Nurminen M. (1985), Comparative analysis of two rates. Statistics in Medicine 4: 213-226
24) Beal S.L. (1987), Asymptotic confidence intervals for the difference between two binomial parameters for use with small samples. Biometrics 43: 941-950
25) Wallenstein S. (1997), A non-iterative accurate asymptotic confidence interval for the difference between two Proportions. Statistics in Medicine 16: 1329-1336
27) , 30) Wilson E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212
28) Bender R. (2001), Calculating confidence intervals for the number needed to treat. Controlled Clinical Trials 22:102–110
31) McNemar Q. (1947), Note on the sampling error of the difference between correlated proportions or percentages. Psychometrika, 12, 153-157
32) Bowker A.H. (1948), Test for symmetry in contingency tables. Journal of the American Statistical Association, 43, 572-574

Narzędzia strony