Test chi-kwadrat oraz test Fishera dużych tabel

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których pierwsza ma możliwe $r$ kategorii $X_1, X_2,..., X_r$ a druga $c$ kategorii $Y_1, Y_2,..., Y_c$.

Podstawowe warunki stosowania:

Dodatkowy warunek dla testu $\chi^2$ :

$\mathcal{H}_0: & O_{ij}=E_{ij} $ dla wszystkich kategorii,
$\mathcal{H}_1: & O_{ij} \neq E_{ij} $ dla przynajmniej jednej kategorii.

gdzie:

$O_{ij}$ $-$ liczności obserwowane w tabeli kontyngencji,
$E_{ij}$ $-$ liczności oczekiwane w tabeli kontyngencji.

  • Hipotezy w brzmieniu testu niezależności:

$\mathcal{H}_0: & $ nie istnieje zależność pomiędzy badanymi cechami populacji (obie klasyfikacje ze względu na cechę X i na cechę Y są statystycznie niezależne),
$\mathcal{H}_1: & $ istnieje zależność pomiędzy badanymi cechami populacji.

Wyznaczoną wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Jeśli na podstawie testu wykonanego dla tabeli większej niż 2×2 stwierdzimy występowanie istotnych zależności lub różnic, wówczas można wykonać wielokrotne porównania wraz z odpowiednią korektą porównań wielokrotnych po to, by zlokalizować umiejscowienie tych zależności/różnic. Korekta taka może być dokonana automatycznie, gdy tabela ma wiele kolumn. Wówczas w oknie opcji testu należy zaznaczyć Wielokrotne porównania kolumn (RxC).

Test chi-kwadrat dla tabel $R\times C$

Test $\chi^2$dla tabel $r\times c$ znany jest również pod nazwą testu $\chi^2$ Pearsona (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest rozszerzeniem na 2 cechy testu chi-kwadrat (dobroci dopasowania). Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)(c-1)$.
Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher, OR/RR lub poprzez ''Kreator''.

Przykład (plik kraj-wykształcenie.pqs)

Rozpatrujemy próbę 605 osób ($n=605$), dla których badamy 2 cechy ($X$=kraj zamieszkania, $Y$=wykształcenie). Pierwsza cecha występuje w 4, a druga w 3 kategoriach ($X_1$=Kraj 1, $X_2$=Kraj 2, $X_3$=Kraj 3, $X_4$=Kraj 4, $Y_1$=podstawowe, $Y_2$=średnie, $Y_3$=wyższe). Rozkład danych przedstawia tabela kontyngencji:

Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy wykształceniem a krajem zamieszkania.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji.$
\end{array}
$

Warunek Cochrana jest spełniony.

Wartość $p=0.0006$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy krajem zamieszkania a wykształceniem w badanej populacji.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że jedynie drugi kraj różni się poziomem wykształcenia od pozostałych krajów w sposób istotny statystycznie.

Test Fishera dla tabel $R\times C$

Test Fishera dla tabel $r\times c$ zwany jest również testem Fishera-Freemana-Haltona (ang. Fisher-Freeman-Halton test), Freeman G.H., Halton J.H. (1951)2). Test ten jest rozszerzeniem na tabele $r\times c$ testu dokładnego Fishera. Określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych.

Jeśli sumy brzegowe wierszy zdefiniujemy jako:

\begin{displaymath}
W_i=\sum_{j=1}^cO_{ij},
\end{displaymath}

gdzie:

$ O_{ij} $ $-$ liczności obserwowane w tabeli kontyngencji,

a sumy brzegowe kolumn jako:

\begin{displaymath}
K_i=\sum_{i=1}^rO_{ij}.
\end{displaymath}

To przy ustalonych sumach brzegowych, dla różnych układów wartości obserwowanych oznaczonych jako $U_{ij}$ wyznaczamy prawdopodobieństwa $P$:

\begin{displaymath}
P=\frac{D^{-1}\prod_{j=1}^{c}K_j!}{U_{1j}!U_{2j}!\dots U_{rj}},
\end{displaymath}

gdzie \begin{displaymath}
D=\frac{(W_1+W_2+\dots+W_r)!}{W_1!W_2!\dots W_r!}.
\end{displaymath}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw $P$ (wyznaczonych dla nowych wartości $U_{ij}$), które są mniejsze lub równe prawdopodobieństwu $P$ tabeli z wartościami początkowymi $O_{ij}$
Porównujemy dokładną wartość $p$ z poziomem istotności $\alpha$:.
Okno z ustawieniami opcji testu dokładny Fishera (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher OR/RR lub poprzez ''Kreator''.

Info.

Procedura obliczania wartości $p$ dla tego testu bazuje na algorytmie opublikowanym w pracy Mehta (1986)3).

Przykład (plik praca-profilaktyka.pqs)

W populacji osób zamieszkujących na obszarach wiejskich gminy Komorniki badano czy wykonywanie badań profilaktyki zdrowia jest uzależnione od rodzaju aktywność zawodowej mieszkańców. Zebrano losową próbę 120 osób i zapytano o wykształcenie oraz o to czy osoby te wykonują badania profilaktyczne. Pełną odpowiedź uzyskano od 113 osób.

dane_praca_profilaktyka

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.$
\end{array}
$

Warunek Cochrana nie jest spełniony, przez co nie powinniśmy stosować testu chi-kwadrat.

Wartość $p<0.0001$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy wykonywaniem badań profilaktycznych a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że specjaliści do spraw zdrowia istotnie częściej niż pozostałe grupy wykonują badania profilaktyczne (100% osób w tej grupie wykonało badania), a bezrobotni istotnie rzadziej (nikt w tej grupie nie wykonał badania). Rolnicy, inni pracownicy fizyczni i inni pracownicy umysłowi w około 50% wykonują badania profilaktyczne co powoduje, że te trzy grupy nie różnią się od siebie istotnie statystycznie. Część wartości p uzyskanych w tabeli oznaczona jest gwiazdką, oznacza ona te wyniki które powstały poprzez użycie testu dokładnego Fishera wraz z poprawką Benjaminiego-Hochberga, wartości nie oznaczone są wynikiem testu chi-kwadrat wraz z poprawką Benjaminiego-Hochberga, przy którym założenia Cochrana były spełnione

1)
Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345
2)
Freeman G.H. and Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika 38:141-149
3)
Mehta C.R. and Patel N.R. (1986), Algorithm 643. FEXACT: A Fortran subroutine for Fisher's exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software, 12, 154–161

Narzędzia witryny