Test Fishera dla tabel dużych tabel

Test Fishera dla tabel $r\times c$ zwany jest również testem Fishera-Freemana-Haltona (ang. Fisher-Freeman-Halton test), Freeman G.H., Halton J.H. (1951)1). Test ten jest rozszerzeniem na tabele $r\times c$ testu dokładnego Fishera. Określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych.

Jeśli sumy brzegowe wierszy zdefiniujemy jako:

\begin{displaymath}
W_i=\sum_{j=1}^cO_{ij},
\end{displaymath}

gdzie:

$ O_{ij} $ $-$ liczności obserwowane w tabeli kontyngencji,

a sumy brzegowe kolumn jako:

\begin{displaymath}
K_i=\sum_{i=1}^rO_{ij}.
\end{displaymath}

To przy ustalonych sumach brzegowych, dla różnych układów wartości obserwowanych oznaczonych jako $U_{ij}$ wyznaczamy prawdopodobieństwa $P$:

\begin{displaymath}
P=\frac{D^{-1}\prod_{j=1}^{c}K_j!}{U_{1j}!U_{2j}!\dots U_{rj}},
\end{displaymath}

gdzie \begin{displaymath}
D=\frac{(W_1+W_2+\dots+W_r)!}{W_1!W_2!\dots W_r!}.
\end{displaymath}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw $P$ (wyznaczonych dla nowych wartości $U_{ij}$), które są mniejsze lub równe prawdopodobieństwu $P$ tabeli z wartościami początkowymi $O_{ij}$
Porównujemy dokładną wartość $p$ z poziomem istotności $\alpha$:.
Okno z ustawieniami opcji testu dokładny Fishera (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher OR/RR lub poprzez ''Kreator''.

Info.

Procedura obliczania wartości $p$ dla tego testu bazuje na algorytmie opublikowanym w pracy Mehta (1986)2).

Przykład (plik praca-profilaktyka.pqs)

W populacji osób zamieszkujących na obszarach wiejskich gminy Komorniki badano czy wykonywanie badań profilaktyki zdrowia jest uzależnione od rodzaju aktywność zawodowej mieszkańców. Zebrano losową próbę 120 osób i zapytano o wykształcenie oraz o to czy osoby te wykonują badania profilaktyczne. Pełną odpowiedź uzyskano od 113 osób.

dane_praca_profilaktyka

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykonywaniem badań profilaktycznych$\\
&$a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.$
\end{array}
$

Warunek Cochrana nie jest spełniony, przez co nie powinniśmy stosować testu chi-kwadrat.

Wartość $p<0.0001$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy wykonywaniem badań profilaktycznych a rodzajem wykonywanej pracy przez mieszkańców obszarów wiejskich gminy Komorniki.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że specjaliści do spraw zdrowia istotnie częściej niż pozostałe grupy wykonują badania profilaktyczne (100% osób w tej grupie wykonało badania), a bezrobotni istotnie rzadziej (nikt w tej grupie nie wykonał badania). Rolnicy, inni pracownicy fizyczni i inni pracownicy umysłowi w około 50% wykonują badania profilaktyczne co powoduje, że te trzy grupy nie różnią się od siebie istotnie statystycznie. Część wartości p uzyskanych w tabeli oznaczona jest gwiazdką, oznacza ona te wyniki które powstały poprzez użycie testu dokładnego Fishera wraz z poprawką Benjaminiego-Hochberga, wartości nie oznaczone są wynikiem testu chi-kwadrat wraz z poprawką Benjaminiego-Hochberga, przy którym założenia Cochrana były spełnione

1)
Freeman G.H. and Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika 38:141-149
2)
Mehta C.R. and Patel N.R. (1986), Algorithm 643. FEXACT: A Fortran subroutine for Fisher's exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software, 12, 154–161