Test chi-kwadrat oraz test Fishera dużych tabel

Testy te opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których pierwsza ma możliwe $r$ kategorii $X_1, X_2,..., X_r$ a druga $c$ kategorii $Y_1, Y_2,..., Y_c$.

Podstawowe warunki stosowania:

Dodatkowy warunek dla testu $\chi^2$ :

  • duże liczności oczekiwane (według interpretacji Cochrana (1952)1) żadna z liczności oczekiwanych nie może być $<1$ oraz nie więcej niż 20% liczności oczekiwanych może być $<5$).
  • Hipotezy w brzmieniu ogólnym:

$\mathcal{H}_0: & O_{ij}=E_{ij} $ dla wszystkich kategorii,
$\mathcal{H}_1: & O_{ij} \neq E_{ij} $ dla przynajmniej jednej kategorii.

gdzie:

$O_{ij}$ $-$ liczności obserwowane w tabeli kontyngencji,
$E_{ij}$ $-$ liczności oczekiwane w tabeli kontyngencji.

  • Hipotezy w brzmieniu testu niezależności:

$\mathcal{H}_0: & $ nie istnieje zależność pomiędzy badanymi cechami populacji (obie klasyfikacje ze względu na cechę X i na cechę Y są statystycznie niezależne),
$\mathcal{H}_1: & $ istnieje zależność pomiędzy badanymi cechami populacji.

  • Hipotezy w brzmieniu testu homogeniczności:

$\mathcal{H}_0 : & w badanej populacji rozkład kategorii cechy X jest taki sam dla każdej kategorii cechy Y,
$\mathcal{H}_1 : & w badanej populacji rozkład kategorii cechy X jest inny dla przynajmniej jednej kategorii cechy Y.

Wyznaczoną wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test chi-kwadrat dla tabel $R\times C$

Test $\chi^2$dla tabel $r\times c$ znany jest również pod nazwą testu $\chi^2$ Pearsona (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest rozszerzeniem na 2 cechy testu chi-kwadrat (dobroci dopasowania). Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)(c-1)$.
Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Chi-kwadrat (RxC) lub poprzez ''Kreator''.

Przykład (plik kraj-wykształcenie.pqs)

Rozpatrujemy próbę 605 osób ($n=605$), dla których badamy 2 cechy ($X$=kraj zamieszkania, $Y$=wykształcenie). Pierwsza cecha występuje w 4, a druga w 3 kategoriach ($X_1$=Kraj 1, $X_2$=Kraj 2, $X_3$=Kraj 3, $X_4$=Kraj 4, $Y_1$=podstawowe, $Y_2$=średnie, $Y_3$=wyższe). Rozkład danych przedstawia tabela kontyngencji:

Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy wykształceniem a krajem zamieszkania.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji.$
\end{array}
$

Tabela liczności oczekiwanych nie zawiera wartości mniejszych niż 5.

Wartość $p=0.03174$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy krajem zamieszkania a wykształceniem w badanej populacji.

Test Fishera dla tabel $R\times C$

Test Fishera dla tabel $r\times c$ zwany jest również testem Fishera-Freemana-Haltona (ang. Fisher-Freeman-Halton test), Freeman G.H., Halton J.H. (1951)2). Test ten jest rozszerzeniem na tabele $r\times c$ testu dokładnego Fishera. Określa dokładne prawdopodobieństwo wystąpienia konkretnego rozkładu liczb w tabeli przy znanym $n$ i ustalonych sumach brzegowych.

Jeśli sumy brzegowe wierszy zdefiniujemy jako:

\begin{displaymath}
W_i=\sum_{j=1}^cO_{ij},
\end{displaymath}

gdzie:

$ O_{ij} $ $-$ liczności obserwowane w tabeli kontyngencji,

a sumy brzegowe kolumn jako:

\begin{displaymath}
K_i=\sum_{i=1}^rO_{ij}.
\end{displaymath}

To przy ustalonych sumach brzegowych, dla różnych układów wartości obserwowanych oznaczonych jako $U_{ij}$ wyznaczamy prawdopodobieństwa $P$:

\begin{displaymath}
P=\frac{D^{-1}\prod_{j=1}^{c}K_j!}{U_{1j}!U_{2j}!\dots U_{rj}},
\end{displaymath}

gdzie \begin{displaymath}
D=\frac{(W_1+W_2+\dots+W_r)!}{W_1!W_2!\dots W_r!}.
\end{displaymath}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw $P$ (wyznaczonych dla nowych wartości $U_{ij}$), które są mniejsze lub równe prawdopodobieństwu $P$ tabeli z wartościami początkowymi $O_{ij}$
Porównujemy dokładną wartość $p$ z poziomem istotności $\alpha$:.
Okno z ustawieniami opcji testu dokładny Fishera (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Fisher (RxC) lub poprzez ''Kreator''.

Info.

Procedura obliczania wartości $p$ dla tego testu bazuje na algorytmie opublikowanym w pracy Mehta (1986)3).

Uwaga!

Porównania dotyczące 2 wybranych kategorii można wykonać wykorzystując testy dla tabel kontyngencji $2\times2$ i poprawkę Bonferroniego 4) lub inną z poprawek opisanych w dziale Wielokrotne porównania.

1)
Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345
2)
Freeman G.H. and Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika 38:141-149
3)
Mehta C.R. and Patel N.R. (1986), Algorithm 643. FEXACT: A Fortran subroutine for Fisher's exact test on unordered r*c contingency tables. ACM Transactions on Mathematical Software, 12, 154–161
4)
Abdi H. (2007), Bonferroni and Sidak corrections for multiple comparisons„, in N.J. Salkind (ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks, CA: Sage

Narzędzia witryny