Test chi-kwadrat dla dużych tabel

Test ten opierają się na danych zebranych w postaci tabeli kontyngencji 2 cech ($X$, $Y$), z których pierwsza ma możliwe $r$ kategorii $X_1, X_2,..., X_r$ a druga $c$ kategorii $Y_1, Y_2,..., Y_c$.

Test $\chi^2$dla tabel $r\times c$ znany jest również pod nazwą testu $\chi^2$ Pearsona (ang. Pearson's Chi-square test), Karl Pearson 1900. Test ten jest rozszerzeniem na 2 cechy testu chi-kwadrat (dobroci dopasowania). Statystyka testowa ma postać:

\begin{displaymath}
\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)(c-1)$.
Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności poziomem istotności $\alpha$.

Okno z ustawieniami opcji testu Chi-kwadrat (RxC) wywołujemy poprzez menu StatystykaTesty nieparametryczneChi-kwadrat, Fisher, OR/RR lub poprzez ''Kreator''.

Przykład (plik kraj-wykształcenie.pqs)

Rozpatrujemy próbę 605 osób ($n=605$), dla których badamy 2 cechy ($X$=kraj zamieszkania, $Y$=wykształcenie). Pierwsza cecha występuje w 4, a druga w 3 kategoriach ($X_1$=Kraj 1, $X_2$=Kraj 2, $X_3$=Kraj 3, $X_4$=Kraj 4, $Y_1$=podstawowe, $Y_2$=średnie, $Y_3$=wyższe). Rozkład danych przedstawia tabela kontyngencji:

Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy wykształceniem a krajem zamieszkania.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji,$\\
\mathcal{H}_1: & $istnieje zależność pomiędzy wykształceniem a krajem zamieszkania$\\
&$w badanej populacji.$
\end{array}
$

Warunek Cochrana jest spełniony.

Wartość $p=0.0006$. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że istniej zależność pomiędzy krajem zamieszkania a wykształceniem w badanej populacji.

Jeśli interesują nas dokładniejsze informacje na temat wykrytych zależności, uzyskamy je wyznaczając porównania wielokrotne poprzez opcje Fisher, Yates i inne… a następnie Wielokrotne porównania kolumn (RxC) i jedną z poprawek np. Benjamini-Hochberg

Dokładniejsza analiza pozwala stwierdzić, że jedynie drugi kraj różni się poziomem wykształcenia od pozostałych krajów w sposób istotny statystycznie.