Współczynniki tabel kontyngencji i ich istotność statystyczna

Współczynniki kontyngencji są wyliczane dla danych w postaci surowej lub danych zebranych w tabelę kontyngencji.

Okno z ustawieniami opcji miar zależności dla tabel wywołujemy poprzez menu StatystykaTesty nieparametryczne Chi-kwadrat, Fisher, OR/RRWspółczynniki korelacji… lub poprzez ''Kreator''.

Współczynnik kontyngencji Q-Yulea

Współczynnik kontyngencji $Q$-Yulea (Yule's Q contingency coefficient), Yule (1900)1), jest miarą zależności, która może być wyznaczana dla tabel kontyngencji $2\times2$

\begin{displaymath}
Q=\frac{O_{11}O_{22}-O_{12}O_{21}}{O_{11}O_{22}+O_{12}O_{21}},
\end{displaymath}

gdzie:

$O_{11}, O_{12}, O_{21}, O_{22}$ - liczności obserwowane w tabeli kontyngencji.

Oryginalnie wartość współczynnika $Q$ mieści się w przedziale $<-1; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa $-$1 lub +1, tym siła badanego związku jest większa (ze względu na błędy w interpretacji ujemnej wartości współczynnika, wyniki tego współczynnika w programie PQStat przedstawiane są wówczas również jako wartość bezwzględna). Wadą tego współczynnika jest to, iż jest mało odporny na małe liczności obserwowane (gdy jakaś z liczności obserwowanych wynosi 0, to współczynnik może błędnie wskazywać całkowitą zależność cech).

Istotność statystyczną wyznaczonego współczynnika kontyngencji $Q$-Yulea określamy testem $Z$.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: &Q=0,\\
\mathcal{H}_1: &Q\neq 0.
\end{array}
$

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{Q}{\sqrt{\frac{1}{4}(1-Q^2)^2(\frac{1}{O_{11}}+\frac{1}{O_{12}}+\frac{1}{O_{21}}+\frac{1}{O_{22}})}}.
\end{displaymath}

Statystyka testowa ma asymptotycznie (dla dużych liczności $n$) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Współczynnik kontyngencji $\phi$

Współczynnik kontyngencji $\phi$ (ang. phi contingency coefficient) jest miarą zależności polecaną szczególnie dla tabel kontyngencji $2\times2$, chociaż możliwą do wyznaczenia dla dowolnych tabel.

\begin{displaymath}
\phi=\sqrt{\frac{\chi^2}{n}},
\end{displaymath}

gdzie:

$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $\phi$ mieści się w przedziale $<0; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa wartości 1 tym większa.

Współczynnik kontyngencji $\phi$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Współczynnik kontyngencji $V$-Cramera

Współczynnik kontyngencji $V$-Cramera (ang. Cramer's V contingency coefficient), Cramer (1946)2), jest rozszerzeniem współczynnika $\phi$ na tabele kontyngencji $r\times c$.

\begin{displaymath}
V=\sqrt{\frac{\chi^2}{n(w-1)}},
\end{displaymath}

gdzie:

wartość$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w$ - jest mniejszą z dwóch wartości $r$ i $c$.

Wartość współczynnika $V$ mieści się w przedziale $<0; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa +1, tym siła badanego związku jest większa. Wartość współczynnika $V$ zależy również od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $V$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Współczynnik kontyngencji C Pearsona

Współczynnik kontyngencji $C$-Pearsona (ang. Pearson's C contingency coefficient) jest miarą zależności wyznaczaną dla tabel kontyngencji $r\times c$

\begin{displaymath}
C=\sqrt{\frac{\chi^2}{\chi^2+n}},
\end{displaymath}

gdzie:

wartość $\chi^2$ - wartość statystyki testu $\chi^2$,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $C$ mieści się w przedziale $<0; 1)$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im dalsza od 0, tym siła badanego związku jest większa. Ponieważ wartość współczynnika $C$ zależy również od wielkości tabeli (im większa tabela, tym wartość $C$ może być bliższa 1), dlatego wyznacza się górną granicę jaką dla danej wielkości tabeli współczynnik $C$ może osiągnąć:

\begin{displaymath}
C_{max}=\sqrt{\frac{w-1}{w}},
\end{displaymath}

gdzie:

$w$ - jest mniejszą z dwóch wartości $r$ i $c$.

Niewygodną konsekwencją uzależnienia wartości $C$ od wielkości tabeli jest brak możliwości porównywania wartości współczynnika $C$ wyznaczonego dla różnych wielkości tabel kontyngencji. Nieco lepszą miarą w takim przypadku jest dostosowana do wielkości tabeli wielkość współczynnika kontyngencji $C_{adj}$

\begin{displaymath}
C_{adj}=\frac{C}{C_{max}}.
\end{displaymath}

Współczynnik kontyngencji $C$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ($n=170$), dla których badamy 2 cechy ($X$=płeć, $Y$=zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ($X_1$=k, $X_2$=m, $Y_1$=tak, $Y_2$=nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:}

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline
\multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5}
& m & 20 & 60 & 80 \\\cline{2-5}
& suma & 70 & 100 & 170\\\hline
\end{tabular}

Wartość statystyki testowej wynosi $\chi^2=16.33$ a wyznaczona dla niej wartość $p=0.00005$. Uzyskany wynik wskazuje na istnienie zależności statystycznej pomiędzy płcią a zdawalnością egzaminu w badanej populacji.

Wartość współczynników opartych o test $\chi^2$, a zatem siła związku między badanymi cechami to:

Współczynnik kontyngencji $C_{adj}$-Pearsona = 0.42.

Współczynnik kontyngencji $V$-Cramera = $\phi$ =0.31

Współczynnik kontyngencji $Q$-Yulea=0.58, a wartość $p$ wykonanego testu $Z$ podobnie jak poziom istotności testu $\chi^2$ wskazuje na istotność statystyczną badanego związku.

1)
Yule G. (1900), On the association of the attributes in statistics: With illustrations from the material ofthe childhood society, and c. Philosophical Transactions of the Royal Society, Series A, 194,257-3 19
2)
Cramkr H. (1946), Mathematical models of statistics. Princeton, NJ: Princeton University Press

Narzędzia witryny