PQStat - Baza Wiedzy

Współczynniki tabel kontyngencji i ich istotność statystyczna

Współczynniki kontyngencji są wyliczane dla danych w postaci surowej lub danych zebranych w tabelę kontyngencji.

Okno z ustawieniami opcji miar zależności dla tabel wywołujemy poprzez menu Statystyka→Testy nieparametryczne →Chi-kwadrat, Fisher, OR/RR→Współczynniki korelacji… lub poprzez ''Kreator''.

Współczynnik kontyngencji Q-Yulea

Współczynnik kontyngencji $Q$ -Yulea (Yule's Q contingency coefficient), Yule (1900)¹⁾, jest miarą zależności, która może być wyznaczana dla tabel kontyngencji $2\times2$

$\begin{displaymath} Q=\frac{O_{11}O_{22}-O_{12}O_{21}}{O_{11}O_{22}+O_{12}O_{21}}, \end{displaymath}$

gdzie:

$O_{11}, O_{12}, O_{21}, O_{22}$ - liczności obserwowane w tabeli kontyngencji.

Oryginalnie wartość współczynnika $Q$ mieści się w przedziale $<-1; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa $-$ 1 lub +1, tym siła badanego związku jest większa (ze względu na błędy w interpretacji ujemnej wartości współczynnika, wyniki tego współczynnika w programie PQStat przedstawiane są wówczas również jako wartość bezwzględna). Wadą tego współczynnika jest to, iż jest mało odporny na małe liczności obserwowane (gdy jakaś z liczności obserwowanych wynosi 0, to współczynnik może błędnie wskazywać całkowitą zależność cech).

Istotność statystyczną wyznaczonego współczynnika kontyngencji $Q$ -Yulea określamy testem $Z$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: &Q=0,\\ \mathcal{H}_1: &Q\neq 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{Q}{\sqrt{\frac{1}{4}(1-Q^2)^2(\frac{1}{O_{11}}+\frac{1}{O_{12}}+\frac{1}{O_{21}}+\frac{1}{O_{22}})}}. \end{displaymath}$

Statystyka testowa ma asymptotycznie (dla dużych liczności $n$ ) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Współczynnik kontyngencji $\phi$

Współczynnik kontyngencji $\phi$ (ang. phi contingency coefficient) jest miarą zależności polecaną szczególnie dla tabel kontyngencji $2\times2$ , chociaż możliwą do wyznaczenia dla dowolnych tabel.

$\begin{displaymath} \phi=\sqrt{\frac{\chi^2}{n}}, \end{displaymath}$

gdzie:

$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $\phi$ mieści się w przedziale $<0; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa wartości 1 tym większa.

Współczynnik kontyngencji $\phi$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji $V$ -Cramera

Współczynnik kontyngencji $V$ -Cramera (ang. Cramer's V contingency coefficient), Cramer (1946)²⁾, jest rozszerzeniem współczynnika $\phi$ na tabele kontyngencji $r\times c$ .

$\begin{displaymath} V=\sqrt{\frac{\chi^2}{n(w'-1)}}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Wartość współczynnika $V$ mieści się w przedziale $<0; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa +1, tym siła badanego związku jest większa. Wartość współczynnika $V$ zależy również od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $V$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji $W$ -Cohena

Współczynnik kontyngencji $W$ -Cohena (ang. Cohen's w contingency coefficient), Cohen (1988)³⁾, jest modyfikacją współczynnika $V$ -Cramera i jest możliwy do wyliczenia dla tabel $r\times c$ .

$\begin{displaymath} W=\sqrt{\frac{\chi^2}{n(w'-1)}}\sqrt{w'-1}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Wartość współczynnika $W$ mieści się w przedziale $<0; \max W>$ , gdzie $\max W=\sqrt{w'-1}$ (dla tabel, w których co najmniej jedna zmienna zawiera tylko dwie kategorie wartość współczynnika $W$ mieści się w przedziale $<0; 1>$ ). Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa maksymalnej wartości, tym siła badanego związku jest większa. Wartość współczynnika $W$ zależy od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $W$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji C Pearsona

Współczynnik kontyngencji $C$ -Pearsona (ang. Pearson's C contingency coefficient) jest miarą zależności wyznaczaną dla tabel kontyngencji $r\times c$

$\begin{displaymath} C=\sqrt{\frac{\chi^2}{\chi^2+n}}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu $\chi^2$ ,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $C$ mieści się w przedziale $<0; 1)$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im dalsza od 0, tym siła badanego związku jest większa. Ponieważ wartość współczynnika $C$ zależy również od wielkości tabeli (im większa tabela, tym wartość $C$ może być bliższa 1), dlatego wyznacza się górną granicę jaką dla danej wielkości tabeli współczynnik $C$ może osiągnąć:

$\begin{displaymath} C_{max}=\sqrt{\frac{w'-1}{w'}}, \end{displaymath}$

gdzie:

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Niewygodną konsekwencją uzależnienia wartości $C$ od wielkości tabeli jest brak możliwości porównywania wartości współczynnika $C$ wyznaczonego dla różnych wielkości tabel kontyngencji. Nieco lepszą miarą w takim przypadku jest dostosowana do wielkości tabeli wielkość współczynnika kontyngencji $C_{adj}$

$\begin{displaymath} C_{adj}=\frac{C}{C_{max}}. \end{displaymath}$

Współczynnik kontyngencji $C$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ( $n=170$ ), dla których badamy 2 cechy ( $X$ =płeć, $Y$ =zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ( $X_1$ =k, $X_2$ =m, $Y_1$ =tak, $Y_2$ =nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:}

$\begin{tabular}{|c|c||c|c|c|} \hline \multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5} \multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline \multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5} & m & 20 & 60 & 80 \\\cline{2-5} & suma & 70 & 100 & 170\\\hline \end{tabular}$

Wartość statystyki testowej wynosi $\chi^2=16.33$ a wyznaczona dla niej wartość $p=0.00005$ . Uzyskany wynik wskazuje na istnienie zależności statystycznej pomiędzy płcią a zdawalnością egzaminu w badanej populacji.

Wartość współczynników opartych o test $\chi^2$ , a zatem siła związku między badanymi cechami to:

Współczynnik kontyngencji $C_{adj}$ -Pearsona = 0.42.

Współczynnik kontyngencji $V$ -Cramera = $\phi$ = $W$ -Cohena =0.31

Współczynnik kontyngencji $Q$ -Yulea=0.58, a wartość $p$ wykonanego testu $Z$ podobnie jak poziom istotności testu $\chi^2$ wskazuje na istotność statystyczną badanego związku.

¹⁾

Yule G. (1900), On the association of the attributes in statistics: With illustrations from the material ofthe childhood society, and c. Philosophical Transactions of the Royal Society, Series A, 194,257-3 19

²⁾

Cramkr H. (1946), Mathematical models of statistics. Princeton, NJ: Princeton University Press

³⁾

Cohen J. (1988), Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum Associates, Hillsdale, New Jersey

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Współczynniki tabel kontyngencji i ich istotność statystyczna

Narzędzia strony