Spis treści

Testy nieparametryczne

Współczynniki korelacji monotonicznej

Zależność monotoniczna może być opisywana jako monotoniczny wzrost lub monotoniczny spadek. Związek pomiędzy 2 cechami przedstawia monotoniczny wzrost jeżeli wzrostowi jednej cechy towarzyszy wzrost drugiej cechy. Związek pomiędzy 2 cechami przedstawia monotoniczny spadek jeżeli wzrostowi jednej cechy towarzyszy spadek drugiej cechy.

Współczynnik korelacji rangowej Spearmana $r_s$ (ang. Spearman's rank-order correlation coefficient) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami $X$ i $Y$. Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji rangowej Spearmana wylicza się według wzoru: \begin{displaymath} \label{rs}
r_s=1-\frac{6\sum_{i=1}^nd_i^2}{n(n^2-1)},
\end{displaymath}

gdzie:

$d_i=R_{x_i}-R_{y_i}$ - różnica rang dla cechy $X$ i cechy $Y$,

$n$ liczność $d_i$.

Wzór ten ulega pewniej modyfikacji gdy występują rangi wiązane:

\begin{displaymath}
r_s=\frac{\Sigma_X+\Sigma_Y-\sum_{i=1}^nd_i^2}{2\sqrt{\Sigma_X\Sigma_Y}},
\end{displaymath}

gdzie:

  • $\Sigma_X=\frac{n^3-n-T_X}{12}$, $\Sigma_Y=\frac{n^3-n-T_Y}{12}$,
  • $T_X=\sum_{i=1}^s (t_{i_{(X)}}^3-t_{i_{(X)}})$, $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^3-t_{i_{(Y)}})$,
  • $t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Poprawka na rangi wiązane powinna być stosowana, gdy rangi wiązane występują. Gdy nie ma rang wiązanych poprawka redukuje się i sprowadza wzór do postaci opisanej wcześniejszym równaniem.

Uwaga!

$R_s$ oznacza współczynnik korelacji rangowej Spearmana populacji, natomiast $r_s$ w próbie.

Wartość $r_s\in<-1; 1>$ interpretujemy w następujący sposób:

  • $r_s\approx1$ oznacza silną dodatnią zależność monotoniczną (rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
  • $r_s\approx-1$ oznacza silną ujemną zależność monotoniczną (malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
  • gdy współczynnik korelacji rangowej Spearmana przyjmuje wartość równą lub bardzo bliską zeru, wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik korelacji tau Kendalla $\tilde{\tau}$ (ang. Kendall's tau correlation coefficient, Kendall (1938)1)) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami. Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji tau Kendalla $\tilde{\tau}$ wylicza się według wzoru:

\begin{displaymath}
\tilde{\tau}=\frac{2(n_C-n_D)}{\sqrt{n(n-1)-T_X}\sqrt{n(n-1)-T_Y}},
\end{displaymath}

gdzie:

  • $n_C$ - liczbapar obserwacji, dla których wartości rang dla cechy $X$ jak i dla cechy $Y$ zmieniają się w tym samym kierunku (liczba par zgodnych),
  • $n_D$ - liczba par obserwacji, dla których wartości rang dla cechy $X$ zmieniają się w innym kierunku niż dla cechy $Y$ (liczba par niezgodnych),
  • $T_X=\sum_{i=1}^s (t_{i_{(X)}}^2-t_{i_{(X)}})$, $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^2-t_{i_{(Y)}})$,
  • $t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na współczynnik $\tilde{\tau}$ zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka nie jest wyliczana gdyż wówczas $T_X=0$ i $T_Y=0$) .

Uwaga!

$\tau$ oznacza współczynnik korelacji Kendalla w populacji, natomiast $\tilde{\tau}$ w próbie.

Wartość $\tilde{\tau}\in<-1; 1>$ interpretujemy w następujący sposób:

  • $\tilde{\tau}\approx1$ oznacza silną „zgodność” uporządkowania rang (zależność monotoniczną rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
  • $\tilde{\tau}\approx-1$ oznacza silną „niezgodność” uporządkowania rang (zależność monotoniczną malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
  • gdy współczynnik korelacji $\tilde{\tau}$ przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik $r_s$ Spearmana a współczynnik $\tilde{\tau}$ Kendalla

  • dla skali interwałowej z normalnością rozkładu obu cech wartość $r_s$ daje rezultaty bliższe wartości $r_p$ natomiast wartości $\tilde{\tau}$ może znacznie różnić się od $r_p$,
  • wartość $\tilde{\tau}$ jest mniejsza bądź równa wartości $r_p$,
  • $\tilde{\tau}$ jest nieobciążonym estymatorem parametru populacji $\tau$, podczas gdy wartość $r_s$ nie jest estymatorem nieobciążonym parametru $R_s$.

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika korelacji Spearmana

Test t do sprawdzania istotności współczynnika korelacji rangowej Spearmana (ang. Test of significance for Spearman's rank-order correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji rangowej Spearmana wyliczonym dla próby. Im wartość współczynnika Spearmana ($r_s$) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & R_s = 0, \\
\mathcal{H}_1: & R_s \ne 0.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
t=\frac{r_s}{SE},
\end{displaymath} gdzie $\displaystyle SE=\sqrt{\frac{1-r_s^2}{n-2}}$.

Wartość statystyki testowej nie może być wyznaczona gdy $r_s=1$ lub $r_s=-1$ albo, gdy $n<3$.

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji zależności monotonicznej Spearmana wywołujemy poprzez menu StatystykaTesty nieparametrycznezależność monotoniczna (r-Spearmana) lub poprzez ''Kreator''.

Przykład (plik: LDL tygodnie.pqs)

Badano skuteczność nowej terapii, której celem jest obniżenie poziomu cholesterolu we frakcji LDL. Przebadano 88 osób na różnym etapie kuracji. Sprawdzimy, czy wraz z upływem czasu stosowania kuracji (czas w tygodniach) poziom cholesterolu LDL spada i się stabilizuje.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $ W populacji nie istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL,$\\
\mathcal{H}_1: & $ W populacji istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL.$
\end{array}
$

Porównując wartość $p$<0.0001 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Spearmana, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi $r_s$=-0.7806. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.

2014/08/22 20:00

Istotność współczynnika korelacji tau Kendalla

Test do sprawdzania istotności współczynnika korelacji tau Kendalla

Test do sprawdzania istotności współczynnika korelacji $\tilde{\tau}$ Kendalla (ang. Test of significance for Kendall's tau correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji Kendalla wyliczonym dla próby. Im wartość wspołczynnika tau ($\tilde{\tau}$) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \tau = 0, \\
\mathcal{H}_1: & \tau \ne 0.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{3\tilde{\tau}\sqrt{n(n-1)}}{\sqrt{2(2n+5)}}.
\end{displaymath} Statystyka testowa ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji zależności monotonicznej Kendalla wywołujemy poprzez menu StatystykaTesty nieparametrycznezależność monotoniczna (tau-Kendalla) lub poprzez ''Kreator''.

Przykład c.d. (plik LDL tygodnie.pqs)

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $ W populacji nie istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL,$\\
\mathcal{H}_1: & $ W populacji istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL.$
\end{array}
$

Porównując wartość $p$<0.0001 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Kendalla, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi $\tilde{\tau}$=-0.5975. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.

2014/08/22 20:00

Współczynniki tabel kontyngencji i ich istotność statystyczna

Współczynniki kontyngencji są wyliczane dla danych w postaci surowej lub danych zebranych w tabelę kontyngencji.

Okno z ustawieniami opcji miar zależności dla tabel wywołujemy poprzez menu StatystykaTesty nieparametryczne Chi-kwadrat, Fisher, OR/RRWspółczynniki korelacji… lub poprzez ''Kreator''.

Współczynnik kontyngencji Q-Yulea

Współczynnik kontyngencji $Q$-Yulea (Yule's Q contingency coefficient), Yule (1900)2), jest miarą zależności, która może być wyznaczana dla tabel kontyngencji $2\times2$

\begin{displaymath}
Q=\frac{O_{11}O_{22}-O_{12}O_{21}}{O_{11}O_{22}+O_{12}O_{21}},
\end{displaymath}

gdzie:

$O_{11}, O_{12}, O_{21}, O_{22}$ - liczności obserwowane w tabeli kontyngencji.

Oryginalnie wartość współczynnika $Q$ mieści się w przedziale $<-1; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa $-$1 lub +1, tym siła badanego związku jest większa (ze względu na błędy w interpretacji ujemnej wartości współczynnika, wyniki tego współczynnika w programie PQStat przedstawiane są wówczas również jako wartość bezwzględna). Wadą tego współczynnika jest to, iż jest mało odporny na małe liczności obserwowane (gdy jakaś z liczności obserwowanych wynosi 0, to współczynnik może błędnie wskazywać całkowitą zależność cech).

Istotność statystyczną wyznaczonego współczynnika kontyngencji $Q$-Yulea określamy testem $Z$.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: &Q=0,\\
\mathcal{H}_1: &Q\neq 0.
\end{array}
$

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{Q}{\sqrt{\frac{1}{4}(1-Q^2)^2(\frac{1}{O_{11}}+\frac{1}{O_{12}}+\frac{1}{O_{21}}+\frac{1}{O_{22}})}}.
\end{displaymath}

Statystyka testowa ma asymptotycznie (dla dużych liczności $n$) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Współczynnik kontyngencji $\phi$

Współczynnik kontyngencji $\phi$ (ang. phi contingency coefficient) jest miarą zależności polecaną szczególnie dla tabel kontyngencji $2\times2$, chociaż możliwą do wyznaczenia dla dowolnych tabel.

\begin{displaymath}
\phi=\sqrt{\frac{\chi^2}{n}},
\end{displaymath}

gdzie:

$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $\phi$ mieści się w przedziale $<0; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa wartości 1 tym większa.

Współczynnik kontyngencji $\phi$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Współczynnik kontyngencji $V$-Cramera

Współczynnik kontyngencji $V$-Cramera (ang. Cramer's V contingency coefficient), Cramer (1946)3), jest rozszerzeniem współczynnika $\phi$ na tabele kontyngencji $r\times c$.

\begin{displaymath}
V=\sqrt{\frac{\chi^2}{n(w'-1)}},
\end{displaymath}

gdzie:

wartość$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$.

Wartość współczynnika $V$ mieści się w przedziale $<0; 1>$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa +1, tym siła badanego związku jest większa. Wartość współczynnika $V$ zależy również od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $V$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Współczynnik kontyngencji $W$-Cohena

Współczynnik kontyngencji $W$-Cohena (ang. Cohen's w contingency coefficient), Cohen (1988)4), jest modyfikacją współczynnika $V$-Cramera i jest możliwy do wyliczenia dla tabel $r\times c$.

\begin{displaymath}
W=\sqrt{\frac{\chi^2}{n(w'-1)}}\sqrt{w'-1},
\end{displaymath}

gdzie:

wartość$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$.

Wartość współczynnika $W$ mieści się w przedziale $<0; \max W>$, gdzie $\max W=\sqrt{w'-1}$ (dla tabel, w których co najmniej jedna zmienna zawiera tylko dwie kategorie wartość współczynnika $W$ mieści się w przedziale $<0; 1>$). Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa maksymalnej wartości, tym siła badanego związku jest większa. Wartość współczynnika $W$ zależy od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $W$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Współczynnik kontyngencji C Pearsona

Współczynnik kontyngencji $C$-Pearsona (ang. Pearson's C contingency coefficient) jest miarą zależności wyznaczaną dla tabel kontyngencji $r\times c$

\begin{displaymath}
C=\sqrt{\frac{\chi^2}{\chi^2+n}},
\end{displaymath}

gdzie:

wartość $\chi^2$ - wartość statystyki testu $\chi^2$,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $C$ mieści się w przedziale $<0; 1)$. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im dalsza od 0, tym siła badanego związku jest większa. Ponieważ wartość współczynnika $C$ zależy również od wielkości tabeli (im większa tabela, tym wartość $C$ może być bliższa 1), dlatego wyznacza się górną granicę jaką dla danej wielkości tabeli współczynnik $C$ może osiągnąć:

\begin{displaymath}
C_{max}=\sqrt{\frac{w'-1}{w'}},
\end{displaymath}

gdzie:

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$.

Niewygodną konsekwencją uzależnienia wartości $C$ od wielkości tabeli jest brak możliwości porównywania wartości współczynnika $C$ wyznaczonego dla różnych wielkości tabel kontyngencji. Nieco lepszą miarą w takim przypadku jest dostosowana do wielkości tabeli wielkość współczynnika kontyngencji $C_{adj}$

\begin{displaymath}
C_{adj}=\frac{C}{C_{max}}.
\end{displaymath}

Współczynnik kontyngencji $C$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$.

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ($n=170$), dla których badamy 2 cechy ($X$=płeć, $Y$=zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ($X_1$=k, $X_2$=m, $Y_1$=tak, $Y_2$=nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:}

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5}
\multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline
\multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5}
& m & 20 & 60 & 80 \\\cline{2-5}
& suma & 70 & 100 & 170\\\hline
\end{tabular}

Wartość statystyki testowej wynosi $\chi^2=16.33$ a wyznaczona dla niej wartość $p=0.00005$. Uzyskany wynik wskazuje na istnienie zależności statystycznej pomiędzy płcią a zdawalnością egzaminu w badanej populacji.

Wartość współczynników opartych o test $\chi^2$, a zatem siła związku między badanymi cechami to:

Współczynnik kontyngencji $C_{adj}$-Pearsona = 0.42.

Współczynnik kontyngencji $V$-Cramera = $\phi$ = $W$-Cohena =0.31

Współczynnik kontyngencji $Q$-Yulea=0.58, a wartość $p$ wykonanego testu $Z$ podobnie jak poziom istotności testu $\chi^2$ wskazuje na istotność statystyczną badanego związku.

2014/08/22 20:00
1)
Kendall M.G. (1938), A new measure of rank correlation. Biometrika, 30, 81-93
2)
Yule G. (1900), On the association of the attributes in statistics: With illustrations from the material ofthe childhood society, and c. Philosophical Transactions of the Royal Society, Series A, 194,257-3 19
3)
Cramkr H. (1946), Mathematical models of statistics. Princeton, NJ: Princeton University Press
4)
Cohen J. (1988), Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum Associates, Hillsdale, New Jersey