Zależność monotoniczna może być opisywana jako monotoniczny wzrost lub monotoniczny spadek. Związek pomiędzy 2 cechami przedstawia monotoniczny wzrost jeżeli wzrostowi jednej cechy towarzyszy wzrost drugiej cechy. Związek pomiędzy 2 cechami przedstawia monotoniczny spadek jeżeli wzrostowi jednej cechy towarzyszy spadek drugiej cechy.
Współczynnik korelacji rangowej Spearmana
(ang. Spearman's rank-order correlation coefficient) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami
i
. Wyznacza się go dla skali porządkowej lub interwałowej.
Wartość współczynnika korelacji rangowej Spearmana wylicza się według wzoru:
Wzór ten ulega pewniej modyfikacji gdy występują rangi wiązane:
gdzie:
,
,
,
,
- liczba przypadków wchodzących w skład rangi wiązanej.Poprawka na rangi wiązane powinna być stosowana, gdy rangi wiązane występują. Gdy nie ma rang wiązanych poprawka redukuje się i sprowadza wzór do postaci opisanej wcześniejszym równaniem.
Uwaga!
oznacza współczynnik korelacji rangowej Spearmana populacji, natomiast
w próbie.
Wartość
interpretujemy w następujący sposób:
oznacza silną dodatnią zależność monotoniczną (rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
oznacza silną ujemną zależność monotoniczną (malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
Współczynnik korelacji tau Kendalla
(ang. Kendall's tau correlation coefficient, Kendall (1938)1)) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami. Wyznacza się go dla skali porządkowej lub interwałowej.
Wartość współczynnika korelacji tau Kendalla
wylicza się według wzoru:
gdzie:
- liczbapar obserwacji, dla których wartości rang dla cechy
jak i dla cechy
zmieniają się w tym samym kierunku (liczba par zgodnych),
- liczba par obserwacji, dla których wartości rang dla cechy
zmieniają się w innym kierunku niż dla cechy
(liczba par niezgodnych),
,
,
- liczba przypadków wchodzących w skład rangi wiązanej.
Wzór na współczynnik
zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka nie jest wyliczana gdyż wówczas
i
) .
Uwaga!
oznacza współczynnik korelacji Kendalla w populacji, natomiast
w próbie.
Wartość
interpretujemy w następujący sposób:
oznacza silną „zgodność” uporządkowania rang (zależność monotoniczną rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
oznacza silną „niezgodność” uporządkowania rang (zależność monotoniczną malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).
Współczynnik
Spearmana a współczynnik
Kendalla
daje rezultaty bliższe wartości
natomiast wartości
może znacznie różnić się od
,
jest mniejsza bądź równa wartości
,
jest nieobciążonym estymatorem parametru populacji
, podczas gdy wartość
nie jest estymatorem nieobciążonym parametru
.Przykład c.d. (plik wiek-wzrost.pqs)
Test t do sprawdzania istotności współczynnika korelacji rangowej Spearmana (ang. Test of significance for Spearman's rank-order correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji rangowej Spearmana wyliczonym dla próby. Im wartość współczynnika Spearmana (
) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.
Podstawowe warunki stosowania:
Hipotezy:
Statystyka testowa ma postać:
gdzie
.
Wartość statystyki testowej nie może być wyznaczona gdy
lub
albo, gdy
.
Statystyka testowa ma rozkład t-Studenta z
stopniami swobody.
Wyznaczoną na podstawie statystyki testowej wartość
porównujemy z poziomem istotności
:
Okno z ustawieniami opcji zależności monotonicznej Spearmana wywołujemy poprzez menu Statystyka→Testy nieparametryczne→zależność monotoniczna (r-Spearmana) lub poprzez ''Kreator''.
Przykład (plik: LDL tygodnie.pqs)
Badano skuteczność nowej terapii, której celem jest obniżenie poziomu cholesterolu we frakcji LDL. Przebadano 88 osób na różnym etapie kuracji. Sprawdzimy, czy wraz z upływem czasu stosowania kuracji (czas w tygodniach) poziom cholesterolu LDL spada i się stabilizuje.
Hipotezy:
Porównując wartość
<0.0001 z poziomem istotności
stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Spearmana, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi
=-0.7806. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.
Test do sprawdzania istotności współczynnika korelacji tau Kendalla
Test do sprawdzania istotności współczynnika korelacji
Kendalla (ang. Test of significance for Kendall's tau correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji Kendalla wyliczonym dla próby. Im wartość wspołczynnika tau (
) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.
Podstawowe warunki stosowania:
Hipotezy:
Statystyka testowa ma postać:
Statystyka testowa ma asymptotycznie (dla dużych liczności) rozkład normalny.
Wyznaczoną na podstawie statystyki testowej wartość
porównujemy z poziomem istotności
:
Okno z ustawieniami opcji zależności monotonicznej Kendalla wywołujemy poprzez menu Statystyka→Testy nieparametryczne→zależność monotoniczna (tau-Kendalla) lub poprzez ''Kreator''.
Przykład c.d. (plik LDL tygodnie.pqs)
Hipotezy:
Porównując wartość
<0.0001 z poziomem istotności
stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Kendalla, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi
=-0.5975. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.
Współczynniki kontyngencji są wyliczane dla danych w postaci surowej lub danych zebranych w tabelę kontyngencji.
Okno z ustawieniami opcji miar zależności dla tabel wywołujemy poprzez menu Statystyka→Testy nieparametryczne →Chi-kwadrat, Fisher, OR/RR→Współczynniki korelacji… lub poprzez ''Kreator''.
Współczynnik kontyngencji Q-Yulea
Współczynnik kontyngencji
-Yulea (Yule's Q contingency coefficient), Yule (1900)2), jest miarą zależności, która może być wyznaczana dla tabel kontyngencji
gdzie:
- liczności obserwowane w tabeli kontyngencji.
Oryginalnie wartość współczynnika
mieści się w przedziale
. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa
1 lub +1, tym siła badanego związku jest większa (ze względu na błędy w interpretacji ujemnej wartości współczynnika, wyniki tego współczynnika w programie PQStat przedstawiane są wówczas również jako wartość bezwzględna). Wadą tego współczynnika jest to, iż jest mało odporny na małe liczności obserwowane (gdy jakaś z liczności obserwowanych wynosi 0, to współczynnik może błędnie wskazywać całkowitą zależność cech).
Istotność statystyczną wyznaczonego współczynnika kontyngencji
-Yulea określamy testem
.
Hipotezy:
Statystyka testowa ma postać:
Statystyka testowa ma asymptotycznie (dla dużych liczności
) rozkład normalny.
Wyznaczoną na podstawie statystyki testowej wartość
porównujemy z poziomem istotności
:
Współczynnik kontyngencji
(ang. phi contingency coefficient) jest miarą zależności polecaną szczególnie dla tabel kontyngencji
, chociaż możliwą do wyznaczenia dla dowolnych tabel.
Wartość współczynnika
mieści się w przedziale
. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa wartości 1 tym większa.
Współczynnik kontyngencji
uznaje się za istotny statystycznie jeśli wartość
wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności
.
Współczynnik kontyngencji
-Cramera
Współczynnik kontyngencji
-Cramera (ang. Cramer's V contingency coefficient), Cramer (1946)3), jest rozszerzeniem współczynnika
na tabele kontyngencji
.
gdzie:
wartość
- wartość statystyki testu chi-kwadrat,
- całkowita liczność w tabeli kontyngencji,
- jest mniejszą z dwóch wartości
i
.
Wartość współczynnika
mieści się w przedziale
. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa +1, tym siła badanego związku jest większa. Wartość współczynnika
zależy również od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.
Współczynnik kontyngencji
uznaje się za istotny statystycznie jeśli wartość
wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności
.
Współczynnik kontyngencji
-Cohena
Współczynnik kontyngencji
-Cohena (ang. Cohen's w contingency coefficient), Cohen (1988)4), jest modyfikacją współczynnika
-Cramera i jest możliwy do wyliczenia dla tabel
.
gdzie:
wartość
- wartość statystyki testu chi-kwadrat,
- całkowita liczność w tabeli kontyngencji,
- jest mniejszą z dwóch wartości
i
.
Wartość współczynnika
mieści się w przedziale
, gdzie
(dla tabel, w których co najmniej jedna zmienna zawiera tylko dwie kategorie wartość współczynnika
mieści się w przedziale
). Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa maksymalnej wartości, tym siła badanego związku jest większa. Wartość współczynnika
zależy od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.
Współczynnik kontyngencji
uznaje się za istotny statystycznie jeśli wartość
wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności
.
Współczynnik kontyngencji C Pearsona
Współczynnik kontyngencji
-Pearsona (ang. Pearson's C contingency coefficient) jest miarą zależności wyznaczaną dla tabel kontyngencji
Wartość współczynnika
mieści się w przedziale
. Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im dalsza od 0, tym siła badanego związku jest większa. Ponieważ wartość współczynnika
zależy również od wielkości tabeli (im większa tabela, tym wartość
może być bliższa 1), dlatego wyznacza się górną granicę jaką dla danej wielkości tabeli współczynnik
może osiągnąć:
gdzie:
- jest mniejszą z dwóch wartości
i
.
Niewygodną konsekwencją uzależnienia wartości
od wielkości tabeli jest brak możliwości porównywania wartości współczynnika
wyznaczonego dla różnych wielkości tabel kontyngencji. Nieco lepszą miarą w takim przypadku jest dostosowana do wielkości tabeli wielkość współczynnika kontyngencji
Współczynnik kontyngencji
uznaje się za istotny statystycznie jeśli wartość
wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności
.
Przykład (plik płeć-egzamin.pqs)
Rozpatrzmy próbę składającą się z 170 osób (
), dla których badamy 2 cechy (
=płeć,
=zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach (
=k,
=m,
=tak,
=nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:}
Wartość statystyki testowej wynosi
a wyznaczona dla niej wartość
. Uzyskany wynik wskazuje na istnienie zależności statystycznej pomiędzy płcią a zdawalnością egzaminu w badanej populacji.
Wartość współczynników opartych o test
, a zatem siła związku między badanymi cechami to:
Współczynnik kontyngencji
-Pearsona = 0.42.
Współczynnik kontyngencji
-Cramera =
=
-Cohena =0.31
Współczynnik kontyngencji
-Yulea=0.58, a wartość
wykonanego testu
podobnie jak poziom istotności testu
wskazuje na istotność statystyczną badanego związku.