Współczynniki korelacji monotonicznej

Zależność monotoniczna może być opisywana jako monotoniczny wzrost lub monotoniczny spadek. Związek pomiędzy 2 cechami przedstawia monotoniczny wzrost jeżeli wzrostowi jednej cechy towarzyszy wzrost drugiej cechy. Związek pomiędzy 2 cechami przedstawia monotoniczny spadek jeżeli wzrostowi jednej cechy towarzyszy spadek drugiej cechy.

Współczynnik korelacji rangowej Spearmana $r_s$ (ang. Spearman's rank-order correlation coefficient) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami $X$ i $Y$. Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji rangowej Spearmana wylicza się według wzoru: \begin{displaymath} \label{rs}
r_s=1-\frac{6\sum_{i=1}^nd_i^2}{n(n^2-1)},
\end{displaymath}

gdzie:

$d_i=R_{x_i}-R_{y_i}$ - różnica rang dla cechy $X$ i cechy $Y$,

$n$ liczność $d_i$.

Wzór ten ulega pewniej modyfikacji gdy występują rangi wiązane:

\begin{displaymath}
r_s=\frac{\Sigma_X+\Sigma_Y-\sum_{i=1}^nd_i^2}{2\sqrt{\Sigma_X\Sigma_Y}},
\end{displaymath}

gdzie:

  • $\Sigma_X=\frac{n^3-n-T_X}{12}$, $\Sigma_Y=\frac{n^3-n-T_Y}{12}$,
  • $T_X=\sum_{i=1}^s (t_{i_{(X)}}^3-t_{i_{(X)}})$, $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^3-t_{i_{(Y)}})$,
  • $t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Poprawka na rangi wiązane powinna być stosowana, gdy rangi wiązane występują. Gdy nie ma rang wiązanych poprawka redukuje się i sprowadza wzór do postaci opisanej wcześniejszym równaniem.

Uwaga!

$R_s$ oznacza współczynnik korelacji rangowej Spearmana populacji, natomiast $r_s$ w próbie.

Wartość $r_s\in<-1; 1>$ interpretujemy w następujący sposób:

  • $r_s\approx1$ oznacza silną dodatnią zależność monotoniczną (rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
  • $r_s\approx-1$ oznacza silną ujemną zależność monotoniczną (malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
  • gdy współczynnik korelacji rangowej Spearmana przyjmuje wartość równą lub bardzo bliską zeru, wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik korelacji tau Kendalla $\tilde{\tau}$ (ang. Kendall's tau correlation coefficient, Kendall (1938)1)) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami. Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji tau Kendalla $\tilde{\tau}$ wylicza się według wzoru:

\begin{displaymath}
\tilde{\tau}=\frac{2(n_C-n_D)}{\sqrt{n(n-1)-T_X}\sqrt{n(n-1)-T_Y}},
\end{displaymath}

gdzie:

  • $n_C$ - liczbapar obserwacji, dla których wartości rang dla cechy $X$ jak i dla cechy $Y$ zmieniają się w tym samym kierunku (liczba par zgodnych),
  • $n_D$ - liczba par obserwacji, dla których wartości rang dla cechy $X$ zmieniają się w innym kierunku niż dla cechy $Y$ (liczba par niezgodnych),
  • $T_X=\sum_{i=1}^s (t_{i_{(X)}}^2-t_{i_{(X)}})$, $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^2-t_{i_{(Y)}})$,
  • $t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na współczynnik $\tilde{\tau}$ zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka nie jest wyliczana gdyż wówczas $T_X=0$ i $T_Y=0$) .

Uwaga!

$\tau$ oznacza współczynnik korelacji Kendalla w populacji, natomiast $\tilde{\tau}$ w próbie.

Wartość $\tilde{\tau}\in<-1; 1>$ interpretujemy w następujący sposób:

  • $\tilde{\tau}\approx1$ oznacza silną „zgodność” uporządkowania rang (zależność monotoniczną rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
  • $\tilde{\tau}\approx-1$ oznacza silną „niezgodność” uporządkowania rang (zależność monotoniczną malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
  • gdy współczynnik korelacji $\tilde{\tau}$ przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik $r_s$ Spearmana a współczynnik $\tilde{\tau}$ Kendalla

  • dla skali interwałowej z normalnością rozkładu obu cech wartość $r_s$ daje rezultaty bliższe wartości $r_p$ natomiast wartości $\tilde{\tau}$ może znacznie różnić się od $r_p$,
  • wartość $\tilde{\tau}$ jest mniejsza bądź równa wartości $r_p$,
  • $\tilde{\tau}$ jest nieobciążonym estymatorem parametru populacji $\tau$, podczas gdy wartość $r_s$ nie jest estymatorem nieobciążonym parametru $R_s$.

Przykład c.d. (plik wiek-wzrost.pqs)

1)
Kendall M.G. (1938), A new measure of rank correlation. Biometrika, 30, 81-93

Narzędzia witryny