Spis treści

Korelacja
- Testy parametryczne
- Testy nieparametryczne

Korelacja

$\begin{pspicture}(0,6)(15,14.5) \rput(2,14){\hyperlink{interwalowa}{Skala interwałowa}} \rput[tl](.1,13.4){\ovalnode{A}{\hyperlink{rozklad_normalny}{\begin{tabular}{c}Czy rozkład\\zmiennej jest\\rozkładem\\normalnym?\end{tabular}}}} \rput[br](3.7,6.2){\rnode{B}{\psframebox{\hyperlink{wspolczynnik_pearsona}{\begin{tabular}{c}testy\\do sprawdzania\\istotności\\współczynnika\\korelacji liniowej $r_p$\\ lub równania regresji $\beta$\end{tabular}}}}} \ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{B} \rput(2.2,10.4){T} \rput(4.3,12.5){N} \rput(7.5,14){\hyperlink{porzadkowa}{Skala porządkowa}} \rput[br](9.4,10.9){\rnode{C}{\psframebox{\hyperlink{wspolczynniki_monotoniczne}{\begin{tabular}{c}testy\\do sprawdzania\\istotności\\współczynnika\\korelacji monotonicznej\\$r_s$ lub $\tau$ \end{tabular}}}}} \ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{C} \rput(12.5,14){\hyperlink{nominalna}{Skala nominalna}} \rput[br](16,11.6){\rnode{D}{\psframebox{\hyperlink{wsp_tabel_kontyngencji}{\begin{tabular}{c}test $\chi^2$ i oparte na nim\\współczynniki kontyngencji: $C$, $\phi$, $V$\\lub test do sprawdzania istotności\\współczynnika kontyngencji $Q$\end{tabular}}}}} \rput(6,9.8){\hyperlink{testy_normalnosci}{testy normalności}} \rput(6,9.5){\hyperlink{testy_normalnosci}{rozkładu}} \psline[linestyle=dotted]{<-}(3.4,11.2)(4,10) \end{pspicture}$

Współczynniki korelacji są jedną z miar statystyki opisowej, która reprezentuje stopień korelacji (zależności) pomiędzy 2 lub więcej cechami (zmiennymi). Wybór konkretnego współczynnika zależy w głównej mierze od skali, na której dokonano pomiarów. Wyznaczenie go stanowi jeden z pierwszych etapów pracy nad analizą korelacji. Następnie istotność statystyczną otrzymanych współczynników można analizować przy pomocy testów statystycznych.

Uwaga!

Zależność pomiędzy zmiennymi nie zawsze obrazuje ich związek przyczynowo skutkowy.

Testy parametryczne

Współczynniki korelacji liniowej

Współczynnik korelacji liniowej Pearsona $r_p$ (ang. Pearson product-moment correlation coefficient, Pearson (1896,1900)) jest wykorzystywany do badania siły związku liniowego pomiędzy cechami. Można go wyznaczać dla skali interwałowej, o ile brak jest odstających pomiarów, a rozkład reszt lub badanych cech jest rozkładem normalnym.

$\begin{displaymath} r_p=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}, \end{displaymath}$

gdzie:

$x_i, y_i$ - kolejne wartości cechy $X$ i $Y$ ,

$\overline{x}, \overline{y}$ - średnie z wartości cechy $X$ i cechy $Y$ ,

$n$ - liczność próby.

Uwaga!

$R_p$ oznacza współczynnik korelacji Pearsona populacji, natomiast $r_p$ w próbie.

Wartość $r_p\in<-1; 1>$ interpretujemy w następujący sposób:

$r_p\approx1$ oznacza silną dodatnią zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej a wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
$r_p\approx-1$ oznacza silną ujemną zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej, lecz wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
gdy współczynnik korelacji liniowej przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje liniowa zależność między badanymi parametrami (ale może istnieć związek nieliniowy).

Interpretacja graficzna współczynnika $r_p$ .

$\begin{pspicture}(0,-.8)(12.5,2.5) \psline{->}(.5,0)(.5,2) \psline{->}(.5,0)(2.5,0) \rput(.8,1){*} \rput(1.7,.9){*} \rput(1,.7){*} \rput(1.3,1.6){*} \rput(1.5,1){*} \rput(1.1,.4){*} \rput(2.1,1){*} \rput(1.9,1.8){*} \rput(.2,2){$y$} \rput(2.5,-.2){$x$} \rput(1.5,-.7){$r_p\approx0$} \psline{->}(4.5,0)(4.5,2) \psline{->}(4.5,0)(6.5,0) \psline{-}(4.7,.5)(6.3,1.8) \rput(4.8,.7){*} \rput(5.3,1){*} \rput(5,.4){*} \rput(6,1.7){*} \rput(5.7,1.2){*} \rput(4.2,2){$y$} \rput(6.5,-.2){$x$} \rput(5.5,-.7){$r_p\approx1$} \psline{->}(8.5,0)(8.5,2) \psline{->}(8.5,0)(10.5,0) \psline{-}(8.7,1.8)(10.3,.2) \rput(9.6,.9){*} \rput(8.9,1.4){*} \rput(9.7,1.2){*} \rput(10.1,.2){*} \rput(9.9,.4){*} \rput(8.2,2){$y$} \rput(10.5,-.2){$x$} \rput(9.5,-.7){$r_p\approx-1$} \end{pspicture}$

Gdy jedna z badanych cech jest stała (niezależnie od zmian drugiej cechy) to nie są one związane zależnością. Współczynnika $r_p$ nie można wyznaczyć.

Uwaga!

Błędem jest wyznaczanie współczynnika korelacji, gdy w próbie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona, gdy próba jest wyraźnie niejednorodna, bądź też badana zależność wyraźnie przyjmuje kształt inny niż liniowy.

Współczynnik determinacji - $r_p^2$ . Wyraża procent zmienności zmiennej zależnej tłumaczony zmiennością zmiennej niezależnej.

Tworzony model korelacji przedstawia zależność liniową postaci:

$\begin{displaymath} Y=\beta X+\alpha. \end{displaymath}$

Współczynniki $\beta$ i $\alpha$ równania regresji liniowej możemy wyznaczyć z wzorów:

$\begin{displaymath} \displaystyle{\beta=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2}}, \qquad \alpha=\overline{y}-\beta\overline{x}. \end{displaymath}$

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika korelacji Pearsona

Test t do sprawdzania istotności współczynnika korelacji liniowej Pearsona

Test do sprawdzania istotności współczynnika korelacji liniowej Pearsona (ang. test of significance for a Pearson product-moment correlation coefficient) służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji liniowej Pearsona wyliczonym dla próby. Im wartość współczynnika $r_p$ jest bliższa 0, tym słabszą zależnością związane są badane cechy.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu badanych cech w populacji lub normalność reszt modelu.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & R_p = 0, \\ \mathcal{H}_1: & R_p \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{r_p}{SE}, \end{displaymath}$

gdzie $\displaystyle SE=\sqrt{\frac{1-r_p^2}{n-2}}$ .

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$ .

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika nachylenia prostej

Test t do sprawdzania istotności współczynników równania regresji liniowej

Test ten służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku nachylenia prostej wyliczonym dla próby. Im wartość współczynnika $\beta$ będzie bliższa 0, tym słabszą zależność dopasowana prosta przedstawia.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu badanych cech w populacji lub normalność reszt modelu.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \beta = 0, \\ \mathcal{H}_1: & \beta \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{\beta}{SE} \end{displaymath}$

gdzie:

$\displaystyle SE=\frac{s_{yx}}{sd_x\sqrt{n-1}}$ ,

$s_{yx}=sd_y \sqrt{\frac{n-1}{n-2}(1-r^2)}$ ,

$sd_x, sd_y$ - odchylenie standardowe wartości cechy $X$ i cechy $Y$ .

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$ .

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Predykcja

polega na przewidywaniu wartości jednej ze zmiennych (najczęściej zmiennej zależnej $y_0$ ) na podstawie wartości innej zmiennej (najczęściej zmiennej niezależnej $x_0$ ). Dokładność wyznaczonej wartości określają obliczone dla niej przedziały predykcji.

Interpolacja polega na przewidywaniu wartości zadanej zmiennej leżącej wewnątrz obszaru, dla którego wykonaliśmy model regresji. Interpolacja jest więc z reguły procedurą bezpieczną - zakłada się tu jedynie ciągłość funkcji wyrażającej zależność obu zmiennych.
Ekstrapolacja polega na przewidywaniu wartości zadanej zmiennej leżącej poza obszarem, dla którego zbudowaliśmy model regresji. W przeciwieństwie do interpolacji, ekstrapolacja bywa często zabiegiem ryzykownym i dokonuje się jej jedynie w niewielkiej odległości od obszaru, dla którego powstał model regresji. Podobnie jak w interpolacji zakłada się ciągłość funkcji wyrażającej zależność obu zmiennych.

Analiza reszt modelu - wyjaśnienie w module Regresja Wieloraka.

Okno z ustawieniami opcji zależności liniowej Pearsona wywołujemy poprzez menu Statystyka→Testy parametryczne→zależność liniowa (r-Pearsona) lub poprzez ''Kreator''.

Przykład (plik wiek-wzrost.pqs)

Wśród uczniów pewnej szkoły baletowej badano zależność pomiędzy wiekiem a wzrostem. W tym celu pobrano próbę obejmującą szesnaścioro dzieci i zapisano dla nich następujące wyniki pomiaru tych cech:

(wiek, wzrost): (5, 128) (5, 129) (5, 135) (6, 132) (6, 137) (6, 140) (7, 148) (7, 150) (8, 135) (8, 142) (8, 151) (9, 138) (9, 153) (10, 159) (10, 160) (10, 162).}

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $nie istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\ &$dla populacji dzieci badanej szkoły,$\\ \mathcal{H}_1: & $istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\ &$dla populacji dzieci badanej szkoły.$ \end{array}$

Porównując wartość $p$ =0.000069 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje zależność liniowa pomiędzy wiekiem a wzrostem dla populacji dzieci badanej szkoły. Zależność ta jest wprost proporcjonalna, tzn. wraz ze wzrostem wieku dzieci rośnie wysokość ciała.

Współczynnik korelacji liniowej Pearsona, a zatem siła związku liniowego pomiędzy wiekiem a wzrostem wynosi $r_p$ =0.8302. Współczynnik determinacji $r_p^2=0.6892$ oznacza, że ok. 69% zmienności wzrostu jest tłumaczona zmiennością wieku.

Z równania regresji postaci: $\begin{displaymath} wzrost=5.09\cdot wiek +105.83 \end{displaymath}$ można wyliczyć predykcyjną wartość dla dziecka w wieku np. 6 lat. Przewidywany wzrost takiego dziecka wynosi 136.37cm.

2014/08/22 20:00

Porównanie współczynników korelacji

Test t do sprawdzania równości współczynników korelacji liniowej Pearsona pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników korelacji liniowej Pearsona ( $R_{p_1}$ , $R_{p_2})$ .

Podstawowe warunki stosowania:

współczynniki $r_{p_1}$ i $r_{p_2}$ pochodzą z 2 prób pobranych z niezależnych populacji,
współczynniki $r_{p_1}$ i $r_{p_2}$ badają zależność tych samych cech $X$ i $Y$ ,
znane są liczności obu prób $n_1$ i $n_2$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & R_{p_1} = R_{p_2}, \\ \mathcal{H}_1: & R_{p_1} \ne R_{p_2}. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{z_{r_{p_1}}-z_{r_{p_2}}}{\sqrt{\frac{1}{n_1-3}+\frac{1}{n_2-3}}}, \end{displaymath}$

gdzie:

$\displaystyle z_{r_{p_1}}=\frac{1}{2}\ln\left(\frac{1+r_{p_1}}{1-r_{p_1}}\right)$ ,

$\displaystyle z_{r_{p_2}}=\frac{1}{2}\ln\left(\frac{1+r_{p_2}}{1-r_{p_2}}\right)$ .

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Uwaga! W podobny sposób można dokonać porównania współczynników nachylenia prostych regresji.

2014/08/22 20:00

Porównanie nachylenia prostych regresji

Test t do sprawdzania równości współczynników regresji liniowej pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników regresji liniowej $\beta_1$ i $\beta_2$ w badanych populacjach.

Podstawowe warunki stosowania:

współczynniki $\beta_1$ i $\beta_2$ pochodzą z 2 prób pobranych z niezależnych populacji,
współczynniki $\beta_1$ i $\beta_2$ badają zależność tych samych cech $X$ i $Y$ ,
znane są liczności obu prób $n_1$ i $n_2$ ,
znane są odchylenia standardowe dla wartości obu cech w obu próbach: $sd_{x_1}, sd_{y_1}$ i $sd_{x_2}, sd_{y_2}$ ,
znane są współczynniki korelacji liniowej Pearsona obu prób: $r_{p_1}$ i $r_{p_2}$

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \beta_1 = \beta_2, \\ \mathcal{H}_1: & \beta_1 \ne \beta_2. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} t=\frac{\beta_1 -\beta_2}{\sqrt{\frac{s_{yx_1}^2}{sd_{x_1}^2(n_1-1)}+\frac{s_{yx_2}^2}{sd_{x_1}^2(n_2-1)}}}, \end{displaymath}$

gdzie:

$\displaystyle s_{yx_1}=sd_{y_1}\sqrt{\frac{n_1-1}{n_1-2}(1-r_{p_1}^2)}$ ,

$\displaystyle s_{yx_2}=sd_{y_2}\sqrt{\frac{n_2-1}{n_2-2}(1-r_{p_2}^2)}$ .

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji porównania współczynników zależności wywołujemy poprzez menu Statystyka→Testy parametryczne→porównanie współczynników zależności.

2014/08/22 20:00

Testy nieparametryczne

Współczynniki korelacji monotonicznej

Zależność monotoniczna może być opisywana jako monotoniczny wzrost lub monotoniczny spadek. Związek pomiędzy 2 cechami przedstawia monotoniczny wzrost jeżeli wzrostowi jednej cechy towarzyszy wzrost drugiej cechy. Związek pomiędzy 2 cechami przedstawia monotoniczny spadek jeżeli wzrostowi jednej cechy towarzyszy spadek drugiej cechy.

Współczynnik korelacji rangowej Spearmana $r_s$ (ang. Spearman's rank-order correlation coefficient) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami $X$ i $Y$ . Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji rangowej Spearmana wylicza się według wzoru: $\begin{displaymath} \label{rs} r_s=1-\frac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}, \end{displaymath}$

gdzie:

$d_i=R_{x_i}-R_{y_i}$ - różnica rang dla cechy $X$ i cechy $Y$ ,

$n$ liczność $d_i$ .

Wzór ten ulega pewniej modyfikacji gdy występują rangi wiązane:

$\begin{displaymath} r_s=\frac{\Sigma_X+\Sigma_Y-\sum_{i=1}^nd_i^2}{2\sqrt{\Sigma_X\Sigma_Y}}, \end{displaymath}$

gdzie:

$\Sigma_X=\frac{n^3-n-T_X}{12}$ , $\Sigma_Y=\frac{n^3-n-T_Y}{12}$ ,
$T_X=\sum_{i=1}^s (t_{i_{(X)}}^3-t_{i_{(X)}})$ , $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^3-t_{i_{(Y)}})$ ,
$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Poprawka na rangi wiązane powinna być stosowana, gdy rangi wiązane występują. Gdy nie ma rang wiązanych poprawka redukuje się i sprowadza wzór do postaci opisanej wcześniejszym równaniem.

Uwaga!

$R_s$ oznacza współczynnik korelacji rangowej Spearmana populacji, natomiast $r_s$ w próbie.

Wartość $r_s\in<-1; 1>$ interpretujemy w następujący sposób:

$r_s\approx1$ oznacza silną dodatnią zależność monotoniczną (rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
$r_s\approx-1$ oznacza silną ujemną zależność monotoniczną (malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
gdy współczynnik korelacji rangowej Spearmana przyjmuje wartość równą lub bardzo bliską zeru, wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik korelacji tau Kendalla $\tilde{\tau}$ (ang. Kendall's tau correlation coefficient, Kendall (1938)¹⁾) jest wykorzystywany do badania siły związku monotonicznego pomiędzy cechami. Wyznacza się go dla skali porządkowej lub interwałowej.

Wartość współczynnika korelacji tau Kendalla $\tilde{\tau}$ wylicza się według wzoru:

$\begin{displaymath} \tilde{\tau}=\frac{2(n_C-n_D)}{\sqrt{n(n-1)-T_X}\sqrt{n(n-1)-T_Y}}, \end{displaymath}$

gdzie:

$n_C$ - liczbapar obserwacji, dla których wartości rang dla cechy $X$ jak i dla cechy $Y$ zmieniają się w tym samym kierunku (liczba par zgodnych),
$n_D$ - liczba par obserwacji, dla których wartości rang dla cechy $X$ zmieniają się w innym kierunku niż dla cechy $Y$ (liczba par niezgodnych),
$T_X=\sum_{i=1}^s (t_{i_{(X)}}^2-t_{i_{(X)}})$ , $T_Y=\sum_{i=1}^s (t_{i_{(Y)}}^2-t_{i_{(Y)}})$ ,
$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na współczynnik $\tilde{\tau}$ zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka nie jest wyliczana gdyż wówczas $T_X=0$ i $T_Y=0$ ) .

Uwaga!

$\tau$ oznacza współczynnik korelacji Kendalla w populacji, natomiast $\tilde{\tau}$ w próbie.

Wartość $\tilde{\tau}\in<-1; 1>$ interpretujemy w następujący sposób:

$\tilde{\tau}\approx1$ oznacza silną „zgodność” uporządkowania rang (zależność monotoniczną rosnącą), tj. wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
$\tilde{\tau}\approx-1$ oznacza silną „niezgodność” uporządkowania rang (zależność monotoniczną malejącą), tj. wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
gdy współczynnik korelacji $\tilde{\tau}$ przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje monotoniczna zależność między badanymi parametrami (ale może istnieć związek niemonotoniczny np. sinusoidalny).

Współczynnik $r_s$ Spearmana a współczynnik $\tilde{\tau}$ Kendalla

dla skali interwałowej z normalnością rozkładu obu cech wartość $r_s$ daje rezultaty bliższe wartości $r_p$ natomiast wartości $\tilde{\tau}$ może znacznie różnić się od $r_p$ ,
wartość $\tilde{\tau}$ jest mniejsza bądź równa wartości $r_p$ ,
$\tilde{\tau}$ jest nieobciążonym estymatorem parametru populacji $\tau$ , podczas gdy wartość $r_s$ nie jest estymatorem nieobciążonym parametru $R_s$ .

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika korelacji Spearmana

Test t do sprawdzania istotności współczynnika korelacji rangowej Spearmana (ang. Test of significance for Spearman's rank-order correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji rangowej Spearmana wyliczonym dla próby. Im wartość współczynnika Spearmana ( $r_s$ ) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.

Podstawowe warunki stosowania:

pomiar na skali porządkowej lub interwałowej.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & R_s = 0, \\ \mathcal{H}_1: & R_s \ne 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} t=\frac{r_s}{SE}, \end{displaymath}$ gdzie $\displaystyle SE=\sqrt{\frac{1-r_s^2}{n-2}}$ .

Wartość statystyki testowej nie może być wyznaczona gdy $r_s=1$ lub $r_s=-1$ albo, gdy $n<3$ .

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji zależności monotonicznej Spearmana wywołujemy poprzez menu Statystyka→Testy nieparametryczne→zależność monotoniczna (r-Spearmana) lub poprzez ''Kreator''.

Przykład (plik: LDL tygodnie.pqs)

Badano skuteczność nowej terapii, której celem jest obniżenie poziomu cholesterolu we frakcji LDL. Przebadano 88 osób na różnym etapie kuracji. Sprawdzimy, czy wraz z upływem czasu stosowania kuracji (czas w tygodniach) poziom cholesterolu LDL spada i się stabilizuje.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $ W populacji nie istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL,$\\ \mathcal{H}_1: & $ W populacji istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL.$ \end{array}$

Porównując wartość $p$ <0.0001 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Spearmana, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi $r_s$ =-0.7806. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.

2014/08/22 20:00

Istotność współczynnika korelacji tau Kendalla

Test do sprawdzania istotności współczynnika korelacji tau Kendalla

Test do sprawdzania istotności współczynnika korelacji $\tilde{\tau}$ Kendalla (ang. Test of significance for Kendall's tau correlation coefficient) służy do weryfikacji hipotezy o braku zależności monotonicznej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji Kendalla wyliczonym dla próby. Im wartość wspołczynnika tau ( $\tilde{\tau}$ ) jest bliższa 0, tym słabszą zależnością monotoniczną związane są badane cechy.

Podstawowe warunki stosowania:

pomiar na skali porządkowej lub interwałowej.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \tau = 0, \\ \mathcal{H}_1: & \tau \ne 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{3\tilde{\tau}\sqrt{n(n-1)}}{\sqrt{2(2n+5)}}. \end{displaymath}$ Statystyka testowa ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji zależności monotonicznej Kendalla wywołujemy poprzez menu Statystyka→Testy nieparametryczne→zależność monotoniczna (tau-Kendalla) lub poprzez ''Kreator''.

Przykład c.d. (plik LDL tygodnie.pqs)

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $ W populacji nie istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL,$\\ \mathcal{H}_1: & $ W populacji istnieje zależność monotoniczna pomiędzy czasem kuracji a poziomem LDL.$ \end{array}$

Porównując wartość $p$ <0.0001 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje ważna statystycznie monotoniczna zależność pomiędzy czasem kuracji a poziomem LDL. Zależność ta jest początkowo malejąca, a po 150 tygodniach zaczyna się stabilizować. Współczynnik korelacji monotonicznej Kendalla, a zatem siła związku monotonicznego dla tej zależności jest dość wysoki i wynosi $\tilde{\tau}$ =-0.5975. Wykres wyrysowano dopasowując krzywą poprzez lokalne techniki wygładzania liniowego typu LOWESS.

2014/08/22 20:00

Współczynniki tabel kontyngencji i ich istotność statystyczna

Współczynniki kontyngencji są wyliczane dla danych w postaci surowej lub danych zebranych w tabelę kontyngencji.

Okno z ustawieniami opcji miar zależności dla tabel wywołujemy poprzez menu Statystyka→Testy nieparametryczne →Chi-kwadrat, Fisher, OR/RR→Współczynniki korelacji… lub poprzez ''Kreator''.

Współczynnik kontyngencji Q-Yulea

Współczynnik kontyngencji $Q$ -Yulea (Yule's Q contingency coefficient), Yule (1900)²⁾, jest miarą zależności, która może być wyznaczana dla tabel kontyngencji $2\times2$

$\begin{displaymath} Q=\frac{O_{11}O_{22}-O_{12}O_{21}}{O_{11}O_{22}+O_{12}O_{21}}, \end{displaymath}$

gdzie:

$O_{11}, O_{12}, O_{21}, O_{22}$ - liczności obserwowane w tabeli kontyngencji.

Oryginalnie wartość współczynnika $Q$ mieści się w przedziale $<-1; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa $-$ 1 lub +1, tym siła badanego związku jest większa (ze względu na błędy w interpretacji ujemnej wartości współczynnika, wyniki tego współczynnika w programie PQStat przedstawiane są wówczas również jako wartość bezwzględna). Wadą tego współczynnika jest to, iż jest mało odporny na małe liczności obserwowane (gdy jakaś z liczności obserwowanych wynosi 0, to współczynnik może błędnie wskazywać całkowitą zależność cech).

Istotność statystyczną wyznaczonego współczynnika kontyngencji $Q$ -Yulea określamy testem $Z$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: &Q=0,\\ \mathcal{H}_1: &Q\neq 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{Q}{\sqrt{\frac{1}{4}(1-Q^2)^2(\frac{1}{O_{11}}+\frac{1}{O_{12}}+\frac{1}{O_{21}}+\frac{1}{O_{22}})}}. \end{displaymath}$

Statystyka testowa ma asymptotycznie (dla dużych liczności $n$ ) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Współczynnik kontyngencji $\phi$

Współczynnik kontyngencji $\phi$ (ang. phi contingency coefficient) jest miarą zależności polecaną szczególnie dla tabel kontyngencji $2\times2$ , chociaż możliwą do wyznaczenia dla dowolnych tabel.

$\begin{displaymath} \phi=\sqrt{\frac{\chi^2}{n}}, \end{displaymath}$

gdzie:

$\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $\phi$ mieści się w przedziale $<0; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa wartości 1 tym większa.

Współczynnik kontyngencji $\phi$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji $V$ -Cramera

Współczynnik kontyngencji $V$ -Cramera (ang. Cramer's V contingency coefficient), Cramer (1946)³⁾, jest rozszerzeniem współczynnika $\phi$ na tabele kontyngencji $r\times c$ .

$\begin{displaymath} V=\sqrt{\frac{\chi^2}{n(w'-1)}}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Wartość współczynnika $V$ mieści się w przedziale $<0; 1>$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa +1, tym siła badanego związku jest większa. Wartość współczynnika $V$ zależy również od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $V$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji $W$ -Cohena

Współczynnik kontyngencji $W$ -Cohena (ang. Cohen's w contingency coefficient), Cohen (1988)⁴⁾, jest modyfikacją współczynnika $V$ -Cramera i jest możliwy do wyliczenia dla tabel $r\times c$ .

$\begin{displaymath} W=\sqrt{\frac{\chi^2}{n(w'-1)}}\sqrt{w'-1}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu chi-kwadrat,

$n$ - całkowita liczność w tabeli kontyngencji,

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Wartość współczynnika $W$ mieści się w przedziale $<0; \max W>$ , gdzie $\max W=\sqrt{w'-1}$ (dla tabel, w których co najmniej jedna zmienna zawiera tylko dwie kategorie wartość współczynnika $W$ mieści się w przedziale $<0; 1>$ ). Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im bliższa maksymalnej wartości, tym siła badanego związku jest większa. Wartość współczynnika $W$ zależy od wielkości tabeli, stąd nie powinno się stosować tego współczynnika do porównywania tabel kontyngencji o różnych wielkościach.

Współczynnik kontyngencji $W$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Współczynnik kontyngencji C Pearsona

Współczynnik kontyngencji $C$ -Pearsona (ang. Pearson's C contingency coefficient) jest miarą zależności wyznaczaną dla tabel kontyngencji $r\times c$

$\begin{displaymath} C=\sqrt{\frac{\chi^2}{\chi^2+n}}, \end{displaymath}$

gdzie:

wartość $\chi^2$ - wartość statystyki testu $\chi^2$ ,

$n$ - całkowita liczność w tabeli kontyngencji.

Wartość współczynnika $C$ mieści się w przedziale $<0; 1)$ . Im wartość ta jest bliższa 0, tym siła związku pomiędzy badanymi cechami jest mniejsza, a im dalsza od 0, tym siła badanego związku jest większa. Ponieważ wartość współczynnika $C$ zależy również od wielkości tabeli (im większa tabela, tym wartość $C$ może być bliższa 1), dlatego wyznacza się górną granicę jaką dla danej wielkości tabeli współczynnik $C$ może osiągnąć:

$\begin{displaymath} C_{max}=\sqrt{\frac{w'-1}{w'}}, \end{displaymath}$

gdzie:

$w'$ - jest mniejszą z dwóch wartości $r$ i $c$ .

Niewygodną konsekwencją uzależnienia wartości $C$ od wielkości tabeli jest brak możliwości porównywania wartości współczynnika $C$ wyznaczonego dla różnych wielkości tabel kontyngencji. Nieco lepszą miarą w takim przypadku jest dostosowana do wielkości tabeli wielkość współczynnika kontyngencji $C_{adj}$

$\begin{displaymath} C_{adj}=\frac{C}{C_{max}}. \end{displaymath}$

Współczynnik kontyngencji $C$ uznaje się za istotny statystycznie jeśli wartość $p$ wyznaczona na podstawie statystyki testu chi-kwadrat i rozkładu chi-kwadrat (wyznaczonego dla tej tabeli) jest równa bądź mniejsza niż poziom istotności $\alpha$ .

Przykład (plik płeć-egzamin.pqs)

Rozpatrzmy próbę składającą się z 170 osób ( $n=170$ ), dla których badamy 2 cechy ( $X$ =płeć, $Y$ =zdawalność egzaminu). Każda z tych cech występuje w dwóch kategoriach ( $X_1$ =k, $X_2$ =m, $Y_1$ =tak, $Y_2$ =nie). Na podstawie tej próby chcielibyśmy się dowiedzieć, czy w badanej populacji istnieje zależność pomiędzy płcią a zdawalnością egzaminu. Rozkład danych przedstawia tabeli kontyngencji:}

$\begin{tabular}{|c|c||c|c|c|} \hline \multicolumn{2}{|c||}{Liczności obserwowane }& \multicolumn{3}{|c|}{zdawalność egzaminu}\\\cline{3-5} \multicolumn{2}{|c||}{$O_{ij}$} & tak & nie & suma \\\hline \hline \multirow{3}{*}{płeć}& k & 50 & 40 & 90 \\\cline{2-5} & m & 20 & 60 & 80 \\\cline{2-5} & suma & 70 & 100 & 170\\\hline \end{tabular}$

Wartość statystyki testowej wynosi $\chi^2=16.33$ a wyznaczona dla niej wartość $p=0.00005$ . Uzyskany wynik wskazuje na istnienie zależności statystycznej pomiędzy płcią a zdawalnością egzaminu w badanej populacji.

Wartość współczynników opartych o test $\chi^2$ , a zatem siła związku między badanymi cechami to:

Współczynnik kontyngencji $C_{adj}$ -Pearsona = 0.42.

Współczynnik kontyngencji $V$ -Cramera = $\phi$ = $W$ -Cohena =0.31

Współczynnik kontyngencji $Q$ -Yulea=0.58, a wartość $p$ wykonanego testu $Z$ podobnie jak poziom istotności testu $\chi^2$ wskazuje na istotność statystyczną badanego związku.

2014/08/22 20:00

¹⁾

Kendall M.G. (1938), A new measure of rank correlation. Biometrika, 30, 81-93

²⁾

Yule G. (1900), On the association of the attributes in statistics: With illustrations from the material ofthe childhood society, and c. Philosophical Transactions of the Royal Society, Series A, 194,257-3 19

³⁾

Cramkr H. (1946), Mathematical models of statistics. Princeton, NJ: Princeton University Press

⁴⁾

Cohen J. (1988), Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum Associates, Hillsdale, New Jersey

PQStat - Baza Wiedzy

Pasek boczny

Spis treści

Korelacja

Testy parametryczne

Współczynniki korelacji liniowej

Istotność współczynnika korelacji Pearsona

Istotność współczynnika nachylenia prostej

Porównanie współczynników korelacji

Porównanie nachylenia prostych regresji

Testy nieparametryczne

Współczynniki korelacji monotonicznej

Istotność współczynnika korelacji Spearmana

Istotność współczynnika korelacji tau Kendalla

Współczynniki tabel kontyngencji i ich istotność statystyczna

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Korelacja

Testy parametryczne

Współczynniki korelacji liniowej

Istotność współczynnika korelacji Pearsona

Istotność współczynnika nachylenia prostej

Porównanie współczynników korelacji

Porównanie nachylenia prostych regresji

Testy nieparametryczne

Współczynniki korelacji monotonicznej

Istotność współczynnika korelacji Spearmana

Istotność współczynnika korelacji tau Kendalla

Współczynniki tabel kontyngencji i ich istotność statystyczna

Narzędzia strony