PQStat - Baza Wiedzy

Spis treści

Testy parametryczne

Testy parametryczne

Współczynniki korelacji liniowej

Współczynnik korelacji liniowej Pearsona $r_p$ (ang. Pearson product-moment correlation coefficient, Pearson (1896,1900)) jest wykorzystywany do badania siły związku liniowego pomiędzy cechami. Można go wyznaczać dla skali interwałowej, o ile brak jest odstających pomiarów, a rozkład reszt lub badanych cech jest rozkładem normalnym.

$\begin{displaymath} r_p=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}, \end{displaymath}$

gdzie:

$x_i, y_i$ - kolejne wartości cechy $X$ i $Y$ ,

$\overline{x}, \overline{y}$ - średnie z wartości cechy $X$ i cechy $Y$ ,

$n$ - liczność próby.

Uwaga!

$R_p$ oznacza współczynnik korelacji Pearsona populacji, natomiast $r_p$ w próbie.

Wartość $r_p\in<-1; 1>$ interpretujemy w następujący sposób:

$r_p\approx1$ oznacza silną dodatnią zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej a wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
$r_p\approx-1$ oznacza silną ujemną zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej, lecz wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
gdy współczynnik korelacji liniowej przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje liniowa zależność między badanymi parametrami (ale może istnieć związek nieliniowy).

Interpretacja graficzna współczynnika $r_p$ .

$\begin{pspicture}(0,-.8)(12.5,2.5) \psline{->}(.5,0)(.5,2) \psline{->}(.5,0)(2.5,0) \rput(.8,1){*} \rput(1.7,.9){*} \rput(1,.7){*} \rput(1.3,1.6){*} \rput(1.5,1){*} \rput(1.1,.4){*} \rput(2.1,1){*} \rput(1.9,1.8){*} \rput(.2,2){$y$} \rput(2.5,-.2){$x$} \rput(1.5,-.7){$r_p\approx0$} \psline{->}(4.5,0)(4.5,2) \psline{->}(4.5,0)(6.5,0) \psline{-}(4.7,.5)(6.3,1.8) \rput(4.8,.7){*} \rput(5.3,1){*} \rput(5,.4){*} \rput(6,1.7){*} \rput(5.7,1.2){*} \rput(4.2,2){$y$} \rput(6.5,-.2){$x$} \rput(5.5,-.7){$r_p\approx1$} \psline{->}(8.5,0)(8.5,2) \psline{->}(8.5,0)(10.5,0) \psline{-}(8.7,1.8)(10.3,.2) \rput(9.6,.9){*} \rput(8.9,1.4){*} \rput(9.7,1.2){*} \rput(10.1,.2){*} \rput(9.9,.4){*} \rput(8.2,2){$y$} \rput(10.5,-.2){$x$} \rput(9.5,-.7){$r_p\approx-1$} \end{pspicture}$

Gdy jedna z badanych cech jest stała (niezależnie od zmian drugiej cechy) to nie są one związane zależnością. Współczynnika $r_p$ nie można wyznaczyć.

Uwaga!

Błędem jest wyznaczanie współczynnika korelacji, gdy w próbie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona, gdy próba jest wyraźnie niejednorodna, bądź też badana zależność wyraźnie przyjmuje kształt inny niż liniowy.

Współczynnik determinacji - $r_p^2$ . Wyraża procent zmienności zmiennej zależnej tłumaczony zmiennością zmiennej niezależnej.

Tworzony model korelacji przedstawia zależność liniową postaci:

$\begin{displaymath} Y=\beta X+\alpha. \end{displaymath}$

Współczynniki $\beta$ i $\alpha$ równania regresji liniowej możemy wyznaczyć z wzorów:

$\begin{displaymath} \displaystyle{\beta=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2}}, \qquad \alpha=\overline{y}-\beta\overline{x}. \end{displaymath}$

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika korelacji Pearsona

Test t do sprawdzania istotności współczynnika korelacji liniowej Pearsona

Test do sprawdzania istotności współczynnika korelacji liniowej Pearsona (ang. test of significance for a Pearson product-moment correlation coefficient) służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji liniowej Pearsona wyliczonym dla próby. Im wartość współczynnika $r_p$ jest bliższa 0, tym słabszą zależnością związane są badane cechy.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu badanych cech w populacji lub normalność reszt modelu.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & R_p = 0, \\ \mathcal{H}_1: & R_p \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{r_p}{SE}, \end{displaymath}$

gdzie $\displaystyle SE=\sqrt{\frac{1-r_p^2}{n-2}}$ .

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$ .

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika nachylenia prostej

Test t do sprawdzania istotności współczynników równania regresji liniowej

Test ten służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku nachylenia prostej wyliczonym dla próby. Im wartość współczynnika $\beta$ będzie bliższa 0, tym słabszą zależność dopasowana prosta przedstawia.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu badanych cech w populacji lub normalność reszt modelu.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \beta = 0, \\ \mathcal{H}_1: & \beta \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{\beta}{SE} \end{displaymath}$

gdzie:

$\displaystyle SE=\frac{s_{yx}}{sd_x\sqrt{n-1}}$ ,

$s_{yx}=sd_y \sqrt{\frac{n-1}{n-2}(1-r^2)}$ ,

$sd_x, sd_y$ - odchylenie standardowe wartości cechy $X$ i cechy $Y$ .

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$ .

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Predykcja

polega na przewidywaniu wartości jednej ze zmiennych (najczęściej zmiennej zależnej $y_0$ ) na podstawie wartości innej zmiennej (najczęściej zmiennej niezależnej $x_0$ ). Dokładność wyznaczonej wartości określają obliczone dla niej przedziały predykcji.

Interpolacja polega na przewidywaniu wartości zadanej zmiennej leżącej wewnątrz obszaru, dla którego wykonaliśmy model regresji. Interpolacja jest więc z reguły procedurą bezpieczną - zakłada się tu jedynie ciągłość funkcji wyrażającej zależność obu zmiennych.
Ekstrapolacja polega na przewidywaniu wartości zadanej zmiennej leżącej poza obszarem, dla którego zbudowaliśmy model regresji. W przeciwieństwie do interpolacji, ekstrapolacja bywa często zabiegiem ryzykownym i dokonuje się jej jedynie w niewielkiej odległości od obszaru, dla którego powstał model regresji. Podobnie jak w interpolacji zakłada się ciągłość funkcji wyrażającej zależność obu zmiennych.

Analiza reszt modelu - wyjaśnienie w module Regresja Wieloraka.

Okno z ustawieniami opcji zależności liniowej Pearsona wywołujemy poprzez menu Statystyka→Testy parametryczne→zależność liniowa (r-Pearsona) lub poprzez ''Kreator''.

Przykład (plik wiek-wzrost.pqs)

Wśród uczniów pewnej szkoły baletowej badano zależność pomiędzy wiekiem a wzrostem. W tym celu pobrano próbę obejmującą szesnaścioro dzieci i zapisano dla nich następujące wyniki pomiaru tych cech:

(wiek, wzrost): (5, 128) (5, 129) (5, 135) (6, 132) (6, 137) (6, 140) (7, 148) (7, 150) (8, 135) (8, 142) (8, 151) (9, 138) (9, 153) (10, 159) (10, 160) (10, 162).}

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $nie istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\ &$dla populacji dzieci badanej szkoły,$\\ \mathcal{H}_1: & $istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\ &$dla populacji dzieci badanej szkoły.$ \end{array}$

Porównując wartość $p$ =0.000069 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje zależność liniowa pomiędzy wiekiem a wzrostem dla populacji dzieci badanej szkoły. Zależność ta jest wprost proporcjonalna, tzn. wraz ze wzrostem wieku dzieci rośnie wysokość ciała.

Współczynnik korelacji liniowej Pearsona, a zatem siła związku liniowego pomiędzy wiekiem a wzrostem wynosi $r_p$ =0.8302. Współczynnik determinacji $r_p^2=0.6892$ oznacza, że ok. 69% zmienności wzrostu jest tłumaczona zmiennością wieku.

Z równania regresji postaci: $\begin{displaymath} wzrost=5.09\cdot wiek +105.83 \end{displaymath}$ można wyliczyć predykcyjną wartość dla dziecka w wieku np. 6 lat. Przewidywany wzrost takiego dziecka wynosi 136.37cm.

2014/08/22 20:00

Porównanie współczynników korelacji

Test t do sprawdzania równości współczynników korelacji liniowej Pearsona pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników korelacji liniowej Pearsona ( $R_{p_1}$ , $R_{p_2})$ .

Podstawowe warunki stosowania:

współczynniki $r_{p_1}$ i $r_{p_2}$ pochodzą z 2 prób pobranych z niezależnych populacji,
współczynniki $r_{p_1}$ i $r_{p_2}$ badają zależność tych samych cech $X$ i $Y$ ,
znane są liczności obu prób $n_1$ i $n_2$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & R_{p_1} = R_{p_2}, \\ \mathcal{H}_1: & R_{p_1} \ne R_{p_2}. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} t=\frac{z_{r_{p_1}}-z_{r_{p_2}}}{\sqrt{\frac{1}{n_1-3}+\frac{1}{n_2-3}}}, \end{displaymath}$

gdzie:

$\displaystyle z_{r_{p_1}}=\frac{1}{2}\ln\left(\frac{1+r_{p_1}}{1-r_{p_1}}\right)$ ,

$\displaystyle z_{r_{p_2}}=\frac{1}{2}\ln\left(\frac{1+r_{p_2}}{1-r_{p_2}}\right)$ .

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Uwaga! W podobny sposób można dokonać porównania współczynników nachylenia prostych regresji.

2014/08/22 20:00

Porównanie nachylenia prostych regresji

Test t do sprawdzania równości współczynników regresji liniowej pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników regresji liniowej $\beta_1$ i $\beta_2$ w badanych populacjach.

Podstawowe warunki stosowania:

współczynniki $\beta_1$ i $\beta_2$ pochodzą z 2 prób pobranych z niezależnych populacji,
współczynniki $\beta_1$ i $\beta_2$ badają zależność tych samych cech $X$ i $Y$ ,
znane są liczności obu prób $n_1$ i $n_2$ ,
znane są odchylenia standardowe dla wartości obu cech w obu próbach: $sd_{x_1}, sd_{y_1}$ i $sd_{x_2}, sd_{y_2}$ ,
znane są współczynniki korelacji liniowej Pearsona obu prób: $r_{p_1}$ i $r_{p_2}$

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \beta_1 = \beta_2, \\ \mathcal{H}_1: & \beta_1 \ne \beta_2. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} t=\frac{\beta_1 -\beta_2}{\sqrt{\frac{s_{yx_1}^2}{sd_{x_1}^2(n_1-1)}+\frac{s_{yx_2}^2}{sd_{x_1}^2(n_2-1)}}}, \end{displaymath}$

gdzie:

$\displaystyle s_{yx_1}=sd_{y_1}\sqrt{\frac{n_1-1}{n_1-2}(1-r_{p_1}^2)}$ ,

$\displaystyle s_{yx_2}=sd_{y_2}\sqrt{\frac{n_2-1}{n_2-2}(1-r_{p_2}^2)}$ .

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji porównania współczynników zależności wywołujemy poprzez menu Statystyka→Testy parametryczne→porównanie współczynników zależności.

2014/08/22 20:00

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Testy parametryczne

Współczynniki korelacji liniowej

Istotność współczynnika korelacji Pearsona

Istotność współczynnika nachylenia prostej

Porównanie współczynników korelacji

Porównanie nachylenia prostych regresji

Narzędzia strony