Spis treści

Testy parametryczne

Współczynniki korelacji liniowej

Współczynnik korelacji liniowej Pearsona $r_p$ (ang. Pearson product-moment correlation coefficient, Pearson (1896,1900)) jest wykorzystywany do badania siły związku liniowego pomiędzy cechami. Można go wyznaczać dla skali interwałowej, o ile brak jest odstających pomiarów, a rozkład reszt lub badanych cech jest rozkładem normalnym.

\begin{displaymath}
r_p=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}},
\end{displaymath}

gdzie:

$x_i, y_i$ - kolejne wartości cechy $X$ i $Y$,

$\overline{x}, \overline{y}$ - średnie z wartości cechy $X$ i cechy $Y$,

$n$ - liczność próby.

Uwaga!

$R_p$ oznacza współczynnik korelacji Pearsona populacji, natomiast $r_p$ w próbie.

Wartość $r_p\in<-1; 1>$ interpretujemy w następujący sposób:

  • $r_p\approx1$ oznacza silną dodatnią zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej a wzrostowi zmiennej niezależnej odpowiada wzrost zmiennej zależnej;
  • $r_p\approx-1$ oznacza silną ujemną zależność liniową, tj. punkty pomiarowe leżą blisko linii prostej, lecz wzrostowi zmiennej niezależnej odpowiada spadek zmiennej zależnej;
  • gdy współczynnik korelacji liniowej przyjmuje wartość równą lub bardzo bliską zeru wówczas nie istnieje liniowa zależność między badanymi parametrami (ale może istnieć związek nieliniowy).

Interpretacja graficzna współczynnika $r_p$.

\begin{pspicture}(0,-.8)(12.5,2.5)

\psline{->}(.5,0)(.5,2)
\psline{->}(.5,0)(2.5,0)
\rput(.8,1){*}
\rput(1.7,.9){*}
\rput(1,.7){*}
\rput(1.3,1.6){*}
\rput(1.5,1){*}
\rput(1.1,.4){*}
\rput(2.1,1){*}
\rput(1.9,1.8){*}
\rput(.2,2){$y$}
\rput(2.5,-.2){$x$}
\rput(1.5,-.7){$r_p\approx0$}


\psline{->}(4.5,0)(4.5,2)
\psline{->}(4.5,0)(6.5,0)
\psline{-}(4.7,.5)(6.3,1.8)
\rput(4.8,.7){*}
\rput(5.3,1){*}
\rput(5,.4){*}
\rput(6,1.7){*}
\rput(5.7,1.2){*}
\rput(4.2,2){$y$}
\rput(6.5,-.2){$x$}
\rput(5.5,-.7){$r_p\approx1$}

\psline{->}(8.5,0)(8.5,2)
\psline{->}(8.5,0)(10.5,0)
\psline{-}(8.7,1.8)(10.3,.2)
\rput(9.6,.9){*}
\rput(8.9,1.4){*}
\rput(9.7,1.2){*}
\rput(10.1,.2){*}
\rput(9.9,.4){*}
\rput(8.2,2){$y$}
\rput(10.5,-.2){$x$}
\rput(9.5,-.7){$r_p\approx-1$}
\end{pspicture}

Gdy jedna z badanych cech jest stała (niezależnie od zmian drugiej cechy) to nie są one związane zależnością. Współczynnika $r_p$ nie można wyznaczyć.

Uwaga!

Błędem jest wyznaczanie współczynnika korelacji, gdy w próbie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona, gdy próba jest wyraźnie niejednorodna, bądź też badana zależność wyraźnie przyjmuje kształt inny niż liniowy.

Współczynnik determinacji - $r_p^2$. Wyraża procent zmienności zmiennej zależnej tłumaczony zmiennością zmiennej niezależnej.

Tworzony model korelacji przedstawia zależność liniową postaci:

\begin{displaymath}
Y=\beta X+\alpha.
\end{displaymath}

Współczynniki $\beta$ i $\alpha$ równania regresji liniowej możemy wyznaczyć z wzorów:

\begin{displaymath}
\displaystyle{\beta=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2}}, \qquad \alpha=\overline{y}-\beta\overline{x}.
\end{displaymath}

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika korelacji Pearsona

Test t do sprawdzania istotności współczynnika korelacji liniowej Pearsona

Test do sprawdzania istotności współczynnika korelacji liniowej Pearsona (ang. test of significance for a Pearson product-moment correlation coefficient) służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku korelacji liniowej Pearsona wyliczonym dla próby. Im wartość współczynnika $r_p$ jest bliższa 0, tym słabszą zależnością związane są badane cechy.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & R_p = 0, \\
\mathcal{H}_1: & R_p \ne 0.
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
t=\frac{r_p}{SE},
\end{displaymath}

gdzie $\displaystyle SE=\sqrt{\frac{1-r_p^2}{n-2}}$.

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$.

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład c.d. (plik wiek-wzrost.pqs)

2014/08/22 20:00

Istotność współczynnika nachylenia prostej

Test t do sprawdzania istotności współczynników równania regresji liniowej

Test ten służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji i opiera się na współczynniku nachylenia prostej wyliczonym dla próby. Im wartość współczynnika $\beta$ będzie bliższa 0, tym słabszą zależność dopasowana prosta przedstawia.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \beta = 0, \\
\mathcal{H}_1: & \beta \ne 0.
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
t=\frac{\beta}{SE}
\end{displaymath}

gdzie:

$\displaystyle SE=\frac{s_{yx}}{sd_x\sqrt{n-1}}$,

$s_{yx}=sd_y \sqrt{\frac{n-1}{n-2}(1-r^2)}$,

$sd_x, sd_y$ - odchylenie standardowe wartości cechy $X$ i cechy $Y$.

Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$.

Statystyka testowa ma rozkład t-Studenta z $n-2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Predykcja

polega na przewidywaniu wartości jednej ze zmiennych (najczęściej zmiennej zależnej $y_0$) na podstawie wartości innej zmiennej (najczęściej zmiennej niezależnej $x_0$). Dokładność wyznaczonej wartości określają obliczone dla niej przedziały predykcji.

  • Interpolacja polega na przewidywaniu wartości zadanej zmiennej leżącej wewnątrz obszaru, dla którego wykonaliśmy model regresji. Interpolacja jest więc z reguły procedurą bezpieczną - zakłada się tu jedynie ciągłość funkcji wyrażającej zależność obu zmiennych.
  • Ekstrapolacja polega na przewidywaniu wartości zadanej zmiennej leżącej poza obszarem, dla którego zbudowaliśmy model regresji. W przeciwieństwie do interpolacji, ekstrapolacja bywa często zabiegiem ryzykownym i dokonuje się jej jedynie w niewielkiej odległości od obszaru, dla którego powstał model regresji. Podobnie jak w interpolacji zakłada się ciągłość funkcji wyrażającej zależność obu zmiennych.

Analiza reszt modelu - wyjaśnienie w module Regresja Wieloraka.

Okno z ustawieniami opcji zależności liniowej Pearsona wywołujemy poprzez menu StatystykaTesty parametrycznezależność liniowa (r-Pearsona) lub poprzez ''Kreator''.

Przykład (plik wiek-wzrost.pqs)

Wśród uczniów pewnej szkoły baletowej badano zależność pomiędzy wiekiem a wzrostem. W tym celu pobrano próbę obejmującą szesnaścioro dzieci i zapisano dla nich następujące wyniki pomiaru tych cech:

(wiek, wzrost): (5, 128) (5, 129) (5, 135) (6, 132) (6, 137) (6, 140) (7, 148) (7, 150) (8, 135) (8, 142) (8, 151) (9, 138) (9, 153) (10, 159) (10, 160) (10, 162).}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $nie istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\
&$dla populacji dzieci badanej szkoły,$\\
\mathcal{H}_1: & $istnieje zależność liniowa pomiędzy wiekiem a wzrostem$\\
&$dla populacji dzieci badanej szkoły.$
\end{array}
$

Porównując wartość $p$=0.000069 z poziomem istotności $\alpha=0.05$ stwierdzamy, że istnieje zależność liniowa pomiędzy wiekiem a wzrostem dla populacji dzieci badanej szkoły. Zależność ta jest wprost proporcjonalna, tzn. wraz ze wzrostem wieku dzieci rośnie wysokość ciała.

Współczynnik korelacji liniowej Pearsona, a zatem siła związku liniowego pomiędzy wiekiem a wzrostem wynosi $r_p$=0.8302. Współczynnik determinacji $r_p^2=0.6892$ oznacza, że ok. 69% zmienności wzrostu jest tłumaczona zmiennością wieku.

Z równania regresji postaci: \begin{displaymath}
wzrost=5.09\cdot wiek +105.83
\end{displaymath} można wyliczyć predykcyjną wartość dla dziecka w wieku np. 6 lat. Przewidywany wzrost takiego dziecka wynosi 136.37cm.

2014/08/22 20:00

Porównanie współczynników korelacji

Test t do sprawdzania równości współczynników korelacji liniowej Pearsona pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników korelacji liniowej Pearsona ($R_{p_1}$, $R_{p_2})$.

Podstawowe warunki stosowania:

  • współczynniki $r_{p_1}$ i $r_{p_2}$ pochodzą z 2 prób pobranych z niezależnych populacji,
  • współczynniki $r_{p_1}$ i $r_{p_2}$ badają zależność tych samych cech $X$ i $Y$,
  • znane są liczności obu prób $n_1$ i $n_2$.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & R_{p_1} = R_{p_2}, \\
\mathcal{H}_1: & R_{p_1} \ne R_{p_2}.
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
t=\frac{z_{r_{p_1}}-z_{r_{p_2}}}{\sqrt{\frac{1}{n_1-3}+\frac{1}{n_2-3}}},
\end{displaymath}

gdzie:

$\displaystyle z_{r_{p_1}}=\frac{1}{2}\ln\left(\frac{1+r_{p_1}}{1-r_{p_1}}\right)$,

$\displaystyle z_{r_{p_2}}=\frac{1}{2}\ln\left(\frac{1+r_{p_2}}{1-r_{p_2}}\right)$.

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga! W podobny sposób można dokonać porównania współczynników nachylenia prostych regresji.

2014/08/22 20:00

Porównanie nachylenia prostych regresji

Test t do sprawdzania równości współczynników regresji liniowej pochodzących z 2 niezależnych populacji

Test ten służy do weryfikacji hipotezy o równości dwóch współczynników regresji liniowej $\beta_1$ i $\beta_2$ w badanych populacjach.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \beta_1 = \beta_2, \\
\mathcal{H}_1: & \beta_1 \ne \beta_2.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
t=\frac{\beta_1 -\beta_2}{\sqrt{\frac{s_{yx_1}^2}{sd_{x_1}^2(n_1-1)}+\frac{s_{yx_2}^2}{sd_{x_1}^2(n_2-1)}}},
\end{displaymath}

gdzie:

$\displaystyle s_{yx_1}=sd_{y_1}\sqrt{\frac{n_1-1}{n_1-2}(1-r_{p_1}^2)}$,

$\displaystyle s_{yx_2}=sd_{y_2}\sqrt{\frac{n_2-1}{n_2-2}(1-r_{p_2}^2)}$.

Statystyka testowa ma rozkład t-Studenta z $n_1+n_2-4$ stopniami swobody. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji porównania współczynników zależności wywołujemy poprzez menu StatystykaTesty parametryczneporównanie współczynników zależności.

2014/08/22 20:00