pqstat.pl

Narzędzia użytkownika

Porównanie - 1 grupa

\begin{pspicture}(0,6)(15,14.5)
\rput(2,14){\hyperlink{interwalowa}{Skala interwałowa}}
\rput[tl](.1,13.4){\ovalnode{A}{\hyperlink{rozklad_normalny}{\begin{tabular}{c}Czy rozkład\\zmiennej jest\\rozkładem\\normalnym?\end{tabular}}}}
\rput[br](2.7,7.2){\rnode{B}{\psframebox{\hyperlink{test_t_student}{\begin{tabular}{c}test\\t-Studenta\\dla jednej\\grupy\end{tabular}}}}}
\ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{B}

\rput(2.2,10.4){T}
\rput(4.3,12.5){N}

\rput(7.5,14){\hyperlink{porzadkowa}{Skala porządkowa}}
\rput[br](8.9,11.2){\rnode{C}{\psframebox{\hyperlink{test_wilcoxon_rangowanych_znakow}{\begin{tabular}{c}test\\rangowanych\\znaków\\Wilcoxona\end{tabular}}}}}
\ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{C}

\rput(12.5,14){\hyperlink{nominalna}{Skala nominalna}}
\rput[br](13.8,10.5){\rnode{D}{\psframebox{\begin{tabular}{c}\hyperlink{test_chi_kwadrat_dobroci}{test $\chi^2$}\\\hyperlink{test_chi_kwadrat_dobroci}{(dobroci}\\\hyperlink{test_chi_kwadrat_dobroci}{dopasowania),}\\\hyperlink{test_z_dla_proporcji}{testy dla} \\\hyperlink{test_z_dla_proporcji}{jednej}\\\hyperlink{test_z_dla_proporcji}{proporcji}\\\end{tabular}}}}

\rput(6,10){\hyperlink{testy_normalnosci}{testy normalności}}
\rput(6,9.5){\hyperlink{testy_normalnosci}{rozkładu}}
\psline[linestyle=dotted]{<-}(3.4,11.2)(4,10.2)
\end{pspicture}

 

Testy parametryczne

Test t-Studenta dla pojedynczej próby

Test t-Studenta dla pojedynczej próby (ang. single-sample t test) służy do weryfikacji hipotezy, że badana próba o średniej $\overline{x}$ pochodzi z populacji dla której średnia $\mu$ to zadana wartość.

Podstawowe warunki stosowania:

Hipotezy:


$\begin{array}{cc}\\
\mathcal{H}_0: & \mu=\mu_0,\\
\mathcal{H}_1: & \mu\ne \mu_0,
\end{array}$

gdzie:
$\mu$ - średnia cechy w populacji reprezentowanej przez próbę,
$\mu_0$ - zadana wartość.

Statystyka testowa ma postać: \begin{displaymath}
t=\frac{\overline{x}-\mu_0}{sd}\sqrt{n},
\end{displaymath}

gdzie: $sd$ - odchylenie standardowe z próby,
$n$ - liczność próby.

Statystyka testowa ma rozkład t-Studenta z $n-1$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:


$ \begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. 
\end{array}$

Uwaga!

Gdy próba jest duża i znane jest odchylenie standardowe z populacji wówczas statystykę testową można wyznaczyć z wzoru: \begin{displaymath}
t=\frac{\overline{x}-\mu_0}{\sigma}\sqrt n.
\end{displaymath} Tak wyznaczona statystyka testowa ma rozkład normalny. Przy $n \rightarrow \infty$ rozkład $t$-Studenta jest zbieżny do rozkładu normalnego $N(0,1)$. W praktyce przyjmuje się, że dla $n>30$ rozkład $t$-Studenta można aproksymować rozkładem normalnym.

Okno z ustawieniami opcji testu t-Studenta dla pojedynczej próby wywołujemy poprzez menu StatystykaTesty parametrycznet-Student lub poprzez ''Kreator''.

Uwaga!

Obliczenia mogą bazować na danych w postaci surowych rekordów lub danych uśrednionych tzn. średniej arytmetycznej, odchyleniu standardowym i liczności próby.

Przykład (plik kurier.pqs)

Chcemy sprawdzić, czy czas oczekiwania na dostarczenie przesyłki przez pewna firmę kurierską to przeciętnie 3 dni $(\mu_0=3)$. W tym celu z populacji klientów tej firmy wylosowano próbę liczącą 22 osoby i zapisano informacje o liczbie dni, jakie minęły od dnia nadania przesyłki do jej dostarczenia, były to następujące wielkości: (1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 6, 6, 6, 7, 7).}

Liczba dni oczekiwania na przesyłkę w badanej populacji spełnia założenie normalności rozkładu.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $średnia liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\
&$kurierską wynosi 3,$\\
\mathcal{H}_1: & $średnia liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\
&$kurierską jest różna od 3.$
\end{array}
$

Porównując wartość $p= 0.088074$ testu $t$-Studenta z poziomem istotności $\alpha=0.05$ stwierdzamy, że nie ma podstaw by odrzucić hipotezę zerową mówiącą, że średnia liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę kurierską wynosi 3. Dla badanej próby średnia to $\overline{x}=3.727$ a odchylenie standardowe $sd=1.907$.

 
 

Testy nieparametryczne

Rangi - są to kolejne liczby (zwykle naturalne) przypisane do wartości uporządkowanych pomiarów badanej zmiennej. Często wykorzystywane są w tych testach nieparametrycznych, które bazują wyłącznie na kolejności elementów w próbie. Zastąpienie zmiennej przez wyliczone według niej rangi zwane jest rangowaniem.

Powtarzającym się wartościom zmiennej przypisuje się rangę, która jest średnią arytmetyczną wyliczaną z proponowanych dla tych wartości kolejnych liczb naturalnych. Taka ranga nazywana jest rangą wiązaną.

Na przykład dla zmiennej o następujących wartościach: 8.6, 5.3, 8.6, 7.1, 9.3, 7.2, 7.3, 7.4, 7.3, 5.2, 7, 9.9, 8.6, 5.7 przypisywane są następujące rangi:

\begin{tabular}{|c|c|}
\hline
posortowane wartości zmiennej	&rangi\\\hline
5.2	&1	\\
5.3	&2	\\
5.7	&3	\\
7	&4	\\
7.1	&5	\\
7.2	&6	\\
7.3	&7.5	\\
7.3	&7.5	\\
7.4	&9	\\
8.6	&11	\\
8.6	&11	\\
8.6	&11	\\
9.3	&13	\\
9.9	&14	\\
\hline
\end{tabular}

Przy czym dla zmiennej o wartości 7.3 przypisana jest ranga wiązana wyliczona z liczb: 7 i 8, a dla zmiennej o wartości 8.6 ranga wiązana wyliczona z liczb: 10, 11, 12.

Testy normalności rozkładu

W badaniu normalności rozkładu zastosowanie mogą mieć różne testy, z których każdy zwraca uwagę na nieco inne aspekty rozkładu Gaussa. Nie można wskazać testu dobrego dla każdego możliwego zestawu danych.

Podstawowy warunek stosowania testów normalności rozkładu:

Hipotezy testów normalności rozkładu:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład badanej cechy w populacji jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład badanej cechy w populacji jest różny od rozkładu normalnego.$
\end{array}

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Kołmogorova-Smirnova (ang. Kolmogorov-Smirnov test for normality)

Test zaproponowany przez Kolmogorova (1933)1) jest testem stosunkowo konserwatwnym (trudniej przy jego użyciu udowodnić brak normalności rozkładu). Opiera swoje działanie na wyznaczeniu odległości pomiędzy dystrybuantą empiryczną a teoretyczną rozkładu normalnego. Zaleca się jego stosowanie dla licznych prób, jednak powinien być stosowany w sytuacji, gdy znana jest wartość średnia ($\mu$) i odchylenie standardowe ($\sigma$) dla populacji, z której pochodzi próba. Wówczas możemy sprawdzić, czy rozkład zgodny jest z rozkładem zdefiniowanym przez podaną średnią i odchylenie standardowe.

W oparciu o dane z próby zebrane w skumulowany rozkład częstości oraz o odpowiednie wartości pola pod teoretyczną krzywą rozkładu normalnego wyznaczamy wartość statystyki testowej $D$:

\begin{displaymath}
D=\sup_x{|F_n(x)-F(x)|},
\end{displaymath}

gdzie:

$F_n(x)$ - empiryczna dystrybuanta rozkładu normalnego wyliczana w poszczególnych punktach rozkładu, dla $n$-elementowej próby ,

$F(x)$ - teoretyczna dystrybuanta rozkładu normalnego.

Statystyka testu podlega rozkładowi Kołmogorova-Smirnova.

Test Lillieforsa (ang. Lilliefors test for normality)

Test zaproponowany przez Lillieforsa (19672), 19693), 19734)). Jest on poprawką testu Kołmogorova-Smirnova, gdy nie znana jest wartość średnia ($\mu$) i odchylenie standardowe ($\sigma$) dla populacji, z której pochodzi próba. Uznawany jest za nieco mniej konserwatywny od testu Kołmogorova-Smirnova.

Statystyka testowa $D$ wyznaczana jest na podstawie tej samej formuły, z której korzysta test Kołmogorova-Smirnova, ale podlega rozkładowi Lillieforsa.

Test Shapiro-Wilka (ang. Shapiro-Wilk test for normality)


Zaproponowany przez Shapiro oraz Wilka (1965)5) dla mało licznych grup, a następnie zaadoptowany dla grup liczniejszych (do 5000 obiektów) przez Roystona (1992)6)7). Test ten charakteryzuje stosunkowo wysoka moc, co ułatwia dowodzenie braku normalności rozkładu.

Ideę działania testu przedstawia wykres Q-Q plot.

Statystyka testowa Shapiro-Wilka ma postać:

\begin{displaymath}
W=\frac{\sum_{i=1}^na_ix_i}{\sum_{i=1}^n(x_i-\overline{x})^2},
\end{displaymath}

gdzie:

$a_i$ - współczynniki wyznaczane w oparciu o wartości oczekiwane dla statystyk uporządkowanych (ordered statistics), przypisanych wag oraz macierzy kowariancji,

$\overline{x}$ - wartość średnia danych z próby.

Statystykę tę przekształca się do statystyki o rozkładzie normalnym:

\begin{displaymath}
Z=\frac{g(W)-\mu}{\sigma},
\end{displaymath}

gdzie:

$g(W)$, $\mu$ i $\sigma$ - zależą od wielkości próby:

- dla prób małych o licznościach $n\in<4;12)$:

$g(W)=-\ln(\gamma-\ln(1-W))$,

$\gamma=0.459n-2.273$,

$\mu=-0.0006714n^3+0.025054n^2-0.39978n+0.5440$,

$\sigma=\exp(-0.0020322n^3+0.062767n^2-0.77857n+1.3822)$;

- dla prób dużych o licznościach $n\in<12;5000>$:

$g(W)=\ln(1-W)$,

$\mu=0.0038915u^3-0.083751u^2-0.31082u-1.5851$,

$\sigma=\exp(0.0030302u^2-0.082676u-0.4803)$,

$u=\ln(n)$.

Test D'Agostino-Pearsona (ang. D'Agostino-Pearson test for normality)

Zaproponowany przez D'Agostino i Pearsona (1973)8) oparty na takich parametrach rozkładu jak skośność i kurtoza. Rozkład normalny charakteryzować powinna zerowa skośność i zerowa kurtoza g2 (lub b2 bliska wartości trzy). W przypadku braku normalności rozkładu, stwierdzonej przez test D'Agostino, można sprawdzić czy jest to efektem wysokiej skośności czy kurtozy poprzez test skośności i test kurtozy.

Podobnie jak test Shapiro-Wilka, test D'Agostino charakteryzuje się większą mocą niż test Kołmogorova-Smirnova i test Lillieforsa (D'Agostino 19909)).

Statystyka testowa ma postać:

\begin{displaymath}
K^2=Z_A^2+Z_K^2,
\end{displaymath}

gdzie:

$Z_A^2$ - statystyka testowa testu skośności,

$Z_K^2$ - statystyka testowa testu kurtozy.

Statystyka ta ma asymptotycznie rozkład chi-kwadrat z dwoma stopniami swobody.

  • Test skośności D'Agostino

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład nie jest skośny (skośność w populacji wynosi zero),$\\
\mathcal{H}_1: & $rozkład jest skośny (skośność w populacji odbiega od zera).$
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z_A=\delta\ln\left(\frac{Y}{\alpha}+\sqrt{\frac{Y^2}{\alpha^2}+1}\right),
\end{displaymath}

gdzie:

$Y=\sqrt{(b_1)}\sqrt{\frac{(n+1)(n+3)}{6(n-2)}}$,

$\sqrt{(b_1)}=\frac{m_3}{m_2^{(3/2)}}$,

$m_k=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^k}{n}$,

$\beta(\sqrt{(b_1)})=\frac{3(n^2+27n-70)(n+1)(n+3)}{(n-2)(n+5)(n+7)(n+9)}$,

$W^2=-1+\sqrt{2(\beta(\sqrt{(b_1)})-1}$,

$\delta=\frac{1}{\sqrt{\ln W}}$,

$\alpha=\sqrt{\frac{2}{W^2-1}}$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

  • Test kurtozy D'Agostino

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $kurtoza w populacji odpowiada kurtozie rozkładu normalnego,$\\
\mathcal{H}_1: & $kurtoza w populacji różni się od kurtozy rozkładu normalnego.$
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z_K=\frac{\left(1-\frac{2}{9H}\right)-\left(\frac{1-\frac{2}{A}}{1+x\sqrt{\frac{2}{H-4}}}\right)^{1/3}}{\sqrt{\frac{2}{9H}}},
\end{displaymath}

gdzie:

$E(b_2)=\frac{3(n-1)}{n+1}$,

$b_2=\frac{m_4}{m_2^2}$,

$var(b_2)=\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}$,

$x=\frac{b_2-E(b_2)}{\sqrt{var(b_2)}}$,

$\sqrt{\beta(b_2)}=\frac{6(n^2-5n+2)}{(n+7)(n+9)}\sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-5)}}$,

$H=6+\frac{8}{\sqrt{\beta(b_2)}}\left(\frac{2}{\sqrt{\beta(b_2)}}+\sqrt{1+\frac{4}{\beta(b_2)}}\right)$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wykres Kwantyl-Kwantyl (ang. Q-Q plot, Quantile-Quantile plot)

Wykres typu Kwantyl-Kwantyl wykorzystywany jest do przedstawienia zgodności dwóch rozkładów. W przypadku badania zgodności z rozkładem normalny, sprawdza zgodność rozkładu danych (rozkładu empirycznego) z rozkładem teoretyczym Gaussa. Na jego podstawie można wizualnie sprawdzić jak dobrze krzywa rozkładu normalnego jest dopasowana do danych. Jeśli kwantyle rozkładu teoretycznego i rozkładu empirycznego są zgodne, wówczas punkty rozkładają się wzdłuż linii $y=x$. Oś pozioma przedstawia kwantyle rozkładu normalnego, oś pionowa kwantyle rozkładu danych.

Możliwe są bardzo różne odstępstwa od rozkładu normalnego - interpretację kilku najczęściej występujących opisuje schemat:

  • dane rozłożone na linii, lecz kilka punktów mocno odbiega od linii

    - występują wartości odstające w danych

  • punkty po lewej stronie wykresu znajdują się powyżej linii, a po prawej poniżej linii

    - rozkład charakteryzuje większa obecność wartości odległych od średniej niż jest w rozkładzie normalnym (ujemna kurtoza)

  • punkty po lewej stronie wykresu znajdują się poniżej linii, a po prawej powyżej linii

    - rozkład charakteryzuje mniejsza obecność wartości odległych od średniej niż jest w rozkładzie normalnym (dodatnia kurtoza)

  • punkty po lewej i po prawej stronie wykresu znajdują się powyżej linii

    - rozkład prawostronnie skośny (dodatnia skośność);

  • punkty po lewej i po prawej stronie wykresu znajdują się poniżej linii

    - rozkład lewostronnie skośny (ujemna skośność).

Okno z ustawieniami opcji testów normalności wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane) lub poprzez ''Kreator''.

Przykład (plik Gauss.pqs)

Wzrost kobiet

Załóżmy, że wzrost kobiet jest taką cechą, dla której wartość przeciętna wynosi 168cm. Większość kobiet spotykanych na co dzień jest wzrostu, który nie odbiega znacznie od tej przeciętnej. Oczywiście zdarzają się kobiety zupełnie niskie a także bardzo wysokie, ale stosunkowo rzadko. Skoro wartości bardzo niskie i bardzo wysokie występują rzadko, a wartości przeciętne często, możemy się spodziewać, że rozkład wzrostu jest rozkładem normalnym. By się o tym przekonać zmierzono 300 losowo wybranych kobiet.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $rozkład wzrostu kobiet w badanej populacji $\\
&$jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład wzrostu kobiet w badanej populacji $ \\
&$jest różny od rozkładu normalnego.$
\end{array}
$

Ponieważ nie znamy średniej ani odchylenia standardowego dla wzrostu kobiet, a jedynie mamy przypuszczenia co do tych wielkości, będą one wyznaczane z próby.

Wszystkie wyznaczone testy wskazują na brak odstępstwa od rozkładu normalnego, ponieważ ich wartości $p$ znajdują się powyżej standardowego poziomu istotności $\alpha=0.05$. Również test badający skośność i kurtozę nie wykazuje odstępstw.

Na wykresie kolumnowym przedstawiliśmy rozkład wzrostu w postaci 10 kolumn. Najliczniejszą grupę stanowią kobiety o wzroście od 167 cm do 171 cm, najmniej liczne są natomiast kobiety niższe niż 150 cm lub wyższe niż 184 cm. Dzwonowa krzywa rozkładu normalnego wydaje się dobrze opisywać ten rozkład.

Na wykresie kwantyl-kwantyl punkty leżą prawie idealnie na lini, co również świadczy o bardzo dobrym dopasowaniu rozkładu normalnego.

Rozkład normalny może zatem zostać uznany, za rozkład jakim charakteryzuje się wzrost kobiet w badanej populacji.

Dochód

Załóżmy, że badamy dochód osób w pewnym kraju. Oczekujemy, że dochody większości osób będą przeciętne, jednak nie będzie osób zarabiających zupełnie mało (poniżej minimalnej pensji narzuconej przez władze), ale będą osoby zarabiające bardzo dużo (prezesi firm) których jest stosunkowo niewielu. By sprawdzić czy dochód osób w badanym kraju ma rozkład normalny zebrano informację o dochodach 264 losowo wybranych osób.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $rozkład dochodów osób w badanej populacji $\\
&$jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład dochodów osób w badanej populacji $ \\
&$jest różny od rozkładu normalnego.$
\end{array}
$

Rozkład nie jest rozkładem normalnym, o czym świadczą wszystkie wyniki testów badających normalność rozkładu ($p<\alpha$). Dodatnia i istotna statystycznie ($p<\alpha$) wartość skośności świadczy o zbyt długim prawym ogonie funkcji. Rozkład funkcji jest również bardziej smukły od rozkładu normalnego, ale nie jest to istotna statystycznie różnica (test kurtozy).

Na wykresie kwartyl-kwartyl odstępstwo od rozkładu normalnego jest obrazowane poprzez skośność prawostronną, czyli położenie znacznie powyżej linii początkowych i końcowych punktów wykresu.

W rezultacie zebrane dane nie świadczą o zgodności rozkładu dochodów z rozkładem normalnym.

 

Test Wilcoxona (rangowanych znaków)

Test Wilcoxona rangowanych znaków (ang. Wilcoxon signed-ranks test) znany również pod nazwą testu Wilcoxona dla pojedynczej próby, Wilcoxon (1945, 1949)10). Test ten służy do weryfikacji hipotezy, że badana próba pochodzi z populacji, dla której mediana ($\theta$) to znana wartość.

Podstawowe warunki stosowania:

Hipotezy dotyczą równości sumy rang dodatnich i ujemnych lub są upraszczane do median:


\begin{array}{cl}
\mathcal{H}_0: & \theta=\theta_0,\\
\mathcal{H}_1: & \theta\neq \theta_0.
\end{array}

gdzie:

$\theta$ - mediana badanej cechy w populacji reprezentowanej przez badaną próbę,

$\theta_0$ - zadana wartość.

Wyznaczamy wartość statystyki testowej $Z$ ($T$ - dla małej liczności próby), a na jej podstawie wartość $p$.

Porównujemy wartość $p$ z poziomem istotności $\alpha$:


\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. 
\end{array}

Uwaga!

W zależności od wielkości próby statystyka testowa przyjmuje inną postać:

  • dla małej liczności próby
    \begin{displaymath}
T=\min\left(\sum R_-,\sum R_+\right),
\end{displaymath}


gdzie: $\sum R_+$ i $\sum R_-$ to odpowiednio: suma rang dodatnich i suma rang ujemnych.


Statystyka ta podlega rozkładowi Wilcoxona

  • dla próby o dużej liczności
    \begin{displaymath}
Z=\frac{T-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}},
\end{displaymath}


gdzie: $n$ - liczba rangowanych znaków (liczba rang),
$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na statystykę testową $Z$ zawiera poprawkę na rangi wiązane. Poprawka ta powinna być stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $\left(\sum t^3-\sum t\right)/48=0$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Poprawka na ciągłość testu Wilcoxona (Marascuilo and McSweeney (1977)11))

Poprawkę na ciągłość stosujemy by zapewnić możliwość przyjmowania przez statystykę testową wszystkich wartości liczb rzeczywistych zgodnie z założeniem rozkładu normalnego. Wzór na statystykę testową z poprawką na ciągłość wyraża się wtedy wzorem:
\begin{displaymath}
Z=\frac{\left|T-\frac{n(n+1)}{4}\right|-0.5}{\sqrt{\frac{n(n+1)(2n+1)}{24}-\frac{\sum t^3-\sum t}{48}}}.
\end{displaymath}

Okno z ustawieniami opcji testu Wilcoxona (rangowanych znaków) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. uporządkowane)Wilcoxon (rangowanych znaków) lub poprzez ''Kreator''.

Przykład (plik kurier.pqs) c.d

Hipotezy:


\begin{array}{cl}
\mathcal{H}_0: & $mediana liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\
&$kurierską wynosi 3$\\
\mathcal{H}_1: & $mediana liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę $\\
&$kurierską jest różna od 3$
\end{array}

Porównując wartość $p= 0.123212$ testu Wilcoxona opartego o statystykę $T$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że nie mamy podstaw by odrzucić hipotezę zerową mówiącą, że zwykle liczba dni oczekiwania na dostarczenie przesyłki przez analizowaną firmę kurierską wynosi 3. Taką samą decyzję podjęlibyśmy również na podstawie wartości $p=0.111161$ lub $p=0.115817$ testu Wilcoxona opartego o statystykę $Z$ lub $Z$ z poprawką na ciągłość.

 

Test chi-kwadrat zgodności

Test $\chi^2$ zgodności (dobroci dopasowania) (ang. Chi-square goodnes-of-fit test) nazywany jest również testem $\chi^2$ dla pojedynczej próby, przeznaczony jest do testowania zgodności wartości obserwowanych dla $r$ ($r>=2$) kategorii $X_1, X_2,..., X_r$ jednej cechy $X$ z hipotetycznymi wartościami oczekiwanymi dla tej cechy. Wartości wszystkich $n$ pomiarów należy zebrać w postaci tabeli składającej się z $r$ wierszy (kategorii: $X_1, X_2, ..., X_r$). Dla każdej kategorii $X_i$ zapisuje się częstość jej występowania $O_i$, oraz częstość dla niej oczekiwaną $E_i$ lub prawdopodobieństwo jej wystąpienia $p_i$. Częstość oczekiwana jest wyznaczana jako iloczyn $E_i=np_i$.
Utworzona tabela może przyjąć jedną z poniższych postaci:

\begin{tabular}[t]{c@{\hspace{1cm}}c}
\begin{tabular}{c|c c}
Kategorie $X_i$ & $O_i$ & $E_i$ \\\hline
$X_1$ & $O_1$ & $E_i$ \\
$X_2$ & $O_2$ & $E_2$ \\
... & ... & ...\\
$X_r$ & $O_r$ & $E_r$ \\
\end{tabular}
&
\begin{tabular}{c|c c}
Kategorie $X_i$ &  $O_i$ & $p_i$ \\\hline
$X_1$ & $O_1$ & $p_1$ \\
$X_2$ & $O_2$ & $p_2$ \\
... & ... & ...\\
$X_r$ & $O_r$ & $p_r$ \\
\end{tabular}
\end{tabular}

Podstawowe warunki stosowania:

  • pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę,
  • duże liczności oczekiwane (według interpretacji Cochrana (1952) 12) żadna z liczności oczekiwanych nie może być 1 oraz nie więcej niż 20% liczności oczekiwanych może być 5),
  • suma liczności obserwowanych powinna być taka sama jak suma liczności oczekiwanych, a suma wszystkich prawdopodobieństw $p_i$ powinna wynosić 1.

Hipotezy:

$\mathcal{H}_0 : O_i=E_i$ dla wszystkich kategorii,
$\mathcal{H}_1 : O_i \neq E_i$ dla przynajmniej jednej kategorii.

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=\sum_{i=1}^r\frac{(O_i-E_i)^2}{E_i}.
\end{displaymath} Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z liczbą stopni swobody wyznaczaną według wzoru: $df=(r-1)$.
Wyznaczoną na podstawie wartości statystyki i rozkładu $\chi^2$ wartość $p$ porównujemy z poziomem istotności $\alpha$:


$ \begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. 
\end{array}$

Okno z ustawieniami opcji testu Chi-kwadrat (dobroci dopasowania) wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Chi-kwadrat lub poprzez ''Kreator''.

Przykład (plik obiady.pqs)

Chcielibyśmy sie dowiedzieć, czy liczba wydawanych obiadów w kolejnych dniach tygodnia (od poniedziałku do piątku) w pewnej szkolnej stołówce jest statystycznie taka sama. W tym celu pobrano tygodniową próbę i zapisano dla niej liczbę wydanych obiadów w poszczególnych dniach: poniedziałek - 33, wtorek - 29, środa - 32, czwartek - 36, piątek - 20.}

Łącznie przez cały tydzień (5 dni) wydano 150 obiadów. Zakładamy, że w każdy dzień prawdopodobieństwo wydania obiadu jest takie samo, czyli wynosi $\frac{1}{5}$. Oczekiwana liczba wydanych obiadów dla każdego z pięciu dni tygodnia wynosi więc $E_i=150\cdot\frac{1}{5}=30$.

Postawiono hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $liczba wydawanych obiadów w badanej stołówce szkolnej w kolejnych dniach tygodnia $\\
& $jest zgodna z oczekiwaną liczbą wydawanych obiadów w tych dniach$\\
\mathcal{H}_1: & $liczba wydawanych obiadów w badanej stołówce szkolnej w kolejnych dniach tygodnia$\\
& $nie jest zgodna z oczekiwaną liczbą wydawanych obiadów w tych dniach$
\end{array}
$

Wartość $p$ z rozkładu $\chi^2$ dla 4 stopni swobody wynosi 0.287297. Zatem na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że nie mamy podstaw, aby odrzucić hipotezę zerową mówiącą o zgodności liczby wydawanych obiadów z oczekiwaną liczbą wydawanych obiadów w poszczególnych dniach.

Uwaga!

Gdybyśmy chcieli w ramach jednego badania dokonać większej liczby porównań, moglibyśmy zastosować poprawkę Bonferroniego 13). Ta poprawka jest używana by ograniczyć wielkość popełnionego błędu pierwszego rodzaju, gdy porównujemy wartości obserwowane i oczekiwane pomiędzy wybranymi dniami np:

Pt $\Longleftrightarrow$ Pn,

Pt $\Longleftrightarrow$ Wt,

Pt $\Longleftrightarrow$ Śr,

Pt $\Longleftrightarrow$ Czw,

przy założeniu, że porównania wykonujemy niezależnie. Poziom istotności $\alpha$ dla każdego porównania wyznaczamy zgodnie z tą poprawką według wzoru: $\alpha=\frac{0.05}{r}$, gdzie $r$ to liczba wykonywanych porównań. Poziom istotności dla pojedynczego porównania zgodnie z poprawką Bonferroniego wynosi dla naszego przykładu $\alpha=\frac{0.05}{4}=0.0125$.

Należy jednak pamiętać, że redukując $\alpha$ dla każdego porównania zmniejszamy również moc testu.

 

Testy dla jednej proporcji

Testy dla jednej proporcji stosujemy, gdy mamy do uzyskania dwa możliwe wyniki (jeden z nich to wynik wyróżniony o liczności $m$) i wiemy, jak często te wyniki pojawiają się w próbie (znamy proporcję $p$). W zależności od wielkości próby $n$ mamy do wyboru test $Z$ dla jednej proporcji $-$ dla dużych prób oraz test dokładny dwumianowy $-$ dla prób o małej liczności. Testy te służą do weryfikacji hipotezy, że proporcja w populacji z której pochodzi próba to zadana wartość.

Podstawowe warunki stosowania:

  • pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Dodatkowy warunek dla testu $Z$ dla jednej proporcji:

  • duża liczność (według interpretacji Marascuilo i McSweeney (1977)14) każda z wartości $np>5$ i $n(1-p)>5$).

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & p=p_0,\\
\mathcal{H}_1: & p\neq p_0,
\end{array}
$

gdzie:

$p$ $-$ prawdopodobieństwo (wyróżniona proporcja) w populacji,

$p_0$ $-$ prawdopodobieństwo oczekiwane (proporcja oczekiwana).

Test $Z$ dla jednej proporcji

Test $Z$ dla jednej proporcji (ang. Z test for one proportion).

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}},
\end{displaymath} gdzie:

$p=\frac{m}{n}$ proporcja dla próby z tej populacji,

$m$ -liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{|p-p_0|-\frac{1}{2n}}{\sqrt{\frac{p_0(1-p_0)}{n}}}.
\end{displaymath}

Statystyka $Z$ bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Test dwumianowy

Test dwumianowy (ang. Binominal test for one proportion) wykorzystuje w sposób bezpośredni rozkład dwumianowy zwany również rozkładem Bernoulliego, który należy do grupy rozkładów dyskretnych (czyli takich, w których badana zmienna przyjmuje skończoną liczbę wartości). Analizowana zmienna może przyjmować $k=2$ wartości, pierwszą oznaczaną zwykle mianem sukcesu a drugą porażki. Prawdopodobieństwo wystąpienia sukcesu to $p_0$, a porażki $1-p_0$.

Prawdopodobieństwo dla konkretnego punktu w tym rozkładzie wyliczane jest ze wzoru:

\begin{displaymath}
P(m)={n \choose m}p_0^m(1-p_0)^{n-m},
\end{displaymath} gdzie:

${n \choose m}=\frac{n!}{m!(n-m)!}$,

$m$ - liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Na podstawie sumy odpowiednich prawdopodobieństw $P$ wyznacza się wartość $p$ jednostronną i dwustronną, przy czym dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw. Wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Dla estymatora z próby jakim jest w tym przypadku wartość proporcji $p$ wyznacza się przedział ufności. Dla prób o dużej liczności można bazować na przedziałach opartych o rozkład normalny - tzw. przedziały Walda. Bardziej uniwersalne są natomiast przedziały zaproponowane przez Wilsona (1927)15) a także Agresti i Coull (1998)16). Przedziały Cloppera i Pearsona (1934)17) są dokładniejsze dla prób o mniejszej liczności.

Porównanie metod budowania przedziałów dla proporcji można znaleźć w pracy Brown L.D i innych (2001)18).

Okno z ustawieniami opcji testu Z dla jednej proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczne (kat. nieuporządkowane)Z dla proporcji.

Przykład c.d. (plik obiady.pqs)

Załóżmy, że chcielibyśmy sprawdzić, czy w piątek wydawana jest $\frac{1}{5}$ spośród wszystkich obiadów wydawanych w szkolnej stołówce w ciągu tygodnia. Dla pobranej próby $m=20$, $n=150$.

Przy ustawianiu opcji analizy włączamy filtr wybierając odpowiedni dzień tygodnia - czyli piątek. Brak ustawienia filtru nie generuje błędu a jedynie wyliczenie kolejnych statystyk dla kolejnych dni tygodnia.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $w piątek, w stołówce szkolnej wydaje się $\frac{1}{5} \\
& $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce,$\\
\mathcal{H}_1: & $w piatek, w stołówce szkolnej wydaje się istotnie więcej lub mniej niż $\frac{1}{5} \\
& $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce.$
\end{array}
$

Proporcja wartości wyróżnionych w próbie to $p=\frac{m}{n}=0.133$ a 95% przedział ufności Cloppera-Pearsona dla tej frakcji $(0.083, 0.198)$ nie zawiera hipotetycznej wartości 0.2.

Na podstawie testu $Z$ bez poprawki na ciągłość ($p$=0.041227) jak i na podstawie dokładnej wartości prawdopodobieństwa wyliczonego z rozkładu dwumianowego ($p$=0.044711) moglibyśmy przyjąć (na poziomie istotności $\alpha=0.05$), że w piątek wydaje się statystycznie mniej niż $\frac{1}{5}$ obiadów wydawanych przez cały tydzień. Po zastosowaniu poprawki na ciągłość jednak nie udaje się odrzucić hipotezy zerowej ($p$=0.052479).

 
 
1) Kolmogorov A.N. (1933), Sulla deterrninazione empirica di una legge di distribuzione. Giornde1l'Inst. Ital. degli. Art., 4, 89-91
2) Lilliefors H.W. (1967), On the Kolmogorov-Smimov test for normality with mean and variance unknown. Journal of the American Statistical Association, 62,399-402
3) Lilliefors H.W. (1969), On the Kolmogorov-Smimov test for the exponential distribution with mean unknown. Journal of the American Statistical Association, 64,387-389
4) Lilliefors H.W. (1973), The Kolmogorov-Smimov and other distance tests for the gamma distribution and for the extreme-value distribution when parameters must be estimated. Department of Statistics, George Washington University, unpublished manuscript
5) Shapiro S.S. and Wilk M.B. (1965), An analysis of variance test for normality (complete samples). Biometrika 52 (3–4): 591–611
6) Royston P. (1992), Approximating the Shapiro–Wilk W-test for non-normality„. Statistics and Computing 2 (3): 117–119
7) Royston P. (1993b), A toolkit for testing for non-normality in complete and censored samples. Statistician 42: 37–43
8) D'Agostino R.B. and Pearson E.S. (1973), Tests of departure from normality. Empirical results for the distribution of b2 and sqrt(b1). Biometrika, 60, 613-622
9) D'Agostino R.B., Belanger A., D'Agostino Jr.R B. (1990), A suggestion for using powerful and informative tests of normality. American Statistician, 44, 3 16-321
10) Wilcoxon F. (1945), Individual comparisons by ranking methods. Biometries 1, 80-83
11) , 14) Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks Cole Publishing Company
12) Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345
13) Abdi H. (2007), Bonferroni and Sidak corrections for multiple comparisons, in N.J. Salkind (ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks, CA: Sage
15) E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212
16) Agresti A., Coull B.A. (1998), Approximate is better than „exact” for interval estimation of binomial proportions. American Statistics 52: 119-126
17) Clopper C. and Pearson S. (1934), The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26: 404-413
18) Brown L.D., Cai T.T., DasGupta A. (2001), Interval Estimation for a Binomial Proportion. Statistical Science, Vol. 16, no. 2, 101-133

Narzędzia strony