Testy dla jednej proporcji

Testy dla jednej proporcji stosujemy, gdy mamy do uzyskania dwa możliwe wyniki (jeden z nich to wynik wyróżniony o liczności $m$) i wiemy, jak często te wyniki pojawiają się w próbie (znamy proporcję $p$). W zależności od wielkości próby $n$ mamy do wyboru test $Z$ dla jednej proporcji $-$ dla dużych prób oraz test dokładny dwumianowy $-$ dla prób o małej liczności. Testy te służą do weryfikacji hipotezy, że proporcja w populacji z której pochodzi próba to zadana wartość.

Podstawowe warunki stosowania:

  • pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Dodatkowy warunek dla testu $Z$ dla jednej proporcji:

  • duża liczność (według interpretacji Marascuilo i McSweeney (1977)1) każda z wartości $np>5$ i $n(1-p)>5$).

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & p=p_0,\\
\mathcal{H}_1: & p\neq p_0,
\end{array}
$

gdzie:

$p$ $-$ prawdopodobieństwo (wyróżniona proporcja) w populacji,

$p_0$ $-$ prawdopodobieństwo oczekiwane (proporcja oczekiwana).

Test $Z$ dla jednej proporcji

Test $Z$ dla jednej proporcji (ang. Z test for one proportion).

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}},
\end{displaymath} gdzie:

$p=\frac{m}{n}$ proporcja dla próby z tej populacji,

$m$ -liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{|p-p_0|-\frac{1}{2n}}{\sqrt{\frac{p_0(1-p_0)}{n}}}.
\end{displaymath}

Statystyka $Z$ bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Test dwumianowy

Test dwumianowy (ang. Binominal test for one proportion) wykorzystuje w sposób bezpośredni rozkład dwumianowy zwany również rozkładem Bernoulliego, który należy do grupy rozkładów dyskretnych (czyli takich, w których badana zmienna przyjmuje skończoną liczbę wartości). Analizowana zmienna może przyjmować $k=2$ wartości, pierwszą oznaczaną zwykle mianem sukcesu a drugą porażki. Prawdopodobieństwo wystąpienia sukcesu to $p_0$, a porażki $1-p_0$.

Prawdopodobieństwo dla konkretnego punktu w tym rozkładzie wyliczane jest ze wzoru:

\begin{displaymath}
P(m)={n \choose m}p_0^m(1-p_0)^{n-m},
\end{displaymath} gdzie:

${n \choose m}=\frac{n!}{m!(n-m)!}$,

$m$ - liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Na podstawie sumy odpowiednich prawdopodobieństw $P$ wyznacza się wartość $p$ jednostronną i dwustronną, przy czym dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw. Wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

Dla estymatora z próby jakim jest w tym przypadku wartość proporcji $p$ wyznacza się przedział ufności. Dla prób o dużej liczności można bazować na przedziałach opartych o rozkład normalny - tzw. przedziały Walda. Bardziej uniwersalne są natomiast przedziały zaproponowane przez Wilsona (1927)2) a także Agresti i Coull (1998)3). Przedziały Cloppera i Pearsona (1934)4) są dokładniejsze dla prób o mniejszej liczności.

Porównanie metod budowania przedziałów dla proporcji można znaleźć w pracy Brown L.D i innych (2001)5).

Okno z ustawieniami opcji testu Z dla jednej proporcji wywołujemy poprzez menu StatystykaTesty nieparametryczneZ dla proporcji.

Przykład c.d. (plik obiady.pqs)

Załóżmy, że chcielibyśmy sprawdzić, czy w piątek wydawana jest $\frac{1}{5}$ spośród wszystkich obiadów wydawanych w szkolnej stołówce w ciągu tygodnia. Dla pobranej próby $m=20$, $n=150$.

Przy ustawianiu opcji analizy włączamy filtr wybierając odpowiedni dzień tygodnia - czyli piątek. Brak ustawienia filtru nie generuje błędu a jedynie wyliczenie kolejnych statystyk dla kolejnych dni tygodnia.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $w piątek, w stołówce szkolnej wydaje się $\frac{1}{5} \\
& $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce,$\\
\mathcal{H}_1: & $w piatek, w stołówce szkolnej wydaje się istotnie więcej lub mniej niż $\frac{1}{5} \\
& $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce.$
\end{array}
$

Proporcja wartości wyróżnionych w próbie to $p=\frac{m}{n}=0.133$ a 95% przedział ufności Cloppera-Pearsona dla tej frakcji $(0.083, 0.198)$ nie zawiera hipotetycznej wartości 0.2.

Na podstawie testu $Z$ bez poprawki na ciągłość ($p$=0.041227) jak i na podstawie dokładnej wartości prawdopodobieństwa wyliczonego z rozkładu dwumianowego ($p$=0.044711) moglibyśmy przyjąć (na poziomie istotności $\alpha=0.05$), że w piątek wydaje się statystycznie mniej niż $\frac{1}{5}$ obiadów wydawanych przez cały tydzień. Po zastosowaniu poprawki na ciągłość jednak nie udaje się odrzucić hipotezy zerowej ($p$=0.052479).

1)
Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks Cole Publishing Company
2)
E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212
3)
Agresti A., Coull B.A. (1998), Approximate is better than „exact” for interval estimation of binomial proportions. American Statistics 52: 119-126
4)
Clopper C. and Pearson S. (1934), The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26: 404-413
5)
Brown L.D., Cai T.T., DasGupta A. (2001), Interval Estimation for a Binomial Proportion. Statistical Science, Vol. 16, no. 2, 101-133

Narzędzia witryny