PQStat - Baza Wiedzy

Testy dla jednej proporcji

Testy dla jednej proporcji stosujemy, gdy mamy do uzyskania dwa możliwe wyniki (jeden z nich to wynik wyróżniony o liczności $m$ ) i wiemy, jak często te wyniki pojawiają się w próbie (znamy proporcję $p$ ). W zależności od wielkości próby $n$ mamy do wyboru test $Z$ dla jednej proporcji $-$ dla dużych prób oraz test dokładny dwumianowy $-$ dla prób o małej liczności. Testy te służą do weryfikacji hipotezy, że proporcja w populacji z której pochodzi próba to zadana wartość.

Podstawowe warunki stosowania:

pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Dodatkowy warunek dla testu $Z$ dla jednej proporcji:

duża liczność (według interpretacji Marascuilo i McSweeney (1977)¹⁾ każda z wartości $np>5$ i $n(1-p)>5$ ).

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & p=p_0,\\ \mathcal{H}_1: & p\neq p_0, \end{array}$

gdzie:

$p$ $-$ prawdopodobieństwo (wyróżniona proporcja) w populacji,

$p_0$ $-$ prawdopodobieństwo oczekiwane (proporcja oczekiwana).

Test $Z$ dla jednej proporcji

Test $Z$ dla jednej proporcji (ang. Z test for one proportion).

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}, \end{displaymath}$ gdzie:

$p=\frac{m}{n}$ proporcja dla próby z tej populacji,

$m$ -liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Zmodyfikowana o poprawkę na ciągłość statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{|p-p_0|-\frac{1}{2n}}{\sqrt{\frac{p_0(1-p_0)}{n}}}. \end{displaymath}$

Statystyka $Z$ bez korekcji na ciągłość jak i z tą korekcją ma asymptotycznie (dla dużych liczności) rozkład normalny.

Test dwumianowy

Test dwumianowy (ang. Binominal test for one proportion) wykorzystuje w sposób bezpośredni rozkład dwumianowy zwany również rozkładem Bernoulliego, który należy do grupy rozkładów dyskretnych (czyli takich, w których badana zmienna przyjmuje skończoną liczbę wartości). Analizowana zmienna może przyjmować $k=2$ wartości, pierwszą oznaczaną zwykle mianem sukcesu a drugą porażki. Prawdopodobieństwo wystąpienia sukcesu to $p_0$ , a porażki $1-p_0$ .

Prawdopodobieństwo dla konkretnego punktu w tym rozkładzie wyliczane jest ze wzoru:

$\begin{displaymath} P(m)={n \choose m}p_0^m(1-p_0)^{n-m}, \end{displaymath}$ gdzie:

${n \choose m}=\frac{n!}{m!(n-m)!}$ ,

$m$ - liczność wartości wyszczególnionych w próbie,

$n$ - liczność próby.

Na podstawie sumy odpowiednich prawdopodobieństw $P$ wyznacza się wartość $p$ jednostronną i dwustronną, przy czym dwustronna wartość $p$ jest definiowana jako podwojona wartość mniejszego z jednostronnych prawdopodobieństw. Wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Uwaga!

Dla estymatora z próby jakim jest w tym przypadku wartość proporcji $p$ wyznacza się przedział ufności. Dla prób o dużej liczności można bazować na przedziałach opartych o rozkład normalny - tzw. przedziały Walda. Bardziej uniwersalne są natomiast przedziały zaproponowane przez Wilsona (1927)²⁾ a także Agresti i Coull (1998)³⁾. Przedziały Cloppera i Pearsona (1934)⁴⁾ są dokładniejsze dla prób o mniejszej liczności.

Porównanie metod budowania przedziałów dla proporcji można znaleźć w pracy Brown L.D i innych (2001)⁵⁾.

Okno z ustawieniami opcji testu Z dla jednej proporcji wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Z dla proporcji.

Przykład c.d. (plik obiady.pqs)

Załóżmy, że chcielibyśmy sprawdzić, czy w piątek wydawana jest $\frac{1}{5}$ spośród wszystkich obiadów wydawanych w szkolnej stołówce w ciągu tygodnia. Dla pobranej próby $m=20$ , $n=150$ .

Przy ustawianiu opcji analizy włączamy filtr wybierając odpowiedni dzień tygodnia - czyli piątek. Brak ustawienia filtru nie generuje błędu a jedynie wyliczenie kolejnych statystyk dla kolejnych dni tygodnia.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $w piątek, w stołówce szkolnej wydaje się $\frac{1}{5} \\ & $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce,$\\ \mathcal{H}_1: & $w piatek, w stołówce szkolnej wydaje się istotnie więcej lub mniej niż $\frac{1}{5} \\ & $spośród obiadów wydawanych w ciągu tygodnia w tej stołówce.$ \end{array}$

Proporcja wartości wyróżnionych w próbie to $p=\frac{m}{n}=0.133$ a 95% przedział ufności Cloppera-Pearsona dla tej frakcji $(0.083, 0.198)$ nie zawiera hipotetycznej wartości 0.2.

Na podstawie testu $Z$ bez poprawki na ciągłość ( $p$ =0.041227) jak i na podstawie dokładnej wartości prawdopodobieństwa wyliczonego z rozkładu dwumianowego ( $p$ =0.044711) moglibyśmy przyjąć (na poziomie istotności $\alpha=0.05$ ), że w piątek wydaje się statystycznie mniej niż $\frac{1}{5}$ obiadów wydawanych przez cały tydzień. Po zastosowaniu poprawki na ciągłość jednak nie udaje się odrzucić hipotezy zerowej ( $p$ =0.052479).

¹⁾

Marascuilo L.A. and McSweeney M. (1977), Nonparametric and distribution-free method for the social sciences. Monterey, CA: Brooks Cole Publishing Company

²⁾

E.B. (1927), Probable Inference, the Law of Succession, and Statistical Inference. Journal of the American Statistical Association: 22(158):209-212

³⁾

Agresti A., Coull B.A. (1998), Approximate is better than „exact” for interval estimation of binomial proportions. American Statistics 52: 119-126

⁴⁾

Clopper C. and Pearson S. (1934), The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26: 404-413

⁵⁾

Brown L.D., Cai T.T., DasGupta A. (2001), Interval Estimation for a Binomial Proportion. Statistical Science, Vol. 16, no. 2, 101-133

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Testy dla jednej proporcji

Narzędzia strony