Spis treści

Rozkłady prawdopodobieństwa

Rzeczywisty rozkład danych z próby - rozkład empiryczny danych może być przedstawiony za pomocą Tabel liczności (poprzez wybranie menu StatystykaAnalizy opisoweTabele liczności). Na przykład rozkład ilości wykorzystanych darmowych minut przez abonentów pewnego operatora telefonii komórkowej.

Przykład (plik: rozkład.pqs) przedstawia następująca tabela:

Graficzna prezentacja wyników uzyskanych w raporcie tabeli zwykle dokonywana jest przy pomocy histogramu czy też wykresu kolumnowego.

Wykres taki możemy uzyskać zaznaczając w oknie Tabel licznosci opcje Dołącz wykres.

Rozkład teoretyczny danych zwany również rozkładem prawdopodobieństwa graficznie przedstawiany jest zwykle przy pomocy wykresu liniowego. Taka linia opisana jest funkcją (modelem matematycznym) i zwana funkcją gęstości rozkładu. Odpowiednim rozkładem teoretycznym można zastąpić rozkład empiryczny.

Uwaga! Do zastąpienia rozkładu empirycznego rozkładem teoretycznym nie wystarczy intuicyjne stwierdzenie podobieństwa ich przebiegu. Służą do tego specjalnie skonstruowane testy zgodności z tym rozkładem.

Najczęściej używanym rozkładem prawdopodobieństwa jest rozkład normalny (rozkład Gaussa), i taki rozkład o średniej 161.15 i odchyleniu standardowym równym 13.03 prezentują dane na temat ilości wykorzystanych darmowych minut (Przykład plik: rozkład.pqs). 1

Ciągłe rozkłady prawdopodobieństwa

  • Rozkład normalny (ang. normal distribution) nazywany również rozkładem Gaussa lub krzywą dzwonową, jest jednym z najważniejszych rozkładów w statystyce. Ma interesujące własności matematyczne i bardzo często występuje w naturze. Oznacza się go zwykle symbolem: $N(\mu,\sigma)$.

Funkcja gęstości jest zdefiniowana jako: \begin{displaymath}
f(x,\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg), \label{r_normalny_fun}
\end{displaymath}

gdzie:

$-\infty<x<+\infty$,

$\mu$ $-$ wartość oczekiwana populacji (której miarą jest średnia),

$\sigma$ $-$ odchylenie standardowe.

\psset{xunit=1.25cm,yunit=8cm}
\begin{pspicture}(-3.5,-.1)(4.2,0.9)
\psaxes[Dy=0.1]{->}(0,0)(-4.5,0)(5,0.9)
\uput[-90](5,0){x}\uput[0](0,0.85){y}
\psGauss[linecolor=red, linewidth=2pt, mue=0, sigma=1]{-4}{4}%
\rput(1.5,0.27){\textcolor{red}{$N(0,1)$}}
\psGauss[linecolor=blue, linestyle=dotted, mue=1, sigma=1]{-4}{4}%
\rput(2.6,0.25){\textcolor{blue}{$N(1,1)$}}
\psGauss[linecolor=green,linestyle=dashed, mue=0, sigma=0.5]{-4}{4}%
\rput(1.1,0.6){\textcolor{green}{$N(0,4)$}}
\end{pspicture}

Rozkład normalny jest rozkładem symetrycznym względem prostej prostopadłej do osi odciętych i przechodzącej przez punkt wyznaczający średnią, modę oraz medianę.

Rozkład normalny o średniej $\mu=0$ i $\sigma=1$ ($N(0,1)$), to tzw. rozkład normalny standaryzowany.

  • Rozkład t-Studenta (ang. t-Student distribution) ma kształt podobny do standaryzowanego rozkładu normalnego lecz ma dłuższe „ogony”. Wraz ze wzrostem liczby stopni swobody $df$ (ang. degree of freedom) kształt rozkładu t-Studenta przybliża się do kształtu rozkładu normalnego.

Funkcja gęstości jest zdefiniowana jako: \begin{displaymath}
f(x,df)=\frac{\Gamma(\frac{df+1}{2})}{\Gamma(\frac{df}{2})\sqrt{df\pi}}\left(1+\frac{x^2}{df}\right)^{-\frac{df+1}{2}},
\end{displaymath}

gdzie:

$-\infty<x<+\infty$,

$df$ $-$ stopnie swobody (liczność próby pomniejszona o liczbę ograniczeń w określonych obliczeniach),

$\Gamma$ to funkcja Gamma.

\psset{xunit=1.25cm,yunit=10cm}
\begin{pspicture}(-5,-0.1)(5,.5)
\psaxes[Dy=0.1]{->}(0,0)(-4.5,0)(5,0.5)
\uput[-90](5,0){x}\uput[0](0,0.45){y}
\psGauss[linecolor=red, linewidth=2pt, mue=0, sigma=1]{-4}{4}%
\rput(1.6,0.25){\textcolor{red}{$N(0,1)$}}
\psTDist[linecolor=blue,linestyle=dotted,nue=1]{-4}{4}
\rput(2.5,0.2){\textcolor{blue}{$T(df=1)$}}
\psTDist[linecolor=green,linestyle=dashed,nue=4]{-4}{4}
\rput(3,0.15){\textcolor{green}{$T(df=4)$}}
\end{pspicture}

  • Rozkład $\chi^2$ (ang. Chi-square distribution), jest rozkładem prawoskośnym o kształcie zależnym od liczby stopni swobody $df$. Wraz ze wzrostem liczby stopni swobody kształt rozkładu $\chi^2$ przybliża się do kształtu rozkładu normalnego.

Funkcja gęstości jest zdefiniowana jako: \begin{displaymath}
f(x,df)=\frac{1}{2^{\frac{df}{2}}\Gamma{\frac{df}{2}}}x^{\frac{df}{2}-1}e^{-\frac{x}{2}},
\end{displaymath}

gdzie:

$x>0$,

$df$ $-$ stopnie swobody (liczność próby pomniejszona o liczbę ograniczeń w określonych obliczeniach),

$\Gamma$ to funkcja Gamma.

\psset{xunit=1.2cm,yunit=10cm,plotpoints=200}
\begin{pspicture*}(-0.75,-0.1)(9.5,.65)
\uput[-90](9.4,0){x}\uput[0](0,0.55){y}
\psChiIIDist[linewidth=1pt,linecolor=red, nue=1,]{0.01}{9}
\rput(1.8,0.4){\textcolor{red}{$\chi^2(df=1)$}}
\psChiIIDist[linewidth=1pt,linecolor=blue,linestyle=dotted, nue=5,]{0.01}{9}
\rput(4,0.2){\textcolor{blue}{$\chi^2(df=5)$}}
\psChiIIDist[linewidth=1pt,linecolor=green,linestyle=dashed, nue=10,]{0.01}{9}
\rput(8,0.15){\textcolor{green}{$\chi^2(df=10)$}}
\psaxes[Dy=0.1]{->}(0,0)(9.5,.6)
\end{pspicture*}

  • Rozkład F Snedecora (ang. Fisher-Snedecor distribution), jest rozkładem o dłuższym prawym „ogonie” i kształcie zależnym od liczby stopni swobody $df_1$ i $df_2$.

Funkcja gęstości jest zdefiniowana jako: \begin{displaymath}
F(x,df_1,df_2)=\frac{\sqrt{\frac{(df_1x)^{df_1}d_2^{df_2}}{(df_1x+df_2)^{df_1+df_2}}}}{xB\left(\frac{df_1}{2},\frac{df_2}{2}\right)},
\end{displaymath}

gdzie:

$x>0$,

$df_1$, $df_1$ $-$ stopnie swobody (przyjmuje się, że jeżeli $X$ i $Y$ są niezależne o rozkładzie $\chi^2$ z odpowiednio $df_1$ i $df_2$ stopniami swobody, to $F=\frac{X/df_1}{Y/df_2}$ ma rozkład F Snedecora $F(df_1,df_2)$),

$B$ to funkcja Beta.

\psset{xunit=2cm,yunit=10cm,plotpoints=100}
\begin{pspicture*}(-0.5,-0.07)(5.5,0.8)
\psFDist[linecolor=green,linestyle=dashed]{0.1}{5}
\rput(1,0.05){\textcolor{green}{$F(df_1=1,df_2=1)$}}
\psFDist[linecolor=red,nue=3,mue=12]{0.01}{5}
\rput(4,0.15){\textcolor{red}{$F(df_1=3,df_2=12)$}}
\psFDist[linecolor=blue,linestyle=dotted,nue=12,mue=3]{0.01}{5}
\rput(2,0.4){\textcolor{blue}{$F(df_1=12,df_2=3)$}}
\psaxes[Dy=0.1]{->}(0,0)(5,0.75)
\end{pspicture*}

2014/08/22 20:00

Kalkulator funkcji dystrybucji

Pole pod krzywą (funkcją gęstości rozkładu) to prawdopodobieństwo $p$ wystąpienia wszystkich możliwych wartości badanej zmiennej losowej. Całe pole pod krzywą wynosi $p=1$. Gdy chcemy zbadać wielkość tylko części tego pola musimy podać wartość graniczną zwaną wartością krytyczną lub Statystyką. Korzystamy w tym celu z okna Kalkulatora funkcji dystrybucji. W oknie tym jest możliwe wyliczanie wartości pola pod krzywą (Wartość $p$) zadanego rozkładu na podstawie Statystyki, jak też wyznaczanie wartości Statystyki na podstawie Wartości$p$. Okno Kalkulatora funkcji dystrybucji uruchamiamy poprzez wybranie menu StatystykaKalkulatoryKalkulator funkcji dystrybucji

Kalkulator funkcji dystrybucji

Pewien operator telefonii komórkowej przeprowadza szereg badań dotyczących wykorzystania przez klientów ilości przyznanych w abonamencie „darmowych minut”. Na podstawie 200 osobowej próby swoich klientów (w której rozkład wykorzystanych „darmowych minut” przyjmuje kształt rozkładu normalnego) wyznaczył wartość średnią $\overline{x}=161.15 min.$ i odchylenie standardowe $sd=13.03 min.$ Chcemy wyliczyć prawdopodobieństwo, że wylosowany przez nas klient wykorzystał:

  1. 150 minut lub mniej,
  2. więcej niż 150 minut,
  3. ilość minut z przedziału $[\overline{x}- sd,\overline{x}+ sd] =[148.12min.,174.18min.]$,
  4. ilość minut spoza przedziału $\overline{x}\pm sd$.

Uruchamiamy okno Kalkulatora funkcji dystrybucji, wybieramy rozkład Gaussa i wpisujemy średnią $\overline{x}=161.15min.$ i odchylenie st. $sd=13.03min.$ oraz zaznaczamy, że będziemy wyliczać Wartość $p$.

  1. By wyliczyć na podstawie rozkładu normalnego (Gaussa) jakie jest prawdopodobieństwo, że klient którego wylosujemy wykorzystał 150 darmowych minut lub mniej, w polu Statystyka wpisujemy wartość 150. Wybrane ustawienia potwierdzamy przyciskiem Oblicz.

    \psset{xunit=1.2cm,yunit=8cm}
\begin{pspicture}(-3.5,-.05)(4.2,0.4)
\psline{-}(-4,0)(4,0)
\psGauss[linecolor=blue, mue=0, sigma=1]{-4}{4}%
\pscustom[fillstyle=solid,fillcolor=red!30]{%
\psGauss[linewidth=1pt,mue=0, sigma=1]{-4}{-0.85572}%
\psline(-0.85572,0)(-4,0)}
\rput(2.4,0.25){\textcolor{blue}{$N(161.15,13.03)$}}
\rput(-0.85572,-0.05){\textcolor{blue}{150}}
\end{pspicture}


    Uzyskana Wartość $p$ wynosi 0.193961.

    Uwaga!
    Podobne obliczenia możemy wykonać na podstawie rozkładu empirycznego. Wystarczy wówczas przy pomocy okna Tabele liczności wyznaczyć procent klientów wykorzystujących 150 minut lub mniej (patrz przykład (\ref{tab_licznosci}), plik: rozkład.pqs). W badanej 200 osobowej próbie klientów wykorzystujących 150 minut lub mniej jest 40, co stanowi 20\% próby a zatem szukane prawdopodobieństwo wynosi $P=0.2$.

  2. By wyliczyć na podstawie rozkładu normalnego (Gaussa) jakie jest prawdopodobieństwo, że klient którego wylosujemy wykorzystał więcej niż 150 darmowych minut, w polu Statystyka wpisujemy wartość 150 i zaznaczamy opcję 1- Wartość $p$. Wybrane ustawienia potwierdzamy przyciskiem Oblicz.

    \psset{xunit=1.2cm,yunit=8cm}
\begin{pspicture}(-3.5,-.05)(4.2,0.4)
\psline{-}(-4,0)(4,0)
\psGauss[linecolor=blue, mue=0, sigma=1]{-4}{4}%
\pscustom[fillstyle=solid,fillcolor=red!30]{%
\psline(-0.85572,0)(-0.85572,0)%
\psGauss[linewidth=1pt,mue=0, sigma=1]{-0.85572}{4}%
\psline(4,0)(-0.85572,0)}
\rput(2.4,0.25){\textcolor{blue}{$N(161.15,13.03)$}}
\rput(-0.85572,-0.05){\textcolor{blue}{150}}
\end{pspicture}


    Uzyskana Wartość $p$ wynosi 0.806039.

  3. By wyliczyć na podstawie rozkładu normalnego (Gaussa) jakie jest prawdopodobieństwo, że klient którego wylosujemy wykorzystał minuty z przedziału $[\overline{x}- sd,\overline{x}+ sd] =[148.12min.,174.18min.]$, w polu Statystyka wpisujemy jedną z końcowych wartości przedziału, a następnie zaznaczamy opcję dwustronnie. Wybrane ustawienia potwierdzamy przyciskiem Oblicz.

    \psset{xunit=1.2cm,yunit=8cm}
\begin{pspicture}(-3.5,-.05)(4.2,0.4)
\psline{-}(-4,0)(4,0)
\psGauss[linecolor=blue, mue=0, sigma=1]{-4}{4}%
\pscustom[fillstyle=solid,fillcolor=red!30]{%
\psline(-1,0)(-1,0)%
\psGauss[linewidth=1pt,mue=0, sigma=1]{-1}{1}%
\psline(1,0)(-1,0)}
\rput(2.4,0.25){\textcolor{blue}{$N(161.15,13.03)$}}
\rput(-1,-0.05){\textcolor{blue}{148.12}}
\rput(1,-0.05){\textcolor{blue}{174.18}}
\end{pspicture}


    Uzyskana Wartość $p$ wynosi 0.682689.

  4. By wyliczyć na podstawie rozkładu normalnego (Gaussa) jakie jest prawdopodobieństwo, że klient którego wylosujemy wykorzystał minuty spoza przedziału $[\overline{x}- sd,\overline{x}+ sd] =[148.12min.,174.18min.]$, w polu Statystyka wpisujemy jedną z końcowych wartości przedziału, a następnie zaznaczamy opcje: dwustronnie i 1-wartość $p$. Wybrane ustawienia potwierdzamy przyciskiem Oblicz.

    \psset{xunit=1.2cm,yunit=8cm}
\begin{pspicture}(-3.5,-.05)(4.2,0.4)
\psline{-}(-4,0)(4,0)
\psGauss[linecolor=blue, mue=0, sigma=1]{-4}{4}%
\pscustom[fillstyle=solid,fillcolor=red!30]{%
\psGauss[linewidth=1pt,mue=0, sigma=1]{-4}{-1}%
\psline(-1,0)(-4,0)}
\pscustom[fillstyle=solid,fillcolor=red!30]{%
\psline(1,0)(1,0)%
\psGauss[linewidth=1pt,mue=0, sigma=1]{1}{4}%
\psline(4,0)(1,0)}
\rput(2.4,0.25){\textcolor{blue}{$N(161.15,13.03)$}}\rput(-1,-0.05){\textcolor{blue}{148.12}}
\rput(1,-0.05){\textcolor{blue}{174.18}}
\end{pspicture}


    Uzyskana Wartość $p$ wynosi 0.317311.

Proces uogólnienia wyników otrzymanych dla próby na całą populację dzieli się zasadniczo na 2 części:

  • estymację $–$ szacowanie wartości parametrów populacji na podstawie próby statystycznej,
  • weryfikację hipotez statystycznych $–$ sprawdzanie określonych założeń sformułowanych dla parametrów populacji generalnej na podstawie wyników z próby.
2014/08/22 20:00