Narzędzia użytkownika


Tabele

Tabele liczności i rozkłady empiryczne

Podstawą badań statystycznych jest określenie rozkładu empirycznego tzn. zaobserwowanego w próbie rozkładu cechy. Określenie empirycznego rozkładu polega na przyporządkowaniu kolejnym wartościom przyjmowanym przez cechę częstości ich występowania. Rozkład taki można przedstawić w postaci tabeli liczności lub w postaci wykresu (histogramu). Dla małych zbiorów danych tabele liczności mogą prezentować wszystkie dane - tzw. szeregi rozdzielcze punktowe, w przypadku większych zbiorów danych tworzy się tzw. szeregi rozdzielcze przedziałowe.

Aby przedstawić rozkład danych w postaci tabeli należy wyświetlić okno Tabele liczności poprzez wybranie menu StatystykaTabele liczności.

W oknie tym wybieramy zmienną do analizy oraz opcje analizy. Wybierając odpowiednie opcje zwrócony wynik możemy posortować traktując zmienne jako wartości tekstowe lub jako liczby. Jeśli występują w analizowanej kolumnie puste komórki, to mogą być wliczane do analizy bądź pomijane. Wynik dokonanej analizy znajdzie się w raporcie dołączonym do arkusza danych, dla których analiza została wykonana.

Dodatkowo, jeśli chcemy by dane zostały zobrazowane za pomocą wykresu kolumnowego lub histogramu, wówczas w oknie Tabel liczności zaznaczamy opcję Dołącz wykres.

Przykład (plik rozkład.pqs)

Pewien operator telefonii komórkowej przeprowadza szereg badań dotyczących wykorzystania przez klientów liczby przyznanych w abonamencie „darmowych minut”. Klienci w każdym miesiącu mogą wykorzystać do 190 takich minut. Badanie przeprowadzono na podstawie losowej próby 200 klientów. Analizowano między innymi informacje o:

- rodzaju wykupionego abonamentu,

- liczby wykorzystanych darmowych minut,

- liczby zarejestrowanych na danego klienta abonamentów (nie dotyczy firm).

Chcemy przedstawić rozkład:

  1. rodzaju abonamentu,
  2. liczby wykorzystanych darmowych minut,
  3. liczby zarejestrowanych abonamentów na osoby prywatne.

Uruchamiamy okno Tabele liczności.

  1. Wybieramy Zmienną do analizy: „rodzaj abonamentu” i zaznaczamy opcję Interpretuj jako wartości tekstowe oraz Dołącz wykres. Następnie potwierdzamy wybrane ustawienia przyciskiem OK i uzyskujemy wynik w postaci raportu:


  2. Wznawiamy analizę przyciskiem . Wybieramy Zmienną do analizy: „liczba wykorzystanych minut” i zaznaczamy opcję Przedziały (klasy), wartość początkową ustawiamy np. na 130 a krok na 5. Możemy również zaznaczyć opcję Dołącz wykres. Następnie wybrane opcje potwierdzamy przyciskiem OK i uzyskujemy wynik w postaci raportu:


  3. Wznawiamy analizę przyciskiem . Ustawiamy filtr tak by analiza była wykonana wyłącznie dla osób prywatnych. Wybieramy Zmienną do analizy: „Liczba abonamentów”. Ponieważ zmienna ta zawiera również braki danych, uzyskany wynik może uwzględniać te braki w analizie lub nie, w zależności od wybranej opcji dotyczącej ignorowania pustych przypadków:

Przykład (plik nawozy.pqs)

Przeprowadzono doświadczenie, w którym badano stan mikrobiologiczny gleby pod uprawą życicy trwałej zasilanej nawozami biologicznie aktywnymi. Gleby nawożono różnymi rodzajami preparatów mikrobiologicznych i nawozów a następnie wyliczono ilość mikroorganizmów występujących w 1 gramie suchej masy gleby. Chcemy znać częstość występowania promieniowców na 1 gram suchej masy gleby nawożonej azotem. Interesuje nas jak często w badanej próbie występowało od 0 do 20 promieniowców, od więcej niż 20 do 40 promieniowców, od więcej niż 40 do 60 promieniowców, itd. Zaznaczamy w arkuszu danych tylko 54 pierwsze wiersze, które odpowiadają założeniom analizy (są to promieniowce nawożone azotem) i uruchamiamy okno Tabele liczności poprzez menu StatystykaTabele liczności.

W oknie opcji wybieramy zmienną do analizy: Ilość mikroorganizmów, a następnie ustawiamy przedziały klasowe w ten sposób, by wartością początkową było 0 a krokiem 20. Na górze okna powinien być widoczny komunikat:

Dane ograniczone przez zaznaczenie

Potwierdzamy wybór przyciskiem OK i uzyskujemy wynik w postaci raportu:

2014/08/22 20:00

Raport tabeli

Przy pomocy raportu tabeli można przygotować jednoczesne podsumowanie bardzo wielu danych w postaci setek tabel dwudzielczych (tabel dwóch cech). Na przykład w postaci tabeli możemy przedstawić rozkład grup wiekowych według miejsca zamieszkania, wykształcenia, itd. Każda tabela jest przedstawiana w postaci liczności w poszczególnych kategoriach oraz dodatkowo można ją podsumować wyliczając procenty z wiersza, z kolumny lub z sumy całkowitej oraz wyznaczyć tabelę liczności oczekiwanych. Ponadto dla takich tabel możliwe jest automatyczne podsumowania w postaci wykresu kolumnowego. Okno z ustawieniami opcji raportu tabel wywołujemy poprzez menu StatystykaRaport tabeli

Przykład (plik Tabele.pqs)
W postaci tabel należy podsumować rozkład płci według miejsca zamieszkania, warunków socjalno-bytowych, wykształcenia, stanu cywilnego oraz rozkład grup wiekowych względem tych samych cech. W rezultacie uzyskamy po 4 tabele dla każdej pary cech, czyli 8 tabel dla wszystkich par i odpowiadające im wykresy. Poniżej przedstawiono tylko zestawienie względem płci:

Dla rozkładu względem grup wiekowych utworzono najpierw kategorie wiekowe poprzez kody/etykiety/format.

2017/03/11 20:05 · admin

Analizy dla tabel

Analizy dla tabel kontyngencji mogą być wyliczane na podstawie danych zebranych w tabele kontyngencji lub bezpośrednio tzn. na podstawie danych w postaci surowej. Przy czym istnieje możliwość transformacji danych z tabeli kontyngencji do postaci surowej lub odwrotnie.

Przykład (plik płeć-wykształcenie.pqs)

Rozpatrzmy próbę składającą się z 34 osób ($n=34$). Badamy 2 cechy tych osób ($X$=płeć, $Y$=wykształcenie). Płeć występuje w 2 kategoriach ($X_1$=kobieta, $X_2$=mężczyzna) wykształcenie w 3 kategoriach, ($Y_1$= podstawowe + zawodowe $Y_2$=średnie, $Y_3$=wyższe).

W przypadku danych surowych, po otwarciu okna opcji testu np. testu $\chi^2$ dla tabel $C\times R$, zaznaczona będzie automatycznie opcja dane surowe.

W przypadku danych zebranych w tabeli kontyngencji dobrze jest zaznaczyć te dane (wartości liczbowe bez nagłówków) przed uruchomieniem okna testu. Wówczas po otwarciu okna testu zaznaczona będzie automatycznie opcja tabela kontyngencji i dane z zaznaczenia zostaną wyświetlone.

W oknie testu zawsze możemy zmienić automatycznie wykryte ustawienie dotyczące formy organizacji danych, jak też wpisywać z poziomu okna dane do tabeli kontyngencji.

Warunek Cochrana
Jest to podstawowy warunek stosowania wielu testów statystycznych opartych na tabelach kontyngencji np. testu chi-kwadrat. Warunek ten zakłada duże liczności oczekiwane. Według interpretacji Cochrana (1952)1) żadna z liczności oczekiwanych nie może być $<1$ oraz nie więcej niż 20% liczności oczekiwanych może być $<5$. Informacja o spełnieniu (bądź nie spełnieniu) tego warunku przez dane zebrane w tabeli może być zwrócona do raportu.

Podstawowe testy dla tabel kontyngencji:

Współczynniki dla tabel kontyngencji:

W raporcie wynikowym można również umieścić podstawowe podsumowanie tabel:

  • Tabelę kontyngencji liczności obserwowanych $-$ czyli dane w postaci tabeli kontyngencji. Tabela taka przedstawia rozkład obserwacji dla kilku cech (kilku zmiennych). Tabelę dla 2 cech ($X$, $Y$), z których pierwsza ma możliwych $r$ a druga $c$ kategorii przedstawiono poniżej).

\begin{tabular}{|c|c||c|c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności}& \multicolumn{5}{|c|}{Cecha Y}\\\cline{3-7}
\multicolumn{2}{|c||}{ obserwowane $O_{ij}$} & $Y_1$ & $Y_2$ & ... & $Y_c$ & Suma \\\hline \hline
\multirow{5}{*}{Cecha $X$}& $X_1$ & $O_{11}$ & $O_{12}$ & ... & $O_{1c}$& $\sum_{j=1}^cO_{1j}$  \\\cline{2-7}
& $X_2$ & $O_{21}$ & $O_{22}$ & ... & $O_{2c}$& $\sum_{j=1}^cO_{2j}$   \\\cline{2-7}
& ...& ... & ... & ... & ...& ...  \\\cline{2-7}
& $X_r$ & $O_{r1}$ & $O_{r2}$ & ... & $O_{rc}$& $\sum_{j=1}^cO_{rj}$   \\\cline{2-7}
& Suma & $\sum_{i=1}^rO_{i1}$ & $\sum_{i=1}^rO_{i2}$ & ... & $\sum_{i=1}^rO_{ic}$& $n=\sum_{i=1}^r\sum_{j=1}^cO_{ij}$\\\hline
\end{tabular}

Liczności obserwowane $O_{ij}$ ($i=1,2,\dots,r;j=1,2,\dots,c$) przedstawiają częstość występowania poszczególnych kategorii dla obu cech.

By tabela taka była zwrócona przez program należy w oknie testu wybrać opcję dołącz analizowane dane.

Dla danych z przykładu tabela kontyngencji liczności obserwowanych przedstawia się następująco:

  • Tabelę kontyngencji liczności oczekiwanych $-$ dla każdej tabeli kontyngencji liczności obserwowanych można utworzyć odpowiadającą jej tabelę liczności oczekiwanych: $E_{ij}$.

\begin{tabular}{|c|c||c|c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności }& \multicolumn{4}{|c|}{Cecha Y}\\\cline{3-6}
\multicolumn{2}{|c||}{oczekiwane $E_{ij}$} & $Y_1$ & $Y_2$ & ... & $Y_c$ \\\hline \hline
\multirow{4}{*}{Cecha $X$}& $X_1$ & $E_{11}$ & $E_{12}$ & ... & $E_{1c}$\\\cline{2-6}
& $X_2$ & $E_{21}$ & $E_{22}$  & ... & $E_{2c}$ \\\cline{2-6}
& ...& ... & ... & ... & ... \\\cline{2-6}
& $X_r$ & $E_{r1}$ & $E_{r2}$ & ... & $E_{rc}$\\\hline
\end{tabular}

gdzie:

$E_{11}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{1j}}{n}$, $E_{12}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{1j}}{n}$, $E_{1c}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{1j}}{n}$

$E_{21}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{2j}}{n}$, $E_{22}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{2j}}{n}$, $E_{2c}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{2j}}{n}$

$E_{r1}=\frac{\sum_{i=1}^rO_{i1}\times\sum_{j=1}^cO_{rj}}{n}$, $E_{r2}=\frac{\sum_{i=1}^rO_{i2}\times\sum_{j=1}^cO_{rj}}{n}$, $E_{rc}=\frac{\sum_{i=1}^rO_{ic}\times\sum_{j=1}^cO_{rj}}{n}$.

Dla danych z przykładu tabela kontyngencji liczności oczekiwanych przedstawia się następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy kolumn.

Dla danych z przykładu tabela ta przedstawia się następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy wierszy.

Dla danych z przykładu tabela ta przedstawia sie następująco:

  • Tabelę kontyngencji wartości procentowych wyliczanych z sumy całkowitej .

Dla danych z przykładu tabela ta przedstawia się następująco:

2019/08/30 17:54 · admin
1)
Cochran W.G. (1952), The chi-square goodness-of-fit test. Annals of Mathematical Statistics, 23, 315-345

Narzędzia witryny