ANOVA dla grup niezależnych z korektą F* i F''

Poprawki $F^*$ (Brown-Forsythe, 19741)) oraz $F''$ (Welch, 19512)) dotyczą ANOVA dla grup niezależnych i są wyliczane wówczas, gdy nie jest spełnione założenie równości wariancji.

Statystyka testowa ma postać:

\begin{displaymath}
F^*=\frac{SS_{BG}}{\sum_{j=1}^k\left(1-\frac{n_j}{n}sd_j^2\right)},
\end{displaymath}

\begin{displaymath}
F''=\frac{\frac{\sum_{j=1}^kw_j(\overline{x}_j-\widetilde{x})}{k-1}}{1+\frac{2(k-2)}{k^2-1}\sum_{j=1}^kh_j},
\end{displaymath}

gdzie:

$sd_j$ $-$ odchylenie standardowe grupy $j$,

$w_j=\frac{n_j}{sd_j^2}$ $-$ waga grupy $j$,

$\widetilde{x}$ $-$ średnia ważona,

$h_j=\frac{\left(1-\frac{w_j}{\sum_{j=1}^kw_j}\right)^2}{n_j-1}$.

Statystyka ta podlega rozkładowi F Snedecora z $k-1$ i skorygowanymi $df_{WG_k}$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Testy POST-HOC

Wprowadzenie do kontrastów i testów POST-HOC przeprowadzone zostało w rozdziale dotyczącym jednoczynnikowej analizy wariancji.

Test T2 Tamhane

Dla porównań prostych i złożonych zarówno równolicznych jak i różnolicznych grup, gdy wariancje różnią się istotnie (Tamhane A. C., 19773)).

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha_{Sidak},1,df_v}}\cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)},
\end{displaymath}

gdzie:

$F_{\alpha_{Sidak},1,df_v}$ - to|wartość krytyczna (statystyka) rozkładu F Snedecora dla zmodyfikowanego poziomu istotności $\alpha_{Sidak}$ oraz dla stopni swobody 1 i $df_{v}$ odpowiednio,

$\alpha_{Sidak}=1-(1-\alpha)^{(1/k)}$,

$df_v=\frac{\left(\sum_{j=1}^k\frac{c_j^2sd_j^2}{n_j}\right)^2}{\sum_{j=1}^k\frac{c_j^4sd_j^4}{n_j^2(n_j-1)}}$

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
t=\frac{\left(\sum_{j=1}^k c_j\overline{x}_j\right)^2}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)}}.
\end{displaymath}

Statystyka ta podlega rozkładowi t-Studenta z $df_v$ stopniami swobody, a wartość p jest korygowana o liczbę możliwych porównań prostych.

Test BF (Brown-Forsythe)

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje różnią się istotnie (Brown M. B. i Forsythe A. B. (1974)4)).

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha,k-1,df_v}}\cdot \sqrt{(k-1)\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)},
\end{displaymath}

gdzie:

$F_{\alpha,k-1,df_v}$ - to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz $k-1$ i $df_v$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
F=\frac{\left(\sum_{j=1}^k c_j\overline{x}_j\right)^2}{(k-1)\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)}.
\end{displaymath}

Statystyka ta podlega rozkładowi F Snedecora z $k-1$ i $df_v$ stopniami swobody.

Test GH (Games-Howell).

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie (Games P. A. i Howell J. F. 19765)).

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\frac{q_{\alpha,k,df_v} \cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)}}{\sqrt{2}},
\end{displaymath}

gdzie:

$q_{\alpha,k,df_v}$ - to wartość krytyczna (statystyka) rozkładu studentyzowanego rozstępu dla zadanego poziomu istotności $\alpha$oraz $k$ i $df_v$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
q=\sqrt{2}\frac{\sum_{j=1}^k c_j\overline{x}_j}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2sd_j^2}{n_j}\right)}}.
\end{displaymath}

Statystyka ta podlega rozkładowi studentyzowanego rozstępu z $k$ i $df_v$ stopniami swobody.

Test dla trendu.

Test badający istnienie trendu może być wyliczany w takiej samej sytuacji jak ANOVA dla grup niezależnych z korektą $F^*$ i $F''$, gdyż bazuje na tych samych założeniach, inaczej jednak ujmuje hipotezę alternatywną - wskazując w niej na istnienie trendu wartości średnich dla kolejnych populacji. Analiza trendu w ułożeniu średnich oparta jest na kontrastach (T2 Tamhane). Budując odpowiednie kontrasty można badać dowolny rodzaj trendu np. liniowy, kwadratowy, sześcienny, itd. Tabela przykładowych wartości kontrastów dla wybranych trendów znajduje się w opisie testu dla trendu dla ANOVA bez korekty dla różnych wariancji.

Trend liniowy

Trend liniowy, tak jak pozostałe trendy, możemy analizować wpisując odpowiednie wartości kontrastów. Jeśli jednak znany jest kierunek trendu liniowego, wystarczy skorzystać z opcji Trend liniowy i wskazać oczekiwaną kolejność populacji przypisując im kolejne liczby naturalne.

Analiza przeprowadzana jest w oparciu o kontrast liniowy, czyli wskazanym według naturalnego uporządkowania grupom przypisane są odpowiednie wartości kontrastu i wyliczona zostaje statystyka T2 Tamhane.

Przy znanym oczekiwanym kierunku trendu, hipoteza alternatywna jest jednostronna i interpretacji podlega jednostronna wartość $p$. Interpretacja dwustronnej wartości $p$ oznacza, że badacz nie zna (nie zakłada) kierunku ewentualnego trendu. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji jednoczynnikowej ANOVA dla grup niezależnych z korektą F* i F„ wywołujemy poprzez menu StatystykaTesty parametryczneANOVA dla grup niezależnych lub poprzez Kreator.

Przykład (plik bezrobocie.pqs)

Jest wiele czynników regulujących czas poszukiwania pracy w dobie kryzysu gospodarczego. Jednym z najważniejszych może być poziom wykształcenia. Przykładowe dane dotyczące wykształcenia oraz czasu (w miesiącach) pozostawania bezrobotnym zebrano w pliku. Chcemy sprawdzić czy istnieją różnice w średnim czasie poszukiwania pracy dla poszczególnych kategorii wykształcenia.

Hipotezy:

$
\begin{array}{cl}
\mathcal{H}_0: & $średni czas poszukiwania pracy jest taki sam $\\
& $dla każdej kategorii wykształcenia,$\\
\mathcal{H}_1: & $przynajmniej jedna kategoria wykształcenia (jedna populacja)$\\
& $  charakteryzuje się innym średnim czasem poszukiwania pracy.$\\
\end{array}
$

Ze względu na różnice dotyczące wariancji pomiędzy poszczególnymi populacjami (dla testu Levene wartość $p=0.00015$, a dla testu Brown-Forsythe wartość $p=0.00008$):

anaizę przeprowadzamy przy włączonej korekcie różnych wariancji. Uzyskany wynik skorygowanej statystyki $F$ jest przedstawiony poniżej.

Porównując wartość $p=0.00001$ (dla testu $F^*$) oraz wartość $p=0.00003$ (dla testu $F''$) z poziomem istotności $\alpha=0.05$ stwierdzamy, że średni czas poszukiwania pracy różni się w zależności od posiadanego wykształcenia. Wykonując jeden z testów POST-HOC, dedykowany porównaniu grup o różnych wariancjach, dowiadujemy się których kategorii wykształcenia dotyczą stwierdzone różnice:

Najmniejsza istotna różnica (NIR) wyznaczona dla każdej pary porównań nie jest taka sama (mimo, że liczności grup są sobie równe), ponieważ nie są równe wariancje. Odnosząc wartość NIR do uzyskanych różnic wartości średnich uzyskamy ten sam rezultat co porównując wartość $p$ z poziomem istotności $\alpha=0.05$. Różnice dotyczą wykształcenia podstawowego i wyższego, wykształcenia podstawowego i średniego oraz wykształcenia zawodowego i wyższego. Generalnie jednak, spoglądając na wykres, możemy oczekiwać, że czym bardziej wykształcona osoba, tym mniej czasu zajmuje jej poszukiwanie pracy.

By móc sprawdzić tak postawioną hipotezę, należy podjąć analizę dla trendu. W tym celu {wznawiamy analizę} przyciskiem i w oknie opcji testu wybieramy: metodę Tamhane's T2, opcję Kontrasy (i ustawiamy odpowiedni kontrast) lub opcję Dla trendu (i wskazujemy kolejność kategorii wykształcenia podając kolejne liczby naturalne).

W zależności od tego czy kierunek zależności pomiędzy wykształceniem a czasem poszukiwania pracy jest nam znany, wykorzystujemy jednostronną lub dwustronną wartość $p$. Obie te wartości są mniejsze niż zadany poziom istotności. Przewidywany przez nas trend został potwierdzony, czyli na poziomie istotności $\alpha=0.05$ możemy powiedzieć, że ów trend istnieje rzeczywiście w populacji z której pochodzi próba.

1)
Brown M. B., Forsythe A. B. (1974), The small sample behavior of some statistics which test the equality of several means. Technometrics, 16, 385-389
2)
Welch B. L. (1951), On the comparison of several mean values: an alternative approach. Biometrika 38: 330–336
3)
Tamhane A. C. (1977), Multiple comparisons in model I One-Way ANOVA with unequal variances. Communications in Statistics, A6 (1), 15-32
4)
Brown M. B., Forsythe A. B. (1974), The ANOVA and multiple comparisons for data with heterogeneous variances. Biometrics, 30, 719-724
5)
Games P. A., Howell J. F. (1976), Pairwise multiple comparison procedures with unequal n's and/or variances: A Monte Carlo study. Journal of Educational Statistics, 1, 113-125

Narzędzia witryny