Kontrasty i testy POST-HOC

Analiza wariancji daje informację tylko o tym, czy między populacjami występują istotne statystycznie różnice. Nie mówi ona, które populacje różnią się między sobą. By uzyskać wiedzę o różnicach dla fragmentu naszego złożonego układu stosujemy kontrasty (gdy dokonujemy wcześniej zaplanowanych i zwykle tylko wybranych porównań - tzw. a'priori), lub procedury porównań wielokrotnych czyli testy POST-HOC (gdy po wykonanej analizie wariancji szukamy różnic, zwykle pomiędzy wszystkimi parami).

Liczba wszystkich możliwych porównań prostych wyliczana jest z wzoru:

\begin{displaymath}
c={k \choose 2}=\frac{k(k-1)}{2}
\end{displaymath}

Hipotezy:

Przykład 1 - porównania proste (porównanie pomiędzy sobą 2 wybranych średnich):

\begin{array}{cc}
\mathcal{H}_0: & \mu_1=\mu_2,\\
\mathcal{H}_1: & \mu_1 \neq \mu_2.
\end{array}

Przykład 2 - porównania złożone (porównanie kombinacji wybranych średnich):

\begin{array}{cc}
\mathcal{H}_0: & \mu_1=\frac{\mu_2+\mu_3}{2},\\[0.1cm]
\mathcal{H}_1: & \mu_1\neq\frac{\mu_2+\mu_3}{2}.
\end{array}

By można było zdefiniować wybrane hipotezy należy dla każdej średniej przypisać wartość kontrastu $c_j$, $(j=1,2,...k)$. Wartości $c_j$ są tak wybierane by ich sumy dla porównywanych stron były liczbami przeciwnymi, a ich wartość dla średnich nie biorących udziału w analizie wynosi 0.

  • Przykład 1: $c_1=1$, $c_2=-1$, $c_3=0, ...c_k=0$.
  • Przykład 2: $c_1=2$, $c_2=-1$, $c_3=-1$, $c_4=0$,…, $c_k=0$.

Wyboru właściwej hipotezy możemy dokonać:

  • $\mathfrak{(i)}$ Porównując różnicę wybranych średnich z najmniejszą istotną różnicą (NIR) wyznaczoną odpowiednim testem POST-HOC :

\begin{array}{ccl}
$ jeżeli $ $różnica średnich $ \ge NIR & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ $różnica średnich $ < NIR & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test LSD Fishera

Dla porównań prostych i złożonych, zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha,1,df_{WG}}}\cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}},
\end{displaymath}

gdzie:

$F_{\alpha,1,df_{WG}}$ - to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz dla stopni swobody odpowiednio: 1 i $df_{WG}$.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
t=\frac{\sum_{j=1}^k c_j\overline{x}_j}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}.
\end{displaymath}

Statystyka ta podlega rozkładowi t-Studenta z $df_{WG}$ stopniami swobody.

Test Scheffego

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha,df_{BG},df_{WG}}}\cdot \sqrt{(k-1)\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}},
\end{displaymath}

gdzie:

$F_{\alpha,df_{BG},df_{WG}}$ - to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz $df_{BG}$ i $df_{WG}$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
F=\frac{\left(\sum_{j=1}^k c_j\overline{x}_j\right)^2}{(k-1)\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}.
\end{displaymath}

Statystyka ta podlega rozkładowi F Snedecora z $df_{BG}$ i $df_{WG}$ stopniami swobody.

Test Tukeya.

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\frac{\sqrt{2}\cdot q_{\alpha,df_{WG},k} \cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}{2},
\end{displaymath}

gdzie:

$q_{\alpha,df_{WG},k}$ - to wartość krytyczna (statystyka) rozkładu studentyzowanego rozstępu dla zadanego poziomu istotności $\alpha$ oraz $df_{WG}$ i $k$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
q=\sqrt{2}\frac{\sum_{j=1}^k c_j\overline{x}_j}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}.
\end{displaymath}

Statystyka ta podlega rozkładowi studentyzowanego rozstępu z $df_{WG}$ i $k$ stopniami swobody.

Info.

Algorytm obliczania wartości p i statystyki rozkładu studentyzowanego rozstępu w PQStat bazuje na pracy Lunda (1983)1). Inne programy lub strony internetowe mogą wyliczać nieco inne wartości niż PQStat, gdyż mogą bazować na mniej precyzyjnych lub bardziej restrykcyjnych algorytmach (Copenhaver i Holland (1988), Gleason (1999)).

Test dla trendu.

Test badający istnienie trendu może być wyliczany w takiej samej sytuacji jak ANOVA dla zmiennych niezależnych, gdyż bazuje na tych samych założeniach, inaczej jednak ujmuje hipotezę alternatywną - wskazując w niej na istnienie trendu wartości średnich dla kolejnych populacji. Analiza trendu w ułożeniu średnich oparta jest na kontrastach LSD Fishera. Budując odpowiednie kontrasty można badać dowolny rodzaj trendu np. liniowy, kwadratowy, sześcienny, itd. Poniżej znajduje się tabela przykładowych wartości kontrastów dla wybranych trendów.

\begin{tabular}{|cc||c|c|c|c|c|c|c|c|c|c|}
\hline
&&\multicolumn{10}{c|}{Kontrast}\\\hline
Liczba grup&Trend&$c_1$&$c_2$&$c_3$&$c_4$&$c_5$&$c_6$&$c_7$&$c_8$&$c_9$&$c_{10}$\\\hline\hline
\multirow{2}{*}{3}&liniowy&-1&0&1&&&&&&&\\
&kwadratowy&1&-2&1&&&&&&&\\\hline
\multirow{3}{*}{4}&liniowy&-3&-1&1&3&&&&&&\\
&kwadratowy&1&-1&-1&1&&&&&&\\
&sześcienny&-1&3&-3&1&&&&&&\\\hline
\multirow{3}{*}{5}&liniowy&-2&-1&0&1&2&&&&&\\
&kwadratowy&2&-1&-2&-1&2&&&&&\\
&sześcienny&-1&2&0&-2&1&&&&&\\\hline
\multirow{3}{*}{6}&liniowy&-5&-3&-1&1&3&5&&&&\\
&kwadratowy&5&-1&-4&-4&-1&5&&&&\\
&sześcienny&-5&7&4&-4&-7&5&&&&\\\hline
\multirow{3}{*}{7}&liniowy&-3&-2&-1&0&1&2&3&&&\\
&kwadratowy&5&0&-3&-4&-3&0&5&&&\\
&sześcienny&-1&1&1&0&-1&-1&1&&&\\\hline
\multirow{3}{*}{8}&liniowy&-7&-5&-3&-1&1&3&5&7&&\\
&kwadratowy&7&1&-3&-5&-5&-3&1&7&&\\
&sześcienny&-7&5&7&3&-3&-7&-5&7&&\\\hline
\multirow{3}{*}{9}&liniowy&-4&-3&-2&-1&0&1&2&3&4&\\
&kwadratowy&28&7&-8&-17&-20&-17&-8&7&28&\\
&sześcienny&-14&7&13&9&0&-9&-13&-7&14&\\\hline
\multirow{3}{*}{10}&liniowy&-9&-7&-5&-3&-1&1&3&5&7&9\\
&kwadratowy&6&2&-1&-3&-4&-4&-3&-1&2&6\\
&sześcienny&-42&14&35&31&12&-12&-31&-35&-14&42\\\hline
\end{tabular}

Trend liniowy

Trend liniowy, tak jak pozostałe trendy, możemy analizować wpisując odpowiednie wartości kontrastów. Jeśli jednak znany jest kierunek trendu liniowego, wystarczy skorzystać z opcji Trend liniowy i wskazać oczekiwaną kolejność populacji przypisując im kolejne liczby naturalne.

Analiza przeprowadzana jest w oparciu o kontrast liniowy, czyli wskazanym według naturalnego uporządkowania grupom przypisane są odpowiednie wartości kontrastu i wyliczona zostaje statystyka LSD Fishera.

Przy znanym oczekiwanym kierunku trendu, hipoteza alternatywna jest jednostronna i interpretacji podlega jednostronna wartość $p$. Interpretacja dwustronnej wartości $p$ oznacza, że badacz nie zna (nie zakłada) kierunku ewentualnego trendu. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji jednoczynnikowej ANOVA dla grup niezależnych wywołujemy poprzez menu StatystykaTesty parametryczneANOVA dla grup niezależnych lub poprzez Kreator.

1)
Lund R.E., Lund J.R. (1983), Algorithm AS 190, Probabilities and Upper Quantiles for the Studentized Range. Applied Statistics; 34

Narzędzia witryny