Kontrasty i testy POST-HOC

Analiza wariancji daje informację tylko o tym, czy między populacjami występują istotne statystycznie różnice. Nie mówi ona, które populacje różnią się między sobą. By uzyskać wiedzę o różnicach dla fragmentu naszego złożonego układu stosujemy kontrasty (gdy dokonujemy wcześniej zaplanowanych i zwykle tylko wybranych porównań - tzw. a'priori), lub procedury porównań wielokrotnych czyli testy POST-HOC (gdy po wykonanej analizie wariancji szukamy różnic, zwykle pomiędzy wszystkimi parami).

Liczba wszystkich możliwych porównań prostych wyliczana jest z wzoru:

\begin{displaymath}
c={k \choose 2}=\frac{k(k-1)}{2}
\end{displaymath}

Hipotezy:

Przykład 1 - porównania proste (porównanie pomiędzy sobą 2 wybranych średnich):

\begin{array}{cc}
\mathcal{H}_0: & \mu_1=\mu_2,\\
\mathcal{H}_1: & \mu_1 \neq \mu_2.
\end{array}

Przykład 2 - porównania złożone (porównanie kombinacji wybranych średnich):

\begin{array}{cc}
\mathcal{H}_0: & \mu_1=\frac{\mu_2+\mu_3}{2},\\[0.1cm]
\mathcal{H}_1: & \mu_1\neq\frac{\mu_2+\mu_3}{2}.
\end{array}

By można było zdefiniować wybrane hipotezy należy dla każdej średniej przypisać wartość kontrastu $c_j$, $(j=1,2,...k)$. Wartości $c_j$ są tak wybierane by ich sumy dla porównywanych stron były liczbami przeciwnymi, a ich wartość dla średnich nie biorących udziału w analizie wynosi 0.

  • Przykład 1: $c_1=1$, $c_2=-1$, $c_3=0, ...c_k=0$.
  • Przykład 2: $c_1=2$, $c_2=-1$, $c_3=-1$, $c_4=0$,…, $c_k=0$.

Wyboru właściwej hipotezy możemy dokonać:

\begin{array}{ccl}
$ jeżeli $ $różnica średnich $ \ge NIR & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ $różnica średnich $ < NIR & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test LSD Fishera

Dla porównań prostych i złożonych, zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha,1,df_{WG}}}\cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}},
\end{displaymath}

gdzie:

$F_{\alpha,1,df_{WG}}$ - to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz dla stopni swobody odpowiednio: 1 i $df_{WG}$.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
t=\frac{\sum_{j=1}^k c_j\overline{x}_j}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}.
\end{displaymath}

Statystyka ta podlega rozkładowi t-Studenta z $df_{WG}$ stopniami swobody.

Test Scheffego

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\sqrt{F_{\alpha,df_{BG},df_{WG}}}\cdot \sqrt{(k-1)\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}},
\end{displaymath}

gdzie:

$F_{\alpha,df_{BG},df_{WG}}$ - to wartość krytyczna (statystyka) rozkładu F Snedecora dla zadanego poziomu istotności $\alpha$ oraz $df_{BG}$ i $df_{WG}$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
F=\frac{\left(\sum_{j=1}^k c_j\overline{x}_j\right)^2}{(k-1)\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}.
\end{displaymath}

Statystyka ta podlega rozkładowi F Snedecora z $df_{BG}$ i $df_{WG}$ stopniami swobody.

Test Tukeya.

Dla porównań prostych zarówno równolicznych jak i różnolicznych grup, gdy wariancje nie różnią się istotnie.

  • $\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

\begin{displaymath}
NIR=\frac{\sqrt{2}\cdot q_{\alpha,df_{WG},k} \cdot \sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}{2},
\end{displaymath}

gdzie:

$q_{\alpha,df_{WG},k}$ - to wartość krytyczna (statystyka) rozkładu studentyzowanego rozstępu dla zadanego poziomu istotności $\alpha$ oraz $df_{WG}$ i $k$ stopni swobody.

  • $\mathfrak{(ii)}$ Statystyka testowa ma postać:

\begin{displaymath}
q=\sqrt{2}\frac{\sum_{j=1}^k c_j\overline{x}_j}{\sqrt{\left(\sum_{j=1}^k \frac{c_j^2}{n_j}\right)MS_{WG}}}.
\end{displaymath}

Statystyka ta podlega rozkładowi studentyzowanego rozstępu z $df_{WG}$ i $k$ stopniami swobody.

Info.

Algorytm obliczania wartości p i statystyki rozkładu studentyzowanego rozstępu w PQStat bazuje na pracy Lunda (1983)1). Inne programy lub strony internetowe mogą wyliczać nieco inne wartości niż PQStat, gdyż mogą bazować na mniej precyzyjnych lub bardziej restrykcyjnych algorytmach (Copenhaver i Holland (1988), Gleason (1999)).

Test dla trendu.

Test badający istnienie trendu może być wyliczany w takiej samej sytuacji jak ANOVA dla zmiennych niezależnych, gdyż bazuje na tych samych założeniach, inaczej jednak ujmuje hipotezę alternatywną - wskazując w niej na istnienie trendu wartości średnich dla kolejnych populacji. Analiza trendu w ułożeniu średnich oparta jest na kontrastach LSD Fishera. Budując odpowiednie kontrasty można badać dowolny rodzaj trendu np. liniowy, kwadratowy, sześcienny, itd. Poniżej znajduje się tabela przykładowych wartości kontrastów dla wybranych trendów.

\begin{tabular}{|cc||c|c|c|c|c|c|c|c|c|c|}
\hline
&&\multicolumn{10}{c|}{Kontrast}\\\hline
Liczba grup&Trend&$c_1$&$c_2$&$c_3$&$c_4$&$c_5$&$c_6$&$c_7$&$c_8$&$c_9$&$c_{10}$\\\hline\hline
\multirow{2}{*}{3}&liniowy&-1&0&1&&&&&&&\\
&kwadratowy&1&-2&1&&&&&&&\\\hline
\multirow{3}{*}{4}&liniowy&-3&-1&1&3&&&&&&\\
&kwadratowy&1&-1&-1&1&&&&&&\\
&sześcienny&-1&3&-3&1&&&&&&\\\hline
\multirow{3}{*}{5}&liniowy&-2&-1&0&1&2&&&&&\\
&kwadratowy&2&-1&-2&-1&2&&&&&\\
&sześcienny&-1&2&0&-2&1&&&&&\\\hline
\multirow{3}{*}{6}&liniowy&-5&-3&-1&1&3&5&&&&\\
&kwadratowy&5&-1&-4&-4&-1&5&&&&\\
&sześcienny&-5&7&4&-4&-7&5&&&&\\\hline
\multirow{3}{*}{7}&liniowy&-3&-2&-1&0&1&2&3&&&\\
&kwadratowy&5&0&-3&-4&-3&0&5&&&\\
&sześcienny&-1&1&1&0&-1&-1&1&&&\\\hline
\multirow{3}{*}{8}&liniowy&-7&-5&-3&-1&1&3&5&7&&\\
&kwadratowy&7&1&-3&-5&-5&-3&1&7&&\\
&sześcienny&-7&5&7&3&-3&-7&-5&7&&\\\hline
\multirow{3}{*}{9}&liniowy&-4&-3&-2&-1&0&1&2&3&4&\\
&kwadratowy&28&7&-8&-17&-20&-17&-8&7&28&\\
&sześcienny&-14&7&13&9&0&-9&-13&-7&14&\\\hline
\multirow{3}{*}{10}&liniowy&-9&-7&-5&-3&-1&1&3&5&7&9\\
&kwadratowy&6&2&-1&-3&-4&-4&-3&-1&2&6\\
&sześcienny&-42&14&35&31&12&-12&-31&-35&-14&42\\\hline
\end{tabular}

Trend liniowy

Trend liniowy, tak jak pozostałe trendy, możemy analizować wpisując odpowiednie wartości kontrastów. Jeśli jednak znany jest kierunek trendu liniowego, wystarczy skorzystać z opcji Trend liniowy i wskazać oczekiwaną kolejność populacji przypisując im kolejne liczby naturalne.

Analiza przeprowadzana jest w oparciu o kontrast liniowy, czyli wskazanym według naturalnego uporządkowania grupom przypisane są odpowiednie wartości kontrastu i wyliczona zostaje statystyka LSD Fishera.

Przy znanym oczekiwanym kierunku trendu, hipoteza alternatywna jest jednostronna i interpretacji podlega jednostronna wartość $p$. Interpretacja dwustronnej wartości $p$ oznacza, że badacz nie zna (nie zakłada) kierunku ewentualnego trendu. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Grupy jednorodne

Dla każdego testu post-hoc, budowane są grupy jednorodne. Każda grupa jednorodna przedstawia zbiór grup, które nie różnią się od siebie w sposób istotny statystycznie. Na przykład, załóżmy, że podzieliliśmy badanych na sześć grup odnośnie statusu palenia: Nonsmokers (NS), Passive smokers (PS), Noninhaling smokers (NI), Light smokers (LS), Moderate smokers (MS), Heavy smokers (HS) i badamy dla nich parametry wydechowe. W przeprowadzonej analizie typu ANOVA uzyskaliśmy istotne statystycznie różnice w parametrach wydechowych pomiędzy badanymi grupami. Chcąc wskazać które grupy różnią się istotnie, a które nie, wykonujemy testy typu post-hoc. W rezultacie oprócz tabeli z wynikami poszczególnych par porównań i podanej istotności statystycznej w postaci wartości $p$

uzyskujemy podział na grupy jednorodne:

W tym przypadku uzyskano 4 grupy jednorodne tzn. A, B, C i D, co wskazuje na możliwość przeprowadzania badania w oparciu o mniejszy podział tzn. zamiast sześciu grup, które badaliśmy pierwotnie można prowadzić dalsze analizy w oparciu o cztery wyznaczone tu grupy jednorodne. Kolejność grup ustalona została na podstawie średnich ważonych wyliczonych dla poszczególnych grup jednorodnych, w taki sposób, by litera A przypisana została go grupy o najniższej średniej ważonej średniej ważonej, a dalsze litery alfabetu kolejno do grup o coraz wyższych średnich.

Okno z ustawieniami opcji jednoczynnikowej ANOVA dla grup niezależnych wywołujemy poprzez menu StatystykaTesty parametryczneANOVA dla grup niezależnych lub poprzez Kreator.

1)
Lund R.E., Lund J.R. (1983), Algorithm AS 190, Probabilities and Upper Quantiles for the Studentized Range. Applied Statistics; 34