PQStat - Baza Wiedzy

ANOVA Durbina (brakujących danych)

Analiza wariancji powtarzanych pomiarów dla rang Durbina została zaproponowana przez Durbina (1951)¹⁾. Test ten stosuje się w sytuacji, gdy pomiarów badanej zmiennej dokonujemy kilkukrotnie - czyli w podobnej sytuacji w jakiej stosowana jest ANOVA Friedmana. Oryginalny test Durbina i test Friedmana dają ten sam wynik w sytuacji, gdy dysponujemy kompletnym zestawem danych. Test Durbina ma jednak pewną przewagę - można go również wyliczać dla niekompletnego zestawu danych. Przy czym braki danych nie mogą być zlokalizowane dowolnie, ale dane muszą tworzyć tzw. zbalansowany i niekompletny blok, czyli:

liczba pomiarów dla każdego obiektu wynosi $k$ ( $k \leq t$ ),
każdy pomiar dokonywany jest na $r$ obiektach ( $r \leq b$ ),
liczba obiektów dla których wykonano jednocześnie tą sama parę pomiarów jest stała i wynosi $\lambda$ .

gdzie:

$t$ - łączna liczba rozpatrywanych pomiarów,

$b$ - łączna liczba badanych obiektów

Podstawowe warunki stosowania:

pomiar na skali porządkowej lub interwałowej,
model zależny.

Hipotezy dotyczą równości sumy rang dla kolejnych pomiarów ( $R_{j}$ ) lub są upraszczane do median ( $\theta_j$ ):

$\begin{array}{cl} \mathcal{H}_0: & \theta_1=\theta_2=...=\theta_t,\\ \mathcal{H}_1: & $nie wszystkie $\theta_j$ są sobie równe $(j=1,2,...,t)$$, \end{array}$

Wyznacza się dwie statystyki testowe o następującej postaci:

$\begin{displaymath} T_1=\frac{(t-1)\left[\sum_{j=1}^tR_j^2-tC\right]}{A-C}, \end{displaymath}$

$\begin{displaymath} T_2=\frac{T_1/(t-1)}{(b(k-1)-T_1)/(bk-b-t+1)}, \end{displaymath}$

gdzie:

$R_{j}$ - suma rang dla kolejnych pomiarów $(j=1,2,...t)$ ,

$R_{ij}$ - rangi przypisane kolejnym pomiarom, oddzielnie dla każdego z badanych obiektów $(i=1,2,...b)$ ,

$\displaystyle A=\sum_{i=1}^b\sum_{j=1}^tR_{ij}^2$ $-$ suma kwadratów dla rang,

$\displaystyle C=\frac{bk(k+1)^2}{4}$ $-$ współczynnik korekcji.

Wzór na statystykę $T_1$ i $T_2$ zawiera poprawkę na rangi wiązane.

W przypadku danych kompletnych statystyka $T_1$ jest tożsama z testem Friedmana. Ma ona asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z $df=t - 1$ stopniami swobody.

Statystyka $T_2$ to odpowiednik korekty Iman-Davenport ANOVA Friedmana, więc podlega rozkładowi F Snedecora z $df_1=t-1$ i $df_2=bk-b-t+1$ stopniami swobody. Uznaje się ją obecnie za bardziej precyzyjną niż statystykę $T_1$ i rekomenduje jej stosowanie²⁾.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Testy POST-HOC

Wprowadzenie do kontrastów i testów POST-HOC przeprowadzone zostało w rozdziale dotyczącym jednoczynnikowej analizy wariancji.

Test Conover-Inman

Stosowany dla porównań prostych (liczność w poszczególnych pomiarach zawsze jest taka sama).

Hipotezy:

Przykład - porównania proste (porównanie pomiędzy sobą 2 wybranych median / sum rang):

$\begin{array}{cc} \mathcal{H}_0: & \theta_j=\theta_{j+1},\\ \mathcal{H}_1: & \theta_j \neq \theta_{j+1}. \end{array}$

$\mathfrak{(i)}$ Wartość najmniejszej istotnej różnicy wyliczana jest z wzoru:

$\begin{displaymath} NIR=t_{1-\alpha /2, bk-b-t+1}\sqrt{\frac{(A-C)2r}{bk-b-t+1}\left(1-\frac{T_1}{b(k-1)}\right)}, \end{displaymath}$

gdzie:

$t_{1-\alpha /2, bk-b-t+1}$ - to wartość krytyczna (statystyka) rozkładu t-Studenta dla poziomu istotności $\alpha$ i $df=bk-b-t+1$ stopni swobody.

$\mathfrak{(ii)}$ Statystyka testowa ma postać:

$\begin{displaymath} t=\frac{\sum_{j=1}^k c_jR_j}{\sqrt{\frac{(A-C)2r}{bk-b-t+1}\left(1-\frac{T_1}{b(k-1)}\right)}}, \end{displaymath}$

Statystyka ta podlega rozkładowi t-Studenta z $df=bk-b-t+1$ stopniami swobody.

Okno z ustawieniami opcji ANOVA Durbina wywołujemy poprzez menu Statystyka→Testy nieparametryczne→ANOVA Friedmana (możliwość braków danych) lub poprzez Kreator.

Uwaga!

By rekordy w których występują braki danych były brane pod uwagę wymagane jest zaznaczenie opcji Akceptuj braki danych. Jako braki danych traktowane są puste komórki oraz komórki o wartościach nieliczbowych. W analizie biorą udział tylko rekordy zawierające więcej niż jedną wartość liczbową.

Przykład (plik mirror.pqs)

Przeprowadzono eksperyment wśród 20 pacjentów szpitala psychiatrycznego (Ogilvie 1965 ³⁾). Eksperyment ten polegał na odrysowaniu linii prostych według zaprezentowanego wzoru. Wzór przedstawiał 5 linii rysowanych pod różnym kątem ( $0^o, 22.5^o, 45^o, 67.5^o, 90^o$ ) względem wskazanego środka. Zadaniem pacjentów było odwzorowanie linii mając zasłoniętą dłoń. Jako wynik eksperymentu zapisano czas w jakim pacjent kreślił daną linię. W idealnym przypadku każdy pacjent kreśliłby linię pod każdym kątem, jednak upływający czas i zmęczenie miałyby znaczny wpływ na wydajność pracy. Ponadto trudno jest utrzymać zainteresowanie pacjenta i chęć współpracy przez dłuższy czas. W związku z tym projekt zaplanowano i przeprowadzono w zbalansowanych i niekompletnych blokach. Każdy z 20 pacjentów wyrysowywał linię pod dwoma kontami (możliwych kątów było pięć). W ten sposób każdy kąt wyrysowywany był ośmiokrotnie. Czas w jakim każdy pacjent wyrysowywał linię pod zadanym kątem zapisano w tabeli.

$\begin{tabular}{|c||c|c|c|c|c|} \hline nr pacjenta &$0^o$&$22.5^o$&$45^o$&$67.5^o$&$90^o$\\\hline 1&7&15&&&\\ 2&20&&72&&\\ 3&8&&&26&\\ 4&33&&&&36\\ 5&7&16&&&\\ 6&&68&67&&\\ 7&&33&&64&\\ 8&&34&&&12\\ 9&10&&96&&\\ 10&&29&59&&\\ 11&&&17&9&\\ 12&&&100&&15\\ 13&16&&&32&\\ 14&&19&&32&\\ 15&&&36&39&\\ 16&&&&44&54\\ 17&16&&&&38\\ 18&&17&&&12\\ 19&&&37&&11\\ 20&&&&56&6\\ \hline \end{tabular}$

Chcemy sprawdzić, czy czas jaki został poświęcony na wyrysowanie poszczególnych linii jest zupełnie losowy, czy też są linie, których wyrysowywanie zajęło więcej lub mniej czasu.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $brak jest istotnej różnicy pomiędzy czasem poświęconym na $\\ & $wyrysowanie poszczególnych linii przez pacjentów, $\\ \mathcal{H}_1: & $przynajmniej jedna linia rysowana jest w czasie krótszym/dłuższym.$ \end{array}$

Porównując wartość $p=0,014541$ dla statystyki $T_2$ (lub wartość $p=0.034203$ dla statystyki $T_1$ ) z poziomem istotności $\alpha=0.05$ stwierdzamy, że linie nie są rysowane w tym samym czasie. Wykonana analiza POST-HOC wskazuje na różnice czasu poświęconego na narysowanie linii pod kątem $0^o$ . Jest ona rysowana szybciej niż linie pod kątem $22.5^o$ , $45^o$ oraz $67.5^o$ .