Test T-kwadrat Hotellinga dla pojedynczej próby

Służy do weryfikacji hipotezy, że $k$ zmiennych w badanej populacji $X_1,X_2,...,X_k$ charakteryzuje się średnimi zadanymi przez badacza.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \mu=\mu_0,\\
\mathcal{H}_1: & $nie wszystkie $\mu_j $ są równe zadanym wartościom,$
\end{array}

gdzie:

$\mu=(\mu_1, \mu_2,..., \mu_k)$ - średnie zmiennych w populacji reprezentowanej przez próbę,

$\mu_0=(\mu_{01}, \mu_{02},..., \mu_{0k})$ - zadane przez badacza wartości średnich.

Statystyka testowa ma postać: \begin{displaymath}
F=\frac{n-k}{k(n-1)}T^2
\end{displaymath}

gdzie:

$n=n_1=n_2=...=n_k$ - liczności poszczególnych zmiennych w próbie,

$T^2 = n(\overline{x}-\mu_0)^TS^{-1}(\overline{x}-\mu_0)$ - pierwotna statystyka testowa Hotellinga o rozkładzie $\chi^2$ (zalecana dla prób o dużych licznościach),

$\overline{x}=(\overline{x}_1, \overline{x}_2,..., \overline{x}_k)$ - średnie zmiennych w próbie,

$S$- macierz kowariancji.

Statystyka ta podlega rozkładowi F Snedecora z $k$ i $n-k$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności średnich:

\begin{displaymath}
\overline{x}_j\pm\sqrt{\frac{k(n-1)}{n-k}F_{\alpha,df_1,df_2}}\cdot SE_j
\end{displaymath}

lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich zadana wartość. Jeśli bowiem zadana wartość znajduje się w wyznaczonym przedziale to oznacza, że w rzeczywistości średnia danej zmiennej może być równa tej zadanej wartości. Stosując tą metodę należy jednak pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy poszczególnymi zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.

Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla pojedynczej próby oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości $p$ testu t-Studenta możemy skorygować w dziale Wielokrotne porównania.

Uwaga!

Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowej elipsy” przedziałów ufności wokół centrum wyznaczonego przez średnie. Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.

Przykład - interpretacja elipsy testu Hotellinga dla dwóch zmiennych

Zadany punkt opisany przez wartości średnie ($\mu_0=(0,0)$) znajduje się poza elipsą, co oznacza, że test Hotellinga odrzuca hipotezę $\mathcal{H}_0$, ale stosując podejście jednowymiarowe (przedziały ufności dla każdej zmiennej oddzielnie) nie jesteśmy w stanie odrzucić hipotezy $\mathcal{H}_0$, by wskazać zmienną, której dotyczą różnice.

\begin{pspicture}(-3,-2.5)(3,4)
\psline{->}(0,-1.5)(0,3.5)
\psline{->}(-2,0)(3,0)
\psdots(-0.5,1.5)
\rput(-0.5,1.7){\tiny $(\overline{x}_1, \overline{x}_2)$}
\psdots(0,0)
\rput(0.65,-0.2){\textcolor{black}{\tiny $\mu_0=(0,0)$}}
\psellipse[linestyle=dashed, rot=-30,linecolor=red, dash=3pt 2pt](-0.5,1.5)(0.5,2)
\psline[linecolor=red]{<->}(1.5,-0.3)(1.5,3.25)
\psline[linecolor=red]{<->}(-1.6,-0.7)(0.55,-0.7)
\rput[b]{90}(1.7,1.4){\textcolor{red}{\psframebox*{\tiny $95\%CI (\mu_2)$}}}
\rput(-0.5,-0.7){\textcolor{red}{\psframebox*{\tiny $95\%CI (\mu_1)$}}}
\rput(-2,2.3){\scriptsize elipsa przedziału}
\rput(-2,2){\scriptsize ufności dla średnich}
\end{pspicture}

Okno z ustawieniami opcji testu Hotellinga dla pojedynczej próby wywołujemy poprzez menu StatystykaTesty parametryczneT-kwadrat Hotellinga

Przykład (plik sport.pqs)

Przebadano grupę sportowców by uzyskać informację między innymi o takich parametrach zdrowotnych jak:

RBC - Liczba czerwonych krwinek,

Hg - Hemoglobina [g/dl],

Ferr - Ferrytyna [µg/l].

Chcemy wiedzieć, na ile bliskie oczekiwanym przez badaczy wartościom są średnie poziomy RBC, hemoglobiny i ferrytyny dla sportowców uprawiających tzw. sporty „wodne”. Oczekiwane średnie to:

RBC = 4.8,

Hg = 15[g/dl],

Ferr = 100[µg/l].

Hipotezy:

$
\begin{array}{cl}
\mathcal{H}_0: & $średnie wartości RBC, Hg i Ferr  w badanej populacji sportowców  $\\
& $wynoszą odpowiednio: 4.8, 15, 100, $\\
\mathcal{H}_1: & $przynajmniej jeden z badanych parametrów ma średnią w populacji $\\
& $inną od zadanej wartości.$\\
\end{array}
$

Ponieważ arkusz danych zawiera informacje o badanych parametrach dla większej grupy sportowców, w oknie analizy osoby, które uprawiają sporty wodne wskazujemy poprzez filtr danych.

Porównując wartość $p=0.000708$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że średnie poziomy badanych parametrów różnią się od wartości zadanej. Różnic możemy poszukiwać w wyznaczonych jednoczesnych przedziałach ufności lub w przedziałach z korektą Bonferroniego. Dla ferrytyny jednoczesny 95% przedział ufności znajduje się poniżej zadanej wartości, co świadczy o niższej populacyjnej wartości ferrytyny niż zadana przez badaczy. Przedział dla RBC i hemoglobiny zawiera zadane wartości, co wskazuje na brak istotnych statystycznie różnic.

Nieco węższe przedziały uzyskamy wykorzystując poprawkę Bonferroniego, wówczas nie tylko przedział dla ferrytyny znajduje się poniżej przedziału ufności ale również przedział dla hemoglobiny.

Podejście jednowymiarowe ze względu na swoją prostotę wykorzystywane jest najczęściej. Możemy tu wybrać mniej konserwatywne korekty wielokrotnych porównań niż poprawka Bonferroniego lub Sidaka, uzyskując w ten sposób różnice dotyczące wszystkich badanych parametrów.

By wykonać korektę wartości $p$ testu t-Studenta należy przekopiować te wartości do jednej kolumny nowego arkusza danych i z menu Statystyka wybrać Korektę wielokrotnych porównań.


Narzędzia witryny