Spis treści

Hotelling T-square

Hotelling T-square

Analiza Hotellinga zaproponowana została przez Hotellinga (1931)¹⁾ (1947)²⁾ i Mahalanobisa (1930³⁾, 1936⁴⁾) jest rozszerzeniem testów t-Studenta do dziedziny wielu zmiennych. W rezultacie jednoczesnej analizie możemy poddawać wiele różnych cech badanych obiektów.

Test T-kwadrat Hotellinga dla pojedynczej próby

Służy do weryfikacji hipotezy, że $k$ zmiennych w badanej populacji $X_1,X_2,...,X_k$ charakteryzuje się średnimi zadanymi przez badacza.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
wielowymiarowy rozkład normalny lub normalność rozkładu każdej badanej zmiennej.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \mu=\mu_0,\\ \mathcal{H}_1: & $nie wszystkie $\mu_j $ są równe zadanym wartościom,$ \end{array}$

gdzie:

$\mu=(\mu_1, \mu_2,..., \mu_k)$ - średnie zmiennych w populacji reprezentowanej przez próbę,

$\mu_0=(\mu_{01}, \mu_{02},..., \mu_{0k})$ - zadane przez badacza wartości średnich.

Statystyka testowa ma postać: $\begin{displaymath} F=\frac{n-k}{k(n-1)}T^2 \end{displaymath}$

gdzie:

$n=n_1=n_2=...=n_k$ - liczności poszczególnych zmiennych w próbie,

$T^2 = n(\overline{x}-\mu_0)^TS^{-1}(\overline{x}-\mu_0)$ - pierwotna statystyka testowa Hotellinga o rozkładzie $\chi^2$ (zalecana dla prób o dużych licznościach),

$\overline{x}=(\overline{x}_1, \overline{x}_2,..., \overline{x}_k)$ - średnie zmiennych w próbie,

$S$ - macierz kowariancji.

Statystyka ta podlega rozkładowi F Snedecora z $k$ i $n-k$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności średnich:

$\begin{displaymath} \overline{x}_j\pm\sqrt{\frac{k(n-1)}{n-k}F_{\alpha,df_1,df_2}}\cdot SE_j \end{displaymath}$

lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich zadana wartość. Jeśli bowiem zadana wartość znajduje się w wyznaczonym przedziale to oznacza, że w rzeczywistości średnia danej zmiennej może być równa tej zadanej wartości. Stosując tą metodę należy jednak pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy poszczególnymi zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.

Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla pojedynczej próby oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości $p$ testu t-Studenta możemy skorygować w dziale Wielokrotne porównania.

Uwaga!

Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowej elipsy” przedziałów ufności wokół centrum wyznaczonego przez średnie. Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.

Przykład - interpretacja elipsy testu Hotellinga dla dwóch zmiennych

Zadany punkt opisany przez wartości średnie ( $\mu_0=(0,0)$ ) znajduje się poza elipsą, co oznacza, że test Hotellinga odrzuca hipotezę $\mathcal{H}_0$ , ale stosując podejście jednowymiarowe (przedziały ufności dla każdej zmiennej oddzielnie) nie jesteśmy w stanie odrzucić hipotezy $\mathcal{H}_0$ , by wskazać zmienną, której dotyczą różnice.

$\begin{pspicture}(-3,-2.5)(3,4) \psline{->}(0,-1.5)(0,3.5) \psline{->}(-2,0)(3,0) \psdots(-0.5,1.5) \rput(-0.5,1.7){\tiny $(\overline{x}_1, \overline{x}_2)$} \psdots(0,0) \rput(0.65,-0.2){\textcolor{black}{\tiny $\mu_0=(0,0)$}} \psellipse[linestyle=dashed, rot=-30,linecolor=red, dash=3pt 2pt](-0.5,1.5)(0.5,2) \psline[linecolor=red]{<->}(1.5,-0.3)(1.5,3.25) \psline[linecolor=red]{<->}(-1.6,-0.7)(0.55,-0.7) \rput[b]{90}(1.7,1.4){\textcolor{red}{\psframebox*{\tiny $95\%CI (\mu_2)$}}} \rput(-0.5,-0.7){\textcolor{red}{\psframebox*{\tiny $95\%CI (\mu_1)$}}} \rput(-2,2.3){\scriptsize elipsa przedziału} \rput(-2,2){\scriptsize ufności dla średnich} \end{pspicture}$

Okno z ustawieniami opcji testu Hotellinga dla pojedynczej próby wywołujemy poprzez menu Statystyka→Testy parametryczne→T-kwadrat Hotellinga

Przykład (plik sport.pqs)

Przebadano grupę sportowców by uzyskać informację między innymi o takich parametrach zdrowotnych jak:

RBC - Liczba czerwonych krwinek,

Hg - Hemoglobina [g/dl],

Ferr - Ferrytyna [µg/l].

Chcemy wiedzieć, na ile bliskie oczekiwanym przez badaczy wartościom są średnie poziomy RBC, hemoglobiny i ferrytyny dla sportowców uprawiających tzw. sporty „wodne”. Oczekiwane średnie to:

RBC = 4.8,

Hg = 15[g/dl],

Ferr = 100[µg/l].

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $średnie wartości RBC, Hg i Ferr w badanej populacji sportowców $\\ & $wynoszą odpowiednio: 4.8, 15, 100, $\\ \mathcal{H}_1: & $przynajmniej jeden z badanych parametrów ma średnią w populacji $\\ & $inną od zadanej wartości.$\\ \end{array}$

Ponieważ arkusz danych zawiera informacje o badanych parametrach dla większej grupy sportowców, w oknie analizy osoby, które uprawiają sporty wodne wskazujemy poprzez filtr danych.

Porównując wartość $p=0.000708$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że średnie poziomy badanych parametrów różnią się od wartości zadanej. Różnic możemy poszukiwać w wyznaczonych jednoczesnych przedziałach ufności lub w przedziałach z korektą Bonferroniego. Dla ferrytyny jednoczesny 95% przedział ufności znajduje się poniżej zadanej wartości, co świadczy o niższej populacyjnej wartości ferrytyny niż zadana przez badaczy. Przedział dla RBC i hemoglobiny zawiera zadane wartości, co wskazuje na brak istotnych statystycznie różnic.

Nieco węższe przedziały uzyskamy wykorzystując poprawkę Bonferroniego, wówczas nie tylko przedział dla ferrytyny znajduje się poniżej przedziału ufności ale również przedział dla hemoglobiny.

Podejście jednowymiarowe ze względu na swoją prostotę wykorzystywane jest najczęściej. Możemy tu wybrać mniej konserwatywne korekty wielokrotnych porównań niż poprawka Bonferroniego lub Sidaka, uzyskując w ten sposób różnice dotyczące wszystkich badanych parametrów.

By wykonać korektę wartości $p$ testu t-Studenta należy przekopiować te wartości do jednej kolumny nowego arkusza danych i z menu Statystyka wybrać Korektę wielokrotnych porównań.

2022/02/09 12:56

Test T-kwadrat Hotellinga dla grup zależnych

Stosuje się w sytuacji gdy pomiarów badanych $k$ zmiennych dokonujemy dwukrotnie w różnych warunkach (przy czym zakładamy, że wariancje zmiennych w obu pomiarach są sobie bliskie). Jeśli pierwszy pomiar oznaczymy przez $X_1,X_2,...,X_k$ a drugi przez $Y_1,Y_2,...,Y_k$ , wówczas weryfikujemy hipotezę że populacyjne średnie zmiennych z pierwszego pomiaru są takie same jak z pomiaru drugiego. Równoważnie gdy wyznaczymy różnice pomiędzy parami pomiarów $d_1, d_2, ..., d_k$ , hipoteza wskaże, że średnie dla różnic w badanej populacji wynoszą 0.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
wielowymiarowy rozkład normalny lub normalność rozkładu każdej badanej zmiennej,
model zależny.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \mu_0=0,\\ \mathcal{H}_1: & $nie wszystkie $\mu_{j0} $ są równe zero,$ \end{array}$

gdzie:

$\mu_0=(\mu_{01}, \mu_{02},..., \mu_{0k})$ - populacyjne średnie różnic pomiaru pierwszego i drugiego.

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{n-k}{k(n-1)}T^2 \end{displaymath}$

gdzie:

$n=n_1=n_2=...=n_k$ - liczności poszczególnych różnic w próbie,

$T^2 = n(\overline{x}-\overline{y})^TS^{-1}(\overline{x}-\overline{y})$ - pierwotna statystyka testowa Hotellinga o rozkładzie $\chi^2$ (zalecana dla prób o dużych licznościach),

$\overline{x}=(\overline{x}_1, \overline{x}_2,..., \overline{x}_k)$ - średnie zmiennych w próbie dla pierwszego pomiaru,

$\overline{y}=(\overline{y}_1, \overline{y}_2,..., \overline{y}_k)$ - średnie zmiennych w próbie dla drugiego pomiaru,

$S$ - macierz kowariancji różnic pomiaru pierwszego i drugiego.

Statystyka ta podlega rozkładowi F Snedecora z $k$ i $n-k$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich:

$\begin{displaymath} \overline{x}_j-\overline{y}_j\pm\sqrt{\frac{k(n-1)}{n-k}F_{\alpha,df_1,df_2}}\cdot SE_{(diff)_j} \end{displaymath}$

lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi towarzyszącymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.

Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla grup zależnych oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości $p$ testu $t$ -Studenta możemy skorygować w dziale Wielokrotne porównania.

Uwaga!

Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowej elipsy” przedziałów ufności wokół centrum wyznaczonego przez średnie różnic (patrz przykład interpretacji elipsy testu Hotellinga dla pojedynczej próby). Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.

Okno z ustawieniami opcji testu Hotellinga dla grup zależnych wywołujemy poprzez menu Statystyka→Testy parametryczne→T-kwadrat Hotellinga dla grup zależnych

Przykład (plik nadcisnienie.pqs)

W grupie osób chorujących na nadciśnienie badano wpływ zastosowanego leczenia na zmiany wskaźników takich jak: cholesterol we frakcji HDL i LDL, hemoglobinę (HGB), trójglicerydy (TG) oraz wartości ciśnienia skurczowego i rozkurczowego krwi. Pomiary od 44 pacjentów pobrano dwukrotnie (przed leczeniem i po 3 miesiącach stosowania leczenia). Następnie porównano uzyskane wyniki.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $średnie wartości badanych parametrów nie zmieniają się na skutek leczenia$\\ \mathcal{H}_1: & $w badanej populacji przynajmniej jeden parametr zmienia się na skutek$\\ & $leczenia$ \end{array}$

Porównując wartość $p=0.00024$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że średnie wartości badanych parametrów nie pozostają na tym samym poziomie (ich różnica jest istotnie różna od 0). Przedziały ufności dla ciśnienia skurczowego oraz rozkurczowego znajdują się powyżej wartości 0, co świadczy o istotnym obniżeniu tych parametrów na skutek leczenia. Przedziały dla pozostałych parametrów zawierają wartość 0, a więc nie mamy dowodów na ich zmianę na skutek leczenia.

Podejście jednowymiarowe ze względu na swoją prostotę wykorzystywane jest najczęściej. Stosując to podejście wraz z korektą wielokrotnych porównań również uznamy, że różnice dotyczą jedynie wartości ciśnienia.

By wykonać korektę wartości $p$ testu t-Studenta należy przekopiować te wartości do jednej kolumny nowego arkusza danych i z menu Statystyka wybrać Korektę wielokrotnych porównań.

2022/02/09 12:56

Test T-kwadrat Hotellinga dla grup niezależnych

Służy do weryfikacji hipotezy o równości średnich badanych $k$ zmiennych $X_1,X_2,...,X_k$ z populacji pierwszej i średnich tych samych $k$ zmiennych $Y_1,Y_2,...,Y_k$ z populacji drugiej.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
wielowymiarowy rozkład normalny w obu populacjach lub normalność rozkładu każdej badanej zmiennej w obu populacjach,
model niezależny,
równość wariancji badanych zmiennych obu populacji lub równość macierzy kowariancji - warunek szczególnie istotny w przypadku grup o różnych licznościach - gdy warunek nie jest pełniony, powinna zostać wyznaczona korekta.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \mu_x=\mu_y,\\ \mathcal{H}_1: & $nie wszystkie $\mu_{xj}=\mu_{yj}, \end{array}$

gdzie:

$\mu_x=(\mu_{x1}, \mu_{x2},..., \mu_{xk})$ - średnie zmiennych w populacji pierwszej,

$\mu_y=(\mu_{y1}, \mu_{y2},..., \mu_{yk})$ - średnie zmiennych w populacji drugiej.

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{n-k}{k(n-1)}T^2 \end{displaymath}$

gdzie:

$n=n_x+n_y-1$ ,

$n_x$ , $n_y$ - liczności pierwszej i drugiej próby (liczności poszczególnych zmiennych takie same) ,

$T^2 = (\overline{x}-\overline{y})^T\left(S\left(\frac{1}{n_x}+\frac{1}{n_y}\right)\right)^{-1}(\overline{x}-\overline{y})$ - pierwotna statystyka testowa Hotellinga o rozkładzie $\chi^2$ (zalecana dla prób o dużych licznościach),

$\overline{x}=(\overline{x}_1, \overline{x}_2,..., \overline{x}_k)$ - średnie zmiennych w próbie pierwszej,

$\overline{y}=(\overline{y}_1, \overline{y}_2,..., \overline{y}_k)$ - średnie zmiennych w próbie drugiej,

$S$ - macierz kowariancji wspólna (ang. pooled) dla obu prób.

Statystyka ta podlega rozkładowi F Snedecora z $k$ i $n-k$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich

$\begin{displaymath} \overline{x}_j-\overline{y}_j\pm\sqrt{\frac{k(n-1)}{n-k}F_{\alpha,df_1,df_2}}\cdot SE_{(diff)_j} \end{displaymath}$

lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.

Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla grup niezależnych oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości $p$ testu $t$ -Studenta możemy skorygować w dziale Wielokrotne porównania.

Uwaga!

Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowych elips” przedziałów ufności wokół centrów wyznaczonych przez średnie (patrz przykład interpretacji elipsy testu Hotellinga dla pojedynczej próby). Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.

Okno z ustawieniami opcji testu Hotellinga dla grup niezależnych wywołujemy poprzez menu Statystyka→Testy parametryczne→T-kwadrat Hotellinga dla grup niezależnych.

Przykład c.d. (plik sport.pqs)

2022/02/09 12:56

Test T-kwadrat Hotellinga dla grup niezależnych z korektą dla różnych wariancji

Poprawka dotyczy testu T-kwadrat Hotellinga dla grup niezależnych i jest wyliczana wówczas, gdy wariancje badanych zmiennych w obu populacjach są różne.

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{n-k}{k(n-1)}T^2 \end{displaymath}$

gdzie:

$n=n_x+n_y-1$ ,

$n_x$ , $n_y$ - liczności pierwszej i drugiej próby (liczności poszczególnych zmiennych równe) ,

$T^2 = (\overline{x}-\overline{y})^T\left(\frac{S_x}{n_x}+\frac{S_y}{n_y}\right)^{-1}(\overline{x}-\overline{y})$ - pierwotna statystyka testowa Hotellinga o rozkładzie $\chi^2$ (zalecana dla prób o dużych licznościach),

$\overline{x}=(\overline{x}_1, \overline{x}_2,..., \overline{x}_k)$ - średnie zmiennych w próbie pierwszej,

$\overline{y}=(\overline{y}_1, \overline{y}_2,..., \overline{y}_k)$ - średnie zmiennych w próbie drugiej,

$S_x$ , $S_y$ - macierz kowariancji dla pierwszej i drugiej próby.

Statystyka ta podlega rozkładowi F Snedecora z $k$ i $m$ stopniami swobody (gdzie $m$ to liczba stopni swobody skorygowana ze względu na różne wariancje).

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich

$\begin{displaymath} \overline{x}_j-\overline{y}_j\pm\sqrt{\frac{k(n-1)}{n-k}F_{\alpha,df_1,df_2}}\cdot SE_{(diff)_j} \end{displaymath}$

lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.

Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta z korektą Cochrana-Coxa oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości $p$ testu $t$ -Studenta możemy skorygować w dziale Wielokrotne porównania.

Uwaga!

Okno z ustawieniami opcji testu Hotellinga dla grup niezależnych wywołujemy poprzez menu Statystyka→Testy parametryczne→T-kwadrat Hotellinga dla grup niezależnych.

Przykład (plik sport.pqs)

Przebadano grupę sportowców by uzyskać informację o parametrach zdrowotnych takich jak:

$\begin{tabular}{ll} RBC - Liczba czerwonych krwinek, & SSF - Suma fałdów skórno-tłuszczowych [mm],\\ WBC - Liczba białych krwinek, & \% Bfat - Zawartość tłuszczu w organizmie,\\ Hc - Hematokryt [\%], & LBM - Beztłuszczowa masa ciała [kg],\\ Hg - Hemoglobina [g/dl], & Wzrost [cm],\\ Ferr - Ferrytyna [µg/l], & Masa ciała [kg]. \end{tabular}$

Chcemy wiedzieć, czy kobiety i mężczyźni, uprawiający zawodowo analizowane rodzaje sportu, różnią się poziomami tych parametrów.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & $średnie analizowanych parametrów są takie same dla kobiet$\\ & $i mężczyzn uprawiających analizowane rodzaje dyscyplinsportu,$\\ \mathcal{H}_1: & $przynajmniej jeden parametr ma inną średnią wartość$\\ & $dla porównywanych populacji.$\\ \end{array}$

Ze względu na różnice dotyczące kowariancji analizowanych parametrów (wartość $p$ testu Boxa $<0.000001$ ) analizę przeprowadzamy przy włączonej korekcie różnych macierzy kowariancji.

Uzyskany wynik skorygowanej statystyki Hotellinga jest przedstawiony poniżej.

Porównując wartość $p<0.000001$ z poziomem istotności $\alpha=0.05$ stwierdzamy, że mężczyźni i kobiety w badanej populacji mają inne wartości średnie analizowanych parametrów. Według jednoczesnych przedziałów ufności (oraz według przedziałów z korektą Bonferroniego) różnice dotyczą:

RBC - średnio kobiety uzyskują niższe wartości,

Hc - średnio kobiety uzyskują niższe wartości,

Hg - średnio kobiety uzyskują niższe wartości,

Ferr - średnio kobiety uzyskują niższe wartości,

SSF - średnio mężczyźni uzyskują niższe wartości,

% Bfat - średnio mężczyźni uzyskują niższe wartości,

LBM - średnio kobiety uzyskują niższe wartości.

Pozostałe parametry czyli WBC, wzrost i masa ciała nie różnią się istotnie.

Podejście jednowymiarowe, choć nie uwzględniające wielokrotnego testowania ani wzajemnych powiązań, ze względu na swoją prostotę wykorzystywane jest najczęściej. Jego wyniki wskazują że różnice dotyczą wszystkich badanych parametrów za wyjątkiem WBC. Przy czym wyniki testu t-Studenta interpretujemy po uwzględnieniu korekty Cochrana-Coxa lub bez tej korekty, w zależności od spełnienia założenia równości wariancji (wynik testu Fishera-Snedecora). Chcąc uwzględnić wielokrotne testowania należałoby w tym przypadku zastosować jedną z korekt wartości p, opisanych w dziale Wielokrotne porównania.

2022/02/09 12:56

Test Box'a równości macierzy kowariancji

Test ten służy do porównania dwóch lub więcej ( $m \geq 2$ ) macierzy kowariancji opisujących niezależne populacje.

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
wielowymiarowy rozkład normalny w badanych populacjach lub normalność rozkładu każdej badanej zmiennej w każdej populacji,
model niezależny.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \Sigma_1=\Sigma_2=...=\Sigma_m,\\ \mathcal{H}_1: & $nie wszystkie $\Sigma_j$ są sobie równe $(j=1,2,...,m)$$, \end{array}$

gdzie:

$\Sigma_1, \Sigma_2, ..., \Sigma_m$ - populacyjne macierze kowariancji.

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{M}{b} \end{displaymath}$

gdzie:

$M=(n-m)\ln|S|-\sum_{j=1}^m(n_j-1)\ln|S_j|$ ,

$S$ - wspólna (ang. pooled) macierz kowariancji,

$S_j$ - macierz kowariancji dla $j$ -tej próby,

$b=\frac{df_1}{1-c_1-\frac{df_1}{df-2}}$ ,

$df_1=\frac{k(k+1)(m-1)}{2}$ ,

$df_2=\frac{df_1+2}{|c_2-c_1^2|}$ ,

$k$ - liczba analizowanych zmiennych,

$n=n_1=n_2=...=n_k$ - liczności poszczególnych zmiennych w próbie.

Statystyka ta podlega rozkładowi F Snedecora z $df_1$ i $df_2$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

Uwaga!

Należy pamiętać, że test Box'a jest szczególnie wrażliwy na złamanie założenia normalności rozkładu.

Test Box'a jest wyliczany opcjonalnie w Hotellingu dla grup niezależnych lub w analizie MANOVA.

Przykład c.d. (plik sport.pqs)

2022/02/09 12:56

¹⁾

Hotelling H. (1931), The generalization of Student's ratio. Annals of Mathematical Statistics 2 (3): 360–378

²⁾

Hotelling, H. (1947), Multivariate Quality Control. In C. Eisenhart, M. W. Hastay, and W. A. Wallis, eds. Techniques of Statistical Analysis. New York: McGraw-Hill

³⁾

Mahalanobis P. C. (1930), On tests and measures of group divergence. Journal of the Asiatic Society of Bengal 26: 541–588

⁴⁾

Mahalanobis P. C. (1936), On the generalized distance in statistics. National Institute of Science of India 12: 49–55