Analiza Hotellinga zaproponowana została przez Hotellinga (1931)1) (1947)2) i Mahalanobisa (19303), 19364)) jest rozszerzeniem testów t-Studenta do dziedziny wielu zmiennych. W rezultacie jednoczesnej analizie możemy poddawać wiele różnych cech badanych obiektów.
Służy do weryfikacji hipotezy, że zmiennych w badanej populacji charakteryzuje się średnimi zadanymi przez badacza.
Podstawowe warunki stosowania:
Hipotezy:
gdzie:
- średnie zmiennych w populacji reprezentowanej przez próbę,
- zadane przez badacza wartości średnich.
Statystyka testowa ma postać:
gdzie:
- liczności poszczególnych zmiennych w próbie,
- pierwotna statystyka testowa Hotellinga o rozkładzie (zalecana dla prób o dużych licznościach),
- średnie zmiennych w próbie,
- macierz kowariancji.
Statystyka ta podlega rozkładowi F Snedecora z i stopniami swobody.
Wyznaczoną na podstawie statystyki testowej wartość porównujemy z poziomem istotności :
Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności średnich:
lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich zadana wartość. Jeśli bowiem zadana wartość znajduje się w wyznaczonym przedziale to oznacza, że w rzeczywistości średnia danej zmiennej może być równa tej zadanej wartości. Stosując tą metodę należy jednak pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy poszczególnymi zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.
Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla pojedynczej próby oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości testu t-Studenta możemy skorygować w dziale Wielokrotne porównania.
Uwaga!
Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowej elipsy” przedziałów ufności wokół centrum wyznaczonego przez średnie. Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.
Przykład - interpretacja elipsy testu Hotellinga dla dwóch zmiennych
Zadany punkt opisany przez wartości średnie () znajduje się poza elipsą, co oznacza, że test Hotellinga odrzuca hipotezę , ale stosując podejście jednowymiarowe (przedziały ufności dla każdej zmiennej oddzielnie) nie jesteśmy w stanie odrzucić hipotezy , by wskazać zmienną, której dotyczą różnice.
Okno z ustawieniami opcji testu Hotellinga dla pojedynczej próby
wywołujemy poprzez menu Statystyka
→Testy parametryczne
→T-kwadrat Hotellinga
Przebadano grupę sportowców by uzyskać informację między innymi o takich parametrach zdrowotnych jak:
RBC - Liczba czerwonych krwinek,
Hg - Hemoglobina [g/dl],
Ferr - Ferrytyna [µg/l].
Chcemy wiedzieć, na ile bliskie oczekiwanym przez badaczy wartościom są średnie poziomy RBC, hemoglobiny i ferrytyny dla sportowców uprawiających tzw. sporty „wodne”. Oczekiwane średnie to:
RBC = 4.8,
Hg = 15[g/dl],
Ferr = 100[µg/l].
Hipotezy:
Ponieważ arkusz danych zawiera informacje o badanych parametrach dla większej grupy sportowców, w oknie analizy osoby, które uprawiają sporty wodne wskazujemy poprzez filtr danych.
Porównując wartość z poziomem istotności stwierdzamy, że średnie poziomy badanych parametrów różnią się od wartości zadanej. Różnic możemy poszukiwać w wyznaczonych jednoczesnych przedziałach ufności lub w przedziałach z korektą Bonferroniego. Dla ferrytyny jednoczesny 95% przedział ufności znajduje się poniżej zadanej wartości, co świadczy o niższej populacyjnej wartości ferrytyny niż zadana przez badaczy. Przedział dla RBC i hemoglobiny zawiera zadane wartości, co wskazuje na brak istotnych statystycznie różnic.
Nieco węższe przedziały uzyskamy wykorzystując poprawkę Bonferroniego, wówczas nie tylko przedział dla ferrytyny znajduje się poniżej przedziału ufności ale również przedział dla hemoglobiny.
Podejście jednowymiarowe ze względu na swoją prostotę wykorzystywane jest najczęściej. Możemy tu wybrać mniej konserwatywne korekty wielokrotnych porównań niż poprawka Bonferroniego lub Sidaka, uzyskując w ten sposób różnice dotyczące wszystkich badanych parametrów.
By wykonać korektę wartości testu t-Studenta należy przekopiować te wartości do jednej kolumny nowego arkusza danych i z menu Statystyka
wybrać Korektę wielokrotnych porównań
.
Stosuje się w sytuacji gdy pomiarów badanych zmiennych dokonujemy dwukrotnie w różnych warunkach (przy czym zakładamy, że wariancje zmiennych w obu pomiarach są sobie bliskie). Jeśli pierwszy pomiar oznaczymy przez a drugi przez , wówczas weryfikujemy hipotezę że populacyjne średnie zmiennych z pierwszego pomiaru są takie same jak z pomiaru drugiego. Równoważnie gdy wyznaczymy różnice pomiędzy parami pomiarów , hipoteza wskaże, że średnie dla różnic w badanej populacji wynoszą 0.
Podstawowe warunki stosowania:
Hipotezy:
gdzie:
- populacyjne średnie różnic pomiaru pierwszego i drugiego.
Statystyka testowa ma postać:
gdzie:
- liczności poszczególnych różnic w próbie,
- pierwotna statystyka testowa Hotellinga o rozkładzie (zalecana dla prób o dużych licznościach),
- średnie zmiennych w próbie dla pierwszego pomiaru,
- średnie zmiennych w próbie dla drugiego pomiaru,
- macierz kowariancji różnic pomiaru pierwszego i drugiego.
Statystyka ta podlega rozkładowi F Snedecora z i stopniami swobody.
Wyznaczoną na podstawie statystyki testowej wartość porównujemy z poziomem istotności :
Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich:
lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi towarzyszącymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.
Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla grup zależnych oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości testu -Studenta możemy skorygować w dziale Wielokrotne porównania.
Uwaga!
Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowej elipsy” przedziałów ufności wokół centrum wyznaczonego przez średnie różnic (patrz przykład interpretacji elipsy testu Hotellinga dla pojedynczej próby). Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.
Okno z ustawieniami opcji testu Hotellinga dla grup zależnych
wywołujemy poprzez menu Statystyka
→Testy parametryczne
→T-kwadrat Hotellinga dla grup zależnych
Przykład (plik nadcisnienie.pqs)
W grupie osób chorujących na nadciśnienie badano wpływ zastosowanego leczenia na zmiany wskaźników takich jak: cholesterol we frakcji HDL i LDL, hemoglobinę (HGB), trójglicerydy (TG) oraz wartości ciśnienia skurczowego i rozkurczowego krwi. Pomiary od 44 pacjentów pobrano dwukrotnie (przed leczeniem i po 3 miesiącach stosowania leczenia). Następnie porównano uzyskane wyniki.
Hipotezy:
Porównując wartość z poziomem istotności stwierdzamy, że średnie wartości badanych parametrów nie pozostają na tym samym poziomie (ich różnica jest istotnie różna od 0). Przedziały ufności dla ciśnienia skurczowego oraz rozkurczowego znajdują się powyżej wartości 0, co świadczy o istotnym obniżeniu tych parametrów na skutek leczenia. Przedziały dla pozostałych parametrów zawierają wartość 0, a więc nie mamy dowodów na ich zmianę na skutek leczenia.
Podejście jednowymiarowe ze względu na swoją prostotę wykorzystywane jest najczęściej. Stosując to podejście wraz z korektą wielokrotnych porównań również uznamy, że różnice dotyczą jedynie wartości ciśnienia.
By wykonać korektę wartości testu t-Studenta należy przekopiować te wartości do jednej kolumny nowego arkusza danych i z menu Statystyka
wybrać Korektę wielokrotnych porównań
.
Służy do weryfikacji hipotezy o równości średnich badanych zmiennych z populacji pierwszej i średnich tych samych zmiennych z populacji drugiej.
Podstawowe warunki stosowania:
Hipotezy:
gdzie:
- średnie zmiennych w populacji pierwszej,
- średnie zmiennych w populacji drugiej.
Statystyka testowa ma postać:
gdzie:
,
, - liczności pierwszej i drugiej próby (liczności poszczególnych zmiennych takie same) ,
- pierwotna statystyka testowa Hotellinga o rozkładzie (zalecana dla prób o dużych licznościach),
- średnie zmiennych w próbie pierwszej,
- średnie zmiennych w próbie drugiej,
- macierz kowariancji wspólna (ang. pooled) dla obu prób.
Statystyka ta podlega rozkładowi F Snedecora z i stopniami swobody.
Wyznaczoną na podstawie statystyki testowej wartość porównujemy z poziomem istotności :
Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich
lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.
Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta dla grup niezależnych oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości testu -Studenta możemy skorygować w dziale Wielokrotne porównania.
Uwaga!
Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowych elips” przedziałów ufności wokół centrów wyznaczonych przez średnie (patrz przykład interpretacji elipsy testu Hotellinga dla pojedynczej próby). Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.
Okno z ustawieniami opcji testu Hotellinga dla grup niezależnych
wywołujemy poprzez menu Statystyka
→Testy parametryczne
→T-kwadrat Hotellinga dla grup niezależnych
.
Przykład c.d. (plik sport.pqs)
Poprawka dotyczy testu T-kwadrat Hotellinga dla grup niezależnych i jest wyliczana wówczas, gdy wariancje badanych zmiennych w obu populacjach są różne.
Statystyka testowa ma postać:
gdzie:
,
, - liczności pierwszej i drugiej próby (liczności poszczególnych zmiennych równe) ,
- pierwotna statystyka testowa Hotellinga o rozkładzie (zalecana dla prób o dużych licznościach),
- średnie zmiennych w próbie pierwszej,
- średnie zmiennych w próbie drugiej,
, - macierz kowariancji dla pierwszej i drugiej próby.
Statystyka ta podlega rozkładowi F Snedecora z i stopniami swobody (gdzie to liczba stopni swobody skorygowana ze względu na różne wariancje).
Wyznaczoną na podstawie statystyki testowej wartość porównujemy z poziomem istotności :
Gdy po wykonanej analizie szukamy zmiennych, których dotyczą różnice, wyznaczamy jednoczesne przedziały ufności dla różnic średnich
lub przedziały z poprawką Bonferroniego, w celu sprawdzenia czy znajduje się w nich wartość 0. Jeśli bowiem różnica może wynosić 0 to oznacza, że w rzeczywistości różnica pomiędzy badanymi wartościami może nie istnieć. Stosując tą metodę należy pamiętać, że wyznaczone przedziały nie uwzględniają powiązań pomiędzy zmiennymi (które uwzględnia test Hotellinga) a jedynie wielokrotne testowanie.
Szukając zmiennych, których dotyczą różnice możemy również zastosować podejście jednowymiarowe. Wykonujemy wówczas porównania testem t-Studenta z korektą Cochrana-Coxa oddzielnie dla poszczególnych zmiennych. Niestety, nie uwzględnimy tym samym wzajemnych powiązań, ale uzyskane wartości testu -Studenta możemy skorygować w dziale Wielokrotne porównania.
Uwaga!
Zasada działania testu Hotellinga jest tożsama z budową „wielowymiarowych elips” przedziałów ufności wokół centrów wyznaczonych przez średnie (patrz przykład interpretacji elipsy testu Hotellinga dla pojedynczej próby). Przez co, stosując analizę jednowymiarową (nie uwzględniającą wzajemnych powiązań między zmiennymi) często nie jesteśmy w stanie uzyskać tożsamych wyników.
Okno z ustawieniami opcji testu Hotellinga dla grup niezależnych
wywołujemy poprzez menu Statystyka
→Testy parametryczne
→T-kwadrat Hotellinga dla grup niezależnych
.
Przebadano grupę sportowców by uzyskać informację o parametrach zdrowotnych takich jak:
Chcemy wiedzieć, czy kobiety i mężczyźni, uprawiający zawodowo analizowane rodzaje sportu, różnią się poziomami tych parametrów.
Hipotezy:
Ze względu na różnice dotyczące kowariancji analizowanych parametrów (wartość testu Boxa ) analizę przeprowadzamy przy włączonej korekcie różnych macierzy kowariancji.
Uzyskany wynik skorygowanej statystyki Hotellinga jest przedstawiony poniżej.
Porównując wartość z poziomem istotności stwierdzamy, że mężczyźni i kobiety w badanej populacji mają inne wartości średnie analizowanych parametrów. Według jednoczesnych przedziałów ufności (oraz według przedziałów z korektą Bonferroniego) różnice dotyczą:
RBC - średnio kobiety uzyskują niższe wartości,
Hc - średnio kobiety uzyskują niższe wartości,
Hg - średnio kobiety uzyskują niższe wartości,
Ferr - średnio kobiety uzyskują niższe wartości,
SSF - średnio mężczyźni uzyskują niższe wartości,
% Bfat - średnio mężczyźni uzyskują niższe wartości,
LBM - średnio kobiety uzyskują niższe wartości.
Pozostałe parametry czyli WBC, wzrost i masa ciała nie różnią się istotnie.
Podejście jednowymiarowe, choć nie uwzględniające wielokrotnego testowania ani wzajemnych powiązań, ze względu na swoją prostotę wykorzystywane jest najczęściej. Jego wyniki wskazują że różnice dotyczą wszystkich badanych parametrów za wyjątkiem WBC. Przy czym wyniki testu t-Studenta interpretujemy po uwzględnieniu korekty Cochrana-Coxa lub bez tej korekty, w zależności od spełnienia założenia równości wariancji (wynik testu Fishera-Snedecora). Chcąc uwzględnić wielokrotne testowania należałoby w tym przypadku zastosować jedną z korekt wartości p, opisanych w dziale Wielokrotne porównania.
Test ten służy do porównania dwóch lub więcej () macierzy kowariancji opisujących niezależne populacje.
Podstawowe warunki stosowania:
Hipotezy:
gdzie:
- populacyjne macierze kowariancji.
Statystyka testowa ma postać:
gdzie:
,
- wspólna (ang. pooled) macierz kowariancji,
- macierz kowariancji dla -tej próby,
,
,
,
- liczba analizowanych zmiennych,
- liczności poszczególnych zmiennych w próbie.
Statystyka ta podlega rozkładowi F Snedecora z i stopniami swobody.
Wyznaczoną na podstawie statystyki testowej wartość porównujemy z poziomem istotności :
Uwaga!
Należy pamiętać, że test Box'a jest szczególnie wrażliwy na złamanie założenia normalności rozkładu.
Test Box'a jest wyliczany opcjonalnie w Hotellingu dla grup niezależnych lub w analizie MANOVA.
Przykład c.d. (plik sport.pqs)