Testy normalności wielowymiarowej

Wiele metod analizy wielowymiarowej, w tym MANOVA, testy Hotellinga czy też modele regresji opierają się na założeniu normalności wielowymiarowej. Jeśli zbiór zmiennych charakteryzuje wielowymiarowy rozkład normalny, to można założyć, że każda zmienna posiada rozkład normalny. Jednak gdy wszystkie pojedyncze zmienne charakteryzowane są rozkładem normalnym, ich zestaw nie musi mieć wielowymiarowego rozkładu normalnego. Dlatego testowanie jednowymiarowej normalności każdej zmiennej może być przydatne, ale nie można założyć, że jest wystarczające.

Różne typy analiz statystycznych zakładające normalność są w różnym stopniu wrażliwe na różne rodzaje odejścia od tego założenia. Przyjmuje się, że testy odnoszące się w swoich hipotezach do średnich są bardziej wrażliwe na skośność, a testy porównujące kowariancje w większym stopniu zależą od kurtozy.

Okno z ustawieniami opcji testu wielowymiarowej normalności rozkładu wywołujemy poprzez menu StatystykaTesty normalnościNormalność wielowymiarowa.

Test Mardia dla wielowymiarowej normalności rozkładu (ang. Mardia's test for multivariate normality)

Test zaproponowany przez Mardia w roku 1970 1) 2) i zmodyfikowany w roku 1974 3) bada normalność rozkładu analizując oddzielnie rozmiar wielowymiarowej skośności i wielowymiarowej kurtozy. Jarque i Bera 4) zaproponowali złączenie tych dwóch miar Mardia w jeden test. Podobny sposób łączenia w jeden test informacji o skośności i kurtozie oferuje metoda Hanusz i Tarasińskiej 5).

Mardia zdefiniował wielowymiarową skośność i kurtozę następująco: \begin{displaymath}
skew=\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^nm_{ij}^3, \quad kurt=\frac{1}{n}\sum_{i=1}^nm_{ii}^2
\end{displaymath} gdzie

$m_{ij}=\left(X_i-\bar{X}\right)^TS^{-1}\left(X_j-\bar{X}\right)$,

$S=\frac{1}{n}\sum_{j=1}^n\left(X_i-\bar{X}\right)\left(X_i-\bar{X}\right)^T$,

$\bar{X}$ -średnia, $S$ - macierz kowariancji.

Dla danych pochodzących z próby, a nie z populacji wzory na skośność i kurtozę są mnożone odpowiednio: skośność przez $\left(n/(n-1)\right)^3$ i kurtoza przez $\left(n/(n-1)\right)^2$.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład danych w populacji $=$ wielowymiarowy rozkład normalny$,\\
\mathcal{H}_1: & $rozkład danych w populacji $\neq $wielowymiarowy rozkład normalny,$
\end{array}

  • Mardia test skośności:

Gdy próba pochodzi z populacji o wielowymiarowym rozkładzie normalnym (hipoteza zerowa), to statystyka testowa ma postać (Mardia, 1970):

\begin{displaymath}
\chi^2(M)=\frac{n}{6}skew
\end{displaymath}

lub z poprawką dokładnych momentów dla grup o mniejszych licznościach (<20) (Mardia, 1974):

\begin{displaymath}
\chi_c^2(M)=\frac{n}{6}\frac{(n+1)(n+3)(k+1)}{n((n+1)(k+1)-6)}skew
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z $df=f=\frac{k(k+1)(k+2)}{6}$ stopniami swobody.

  • Mardia test kurtozy:

Gdy próba pochodzi z populacji o wielowymiarowym rozkładzie normalnym (hipoteza zerowa), to statystyka testowa ma postać (Mardia, 1974):

\begin{displaymath}
Z(M)=\frac{kurt-k(k+2)}{\sqrt{\frac{8k(k+2)}{n}}}
\end{displaymath}

lub z poprawką (Mardia, 1974):

\begin{displaymath}
Z_c(M)=\frac{(n+1)kurt-k(k+2)(n-1)}{\sqrt{\frac{8k(k+2)(n-3)(n-k-1)(n-k+1)}{(n+3)(n+5)}}}
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Jarque-Bera dla wielowymiarowej normalności rozkładu (ang. Jarque-Bera test for multivariate normality)

Test Jarque i Bera (1987) 6) bazuje na statystyce skośności i kurtozy testu Mardia. Statystyka testowa ma postać:

\begin{displaymath}
\chi^2(JB)=\chi^2(M)+(Z(M))^2
\end{displaymath}

lub z poprawką (Mardia, 1974):

\begin{displaymath}
\chi_c^2(JB)=\chi_c^2(M)+(Z_c(M))^2
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z $df=f+1$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Hanusz-Tarasińska dla wielowymiarowej normalności rozkładu (ang. Hanusz-Tarasinska test for multivariate normality)

Test Zofii Hanusz i Joanny Tarasińskiej (2014) 7) bazuje na statystyce skośności i kurtozy testu Mardia. Statystyka testowa ma postać:

\begin{displaymath}
t_c(HT)=\frac{Z_c(M)}{\sqrt{\frac{\chi_c^2(M)}{f}}}
\end{displaymath}

Statystyka testowa ma rozkład t-Studenta z $df=f$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Henze-Zirklera dla wielowymiarowej normalności rozkładu (ang. Henze-Zirkler test for multivariate normality)

Henze i Zirklera (1990) 8) zaproponowali test badający wielowymiarową normalność rozkładu rozszerzając pracę Baringhausa i Henzego nad empiryczną funkcją charakterystyczną 9). W literaturze jest to test uznawany za jeden z najsilniejszych testów poświęconych wielowymiarowemu rozkładowi normalnemu (Thode 2002) 10). Statystyka testowa ma postać:

\begin{displaymath}
Z(HZ)_{\beta}=n\left(4I_E+D_{n,\beta}I_{E^c}\right)
\end{displaymath}

$I_E$ oraz $I_{E^c}$ to funkcje indykatorowe zależne od osobliwości macierzy kowariancji,

$D_{n,\beta}=\frac{1}{n^2}\sum exp\left(\frac{-\beta^2||Y_j-Y_k||^2}{2}\right)+(1+2\beta^2)^{-p/2}-2(1+\beta^2)^{-p/2}\sum exp\left(\frac{-\beta^2||Y_j||^2}{2(1+\beta^2)}\right)$

$Y_i=S^{1/2}(X_i-\bar{X})$

$\beta*=2^{-1/2}\left(\frac{n(2k+1)}{4}\right)^{1/(k+4)}$ - optymalna wartość parametru $\beta$

Statystyka $Z(HZ)_{\beta}$ ma asymptotycznie (dla dużych liczności) rozkład normalny oparty na średniej i wariancji opisanej przez Henze i Zirklera i odczytywany jednostronnie.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład (plik Irysy.pqs)

Badamy normalność rozkładu dla klasycznego zestawu danych R.A. Fishera 1936 11). Plik znajduje się w pomocy dołączonej do programu i zawiera pomiary długości i szerokości płatków i działek kielicha dla 3 odmian kwiatu irysa. Analiza zostanie przeprowadzona oddzielnie dla każdej odmiany. W oknie analizy zaznaczamy wszystkie testy oraz wykres, a w celu powtórzenia analizy dla każdej odmiany irysa ustawiamy filtr wielokrotny. Wszystkie wyniki zwrócimy do tego samego arkusza, dlatego zaznaczamy opcję Połącz w jeden raport.

Wszystkie tety potwierdzają normalność rozkładu dla odmiany versicolor i virginica. W przypadku odmiany setosa wyniki testów są na pograniczu istotności statystycznej, przy czym test Mardia dla Kurtozy i test Henze-Zirkler wskazują na odstępstwa od wielowymiarowego rozkładu normalnego. Możemy obserwować takie odstępstwa również na pierwszym wykresie, gdzie wraz narastaniem odległości Mahalanobisa punkty znajdują się coraz dalej od prostej.

1)
Wilcoxon F. (1945), Individual comparisons by ranking methods. Biometries 1, 80-83
2)
Mardia K. V. (1970), Measures of multivariate skewness and kurtosis with applications, Biometrica 57, 519-530
3)
Mardia K. V. (1974), Applications of some measuresof multivariate skewness and kurtosis for testing normality and robustness studies, Sankhay B 36, 115-128
4) , 6)
Jarque C. M., Bera A. K., (1987)., A test for normality of Observations and Regression Residuals, International Statistical Review 55, 163-172
5) , 7)
Hanusz Z., Tarasińska J. (2014), On multivariate normality tests using skewness and kurtosis, Colloquium Biometricum 44, 139-148
8)
Henze N., Zirkler B. (1990), A class of invariant consistent tests for multivariate normality. Comm. Statist. Theory Methods. 1990;19:3595–3617
9)
Epps T.W., Pulley L.B. (1983), A test for normality based on the empirical characteristic function. Biometrika. 1983;70:723–726
10)
Thode H. C. (2002), Testing For Normality. CRC Press; 2002. 506 s.
11)
Fisher R.A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics 7 (2): 179–188

Narzędzia witryny