Spis treści

Normality distribution tests

Testy normalności jednowymiarowej

W badaniu normalności rozkładu zastosowanie mogą mieć różne testy, z których każdy zwraca uwagę na nieco inne aspekty rozkładu Gaussa. Nie można wskazać testu dobrego dla każdego możliwego zestawu danych.

Podstawowy warunek stosowania testów normalności rozkładu:

Hipotezy testów normalności rozkładu:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład badanej cechy w populacji jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład badanej cechy w populacji jest różny od rozkładu normalnego.$
\end{array}

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!!! Badanie normalności rozkładu można przeprowadzać dla zmiennych lub dla różnic wyznaczonych na podstawie dwóch zmiennych.

Test Kołmogorova-Smirnova (ang. Kolmogorov-Smirnov test for normality)

Test zaproponowany przez Kolmogorova (1933)1) jest testem stosunkowo konserwatwnym (trudniej przy jego użyciu udowodnić brak normalności rozkładu). Opiera swoje działanie na wyznaczeniu odległości pomiędzy dystrybuantą empiryczną a teoretyczną rozkładu normalnego. Zaleca się jego stosowanie dla licznych prób, jednak powinien być stosowany w sytuacji, gdy znana jest wartość średnia ($\mu$) i odchylenie standardowe ($\sigma$) dla populacji, z której pochodzi próba. Wówczas możemy sprawdzić, czy rozkład zgodny jest z rozkładem zdefiniowanym przez podaną średnią i odchylenie standardowe.

W oparciu o dane z próby zebrane w skumulowany rozkład częstości oraz o odpowiednie wartości pola pod teoretyczną krzywą rozkładu normalnego wyznaczamy wartość statystyki testowej $D$:

\begin{displaymath}
D=\sup_x{|F_n(x)-F(x)|},
\end{displaymath}

gdzie:

$F_n(x)$ - empiryczna dystrybuanta rozkładu normalnego wyliczana w poszczególnych punktach rozkładu, dla $n$-elementowej próby ,

$F(x)$ - teoretyczna dystrybuanta rozkładu normalnego.

Statystyka testu podlega rozkładowi Kołmogorova-Smirnova.

Test Lillieforsa (ang. Lilliefors test for normality)

Test zaproponowany przez Lillieforsa (19672), 19693), 19734)). Jest on poprawką testu Kołmogorova-Smirnova, gdy nie znana jest wartość średnia ($\mu$) i odchylenie standardowe ($\sigma$) dla populacji, z której pochodzi próba. Uznawany jest za nieco mniej konserwatywny od testu Kołmogorova-Smirnova.

Statystyka testowa $D$ wyznaczana jest na podstawie tej samej formuły, z której korzysta test Kołmogorova-Smirnova, ale podlega rozkładowi Lillieforsa.

Test Shapiro-Wilka (ang. Shapiro-Wilk test for normality)


Zaproponowany przez Shapiro oraz Wilka (1965)5) dla mało licznych grup, a następnie zaadoptowany dla grup liczniejszych (do 5000 obiektów) przez Roystona (1992)6)7). Test ten charakteryzuje stosunkowo wysoka moc, co ułatwia dowodzenie braku normalności rozkładu.

Ideę działania testu przedstawia wykres Q-Q plot.

Statystyka testowa Shapiro-Wilka ma postać:

\begin{displaymath}
W=\frac{\sum_{i=1}^na_ix_i}{\sum_{i=1}^n(x_i-\overline{x})^2},
\end{displaymath}

gdzie:

$a_i$ - współczynniki wyznaczane w oparciu o wartości oczekiwane dla statystyk uporządkowanych (ordered statistics), przypisanych wag oraz macierzy kowariancji,

$\overline{x}$ - wartość średnia danych z próby.

Statystykę tę przekształca się do statystyki o rozkładzie normalnym:

\begin{displaymath}
Z=\frac{g(W)-\mu}{\sigma},
\end{displaymath}

gdzie:

$g(W)$, $\mu$ i $\sigma$ - zależą od wielkości próby:

- dla prób małych o licznościach $n\in<4;12)$:

$g(W)=-\ln(\gamma-\ln(1-W))$,

$\gamma=0.459n-2.273$,

$\mu=-0.0006714n^3+0.025054n^2-0.39978n+0.5440$,

$\sigma=\exp(-0.0020322n^3+0.062767n^2-0.77857n+1.3822)$;

- dla prób dużych o licznościach $n\in<12;5000>$:

$g(W)=\ln(1-W)$,

$\mu=0.0038915u^3-0.083751u^2-0.31082u-1.5851$,

$\sigma=\exp(0.0030302u^2-0.082676u-0.4803)$,

$u=\ln(n)$.

Test D'Agostino-Pearsona (ang. D'Agostino-Pearson test for normality)

Różne typy analiz statystycznych zakładające normalność są w różnym stopniu wrażliwe na różne rodzaje odejścia od tego założenia. Przyjmuje się, że testy odnoszące się w swoich hipotezach do średnich są bardziej wrażliwe na skośność, a testy porównujące wariancje w większym stopniu zależą od kurtozy.

Rozkład normalny charakteryzować powinna zerowa skośność i zerowa kurtoza g2 (lub b2 bliska wartości trzy). W przypadku braku normalności rozkładu, stwierdzonej przez test D'Agostino (1973)8), można sprawdzić czy jest to efektem wysokiej skośności czy kurtozy poprzez test skośności i test kurtozy.

Podobnie jak test Shapiro-Wilka, test D'Agostino charakteryzuje się większą mocą niż test Kołmogorova-Smirnova i test Lillieforsa (D'Agostino 19909)).

Statystyka testowa ma postać:

\begin{displaymath}
K^2=Z_A^2+Z_K^2,
\end{displaymath}

gdzie:

$Z_A^2$ - statystyka testowa testu skośności,

$Z_K^2$ - statystyka testowa testu kurtozy.

Statystyka ta ma asymptotycznie rozkład chi-kwadrat z dwoma stopniami swobody.

  • Test skośności D'Agostino

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład nie jest skośny (skośność w populacji wynosi zero),$\\
\mathcal{H}_1: & $rozkład jest skośny (skośność w populacji odbiega od zera).$
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z_A=\delta\ln\left(\frac{Y}{\alpha}+\sqrt{\frac{Y^2}{\alpha^2}+1}\right),
\end{displaymath}

gdzie:

$Y=\sqrt{(b_1)}\sqrt{\frac{(n+1)(n+3)}{6(n-2)}}$,

$\sqrt{(b_1)}=\frac{m_3}{m_2^{(3/2)}}$,

$m_k=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^k}{n}$,

$\beta(\sqrt{(b_1)})=\frac{3(n^2+27n-70)(n+1)(n+3)}{(n-2)(n+5)(n+7)(n+9)}$,

$W^2=-1+\sqrt{2(\beta(\sqrt{(b_1)})-1}$,

$\delta=\frac{1}{\sqrt{\ln W}}$,

$\alpha=\sqrt{\frac{2}{W^2-1}}$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

  • Test kurtozy D'Agostino

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $kurtoza w populacji odpowiada kurtozie rozkładu normalnego,$\\
\mathcal{H}_1: & $kurtoza w populacji różni się od kurtozy rozkładu normalnego.$
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z_K=\frac{\left(1-\frac{2}{9H}\right)-\left(\frac{1-\frac{2}{A}}{1+x\sqrt{\frac{2}{H-4}}}\right)^{1/3}}{\sqrt{\frac{2}{9H}}},
\end{displaymath}

gdzie:

$E(b_2)=\frac{3(n-1)}{n+1}$,

$b_2=\frac{m_4}{m_2^2}$,

$var(b_2)=\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}$,

$x=\frac{b_2-E(b_2)}{\sqrt{var(b_2)}}$,

$\sqrt{\beta(b_2)}=\frac{6(n^2-5n+2)}{(n+7)(n+9)}\sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-5)}}$,

$H=6+\frac{8}{\sqrt{\beta(b_2)}}\left(\frac{2}{\sqrt{\beta(b_2)}}+\sqrt{1+\frac{4}{\beta(b_2)}}\right)$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wykres Kwantyl-Kwantyl (ang. Q-Q plot, Quantile-Quantile plot)

Wykres typu Kwantyl-Kwantyl wykorzystywany jest do przedstawienia zgodności dwóch rozkładów. W przypadku badania zgodności z rozkładem normalny, sprawdza zgodność rozkładu danych (rozkładu empirycznego) z rozkładem teoretycznym Gaussa. Na jego podstawie można wizualnie sprawdzić jak dobrze krzywa rozkładu normalnego jest dopasowana do danych. Jeśli kwantyle rozkładu teoretycznego i rozkładu empirycznego są zgodne, wówczas punkty rozkładają się wzdłuż linii $y=x$. Oś pozioma przedstawia kwantyle rozkładu normalnego, oś pionowa kwantyle rozkładu danych.

Możliwe są bardzo różne odstępstwa od rozkładu normalnego - interpretację kilku najczęściej występujących opisuje schemat:

  • dane rozłożone na linii, lecz kilka punktów mocno odbiega od linii

    - występują wartości odstające w danych

  • punkty po lewej stronie wykresu znajdują się powyżej linii, a po prawej poniżej linii

    - rozkład charakteryzuje większa obecność wartości odległych od średniej niż jest w rozkładzie normalnym (ujemna kurtoza)

  • punkty po lewej stronie wykresu znajdują się poniżej linii, a po prawej powyżej linii

    - rozkład charakteryzuje mniejsza obecność wartości odległych od średniej niż jest w rozkładzie normalnym (dodatnia kurtoza)

  • punkty po lewej i po prawej stronie wykresu znajdują się powyżej linii

    - rozkład prawostronnie skośny (dodatnia skośność);

  • punkty po lewej i po prawej stronie wykresu znajdują się poniżej linii

    - rozkład lewostronnie skośny (ujemna skośność).

Okno z ustawieniami opcji testów normalności wywołujemy poprzez menu StatystykaTesty normalnościNormalność jednowymiarowa lub poprzez ''Kreator''.

Przykład (plik Gauss.pqs)

Wzrost kobiet

Załóżmy, że wzrost kobiet jest taką cechą, dla której wartość przeciętna wynosi 168cm. Większość kobiet spotykanych na co dzień jest wzrostu, który nie odbiega znacznie od tej przeciętnej. Oczywiście zdarzają się kobiety zupełnie niskie a także bardzo wysokie, ale stosunkowo rzadko. Skoro wartości bardzo niskie i bardzo wysokie występują rzadko, a wartości przeciętne często, możemy się spodziewać, że rozkład wzrostu jest rozkładem normalnym. By się o tym przekonać zmierzono 300 losowo wybranych kobiet.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $rozkład wzrostu kobiet w badanej populacji $\\
&$jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład wzrostu kobiet w badanej populacji $ \\
&$jest różny od rozkładu normalnego.$
\end{array}
$

Ponieważ nie znamy średniej ani odchylenia standardowego dla wzrostu kobiet, a jedynie mamy przypuszczenia co do tych wielkości, będą one wyznaczane z próby.

Wszystkie wyznaczone testy wskazują na brak odstępstwa od rozkładu normalnego, ponieważ ich wartości $p$ znajdują się powyżej standardowego poziomu istotności $\alpha=0.05$. Również test badający skośność i kurtozę nie wykazuje odstępstw.

Na wykresie kolumnowym przedstawiliśmy rozkład wzrostu w postaci 10 kolumn. Najliczniejszą grupę stanowią kobiety o wzroście od 167 cm do 171 cm, najmniej liczne są natomiast kobiety niższe niż 150 cm lub wyższe niż 184 cm. Dzwonowa krzywa rozkładu normalnego wydaje się dobrze opisywać ten rozkład.

Na wykresie kwantyl-kwantyl punkty leżą prawie idealnie na linii, co również świadczy o bardzo dobrym dopasowaniu rozkładu normalnego.

Rozkład normalny może zatem zostać uznany, za rozkład jakim charakteryzuje się wzrost kobiet w badanej populacji.

Dochód

Załóżmy, że badamy dochód osób w pewnym kraju. Oczekujemy, że dochody większości osób będą przeciętne, jednak nie będzie osób zarabiających zupełnie mało (poniżej minimalnej pensji narzuconej przez władze), ale będą osoby zarabiające bardzo dużo (prezesi firm) których jest stosunkowo niewielu. By sprawdzić czy dochód osób w badanym kraju ma rozkład normalny zebrano informację o dochodach 264 losowo wybranych osób.

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $rozkład dochodów osób w badanej populacji $\\
&$jest rozkładem normalnym,$\\
\mathcal{H}_1: & $rozkład dochodów osób w badanej populacji $ \\
&$jest różny od rozkładu normalnego.$
\end{array}
$

Rozkład nie jest rozkładem normalnym, o czym świadczą wszystkie wyniki testów badających normalność rozkładu ($p<\alpha$). Dodatnia i istotna statystycznie ($p<\alpha$) wartość skośności świadczy o zbyt długim prawym ogonie funkcji. Rozkład funkcji jest również bardziej smukły od rozkładu normalnego, ale nie jest to istotna statystycznie różnica (test kurtozy).

Na wykresie kwartyl-kwartyl odstępstwo od rozkładu normalnego jest obrazowane poprzez skośność prawostronną, czyli położenie znacznie powyżej linii początkowych i końcowych punktów wykresu.

W rezultacie zebrane dane nie świadczą o zgodności rozkładu dochodów z rozkładem normalnym.

aaa

2019/12/17 17:16 · admin

Testy normalności wielowymiarowej

Wiele metod analizy wielowymiarowej, w tym MANOVA, testy Hotellinga czy też modele regresji opierają się na założeniu normalności wielowymiarowej. Jeśli zbiór zmiennych charakteryzuje wielowymiarowy rozkład normalny, to można założyć, że każda zmienna posiada rozkład normalny. Jednak gdy wszystkie pojedyncze zmienne charakteryzowane są rozkładem normalnym, ich zestaw nie musi mieć wielowymiarowego rozkładu normalnego. Dlatego testowanie jednowymiarowej normalności każdej zmiennej może być przydatne, ale nie można założyć, że jest wystarczające.

Różne typy analiz statystycznych zakładające normalność są w różnym stopniu wrażliwe na różne rodzaje odejścia od tego założenia. Przyjmuje się, że testy odnoszące się w swoich hipotezach do średnich są bardziej wrażliwe na skośność, a testy porównujące kowariancje w większym stopniu zależą od kurtozy.

Okno z ustawieniami opcji testu wielowymiarowej normalności rozkładu wywołujemy poprzez menu StatystykaTesty normalnościNormalność wielowymiarowa.

Test Mardia dla wielowymiarowej normalności rozkładu (ang. Mardia's test for multivariate normality)

Test zaproponowany przez Mardia w roku 1970 10) i zmodyfikowany w roku 1974 11) bada normalność rozkładu analizując oddzielnie rozmiar wielowymiarowej skośności i wielowymiarowej kurtozy. Jarque i Bera 12) zaproponowali złączenie tych dwóch miar Mardia w jeden test. Podobny sposób łączenia w jeden test informacji o skośności i kurtozie oferuje metoda Hanusz i Tarasińskiej 13).

Mardia zdefiniował wielowymiarową skośność i kurtozę następująco: \begin{displaymath}
skew=\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^nm_{ij}^3, \quad kurt=\frac{1}{n}\sum_{i=1}^nm_{ii}^2
\end{displaymath} gdzie

$m_{ij}=\left(X_i-\bar{X}\right)^TS^{-1}\left(X_j-\bar{X}\right)$,

$S=\frac{1}{n}\sum_{j=1}^n\left(X_i-\bar{X}\right)\left(X_i-\bar{X}\right)^T$,

$\bar{X}$ -średnia, $S$ - macierz kowariancji.

Dla danych pochodzących z próby, a nie z populacji wzory na skośność i kurtozę są mnożone odpowiednio: skośność przez $\left(n/(n-1)\right)^3$ i kurtoza przez $\left(n/(n-1)\right)^2$.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $rozkład danych w populacji $=$ wielowymiarowy rozkład normalny$,\\
\mathcal{H}_1: & $rozkład danych w populacji $\neq $wielowymiarowy rozkład normalny,$
\end{array}

  • Mardia test skośności:

Gdy próba pochodzi z populacji o wielowymiarowym rozkładzie normalnym (hipoteza zerowa), to statystyka testowa ma postać (Mardia, 1970):

\begin{displaymath}
\chi^2(M)=\frac{n}{6}skew
\end{displaymath}

lub z poprawką dokładnych momentów dla grup o mniejszych licznościach (<20) (Mardia, 1974):

\begin{displaymath}
\chi_c^2(M)=\frac{n}{6}\frac{(n+1)(n+3)(k+1)}{n((n+1)(k+1)-6)}skew
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z $df=f=\frac{k(k+1)(k+2)}{6}$ stopniami swobody.

  • Mardia test kurtozy:

Gdy próba pochodzi z populacji o wielowymiarowym rozkładzie normalnym (hipoteza zerowa), to statystyka testowa ma postać (Mardia, 1974):

\begin{displaymath}
Z(M)=\frac{kurt-k(k+2)}{\sqrt{\frac{8k(k+2)}{n}}}
\end{displaymath}

lub z poprawką (Mardia, 1974):

\begin{displaymath}
Z_c(M)=\frac{(n+1)kurt-k(k+2)(n-1)}{\sqrt{\frac{8k(k+2)(n-3)(n-k-1)(n-k+1)}{(n+3)(n+5)}}}
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Jarque-Bera dla wielowymiarowej normalności rozkładu (ang. Jarque-Bera test for multivariate normality)

Test Jarque i Bera (1987) 14) bazuje na statystyce skośności i kurtozy testu Mardia. Statystyka testowa ma postać:

\begin{displaymath}
\chi^2(JB)=\chi^2(M)+(Z(M))^2
\end{displaymath}

lub z poprawką (Mardia, 1974):

\begin{displaymath}
\chi_c^2(JB)=\chi_c^2(M)+(Z_c(M))^2
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z $df=f+1$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Hanusz-Tarasińska dla wielowymiarowej normalności rozkładu (ang. Hanusz-Tarasinska test for multivariate normality)

Test Zofii Hanusz i Joanny Tarasińskiej (2014) 15) bazuje na statystyce skośności i kurtozy testu Mardia. Statystyka testowa ma postać:

\begin{displaymath}
t_c(HT)=\frac{Z_c(M)}{\sqrt{\frac{\chi_c^2(M)}{f}}}
\end{displaymath}

Statystyka testowa ma rozkład t-Studenta z $df=f$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Test Henze-Zirklera dla wielowymiarowej normalności rozkładu (ang. Henze-Zirkler test for multivariate normality)

Henze i Zirklera (1990) 16) zaproponowali test badający wielowymiarową normalność rozkładu rozszerzając pracę Baringhausa i Henzego nad empiryczną funkcją charakterystyczną 17). W literaturze jest to test uznawany za jeden z najsilniejszych testów poświęconych wielowymiarowemu rozkładowi normalnemu (Thode 2002) 18). Statystyka testowa ma postać:

\begin{displaymath}
Z(HZ)_{\beta}=n\left(4I_E+D_{n,\beta}I_{E^c}\right)
\end{displaymath}

$I_E$ oraz $I_{E^c}$ to funkcje indykatorowe zależne od osobliwości macierzy kowariancji,

$D_{n,\beta}=\frac{1}{n^2}\sum exp\left(\frac{-\beta^2||Y_j-Y_k||^2}{2}\right)+(1+2\beta^2)^{-p/2}-2(1+\beta^2)^{-p/2}\sum exp\left(\frac{-\beta^2||Y_j||^2}{2(1+\beta^2)}\right)$

$Y_i=S^{1/2}(X_i-\bar{X})$

$\beta*=2^{-1/2}\left(\frac{n(2k+1)}{4}\right)^{1/(k+4)}$ - optymalna wartość parametru $\beta$

Statystyka $Z(HZ)_{\beta}$ ma asymptotycznie (dla dużych liczności) rozkład normalny oparty na średniej i wariancji opisanej przez Henze i Zirklera i odczytywany jednostronnie.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład (plik Irysy.pqs)

Badamy normalność rozkładu dla klasycznego zestawu danych R.A. Fishera 1936 19). Plik znajduje się w pomocy dołączonej do programu i zawiera pomiary długości i szerokości płatków i działek kielicha dla 3 odmian kwiatu irysa. Analiza zostanie przeprowadzona oddzielnie dla każdej odmiany. W oknie analizy zaznaczamy wszystkie testy oraz wykres, a w celu powtórzenia analizy dla każdej odmiany irysa ustawiamy filtr wielokrotny. Wszystkie wyniki zwrócimy do tego samego arkusza, dlatego zaznaczamy opcję Połącz w jeden raport.

Wszystkie tety potwierdzają normalność rozkładu dla odmiany versicolor i virginica. W przypadku odmiany setosa wyniki testów są na pograniczu istotności statystycznej, przy czym test Mardia dla Kurtozy i test Henze-Zirkler wskazują na odstępstwa od wielowymiarowego rozkładu normalnego. Możemy obserwować takie odstępstwa również na pierwszym wykresie, gdzie wraz narastaniem odległości Mahalanobisa punkty znajdują się coraz dalej od prostej.

2019/12/17 17:18 · admin
1)
Kolmogorov A.N. (1933), Sulla deterrninazione empirica di una legge di distribuzione. Giornde1l'Inst. Ital. degli. Art., 4, 89-91
2)
Lilliefors H.W. (1967), On the Kolmogorov-Smimov test for normality with mean and variance unknown. Journal of the American Statistical Association, 62,399-402
3)
Lilliefors H.W. (1969), On the Kolmogorov-Smimov test for the exponential distribution with mean unknown. Journal of the American Statistical Association, 64,387-389
4)
Lilliefors H.W. (1973), The Kolmogorov-Smimov and other distance tests for the gamma distribution and for the extreme-value distribution when parameters must be estimated. Department of Statistics, George Washington University, unpublished manuscript
5)
Shapiro S.S. and Wilk M.B. (1965), An analysis of variance test for normality (complete samples). Biometrika 52 (3–4): 591–611
6)
Royston P. (1992), Approximating the Shapiro–Wilk W-test for non-normality„. Statistics and Computing 2 (3): 117–119
7)
Royston P. (1993b), A toolkit for testing for non-normality in complete and censored samples. Statistician 42: 37–43
8)
D'Agostino R.B. and Pearson E.S. (1973), Tests of departure from normality. Empirical results for the distribution of b2 and sqrt(b1). Biometrika, 60, 613-622
9)
D'Agostino R.B., Belanger A., D'Agostino Jr.R B. (1990), A suggestion for using powerful and informative tests of normality. American Statistician, 44, 3 16-321
10)
Mardia K. V. (1970), Measures of multivariate skewness and kurtosis with applications, Biometrica 57, 519-530
11)
Mardia K. V. (1974), Applications of some measuresof multivariate skewness and kurtosis for testing normality and robustness studies, Sankhay B 36, 115-128
12) , 14)
Jarque C. M., Bera A. K., (1987)., A test for normality of Observations and Regression Residuals, International Statistical Review 55, 163-172
13) , 15)
Hanusz Z., Tarasińska J. (2014), On multivariate normality tests using skewness and kurtosis, Colloquium Biometricum 44, 139-148
16)
Henze N., Zirkler B. (1990), A class of invariant consistent tests for multivariate normality. Comm. Statist. Theory Methods. 1990;19:3595–3617
17)
Epps T.W., Pulley L.B. (1983), A test for normality based on the empirical characteristic function. Biometrika. 1983;70:723–726
18)
Thode H. C. (2002), Testing For Normality. CRC Press; 2002. 506 s.
19)
Fisher R.A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics 7 (2): 179–188