PQStat - Baza Wiedzy

Statystyka globalna Morana

Jest to analiza, która bada stopień intensywności danej cechy w obiektach przestrzennych.

Do budowy współczynnika, który pozwoli sprawdzić czy sąsiadujące obiekty tworzą klastery o podobnych wartościach zmiennej, wykorzystujemy dwie informacje:

informacje o wartościach zmiennej dla poszczególnych obiektów $x_i$ ,
informacje o tym, które obiekty sąsiadują – macierz wag o elementach $w_{ij}$ .

Uwaga!

Sąsiedztwo obiektów definiowane jest poprzez macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wag wygenerowaną wcześniej za pomocą menu Analiza przestrzenna → Narzędzia → Macierz wag przestrzennych lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.

Uwaga!

Nie zaleca się przeprowadzania analizy Morana dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je, lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).

Współczynnik autokorelacji Morana – wprowadzony przez Morana w roku 1948¹⁾.

By sprawdzić, czy wybrane obiekty są charakteryzowane przez podobne wartości zmiennej, można wykorzystać zasadę mnożenia mówiącą, że mnożenie 2 wartości tego samego znaku daje wynik pozytywny, a 2 różnych znaków wynik negatywny. Stosując tą zasadę wyliczamy $\sum\sum x_ix_j$ . Niestety, ze względu na to, że efekty działania tej zasady są osiągane wtedy, gdy istnieją zarówno dodatnie jak i ujemne wartości, ta prosta formuła musi być zmodyfikowana tak, by zapewnić występowanie wartości różnych znaków. Wartości zmiennej zostaną więc zastąpione we wcześniejszym wzorze przez różnice wartości zmiennej i jej wartości średniej. W ten sposób obiekty o wartościach mniejszych niż średnia będą ujemne, a te o wartościach większych od średniej dodatnie: $\sum\sum(x_i-\overline{x})(x_j-\overline{x})$ . Oczywiście sumowanie powinno dotyczyć sąsiednich obiektów, co oznacza, że musi być w tym miejscu wykorzystana informacja z macierzy wag: $\begin{displaymath} \sum\sum w_{ij}(x_i-\overline{x})(x_j-\overline{x}) \end{displaymath}$ W ten sposób obiekty niesąsiadujące uzyskują wartość wagi równą 0, co powoduje, że ich wartości nie są sumowane. Dalsze zabiegi zmieniające uzyskaną w ten sposób formułę mają za zadanie uniezależnić uzyskany współczynnik $I$ od ilości analizowanych obiektów i wystandaryzować tak, by jego wartości były ograniczone do przedziału $<-1; 1>$ . W rezultacie współczynnik autokorelacji Morana wyraża się wzorem:

$\begin{displaymath} I=\frac{\sum_{i=1}^n\sum_{j=1}^nw_{ij}\left(x_i-\overline{x}\right)\left(x_j-\overline{x}\right)}{S_0\sigma^2} \end{displaymath}$

gdzie:

$n$ – liczba obiektów przestrzennych (liczba punktów lub wielokątów),

$x_i$ , $x_j$ – to wartości zmiennej dla porównywanych obiektów,

$\overline{x}$ – to średnia wartość zmiennej dla wszystkich obiektów,

$w_{ij}$ – elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),

$S_0=\sum_{i=1}^n\sum_{j=1}^nw_{ij}$ ,

$\sigma^2=\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n}$ – wariancja

Współczynnik autokorelacji liniowej Morana $I$ bada siłę związku liniowego pomiędzy standaryzowaną zmienną $X$ ( $stand(x_i)$ ) a opóźnieniem przestrzennym zmiennej $X$ ( $L(x_i)$ ). Opóźnienie przestrzenne (ang. spatial lag) jest średnią ważoną ze standaryzowanych wartości sąsiadujących obiektów:

$\begin{displaymath} L(x_i)=\sum_{j=1}^Nw_{ij}stand(x_j). \end{displaymath}$

Graficzną prezentacją autokorelacji przestrzennej jest wykres rozrzutu Morana. Punkty znajdujące się w ćwiartce pierwszej (HH) i trzeciej (LL), to obiekty otoczone przez podobnych sąsiadów: HH (wysokie-wysokie) – obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach; LL (niskie-niskie) – obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach. Punkty znajdujące się w ćwiartce drugiej (LH) i czwartej (HL) to obiekty otoczone przez sąsiadów do nich niepodobnych. LH (niskie-wysokie) – obiekty o niskich wartościach otoczone przez obiekty o wysokich wartościach; HL (wysokie-niskie) – obiekty o wysokich wartościach otoczone przez obiekty o niskich wartościach.

$\begin{pspicture}(-4,-3.6)(10,4.5) \psline{->}(-4,0)(4,0) \psline{->}(0,-3.5)(0,4) \rput(1.5,1.5){\textcolor{red}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{HH}}}} \rput(-1.5,1.5){\textcolor[rgb]{0.2,0.8,0.8}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{LH}}}} \rput(-1.5,-1.5){\textcolor[rgb]{0,0,1}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{LL}}}} \rput(1.5,-1.5){\textcolor[rgb]{1,0.36,0.36}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{HL}}}} \psdot[dotsize=3pt](1.5,-0.6) \psdot[dotsize=3pt](0.8,0) \psdot[dotsize=3pt](1.1,0.2) \psdot[dotsize=3pt](2,-1.6) \psdot[dotsize=3pt](1.3,0) \psdot[dotsize=3pt](-1.6,1.9) \psdot[dotsize=3pt](-1.2,-1) \psdot[dotsize=3pt](1.3,0.5) \psdot[dotsize=3pt](1,0.6) \psdot[dotsize=3pt](0.2,-1.6) \psdot[dotsize=3pt](-0.6,0.2) \psdot[dotsize=3pt](-0.8,-1) \psdot[dotsize=3pt](1.9,0.7) \psdot[dotsize=3pt](1.8,-1.2) \psdot[dotsize=3pt](-1.8,-1) \psdot[dotsize=3pt](1.4,0.8) \psdot[dotsize=3pt](-0.6,-1.8) \psdot[dotsize=3pt](1.1,0.3) \psdot[dotsize=3pt](0.1,-1) \psdot[dotsize=3pt](-1.7,-1) \psdot[dotsize=3pt](1,-0.2) \psdot[dotsize=3pt](-0.4,-1.3) \psdot[dotsize=3pt](-1.1,-0.2) \psdot[dotsize=3pt](-0.1,-0.3) \psdot[dotsize=3pt](0.9,-0.9) \psdot[dotsize=3pt](-0.1,0.5) \psdot[dotsize=3pt](2,1.9) \psdot[dotsize=3pt](-1.5,-1) \psdot[dotsize=3pt](-1.5,1.1) \psdot[dotsize=3pt](0.6,-0.6) \psline[linewidth=1.8pt,linecolor=green](-2.5,-1)(2.5,1) \end{pspicture}$

Przynależność i rozmieszczenie punktów w czterech ćwiartkach wykresu Morana wskazuje na rodzaj autokorelacji. Jeśli punkty rozłożone są głównie w ćwiartce drugiej (LH) i czwartej (HL) – świadczy to o ujemnej autokorelacji, gdy należą głównie do ćwiartki pierwszej (HH) i trzeciej (LL) – świadczy to o autokorelacji dodatniej. Gdy punkty rozkładają się równomiernie we wszystkich czterech ćwiartkach, wówczas autokorelacja przestrzenna nie istnieje.

Na wykresie Morana rysowana jest też linia regresji, której kierunek również pozwala na interpretację współczynnika Morana $I$ :

$I>0$ oznacza występowanie klasterów podobnych wartości – dodatnią autokorelację, tj. punkty pomiarowe leżą blisko linii prostej a wzrostowi zmiennej $standX$ odpowiada wzrost zmiennej $L(X)$ ;

$I<0$ oznacza występowanie tzw. hot spots czyli zdecydowanie różnych wartości w obszarach sąsiedzkich – ujemną autokorelację, tj. punkty pomiarowe leżą blisko linii prostej, lecz wzrostowi zmiennej $standX$ odpowiada spadek $L(X)$ ;

$I \approx 0$ oznacza losowe rozłożenie się badanej wartości w przestrzeni – brak autokorelacji, tj. uzyskany rozkład przestrzenny jest tak samo prawdopodobny jak każdy inny rozkład.

Kwadrat współczynnika Morana $I^2$ informuje o stopniu (jest to procent), w jakim wartość zmiennej w obiekcie $i$ jest tłumaczona przez wartość tej zmiennej w obiektach sąsiednich.

Uwaga!

Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej

Istotność współczynnika autokorelacji Morana

Test do sprawdzania istotności współczynnika autokorelacji Morana służy do weryfikacji hipotezy o braku autokorelacji pomiędzy $standX$ a opóźnieniem przestrzennym $L(X)$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & I = 0, \\ \mathcal{H}_1: & I \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} Z=\frac{I-E(I)}{\sqrt{var(I)}}, \end{displaymath}$

gdzie:

$\displaystyle E(I)=\frac{-1}{n-1}$ – wartość oczekiwana,

$\displaystyle var(I)$ – wariancja.

W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)²⁾, oraz Goodchild (1986)³⁾).

Jeśli jest to rozkład normalny, wówczas:

$\begin{displaymath} var(I)=\frac{n^2S_1-nS_2+3S_0^2}{S_0^2(n^2-1)}-E(I)^2, \end{displaymath}$

gdzie:

$S_1=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\left(w_{ij}+w_{ji}\right)^2$ ,

$S_2=\sum_{i=1}^n\left(\sum_{j=1}^nw_{ij}+\sum_{j=1}^nw_{ji}\right)^2$ .

Jeśli rozkład jest losowy, wówczas:

$\begin{displaymath} var(I)=\frac{n\left((n^2-3n+3)S_1-nS_2+3S_0^2\right)}{(n-1)^{(3)}S_0^2}-\frac{K_2\left((n^2-n)S_1-2nS_2+6S_0^2\right)}{(n-1)^{(3)}S_0^2}-E(I)^2, \end{displaymath}$

gdzie:

$K_2=\frac{n\sum_{i=1}^n\left(x_i-\overline{x}\right)^4}{\left(\sum_{i=1}^n\left(x_i-\overline{x}\right)^2\right)^2}$ ,

$n^{(b)}=n(n-1)(n-2)...(n-b+1)$ .

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$ , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji analizy Morana wywołujemy poprzez menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka globalna I Morana.

Przykład (katalog: leukemia, plik: leukemia.pqs)

Analizie poddamy dane zebrane i przeanalizowane przez L.A. Wallera i innych w roku 1992⁴⁾ i 1994⁵⁾, opisane na 281 obiektach w roku 2004⁶⁾.

Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York. Mapa została przygotowana w układzie współrzędnych prostokątnych płaskich UTM 18N, i bazuje na danych pliku BNA (Boundary File) dostępnego na serwerze CIESIN ftp.ciesin.columbia.edu

Dane do mapy leukemia:
- Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
- Kolumna POP – liczność populacji w poszczególnych obiektach.
- Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Interesujące z epidemiologicznego punktu widzenia są regiony, gdzie częstość występowania białaczki jest wyższa. Ich zgrupowanie bowiem, mogłoby wskazywać na istnienie w ich obrębie teratogenów środowiskowych, będących przyczyną zwiększonej częstości występowania białaczki.

Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie. W tym celu wyrysowujemy mapę w Menadżerze Map i edytujemy warstwę wybierając Stopniowanie kolorów:

Mamy do dyspozycji kilka sposobów kolorowania mapy - tu wybieramy kolorowanie zgodnie z wartościami zmiennej prev dzieląc ją na kwartyle:

Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. By dowiedzieć się, czy ich rozkład geograficzny jest losowy, czy tworzą one skupiska, wyliczymy współczynnik Morana. Przed wyliczeniem tego współczynnika należy zdecydować w jaki sposób definiowane będzie sąsiedztwo regionów i najlepiej utworzyć odpowiednią macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wygenerowaną wcześniej za pomocą menu Analiza przestrzenna → Narzędzia → Macierz wag przestrzennych lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.

Po wygenerowaniu macierzy wag, zaznaczamy plik leukemia i przystępujemy do analizy Morana wybierając menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka globalna I Morana. W oknie analizy wybieramy zmienną Prev i standaryzowaną rzędami macierz sąsiedztwa Queen, oraz zaznaczamy opcję Dołącz wykres.

Współczynnik korelacji Morana uzyskany w analizie jest niewielki i wynosi $I=0.048577$ :

Testując istotność współczynnika Morana, badamy losowość rozkładu współczynnika częstości białaczki na badanym obszarze. Sprawdzamy, czy podobne odcienie na mapie są ulokowane blisko siebie, czy też nie. Inaczej mówiąc: sprawdzamy czy szansa zachorowania na białaczkę w badanej populacji zależy od lokalizacji geograficznej czy też nie. Wartość $p$ wyliczona przy założeniu losowości, jak przy założeniu normalności jest większa niż standardowo przyjmowany poziom istotności 0.05, co oznacza brak dowodów na autokorelację. Przyjmujemy więc, że rozkład zmiennej prev jest rozkładem losowym. Potwierdzeniem tego jest wykres Morana:

Istnienie dodatniej autokorelacji, którą jesteśmy najbardziej zainteresowani, skutkowałoby rozmieszczeniem punktów wykresu Morana w ćwiartce I i III. Tu widzimy jednak, że punkty znajdują się równie często w ćwiartce I i III jak w II i IV.

¹⁾

Moran P.A.P. (1947), The Interpretation of Statistical Maps. Journal of the Royal Statistical Society, B10, 243-51

²⁾

Cliff A.D., Ord J.K. (1981), Spatial Processes: Models and Applications. Pion: London

³⁾

Goodchild M.F (1986), Spatial Autocorrelation, CATMOG 47, Geobooks: Norwich UK

⁴⁾

Waller L.A., Turnbull B.W., Clark L.C., Nasca P. (1992), Chronic disease surveillance and testing of clustering of disease and exposure : Application to leukemia incidence and TCE-contaminated dumpsites in upstate New York. Environmetrics, 3, 281-300

⁵⁾

Waller L.A., Turnbull B.W., Clark, L.C., Nasca P. (1994), Spatial pattern analyses to detect rare disease clusters, in Case Studies in Biometry, N. Lange, et al., Editors. , John Wiley and Sons: New York, 3-23

⁶⁾

Waller L.A., Gotway C.A. (2004), Applied Spatial Statistics for Public Health Data. New York: John Wiley and Sons

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Statystyka globalna Morana

Narzędzia strony