Jest to analiza, która bada stopień intensywności danej cechy w obiektach przestrzennych.
Do budowy współczynnika, który pozwoli sprawdzić czy sąsiadujące obiekty tworzą klastery o podobnych wartościach zmiennej, wykorzystujemy dwie informacje:
Uwaga!
Sąsiedztwo obiektów definiowane jest poprzez macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wag wygenerowaną wcześniej za pomocą menu Analiza przestrzenna
→ Narzędzia
→ Macierz wag przestrzennych
lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.
Uwaga!
Nie zaleca się przeprowadzania analizy Morana dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je, lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).
Współczynnik autokorelacji Morana – wprowadzony przez Morana w roku 19481).
By sprawdzić, czy wybrane obiekty są charakteryzowane przez podobne wartości zmiennej, można wykorzystać zasadę mnożenia mówiącą, że mnożenie 2 wartości tego samego znaku daje wynik pozytywny, a 2 różnych znaków wynik negatywny. Stosując tą zasadę wyliczamy . Niestety, ze względu na to, że efekty działania tej zasady są osiągane wtedy, gdy istnieją zarówno dodatnie jak i ujemne wartości, ta prosta formuła musi być zmodyfikowana tak, by zapewnić występowanie wartości różnych znaków. Wartości zmiennej zostaną więc zastąpione we wcześniejszym wzorze przez różnice wartości zmiennej i jej wartości średniej. W ten sposób obiekty o wartościach mniejszych niż średnia będą ujemne, a te o wartościach większych od średniej dodatnie: . Oczywiście sumowanie powinno dotyczyć sąsiednich obiektów, co oznacza, że musi być w tym miejscu wykorzystana informacja z macierzy wag: W ten sposób obiekty niesąsiadujące uzyskują wartość wagi równą 0, co powoduje, że ich wartości nie są sumowane. Dalsze zabiegi zmieniające uzyskaną w ten sposób formułę mają za zadanie uniezależnić uzyskany współczynnik od ilości analizowanych obiektów i wystandaryzować tak, by jego wartości były ograniczone do przedziału . W rezultacie współczynnik autokorelacji Morana wyraża się wzorem:
gdzie:
– liczba obiektów przestrzennych (liczba punktów lub wielokątów),
, – to wartości zmiennej dla porównywanych obiektów,
– to średnia wartość zmiennej dla wszystkich obiektów,
– elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),
,
– wariancja
Współczynnik autokorelacji liniowej Morana bada siłę związku liniowego pomiędzy standaryzowaną zmienną () a opóźnieniem przestrzennym zmiennej (). Opóźnienie przestrzenne (ang. spatial lag) jest średnią ważoną ze standaryzowanych wartości sąsiadujących obiektów:
Graficzną prezentacją autokorelacji przestrzennej jest wykres rozrzutu Morana. Punkty znajdujące się w ćwiartce pierwszej (HH) i trzeciej (LL), to obiekty otoczone przez podobnych sąsiadów: HH (wysokie-wysokie) – obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach; LL (niskie-niskie) – obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach. Punkty znajdujące się w ćwiartce drugiej (LH) i czwartej (HL) to obiekty otoczone przez sąsiadów do nich niepodobnych. LH (niskie-wysokie) – obiekty o niskich wartościach otoczone przez obiekty o wysokich wartościach; HL (wysokie-niskie) – obiekty o wysokich wartościach otoczone przez obiekty o niskich wartościach.
Przynależność i rozmieszczenie punktów w czterech ćwiartkach wykresu Morana wskazuje na rodzaj autokorelacji. Jeśli punkty rozłożone są głównie w ćwiartce drugiej (LH) i czwartej (HL) – świadczy to o ujemnej autokorelacji, gdy należą głównie do ćwiartki pierwszej (HH) i trzeciej (LL) – świadczy to o autokorelacji dodatniej. Gdy punkty rozkładają się równomiernie we wszystkich czterech ćwiartkach, wówczas autokorelacja przestrzenna nie istnieje.
Na wykresie Morana rysowana jest też linia regresji, której kierunek również pozwala na interpretację współczynnika Morana :
Kwadrat współczynnika Morana informuje o stopniu (jest to procent), w jakim wartość zmiennej w obiekcie jest tłumaczona przez wartość tej zmiennej w obiektach sąsiednich.
Uwaga!
Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej
Istotność współczynnika autokorelacji Morana
Test do sprawdzania istotności współczynnika autokorelacji Morana służy do weryfikacji hipotezy o braku autokorelacji pomiędzy a opóźnieniem przestrzennym .
Hipotezy:
Statystyka testowa ma postać:
gdzie:
– wartość oczekiwana,
– wariancja.
W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)2), oraz Goodchild (1986)3)).
Jeśli jest to rozkład normalny, wówczas:
gdzie:
,
.
Jeśli rozkład jest losowy, wówczas:
gdzie:
,
.
Statystyka ma asymptotycznie (dla dużych liczności) rozkład normalny.
Wartość , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności :
Okno z ustawieniami opcji analizy Morana
wywołujemy poprzez menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka globalna I Morana
.
Przykład (katalog: leukemia, plik: leukemia.pqs)
Analizie poddamy dane zebrane i przeanalizowane przez L.A. Wallera i innych w roku 19924) i 19945), opisane na 281 obiektach w roku 20046).
leukemia
zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York. Mapa została przygotowana w układzie współrzędnych prostokątnych płaskich UTM 18N, i bazuje na danych pliku BNA (Boundary File) dostępnego na serwerze CIESIN ftp.ciesin.columbia.eduleukemia
:CASES
– liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.POP
– liczność populacji w poszczególnych obiektach.prev
– współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5Interesujące z epidemiologicznego punktu widzenia są regiony, gdzie częstość występowania białaczki jest wyższa. Ich zgrupowanie bowiem, mogłoby wskazywać na istnienie w ich obrębie teratogenów środowiskowych, będących przyczyną zwiększonej częstości występowania białaczki.
Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie. W tym celu wyrysowujemy mapę w Menadżerze Map i edytujemy warstwę wybierając Stopniowanie kolorów
:
Mamy do dyspozycji kilka sposobów kolorowania mapy - tu wybieramy kolorowanie zgodnie z wartościami zmiennej prev
dzieląc ją na kwartyle:
Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. By dowiedzieć się, czy ich rozkład geograficzny jest losowy, czy tworzą one skupiska, wyliczymy współczynnik Morana. Przed wyliczeniem tego współczynnika należy zdecydować w jaki sposób definiowane będzie sąsiedztwo regionów i najlepiej utworzyć odpowiednią macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wygenerowaną wcześniej za pomocą menu Analiza przestrzenna
→ Narzędzia
→ Macierz wag przestrzennych
lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.
Po wygenerowaniu macierzy wag, zaznaczamy plik leukemia i przystępujemy do analizy Morana wybierając menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka globalna I Morana
. W oknie analizy wybieramy zmienną Prev
i standaryzowaną rzędami macierz sąsiedztwa Queen
, oraz zaznaczamy opcję Dołącz wykres
.
Współczynnik korelacji Morana uzyskany w analizie jest niewielki i wynosi :
Testując istotność współczynnika Morana, badamy losowość rozkładu współczynnika częstości białaczki na badanym obszarze. Sprawdzamy, czy podobne odcienie na mapie są ulokowane blisko siebie, czy też nie. Inaczej mówiąc: sprawdzamy czy szansa zachorowania na białaczkę w badanej populacji zależy od lokalizacji geograficznej czy też nie. Wartość wyliczona przy założeniu losowości, jak przy założeniu normalności jest większa niż standardowo przyjmowany poziom istotności 0.05, co oznacza brak dowodów na autokorelację. Przyjmujemy więc, że rozkład zmiennej prev
jest rozkładem losowym. Potwierdzeniem tego jest wykres Morana:
Istnienie dodatniej autokorelacji, którą jesteśmy najbardziej zainteresowani, skutkowałoby rozmieszczeniem punktów wykresu Morana w ćwiartce I i III. Tu widzimy jednak, że punkty znajdują się równie często w ćwiartce I i III jak w II i IV.