By przeprowadzić analizę autokorelacji powinniśmy dysponować danymi mapy zawierającej obiekty typu: punkt, wielopunkt lub wielokąt. W przypadku analizy wielokątów bazujących na odległościach obiektów obliczenia oparte są na centroidach, a przypadku wielopunktów na centrach obiektów.
Analiza zjawiska autokorelacji przestrzennej opiera się na wartościach przypisanych obiektom przestrzennym. Autokorelacja przestrzenna oznacza, że wartości obiektów bliskich geograficznie są bardziej podobne do siebie niż tych odległych. Zjawisko to powoduje tworzenie się klasterów przestrzennych o wartościach podobnych.
Autokorelacja przestrzenna może nie występować – mówimy wówczas o przestrzennej losowości. Uzyskany rozkład przestrzenny jest tak samo prawdopodobny jak w każdy inny rozkład. Gdy wartości sąsiednie są sobie podobne, to możemy mówić o występowaniu autokorelacji dodatniej. Ujemna autokorelacja występuje wówczas, gdy wartości obszarów sąsiednich są bardziej różne niż mogłoby to wynikać z rozkładu losowego.
Analizując autokorelację możemy rozważać zmienną dychotomiczną (tzn. występowanie lub brak danej cechy) lub zmienną o wielu kategoriach wskazującą na stopień intensywności analizowanej cechy.
Dla zmiennej dychotomicznej analiza dodatniej autokorelacji polega na wyszukiwaniu skupisk jednakowych wartości. Na płaszczyźnie mapy zwykle obiekty, w których występuje badane zjawisko oznaczone są kolorem czarny a jego brak kolorem białym. Wyszukiwane są skupiska obiektów o takim samym kolorze tzw. „black-black”,„white-white”.
Dla zmiennej opisującej stopień intensywności badanej cechy, analiza dodatniej autokorelacji polega na wyszukiwaniu skupisk podobnych wartości. Na płaszczyźnie mapy zwykle obiekty kolorowane są zgodnie ze stopniem nasilenia badanego zjawiska od najjaśniejszych (niskich wartości) do najciemniejszych (wysokich wartości) . Wyszukiwane są skupiska obiektów o podobnym odcieniu.
Jest to analiza, która bada stopień intensywności danej cechy w obiektach przestrzennych.
Do budowy współczynnika, który pozwoli sprawdzić czy sąsiadujące obiekty tworzą klastery o podobnych wartościach zmiennej, wykorzystujemy dwie informacje:
Uwaga!
Sąsiedztwo obiektów definiowane jest poprzez macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wag wygenerowaną wcześniej za pomocą menu Analiza przestrzenna
→ Narzędzia
→ Macierz wag przestrzennych
lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.
Uwaga!
Nie zaleca się przeprowadzania analizy Morana dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je, lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).
Współczynnik autokorelacji Morana – wprowadzony przez Morana w roku 19481).
By sprawdzić, czy wybrane obiekty są charakteryzowane przez podobne wartości zmiennej, można wykorzystać zasadę mnożenia mówiącą, że mnożenie 2 wartości tego samego znaku daje wynik pozytywny, a 2 różnych znaków wynik negatywny. Stosując tą zasadę wyliczamy . Niestety, ze względu na to, że efekty działania tej zasady są osiągane wtedy, gdy istnieją zarówno dodatnie jak i ujemne wartości, ta prosta formuła musi być zmodyfikowana tak, by zapewnić występowanie wartości różnych znaków. Wartości zmiennej zostaną więc zastąpione we wcześniejszym wzorze przez różnice wartości zmiennej i jej wartości średniej. W ten sposób obiekty o wartościach mniejszych niż średnia będą ujemne, a te o wartościach większych od średniej dodatnie: . Oczywiście sumowanie powinno dotyczyć sąsiednich obiektów, co oznacza, że musi być w tym miejscu wykorzystana informacja z macierzy wag: W ten sposób obiekty niesąsiadujące uzyskują wartość wagi równą 0, co powoduje, że ich wartości nie są sumowane. Dalsze zabiegi zmieniające uzyskaną w ten sposób formułę mają za zadanie uniezależnić uzyskany współczynnik od ilości analizowanych obiektów i wystandaryzować tak, by jego wartości były ograniczone do przedziału . W rezultacie współczynnik autokorelacji Morana wyraża się wzorem:
gdzie:
– liczba obiektów przestrzennych (liczba punktów lub wielokątów),
, – to wartości zmiennej dla porównywanych obiektów,
– to średnia wartość zmiennej dla wszystkich obiektów,
– elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),
,
– wariancja
Współczynnik autokorelacji liniowej Morana bada siłę związku liniowego pomiędzy standaryzowaną zmienną () a opóźnieniem przestrzennym zmiennej (). Opóźnienie przestrzenne (ang. spatial lag) jest średnią ważoną ze standaryzowanych wartości sąsiadujących obiektów:
Graficzną prezentacją autokorelacji przestrzennej jest wykres rozrzutu Morana. Punkty znajdujące się w ćwiartce pierwszej (HH) i trzeciej (LL), to obiekty otoczone przez podobnych sąsiadów: HH (wysokie-wysokie) – obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach; LL (niskie-niskie) – obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach. Punkty znajdujące się w ćwiartce drugiej (LH) i czwartej (HL) to obiekty otoczone przez sąsiadów do nich niepodobnych. LH (niskie-wysokie) – obiekty o niskich wartościach otoczone przez obiekty o wysokich wartościach; HL (wysokie-niskie) – obiekty o wysokich wartościach otoczone przez obiekty o niskich wartościach.
Przynależność i rozmieszczenie punktów w czterech ćwiartkach wykresu Morana wskazuje na rodzaj autokorelacji. Jeśli punkty rozłożone są głównie w ćwiartce drugiej (LH) i czwartej (HL) – świadczy to o ujemnej autokorelacji, gdy należą głównie do ćwiartki pierwszej (HH) i trzeciej (LL) – świadczy to o autokorelacji dodatniej. Gdy punkty rozkładają się równomiernie we wszystkich czterech ćwiartkach, wówczas autokorelacja przestrzenna nie istnieje.
Na wykresie Morana rysowana jest też linia regresji, której kierunek również pozwala na interpretację współczynnika Morana :
Kwadrat współczynnika Morana informuje o stopniu (jest to procent), w jakim wartość zmiennej w obiekcie jest tłumaczona przez wartość tej zmiennej w obiektach sąsiednich.
Uwaga!
Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej
Istotność współczynnika autokorelacji Morana
Test do sprawdzania istotności współczynnika autokorelacji Morana służy do weryfikacji hipotezy o braku autokorelacji pomiędzy a opóźnieniem przestrzennym .
Hipotezy:
Statystyka testowa ma postać:
gdzie:
– wartość oczekiwana,
– wariancja.
W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)2), oraz Goodchild (1986)3)).
Jeśli jest to rozkład normalny, wówczas:
gdzie:
,
.
Jeśli rozkład jest losowy, wówczas:
gdzie:
,
.
Statystyka ma asymptotycznie (dla dużych liczności) rozkład normalny.
Wartość , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności :
Okno z ustawieniami opcji analizy Morana
wywołujemy poprzez menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka globalna I Morana
.
Przykład (katalog: leukemia, plik: leukemia.pqs)
Analizie poddamy dane zebrane i przeanalizowane przez L.A. Wallera i innych w roku 19924) i 19945), opisane na 281 obiektach w roku 20046).
leukemia
zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York. Mapa została przygotowana w układzie współrzędnych prostokątnych płaskich UTM 18N, i bazuje na danych pliku BNA (Boundary File) dostępnego na serwerze CIESIN ftp.ciesin.columbia.eduleukemia
:CASES
– liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.POP
– liczność populacji w poszczególnych obiektach.prev
– współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5Interesujące z epidemiologicznego punktu widzenia są regiony, gdzie częstość występowania białaczki jest wyższa. Ich zgrupowanie bowiem, mogłoby wskazywać na istnienie w ich obrębie teratogenów środowiskowych, będących przyczyną zwiększonej częstości występowania białaczki.
Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie. W tym celu wyrysowujemy mapę w Menadżerze Map i edytujemy warstwę wybierając Stopniowanie kolorów
:
Mamy do dyspozycji kilka sposobów kolorowania mapy - tu wybieramy kolorowanie zgodnie z wartościami zmiennej prev
dzieląc ją na kwartyle:
Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. By dowiedzieć się, czy ich rozkład geograficzny jest losowy, czy tworzą one skupiska, wyliczymy współczynnik Morana. Przed wyliczeniem tego współczynnika należy zdecydować w jaki sposób definiowane będzie sąsiedztwo regionów i najlepiej utworzyć odpowiednią macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wygenerowaną wcześniej za pomocą menu Analiza przestrzenna
→ Narzędzia
→ Macierz wag przestrzennych
lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.
Po wygenerowaniu macierzy wag, zaznaczamy plik leukemia i przystępujemy do analizy Morana wybierając menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka globalna I Morana
. W oknie analizy wybieramy zmienną Prev
i standaryzowaną rzędami macierz sąsiedztwa Queen
, oraz zaznaczamy opcję Dołącz wykres
.
Współczynnik korelacji Morana uzyskany w analizie jest niewielki i wynosi :
Testując istotność współczynnika Morana, badamy losowość rozkładu współczynnika częstości białaczki na badanym obszarze. Sprawdzamy, czy podobne odcienie na mapie są ulokowane blisko siebie, czy też nie. Inaczej mówiąc: sprawdzamy czy szansa zachorowania na białaczkę w badanej populacji zależy od lokalizacji geograficznej czy też nie. Wartość wyliczona przy założeniu losowości, jak przy założeniu normalności jest większa niż standardowo przyjmowany poziom istotności 0.05, co oznacza brak dowodów na autokorelację. Przyjmujemy więc, że rozkład zmiennej prev
jest rozkładem losowym. Potwierdzeniem tego jest wykres Morana:
Istnienie dodatniej autokorelacji, którą jesteśmy najbardziej zainteresowani, skutkowałoby rozmieszczeniem punktów wykresu Morana w ćwiartce I i III. Tu widzimy jednak, że punkty znajdują się równie często w ćwiartce I i III jak w II i IV.
Podobnie jak analiza Morana statystyka globalna Gearego bada stopień intensywności danej cechy w obiektach przestrzennych.
Uwaga!
Nie zaleca się przeprowadzania analizy Gearego dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je (Rozdział Ograniczenie obszaru roboczego), lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).
Współczynnik autokorelacji Gearego – wprowadzony przez Gearego w roku 19547).
Jest jedną z możliwych alternatyw dla statystyki globalnej Morana. Podobnie jak analiza Morana bada ona stopień intensywności danej cech w obiektach przestrzennych opisanych za pomocą macierzy wag o elementach . Tym razem zamiast wyliczania sumy iloczynów : wyliczana jest suma kwadratów różnic:
W rezultacie współczynnik autokorelacji Gearego wyraża się wzorem:
gdzie:
– liczba obiektów przestrzennych (liczba punktów lub wielokątów),
, – to wartości zmiennej dla porównywanych obiektów,
– elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),
,
– wariancja,
– to średnia wartość zmiennej dla wszystkich obiektów.
Interpretacja współczynnika Gearego:
Uwaga!
Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej
Istotności współczynnika autokorelacji Gearego
Test do sprawdzania istotności współczynnika autokorelacji Gearego służy do weryfikacji hipotezy o braku autokorelacji przestrzennej.
Hipotezy:
Statystyka testowa ma postać:
gdzie:
– wartość oczekiwana,
– wariancja.
W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)8), oraz Goodchild (1986)9)). Jeśli jest to rozkład normalny, wówczas:
gdzie:
i zdefiniowane są jak dla analizy Morana.
Jeśli rozkład jest losowy, wówczas:
gdzie:
,
.
Statystyka ma asymptotycznie (dla dużych liczności) rozkład normalny.
Wartość , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności :
Okno z ustawieniami opcji analizy Gearego
wywołujemy poprzez menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka globalna C Gearego
.
Przykład c.d. (katalog: leukemia, plik: leukemia)
Analizie poddamy dane dotyczące białaczki.
leukemia
zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York. leukemia
:CASES
– liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.POP
– liczność populacji w poszczególnych obiektach.prev
– współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5Analiza globalna Morana wskazała na brak autokorelacji przestrzennej. Tym razem, by sprawdzić, czy na badanym obszarze północnej części stanu New York możliwe jest zlokalizowanie klasterów białaczki, wyliczymy globalną statystykę C Gearego.
Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie zgodnie z wartościami zmiennej prev
dzieląc ją na kwartyle:
Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. Współczynnik korelacji Gearego uzyskany w analizie wynosi: 0.884986.
Uzyskany rezultat przy założeniu losowego rozkładu danych jest różny od wyniku uzyskanego przy założeniu rozkładu normalnego. Może to świadczyć o niestabilności wyników i być wskazaniem do dalszych analiz opartych na zmiennych wygładzonych.