Statystyka lokalna Getisa i Orda (Getis i Ord 1992 Ordi Getis 1995) umożliwia wykrywanie lokalnej koncentracji wartości wysokich i niskich w sąsiadujących obiektach oraz bada istotność statystyczną tej zależności. Getis i Ord zdefiniował również bliźniaczą do
statystykę
, która różni się od
jedynie tym, że obiekt dla którego wykonuje się badanie również bierze udział w analizie. W macierzy wag jest więc zdefiniowane dla niego sąsiedztwo z samym sobą tzw. potencjał (wartości na przekątnej są większe od 0).
Lokalny współczynnik autokorelacji Getisa i Orda
Lokalna postać współczynnika Getisa i Orda dla obserwacji
określona jest wzorem:
Współczynnik zdefiniowany jest tym samym wzorem, lecz obliczenia przeprowadzane są również dla obiektu badanego czyli obiektu, dla którego indeksy
oraz
są sobie równe.
Ponieważ współczynnik bazuje na ilorazie dwóch sum wartości obiektów (), dla poprawnej interpretacji współczynnika ważne jest by analizowane zjawisko opisane było za pomocą liczb dodatnich. Interpretacja lokalnego współczynnika Getisa i Orda, podobnie jak lokalnego współczynnika Morana, w znacznym stopniu zależy od wybranej macierzy wag (zaleca się standaryzację macierzy rzędami do jedynki). Wysokie wartości współczynnika
lub
świadczą o skoncentrowaniu obiektów o wysokich wartościach analizowanego zjawiska, natomiast wartości niskie świadczą o skupisku obiektów o niskich wartościach. Gdy wartości są bliskie wartości oczekiwanej, wówczas rozkład badanej wartości w przestrzeni jest losowy.
Wartość oczekiwana określona jest wzorem:
Istotność współczynnika Getisa i Orda
Testując istotność statystyczną związku między sąsiadującymi obiektami bada się hipotezy:
Statystyka testowa ma postać:
gdzie:
i
- średnia zmiennej
,
i
- wariancja zmiennej
.
Statystyka ma asymptotycznie (dla dużych liczności) rozkład normalny.
Wartość , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności
:
Ze względu na problem braku niezależności współczynników wyliczanych dla sąsiednich obiektów sugeruje się stosowanie skorygowanego poziomu istotności . Proponowane poprawki to: poprawka Bonferroniego:
lub Sidaka:
, gdzie
jest średnią liczbą sąsiadów.
Warstwy mapy
Kombinacja informacji z wielkości statystyki testowej oraz jej istotności przedstawia na mapie tzw. reżimy przestrzenne:
Okno z ustawieniami opcji lokalnej analizy Getisa i Orda
wywołujemy poprzez menu Analiza przestrzenna
→ Statystyki przestrzenne
→ Statystyka lokalna <latex>$G_i$</latex> Getisa i Orda
.
Przykład c.d. (katalog: leukemia, plik: leukemia)
Analizie poddamy dane dotyczące białaczki.
leukemia
zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York.leukemia
:CASES
– liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.POP
– liczność populacji w poszczególnych obiektach.prev
– współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5Analiza globalna nie dała jednoznacznego rozstrzygnięcia co do występowania autokorelacji przestrzennej. Sprawdzimy więc, czy uda się znaleźć regiony, gdzie częstość występowania białaczki jest nieprzeciętnie wyższa.
By zlokalizować skupiska białaczki wyliczymy współczynnik oraz
. Do analizy wykorzystamy zmienną
prev
oraz proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami (by wykorzystać inną macierz należy ją najpierw wygenerować - patrz rozdział: Macierz wag przestrzennych). Wybieramy również jedną z poprawek poziomu istotności.
Uzyskany raport przedstawia wartości lokalnych współczynników, wartości statystyki testowej oraz odpowiadające im wartości prawdopodobieństwa testowego. Znajdziemy tu również informacje o ilości rejonów wyznaczających reżimy przestrzenne (High-High, Low-Low).
Do analizy przypisany jest także wynik, który możemy wyrysować na mapie (przycisk ) - są to reżimy przestrzenne opisane w raporcie poprzez kolumnę kolor.
Udało się zlokalizować 3 skupiska (6 regionów spisowych w analizie współczynnika i 4 regiony w analizie współczynnika
) gdzie częstość występowania białaczki jest istotnie wyższa. Są to centra klasterów wysokich wartości białaczki oznaczone na mapie kolorem czerwonym.
Uzyskane wyniki możemy dodatkowo zobrazować kolorując mapę wartościami lokalnego współczynnika Getisa i Orda lub też wartościami statystyki testowej bądź wartościami . Wystarczy jedynie wcześniej przekopiować odpowiednie kolumny z raportu do arkusza danych. W tym przykładzie do kolorowania wykorzystamy wartości statystyki testowej
. Po wklejeniu jej do pustej kolumny arkusza danych, w menadżerze map kolorujemy mapę bazową zgodnie z wartościami tej kolumny wybierając odchylenie standardowe o współczynniku 3 jako sposób gradacji kolorów. Dodatnie i wysokie wartości statystyki
świadczą o skoncentrowaniu obiektów o wysokich wartościach, wartości ujemne i niskie - obiektów o niskich wartościach, a wartości bliskie zeru wskazują na losowy rozkład badanej zmiennej w przestrzeni.
Analizując wygładzoną zmienną prev
wzmacniamy efekt klasteryzacji. Uzyskujemy podobny rezultat, czyli 3 skupiska (15 regionów spisowych w analizie współczynnika i 9 regionów w analizie współczynnika
) będące centrami klasterów.