Statystyka globalna Gearego

Podobnie jak analiza Morana statystyka globalna Gearego bada stopień intensywności danej cechy w obiektach przestrzennych.

Uwaga!

Nie zaleca się przeprowadzania analizy Gearego dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je (Rozdział Ograniczenie obszaru roboczego), lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).

Współczynnik autokorelacji Gearego – wprowadzony przez Gearego w roku 19541).

Jest jedną z możliwych alternatyw dla statystyki globalnej Morana. Podobnie jak analiza Morana bada ona stopień intensywności danej cech $x_i$ w obiektach przestrzennych opisanych za pomocą macierzy wag o elementach $w_{ij}$. Tym razem zamiast wyliczania sumy iloczynów : $\sum\sum w_{ij}(x_i-\overline{x})(x_j-\overline{x})$ wyliczana jest suma kwadratów różnic:

\begin{displaymath}
\sum\sum w_{ij}(x_i-x_j)^2
\end{displaymath}

W rezultacie współczynnik autokorelacji Gearego wyraża się wzorem:

\begin{displaymath}
c=\frac{\sum_{i=1}^n\sum_{j=1}^nw_{ij}(x_i-x_j)^2}{2 S_0 sd^2}
\end{displaymath}

gdzie:

$n$ – liczba obiektów przestrzennych (liczba punktów lub wielokątów),

$x_i$, $x_j$ – to wartości zmiennej dla porównywanych obiektów,

$w_{ij}$ – elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),

$S_0=\sum_{i=1}^n\sum_{j=1}^nw_{ij}$,

$sd^2=\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n-1}$ – wariancja,

$\overline{x}$ – to średnia wartość zmiennej dla wszystkich obiektów.

Interpretacja współczynnika Gearego:

  • $c<1$ i $c \approx 0$ oznacza występowanie klasterów podobnych wartości – dodatnią autokorelację;
  • $c>1$ oznacza występowanie tzw. hot spots czyli zdecydowanie różnych wartości w obszarach sąsiedzkich – ujemną autokorelację;
  • $c \approx 1$ oznacza losowe rozłożenie się badanej wartości w przestrzeni – brak autokorelacji.

Uwaga!

Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej

Istotności współczynnika autokorelacji Gearego

Test do sprawdzania istotności współczynnika autokorelacji Gearego służy do weryfikacji hipotezy o braku autokorelacji przestrzennej.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & C = 1, \\
\mathcal{H}_1: & C \ne 1.
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
Z=\frac{C-E(C)}{\sqrt{var(C)}},
\end{displaymath}

gdzie:

$\displaystyle E(C)=1$ – wartość oczekiwana,

$\displaystyle var(C)$ – wariancja.

W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)2), oraz Goodchild (1986)3)). Jeśli jest to rozkład normalny, wówczas:

\begin{displaymath}
var(C)=\frac{(2S_1+S_2)(n-1)-4S_0^2}{2(n+1)S_0^2},
\end{displaymath}

gdzie:

$S_1$ i $S_2$ zdefiniowane są jak dla analizy Morana.

Jeśli rozkład jest losowy, wówczas:

$var(CS)=\frac{(n-1)S_1\left(n^2-3n+3-(n-1)b_2\right)-(n-1)S_2\left(n^2+3n-6-(n^2-n+2)b_2\right)\frac{1}{4}+S_0^2\left(n^2-3-(n-1)^2b_2\right)}{n(n-2)^{(2)}S_0^2},$

gdzie:

$b_2=\frac{\frac{1}{n}\sum_{i=1}^n\left(x_i-\overline{x}\right)^4}{\left(\frac{1}{n}\sum_{i=1}^n\left(x_i-\overline{x}\right)^2\right)^2}$,

$n^{(b)}=n(n-1)(n-2)...(n-b+1)$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$, wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji analizy Gearego wywołujemy poprzez menu Analiza przestrzennaStatystyki przestrzenneStatystyka globalna C Gearego.

Przykład c.d. (katalog: leukemia, plik: leukemia)

Analizie poddamy dane dotyczące białaczki.

  • Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York.
  • Dane do mapy leukemia:
    • Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
    • Kolumna POP – liczność populacji w poszczególnych obiektach.
    • Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Analiza globalna Morana wskazała na brak autokorelacji przestrzennej. Tym razem, by sprawdzić, czy na badanym obszarze północnej części stanu New York możliwe jest zlokalizowanie klasterów białaczki, wyliczymy globalną statystykę C Gearego.

Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie zgodnie z wartościami zmiennej prev dzieląc ją na kwartyle:

Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. Współczynnik korelacji Gearego uzyskany w analizie wynosi: 0.884986.

Uzyskany rezultat przy założeniu losowego rozkładu danych jest różny od wyniku uzyskanego przy założeniu rozkładu normalnego. Może to świadczyć o niestabilności wyników i być wskazaniem do dalszych analiz opartych na zmiennych wygładzonych.

1)
Geary R.C. (1954), The Contiguity Ratio and Statistical Mapping. The Incorporated Statistician, 5, 115-45
2)
Cliff A.D., Ord J.K. (1981), Spatial Processes: Models and Applications. Pion: London
3)
Goodchild M.F. (1986), Spatial Autocorrelation, CATMOG 47, Geobooks: Norwich UK

Narzędzia witryny