Spis treści

Autokorelacja przestrzenna
- Statystyka globalna Morana
- Statystyka globalna Gearego

Autokorelacja przestrzenna

By przeprowadzić analizę autokorelacji powinniśmy dysponować danymi mapy zawierającej obiekty typu: punkt, wielopunkt lub wielokąt. W przypadku analizy wielokątów bazujących na odległościach obiektów obliczenia oparte są na centroidach, a przypadku wielopunktów na centrach obiektów.

Analiza zjawiska autokorelacji przestrzennej opiera się na wartościach przypisanych obiektom przestrzennym. Autokorelacja przestrzenna oznacza, że wartości obiektów bliskich geograficznie są bardziej podobne do siebie niż tych odległych. Zjawisko to powoduje tworzenie się klasterów przestrzennych o wartościach podobnych.

Autokorelacja przestrzenna może nie występować – mówimy wówczas o przestrzennej losowości. Uzyskany rozkład przestrzenny jest tak samo prawdopodobny jak w każdy inny rozkład. Gdy wartości sąsiednie są sobie podobne, to możemy mówić o występowaniu autokorelacji dodatniej. Ujemna autokorelacja występuje wówczas, gdy wartości obszarów sąsiednich są bardziej różne niż mogłoby to wynikać z rozkładu losowego.

$\begin{tabular}{|c|c|c|c|c|c|c|c|} \hline \multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \end{tabular}$ $\begin{tabular}{|c|c|c|c|c|c|c|c|} \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \end{tabular}$ $\begin{tabular}{|c|c|c|c|c|c|c|c|} \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i&\textcolor[rgb]{1,1,1}i\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \multicolumn{1}{| >{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}&\multicolumn{1}{>{\columncolor[rgb]{0.8,0.8,0.8}}l|}{\textcolor[rgb]{0.8,0.8,0.8}i}\\ \hline \end{tabular}$

$\begin{pspicture}(1,-1)(12.5,0) \psline[linewidth=3pt]{<->}(-0.7,-0.5)(14,-0.5) \rput(1.2,-1){autokorelacja ujemna} \rput(6.6,-1){brak autokorelacji} \rput(12.2,-1){autokorelacja dodatnia} \end{pspicture}$

Analizując autokorelację możemy rozważać zmienną dychotomiczną (tzn. występowanie lub brak danej cechy) lub zmienną o wielu kategoriach wskazującą na stopień intensywności analizowanej cechy.

Dla zmiennej dychotomicznej analiza dodatniej autokorelacji polega na wyszukiwaniu skupisk jednakowych wartości. Na płaszczyźnie mapy zwykle obiekty, w których występuje badane zjawisko oznaczone są kolorem czarny a jego brak kolorem białym. Wyszukiwane są skupiska obiektów o takim samym kolorze tzw. „black-black”,„white-white”.

Dla zmiennej opisującej stopień intensywności badanej cechy, analiza dodatniej autokorelacji polega na wyszukiwaniu skupisk podobnych wartości. Na płaszczyźnie mapy zwykle obiekty kolorowane są zgodnie ze stopniem nasilenia badanego zjawiska od najjaśniejszych (niskich wartości) do najciemniejszych (wysokich wartości) . Wyszukiwane są skupiska obiektów o podobnym odcieniu.

Statystyka globalna Morana

Jest to analiza, która bada stopień intensywności danej cechy w obiektach przestrzennych.

Do budowy współczynnika, który pozwoli sprawdzić czy sąsiadujące obiekty tworzą klastery o podobnych wartościach zmiennej, wykorzystujemy dwie informacje:

informacje o wartościach zmiennej dla poszczególnych obiektów $x_i$ ,
informacje o tym, które obiekty sąsiadują – macierz wag o elementach $w_{ij}$ .

Uwaga!

Sąsiedztwo obiektów definiowane jest poprzez macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wag wygenerowaną wcześniej za pomocą menu Analiza przestrzenna → Narzędzia → Macierz wag przestrzennych lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.

Uwaga!

Nie zaleca się przeprowadzania analizy Morana dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je, lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).

Współczynnik autokorelacji Morana – wprowadzony przez Morana w roku 1948¹⁾.

By sprawdzić, czy wybrane obiekty są charakteryzowane przez podobne wartości zmiennej, można wykorzystać zasadę mnożenia mówiącą, że mnożenie 2 wartości tego samego znaku daje wynik pozytywny, a 2 różnych znaków wynik negatywny. Stosując tą zasadę wyliczamy $\sum\sum x_ix_j$ . Niestety, ze względu na to, że efekty działania tej zasady są osiągane wtedy, gdy istnieją zarówno dodatnie jak i ujemne wartości, ta prosta formuła musi być zmodyfikowana tak, by zapewnić występowanie wartości różnych znaków. Wartości zmiennej zostaną więc zastąpione we wcześniejszym wzorze przez różnice wartości zmiennej i jej wartości średniej. W ten sposób obiekty o wartościach mniejszych niż średnia będą ujemne, a te o wartościach większych od średniej dodatnie: $\sum\sum(x_i-\overline{x})(x_j-\overline{x})$ . Oczywiście sumowanie powinno dotyczyć sąsiednich obiektów, co oznacza, że musi być w tym miejscu wykorzystana informacja z macierzy wag: $\begin{displaymath} \sum\sum w_{ij}(x_i-\overline{x})(x_j-\overline{x}) \end{displaymath}$ W ten sposób obiekty niesąsiadujące uzyskują wartość wagi równą 0, co powoduje, że ich wartości nie są sumowane. Dalsze zabiegi zmieniające uzyskaną w ten sposób formułę mają za zadanie uniezależnić uzyskany współczynnik $I$ od ilości analizowanych obiektów i wystandaryzować tak, by jego wartości były ograniczone do przedziału $<-1; 1>$ . W rezultacie współczynnik autokorelacji Morana wyraża się wzorem:

$\begin{displaymath} I=\frac{\sum_{i=1}^n\sum_{j=1}^nw_{ij}\left(x_i-\overline{x}\right)\left(x_j-\overline{x}\right)}{S_0\sigma^2} \end{displaymath}$

gdzie:

$n$ – liczba obiektów przestrzennych (liczba punktów lub wielokątów),

$x_i$ , $x_j$ – to wartości zmiennej dla porównywanych obiektów,

$\overline{x}$ – to średnia wartość zmiennej dla wszystkich obiektów,

$w_{ij}$ – elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),

$S_0=\sum_{i=1}^n\sum_{j=1}^nw_{ij}$ ,

$\sigma^2=\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n}$ – wariancja

Współczynnik autokorelacji liniowej Morana $I$ bada siłę związku liniowego pomiędzy standaryzowaną zmienną $X$ ( $stand(x_i)$ ) a opóźnieniem przestrzennym zmiennej $X$ ( $L(x_i)$ ). Opóźnienie przestrzenne (ang. spatial lag) jest średnią ważoną ze standaryzowanych wartości sąsiadujących obiektów:

$\begin{displaymath} L(x_i)=\sum_{j=1}^Nw_{ij}stand(x_j). \end{displaymath}$

Graficzną prezentacją autokorelacji przestrzennej jest wykres rozrzutu Morana. Punkty znajdujące się w ćwiartce pierwszej (HH) i trzeciej (LL), to obiekty otoczone przez podobnych sąsiadów: HH (wysokie-wysokie) – obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach; LL (niskie-niskie) – obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach. Punkty znajdujące się w ćwiartce drugiej (LH) i czwartej (HL) to obiekty otoczone przez sąsiadów do nich niepodobnych. LH (niskie-wysokie) – obiekty o niskich wartościach otoczone przez obiekty o wysokich wartościach; HL (wysokie-niskie) – obiekty o wysokich wartościach otoczone przez obiekty o niskich wartościach.

$\begin{pspicture}(-4,-3.6)(10,4.5) \psline{->}(-4,0)(4,0) \psline{->}(0,-3.5)(0,4) \rput(1.5,1.5){\textcolor{red}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{HH}}}} \rput(-1.5,1.5){\textcolor[rgb]{0.2,0.8,0.8}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{LH}}}} \rput(-1.5,-1.5){\textcolor[rgb]{0,0,1}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{LL}}}} \rput(1.5,-1.5){\textcolor[rgb]{1,0.36,0.36}{\textbf{\colorbox[rgb]{0.82,0.82,0.82}{HL}}}} \psdot[dotsize=3pt](1.5,-0.6) \psdot[dotsize=3pt](0.8,0) \psdot[dotsize=3pt](1.1,0.2) \psdot[dotsize=3pt](2,-1.6) \psdot[dotsize=3pt](1.3,0) \psdot[dotsize=3pt](-1.6,1.9) \psdot[dotsize=3pt](-1.2,-1) \psdot[dotsize=3pt](1.3,0.5) \psdot[dotsize=3pt](1,0.6) \psdot[dotsize=3pt](0.2,-1.6) \psdot[dotsize=3pt](-0.6,0.2) \psdot[dotsize=3pt](-0.8,-1) \psdot[dotsize=3pt](1.9,0.7) \psdot[dotsize=3pt](1.8,-1.2) \psdot[dotsize=3pt](-1.8,-1) \psdot[dotsize=3pt](1.4,0.8) \psdot[dotsize=3pt](-0.6,-1.8) \psdot[dotsize=3pt](1.1,0.3) \psdot[dotsize=3pt](0.1,-1) \psdot[dotsize=3pt](-1.7,-1) \psdot[dotsize=3pt](1,-0.2) \psdot[dotsize=3pt](-0.4,-1.3) \psdot[dotsize=3pt](-1.1,-0.2) \psdot[dotsize=3pt](-0.1,-0.3) \psdot[dotsize=3pt](0.9,-0.9) \psdot[dotsize=3pt](-0.1,0.5) \psdot[dotsize=3pt](2,1.9) \psdot[dotsize=3pt](-1.5,-1) \psdot[dotsize=3pt](-1.5,1.1) \psdot[dotsize=3pt](0.6,-0.6) \psline[linewidth=1.8pt,linecolor=green](-2.5,-1)(2.5,1) \end{pspicture}$

Przynależność i rozmieszczenie punktów w czterech ćwiartkach wykresu Morana wskazuje na rodzaj autokorelacji. Jeśli punkty rozłożone są głównie w ćwiartce drugiej (LH) i czwartej (HL) – świadczy to o ujemnej autokorelacji, gdy należą głównie do ćwiartki pierwszej (HH) i trzeciej (LL) – świadczy to o autokorelacji dodatniej. Gdy punkty rozkładają się równomiernie we wszystkich czterech ćwiartkach, wówczas autokorelacja przestrzenna nie istnieje.

Na wykresie Morana rysowana jest też linia regresji, której kierunek również pozwala na interpretację współczynnika Morana $I$ :

$I>0$ oznacza występowanie klasterów podobnych wartości – dodatnią autokorelację, tj. punkty pomiarowe leżą blisko linii prostej a wzrostowi zmiennej $standX$ odpowiada wzrost zmiennej $L(X)$ ;

$I<0$ oznacza występowanie tzw. hot spots czyli zdecydowanie różnych wartości w obszarach sąsiedzkich – ujemną autokorelację, tj. punkty pomiarowe leżą blisko linii prostej, lecz wzrostowi zmiennej $standX$ odpowiada spadek $L(X)$ ;

$I \approx 0$ oznacza losowe rozłożenie się badanej wartości w przestrzeni – brak autokorelacji, tj. uzyskany rozkład przestrzenny jest tak samo prawdopodobny jak każdy inny rozkład.

Kwadrat współczynnika Morana $I^2$ informuje o stopniu (jest to procent), w jakim wartość zmiennej w obiekcie $i$ jest tłumaczona przez wartość tej zmiennej w obiektach sąsiednich.

Uwaga!

Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej

Istotność współczynnika autokorelacji Morana

Test do sprawdzania istotności współczynnika autokorelacji Morana służy do weryfikacji hipotezy o braku autokorelacji pomiędzy $standX$ a opóźnieniem przestrzennym $L(X)$ .

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & I = 0, \\ \mathcal{H}_1: & I \ne 0. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} Z=\frac{I-E(I)}{\sqrt{var(I)}}, \end{displaymath}$

gdzie:

$\displaystyle E(I)=\frac{-1}{n-1}$ – wartość oczekiwana,

$\displaystyle var(I)$ – wariancja.

W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)²⁾, oraz Goodchild (1986)³⁾).

Jeśli jest to rozkład normalny, wówczas:

$\begin{displaymath} var(I)=\frac{n^2S_1-nS_2+3S_0^2}{S_0^2(n^2-1)}-E(I)^2, \end{displaymath}$

gdzie:

$S_1=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\left(w_{ij}+w_{ji}\right)^2$ ,

$S_2=\sum_{i=1}^n\left(\sum_{j=1}^nw_{ij}+\sum_{j=1}^nw_{ji}\right)^2$ .

Jeśli rozkład jest losowy, wówczas:

$\begin{displaymath} var(I)=\frac{n\left((n^2-3n+3)S_1-nS_2+3S_0^2\right)}{(n-1)^{(3)}S_0^2}-\frac{K_2\left((n^2-n)S_1-2nS_2+6S_0^2\right)}{(n-1)^{(3)}S_0^2}-E(I)^2, \end{displaymath}$

gdzie:

$K_2=\frac{n\sum_{i=1}^n\left(x_i-\overline{x}\right)^4}{\left(\sum_{i=1}^n\left(x_i-\overline{x}\right)^2\right)^2}$ ,

$n^{(b)}=n(n-1)(n-2)...(n-b+1)$ .

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$ , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji analizy Morana wywołujemy poprzez menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka globalna I Morana.

Przykład (katalog: leukemia, plik: leukemia.pqs)

Analizie poddamy dane zebrane i przeanalizowane przez L.A. Wallera i innych w roku 1992⁴⁾ i 1994⁵⁾, opisane na 281 obiektach w roku 2004⁶⁾.

Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York. Mapa została przygotowana w układzie współrzędnych prostokątnych płaskich UTM 18N, i bazuje na danych pliku BNA (Boundary File) dostępnego na serwerze CIESIN ftp.ciesin.columbia.edu

Dane do mapy leukemia:
- Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
- Kolumna POP – liczność populacji w poszczególnych obiektach.
- Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Interesujące z epidemiologicznego punktu widzenia są regiony, gdzie częstość występowania białaczki jest wyższa. Ich zgrupowanie bowiem, mogłoby wskazywać na istnienie w ich obrębie teratogenów środowiskowych, będących przyczyną zwiększonej częstości występowania białaczki.

Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie. W tym celu wyrysowujemy mapę w Menadżerze Map i edytujemy warstwę wybierając Stopniowanie kolorów:

Mamy do dyspozycji kilka sposobów kolorowania mapy - tu wybieramy kolorowanie zgodnie z wartościami zmiennej prev dzieląc ją na kwartyle:

Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. By dowiedzieć się, czy ich rozkład geograficzny jest losowy, czy tworzą one skupiska, wyliczymy współczynnik Morana. Przed wyliczeniem tego współczynnika należy zdecydować w jaki sposób definiowane będzie sąsiedztwo regionów i najlepiej utworzyć odpowiednią macierz wag. W oknie analizy Morana możemy wybrać dowolną macierz wygenerowaną wcześniej za pomocą menu Analiza przestrzenna → Narzędzia → Macierz wag przestrzennych lub wskazać proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami.

Po wygenerowaniu macierzy wag, zaznaczamy plik leukemia i przystępujemy do analizy Morana wybierając menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka globalna I Morana. W oknie analizy wybieramy zmienną Prev i standaryzowaną rzędami macierz sąsiedztwa Queen, oraz zaznaczamy opcję Dołącz wykres.

Współczynnik korelacji Morana uzyskany w analizie jest niewielki i wynosi $I=0.048577$ :

Testując istotność współczynnika Morana, badamy losowość rozkładu współczynnika częstości białaczki na badanym obszarze. Sprawdzamy, czy podobne odcienie na mapie są ulokowane blisko siebie, czy też nie. Inaczej mówiąc: sprawdzamy czy szansa zachorowania na białaczkę w badanej populacji zależy od lokalizacji geograficznej czy też nie. Wartość $p$ wyliczona przy założeniu losowości, jak przy założeniu normalności jest większa niż standardowo przyjmowany poziom istotności 0.05, co oznacza brak dowodów na autokorelację. Przyjmujemy więc, że rozkład zmiennej prev jest rozkładem losowym. Potwierdzeniem tego jest wykres Morana:

Istnienie dodatniej autokorelacji, którą jesteśmy najbardziej zainteresowani, skutkowałoby rozmieszczeniem punktów wykresu Morana w ćwiartce I i III. Tu widzimy jednak, że punkty znajdują się równie często w ćwiartce I i III jak w II i IV.

2014/08/19 15:42 · admin

Statystyka globalna Gearego

Podobnie jak analiza Morana statystyka globalna Gearego bada stopień intensywności danej cechy w obiektach przestrzennych.

Uwaga!

Nie zaleca się przeprowadzania analizy Gearego dla obiektów nie posiadających sąsiedztwa (obiektów opisanych w macierzy wag wyłącznie wartością 0). Obiekty takie można wykluczyć z analizy dezaktywując je (Rozdział Ograniczenie obszaru roboczego), lub przeprowadzić analizę wybierając inny sposób definiowania sąsiedztwa (inną macierz wag).

Współczynnik autokorelacji Gearego – wprowadzony przez Gearego w roku 1954⁷⁾.

Jest jedną z możliwych alternatyw dla statystyki globalnej Morana. Podobnie jak analiza Morana bada ona stopień intensywności danej cech $x_i$ w obiektach przestrzennych opisanych za pomocą macierzy wag o elementach $w_{ij}$ . Tym razem zamiast wyliczania sumy iloczynów : $\sum\sum w_{ij}(x_i-\overline{x})(x_j-\overline{x})$ wyliczana jest suma kwadratów różnic:

$\begin{displaymath} \sum\sum w_{ij}(x_i-x_j)^2 \end{displaymath}$

W rezultacie współczynnik autokorelacji Gearego wyraża się wzorem:

$\begin{displaymath} c=\frac{\sum_{i=1}^n\sum_{j=1}^nw_{ij}(x_i-x_j)^2}{2 S_0 sd^2} \end{displaymath}$

gdzie:

$n$ – liczba obiektów przestrzennych (liczba punktów lub wielokątów),

$x_i$ , $x_j$ – to wartości zmiennej dla porównywanych obiektów,

$w_{ij}$ – elementy przestrzennej macierzy wag (macierz wag standaryzowana rzędami do jedynki),

$S_0=\sum_{i=1}^n\sum_{j=1}^nw_{ij}$ ,

$sd^2=\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n-1}$ – wariancja,

$\overline{x}$ – to średnia wartość zmiennej dla wszystkich obiektów.

Interpretacja współczynnika Gearego:

$c<1$ i $c \approx 0$ oznacza występowanie klasterów podobnych wartości – dodatnią autokorelację;
$c>1$ oznacza występowanie tzw. hot spots czyli zdecydowanie różnych wartości w obszarach sąsiedzkich – ujemną autokorelację;
$c \approx 1$ oznacza losowe rozłożenie się badanej wartości w przestrzeni – brak autokorelacji.

Uwaga!

Gdy wartości badanej cechy charakteryzuje duża zmienność wariancji, wówczas pożądane jest jej ustabilizowanie. Podstawowe informacje na temat wygładzania zmiennych zostały opisane w rozdziale Wygładzanie przestrzenne zmiennej

Istotności współczynnika autokorelacji Gearego

Test do sprawdzania istotności współczynnika autokorelacji Gearego służy do weryfikacji hipotezy o braku autokorelacji przestrzennej.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & C = 1, \\ \mathcal{H}_1: & C \ne 1. \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} Z=\frac{C-E(C)}{\sqrt{var(C)}}, \end{displaymath}$

gdzie:

$\displaystyle E(C)=1$ – wartość oczekiwana,

$\displaystyle var(C)$ – wariancja.

W zależności od założenia dotyczącego rozkładu populacji, z której pochodzi próba, wybierany jest sposób wyznaczania wariancji (Cliff i Ord (1981)⁸⁾, oraz Goodchild (1986)⁹⁾). Jeśli jest to rozkład normalny, wówczas:

$\begin{displaymath} var(C)=\frac{(2S_1+S_2)(n-1)-4S_0^2}{2(n+1)S_0^2}, \end{displaymath}$

gdzie:

$S_1$ i $S_2$ zdefiniowane są jak dla analizy Morana.

Jeśli rozkład jest losowy, wówczas:

$var(CS)=\frac{(n-1)S_1\left(n^2-3n+3-(n-1)b_2\right)-(n-1)S_2\left(n^2+3n-6-(n^2-n+2)b_2\right)\frac{1}{4}+S_0^2\left(n^2-3-(n-1)^2b_2\right)}{n(n-2)^{(2)}S_0^2},$

gdzie:

$b_2=\frac{\frac{1}{n}\sum_{i=1}^n\left(x_i-\overline{x}\right)^4}{\left(\frac{1}{n}\sum_{i=1}^n\left(x_i-\overline{x}\right)^2\right)^2}$ ,

$n^{(b)}=n(n-1)(n-2)...(n-b+1)$ .

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$ , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji analizy Gearego wywołujemy poprzez menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka globalna C Gearego.

Przykład c.d. (katalog: leukemia, plik: leukemia)

Analizie poddamy dane dotyczące białaczki.

Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York.
Dane do mapy leukemia:
- Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
- Kolumna POP – liczność populacji w poszczególnych obiektach.
- Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Analiza globalna Morana wskazała na brak autokorelacji przestrzennej. Tym razem, by sprawdzić, czy na badanym obszarze północnej części stanu New York możliwe jest zlokalizowanie klasterów białaczki, wyliczymy globalną statystykę C Gearego.

Zaczynamy od przedstawienia rozkładu geograficznego współczynnika częstości (prev) na mapie zgodnie z wartościami zmiennej prev dzieląc ją na kwartyle:

Kolory ciemne na mapie obrazują miejsca o wyższym współczynniku częstości białaczki, miejsca jasne to niski współczynnik. Współczynnik korelacji Gearego uzyskany w analizie wynosi: 0.884986.

Uzyskany rezultat przy założeniu losowego rozkładu danych jest różny od wyniku uzyskanego przy założeniu rozkładu normalnego. Może to świadczyć o niestabilności wyników i być wskazaniem do dalszych analiz opartych na zmiennych wygładzonych.

2014/08/19 15:43 · admin

¹⁾

Moran P.A.P. (1947), The Interpretation of Statistical Maps. Journal of the Royal Statistical Society, B10, 243-51

²⁾ , ⁸⁾

Cliff A.D., Ord J.K. (1981), Spatial Processes: Models and Applications. Pion: London

³⁾

Goodchild M.F (1986), Spatial Autocorrelation, CATMOG 47, Geobooks: Norwich UK

⁴⁾

Waller L.A., Turnbull B.W., Clark L.C., Nasca P. (1992), Chronic disease surveillance and testing of clustering of disease and exposure : Application to leukemia incidence and TCE-contaminated dumpsites in upstate New York. Environmetrics, 3, 281-300

⁵⁾

Waller L.A., Turnbull B.W., Clark, L.C., Nasca P. (1994), Spatial pattern analyses to detect rare disease clusters, in Case Studies in Biometry, N. Lange, et al., Editors. , John Wiley and Sons: New York, 3-23

⁶⁾

Waller L.A., Gotway C.A. (2004), Applied Spatial Statistics for Public Health Data. New York: John Wiley and Sons

⁷⁾

Geary R.C. (1954), The Contiguity Ratio and Statistical Mapping. The Incorporated Statistician, 5, 115-45

⁹⁾

Goodchild M.F. (1986), Spatial Autocorrelation, CATMOG 47, Geobooks: Norwich UK

PQStat - Baza Wiedzy

Pasek boczny

Spis treści

Autokorelacja przestrzenna

Statystyka globalna Morana

Statystyka globalna Gearego

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Autokorelacja przestrzenna

Statystyka globalna Morana

Statystyka globalna Gearego

Narzędzia strony