Spis treści

Statystyki lokalne i wyszukiwanie klasterów

Statystyki lokalne i wyszukiwanie klasterów

W analizie lokalnej staramy się zdefiniować klastery poprzez ich lokalizację rozmiar i intensywność. Klaster rozumiany jest tu jako ograniczone skupisko obiektów o pewnej intensywności zlokalizowane w przestrzeni i/lub czasie, dla którego przypadkowe pojawienie się jest bardzo mało prawdopodobne. Jeśli więc zidentyfikujemy skupisko, które nie jest dziełem przypadku - a zatem istotny statystycznie klaster, wówczas możemy dociekać przyczyn jego powstania.

Statystyka lokalna I Morana

Lokalna wersja statystyki Morana jest najbardziej popularną analizą określaną jako LISA (Local Indicators of Spatial Association) (Luc Anselin 1995¹⁾). W odróżnieniu od globalnej statystyki Morana wyznacza ona lokalną autokorelację przestrzenną, a zatem określa podobieństwo jednostki przestrzennej wobec sąsiadów i bada istotność statystyczną tej zależności.

Lokalny współczynnik autokorelacji Morana

Lokalna postać współczynnika $I$ Morana dla obserwacji $i$ określona jest wzorem:

$\begin{displaymath} I_i=\frac{\left(x_i-\overline{x}\right)\sum_{j=1}^nw_{ij}\left(x_j-\overline{x}\right)}{\sigma^2} \end{displaymath}$

gdzie:

$n$ – liczba obiektów przestrzennych (liczba punktów lub wielokątów),

$x_i$ , $x_j$ – to wartości zmiennej dla porównywanych obiektów,

$\overline{x}$ – to średnia wartość zmiennej dla wszystkich obiektów,

$w_{ij}$ – elementy przestrzennej macierzy wag (zalecana jest macierz standaryzowana rzędami do jedynki),

$\sigma^2=\frac{\sum_{i=1}^n\left(x_i-\overline{x}\right)^2}{n-1}$ – wariancja

Interpretacja lokalnego współczynnika Morana jest analogiczna do jego globalnego odpowiednika jednak w znacznym stopniu zależy od wybranej macierzy wag. Najczęściej wagi niezerowe są przypisywane tylko do obiektów sąsiadujących, w rezultacie współczynnik lokalny określa podobieństwo jedynie obiektów znajdujących się w strefie sąsiedztwa. Standaryzacja rzędami do jedynki ułatwia natomiast porównywanie wartości współczynników uzyskanych dla różnych obiektów, gdyż wartość oczekiwana dla każdego współczynnika jest wówczas taka sama.

Wysokie wartości współczynnika wskazują na występowanie klasterów podobnych wartości, niskie - na występowanie tzw. hot spots, a wartości bliskie wartości oczekiwanej $E(I_i)$ na losowy rozkład badanej zmiennej w przestrzeni.

Wartość oczekiwana określona jest wzorem:

$\begin{displaymath} E(I_i)=\frac{-\sum_{j=1}^nw_{ij}}{n-1} \end{displaymath}$

Istotność współczynnika autokorelacji Morana

Testując istotność statystyczną związku między sąsiadującymi obiektami bada się hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & I_i = E(I_i), \\ \mathcal{H}_1: & I_i \ne E(I_i). \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} Z_i=\frac{I_i-E(I_i)}{\sqrt{var(I_i)}}, \end{displaymath}$

gdzie:

$\displaystyle var(I_i)=\frac{w_{i(2)}(n-b_2)}{n-1}+\frac{2w_{i(kh)}(2b_2-n)}{(n-1)(n-2)}-\frac{\left(\sum_{j=1}^nw_{ij}\right)^2}{(n-1)^2}$ – wariancja w rozkładzie losowym,

$b_2=\frac{(n-1)\sum_{i=1}^n\left(x_i-\overline{x}\right)^4}{\left(\sum_{i=1}^n\left(x_i-\overline{x}\right)^2\right)^2}$ ,

$w_{i(2)}$ – suma kwadratu wag dla wiersza $i$ ,

$2w_{i(kh)}$ - suma możliwych iloczynów wag dla wiersza $i$ po wykluczeniu iloczynów o tych samych indeksach.

Statystyka $Z_i$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$ , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Ze względu na problem braku niezależności współczynników wyliczanych dla sąsiednich obiektów sugeruje się stosowanie skorygowanego poziomu istotności $\alpha$ . Proponowane poprawki to: poprawka Bonferroniego: $\alpha_1=\alpha/k$ lub Sidaka: $\alpha_1=1-(1-\alpha)^{1/k}$ , gdzie $k$ jest średnią liczbą sąsiadów.

Warstwy mapy

Kombinacja informacji z wykresu punktowego Morana (podział obiektów na High-High, Low-Low, Low-High, High-Low) i z istotności statystyki lokalnej Morana przedstawia na mapie tzw. reżimy przestrzenne:

Istotne statystycznie obiekty High-High (obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach) zaznaczone są na mapie kolorem czerwonym;
Istotne statystycznie obiekty Low-Low (obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach) zaznaczone są na mapie kolorem niebieskim;
Istotne statystycznie obiekty Low-High (obiekty o niskich wartościach otoczone przez obiekty o wysokich wartościach) zaznaczone są na mapie kolorem jasno-niebieskim;
Istotne statystycznie obiekty High-Low (obiekty o wysokich wartościach otoczone przez obiekty o niskich wartościach) zaznaczone są na mapie kolorem jasno-czerwonym.

Okno z ustawieniami opcji lokalnej analizy Morana wywołujemy poprzez menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka lokalna I Morana.

Przykład c.d. (katalog: leukemia, plik: leukemia)

Analizie poddamy dane dotyczące białaczki.

Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych) w północnej części stanu New York.
Dane do mapy leukemia:
- Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
- Kolumna POP – liczność populacji w poszczególnych obiektach.
- Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Analiza globalna nie dała jednoznacznego rozstrzygnięcia co do występowania autokorelacji przestrzennej. Sprawdzimy więc, czy uda się znaleźć regiony, gdzie częstość występowania białaczki jest nieprzeciętnie wyższa.

By zlokalizować skupiska białaczki oraz regiony kontrastujące z otoczeniem pod względem częstości występowania tej choroby, wyliczymy lokalny współczynnik Morana. Do analizy wykorzystamy zmienną prev oraz proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami (by wykorzystać inną macierz należy ją najpierw wygenerować- patrz rozdział: Macierz wag przestrzennych). Wybieramy również jedną z poprawek poziomu istotności.

Uzyskany raport przedstawia wartości lokalnych współczynników, wartości statystyki testowej oraz odpowiadające im wartości prawdopodobieństwa testowego. Znajdziemy tu również informacje o ilości rejonów wyznaczających reżimy przestrzenne (High-High, Low-Low, Low-High, High-Low).

Do analizy przypisany jest także wynik, który możemy wyrysować na mapie (przycisk ) - są to reżimy przestrzenne opisane w raporcie poprzez kolumnę kolor.

Udało się zlokalizować niewielkie ale istotne skupiska gdzie częstość występowania białaczki jest wyższa. Kolorem czerwonym oznaczone są 2 skupiska (4 regiony spisowe) leżące w mniejszych i bardziej zaludnionych regionach - są to centra klasterów wysokich wartości białaczki. Kolorem jasno-czerwonym oznaczony jest 1 region spisowy o wysokich wartościach współczynnika określającego częstość zachorowania na białaczkę. Region ten jest regionem kontrastującym wobec sąsiednich regionów spisowych, które charakteryzują się stosunkowo niskim współczynnikiem.

Uzyskane wyniki możemy dodatkowo zobrazować kolorując mapę wartościami lokalnego współczynnika Morana $I_i$ lub też wartościami statystyki testowej bądź wartościami $p$ . Wystarczy jedynie wcześniej przekopiować odpowiednie kolumny z raportu do arkusza danych. W tym przykładzie do kolorowania wykorzystamy wartości statystyki testowej $Z(I_i)$ . Po wklejeniu jej do pustej kolumny arkusza danych, w menadżerze map kolorujemy mapę bazową zgodnie z wartościami tej kolumny wybierając odchylenie standardowe o współczynniku 3 jako sposób gradacji kolorów. Dodatnie i wysokie wartości statystyki $Z_i$ wskazują na występowanie klasterów podobnych wartości, ujemne i niskie - na występowanie tzw. hot spots. Wartości bliskie 0 wskazują natomiast na losowy rozkład badanej wartości w przestrzeni.

Analizując wygładzoną zmienną prev wzmacniamy efekt klasteryzacji. Uzyskujemy podobny rezultat, ale tym razem lokalizujemy 3 skupiska (19 regionów spisowych) będące centrami klasterów.

2014/08/20 20:19 · admin

Statystyka lokalna Getisa i Orda

Statystyka lokalna $G_i$ Getisa i Orda (Getis i Ord 1992 Ordi Getis 1995) umożliwia wykrywanie lokalnej koncentracji wartości wysokich i niskich w sąsiadujących obiektach oraz bada istotność statystyczną tej zależności. Getis i Ord zdefiniował również bliźniaczą do $G_i$ statystykę $G^*_i$ , która różni się od $G_i$ jedynie tym, że obiekt dla którego wykonuje się badanie również bierze udział w analizie. W macierzy wag jest więc zdefiniowane dla niego sąsiedztwo z samym sobą tzw. potencjał (wartości na przekątnej są większe od 0).

Lokalny współczynnik autokorelacji Getisa i Orda

Lokalna postać współczynnika $G$ Getisa i Orda dla obserwacji $i$ określona jest wzorem:

$\begin{displaymath} G_i=\frac{\sum_{j=1}^nw_{ij}x_j}{\sum_{j=1}^nx_j}, \quad \textrm{gdzie: $i\neq j$.} \end{displaymath}$

Współczynnik $G^*_i$ zdefiniowany jest tym samym wzorem, lecz obliczenia przeprowadzane są również dla obiektu badanego czyli obiektu, dla którego indeksy $i$ oraz $j$ są sobie równe.

Ponieważ współczynnik bazuje na ilorazie dwóch sum wartości obiektów ( $x_j$ ), dla poprawnej interpretacji współczynnika ważne jest by analizowane zjawisko opisane było za pomocą liczb dodatnich. Interpretacja lokalnego współczynnika Getisa i Orda, podobnie jak lokalnego współczynnika Morana, w znacznym stopniu zależy od wybranej macierzy wag (zaleca się standaryzację macierzy rzędami do jedynki). Wysokie wartości współczynnika $G_i$ lub $G^*_i$ świadczą o skoncentrowaniu obiektów o wysokich wartościach analizowanego zjawiska, natomiast wartości niskie świadczą o skupisku obiektów o niskich wartościach. Gdy wartości są bliskie wartości oczekiwanej, wówczas rozkład badanej wartości w przestrzeni jest losowy.

Wartość oczekiwana określona jest wzorem:

$\begin{displaymath} E(G_i)=\frac{\sum_{j=1}^nw_{ij}}{n-1}, \quad \textrm{gdzie: $i\neq j$}; \end{displaymath}$

$\begin{displaymath} E(G_i^*)=\frac{\sum_{j=1}^nw_{ij}}{n}. \end{displaymath}$

Istotność współczynnika Getisa i Orda

Testując istotność statystyczną związku między sąsiadującymi obiektami bada się hipotezy:

$\begin{array}{clccl} \mathcal{H}_0: & G_i = E(G_i) & \quad & \mathcal{H}_0: & G_i^* = E(G_i^*)\\ \mathcal{H}_1: & G_i \ne E(G_i), & \quad & \mathcal{H}_1: & G_i^* \ne E(G_i^*). \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z_i(G)=\frac{\sum_{j=1}^nw_{ij}x_j-\overline{x}(i)\sum_{j=1}^nw_{ij}}{s(i)\sqrt{\frac{(n-1)\sum_{j=1}^nw_{ij}^2-\left(\sum_{j=1}^nw_{ij}\right)^2}{n-2}}}, \quad \textrm{gdzie: $i\neq j$}; \end{displaymath}$ $\begin{displaymath} Z_i(G*)=\frac{\sum_{j=1}^nw_{ij}x_j-\overline{x}^*\sum_{j=1}^nw_{ij}}{s^*\sqrt{\frac{n\sum_{j=1}^nw_{ij}^2-\left(\sum_{j=1}^nw_{ij}\right)^2}{n-1}}}. \end{displaymath}$

gdzie:

$\overline{x}(i)$ i $\overline{x}^*$ - średnia zmiennej $X$ ,

$s(i)^2$ i $s^{*2}$ - wariancja zmiennej $X$ .

Statystyka $Z_i$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wartość $p$ , wyznaczoną na podstawie statystyki testowej, porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Ze względu na problem braku niezależności współczynników wyliczanych dla sąsiednich obiektów sugeruje się stosowanie skorygowanego poziomu istotności $\alpha$ . Proponowane poprawki to: poprawka Bonferroniego: $\alpha_1=\alpha/k$ lub Sidaka: $\alpha_1=1-(1-\alpha)^{1/k}$ , gdzie $k$ jest średnią liczbą sąsiadów.

Warstwy mapy

Kombinacja informacji z wielkości statystyki testowej $Z_i$ oraz jej istotności przedstawia na mapie tzw. reżimy przestrzenne:

Istotne statystycznie obiekty o wysokich wartościach statystyki $Z_i$ oznaczone są jako High-High (obiekty o wysokich wartościach otoczone przez obiekty o wysokich wartościach) i zaznaczone na mapie kolorem czerwonym;

Istotne statystycznie obiekty o niskich wartościach statystyki $Z_i$ oznaczone są jako Low-Low (obiekty o niskich wartościach otoczone przez obiekty o niskich wartościach) i zaznaczone na mapie kolorem niebieskim.

Okno z ustawieniami opcji lokalnej analizy Getisa i Orda wywołujemy poprzez menu Analiza przestrzenna → Statystyki przestrzenne → Statystyka lokalna <latex>$G_i$</latex> Getisa i Orda.

Przykład c.d. (katalog: leukemia, plik: leukemia)

Analizie poddamy dane dotyczące białaczki.

Mapa leukemia zawiera informacje o lokalizacji 281 wielokątów (regionów spisowych (ang.census tracts)) w północnej części stanu New York.
Dane do mapy leukemia:
- Kolumna CASES – liczba przypadków białaczki w latach 1978-1982 przypisana do poszczególnych obiektów (regionów spisowych). Wartość ta powinna być liczbą całkowitą, tu jednak, zgodnie z opisem Wallera (1994) część przypadków, która nie mogła zostać obiektywnie przypisana do konkretnego regionu, została podzielona proporcjonalnie. Stąd liczności przypadków przypisanych do 281 obiektów nie są liczbami całkowitymi.
- Kolumna POP – liczność populacji w poszczególnych obiektach.
- Kolumna prev – współczynnik częstości występowania białaczki na 100000 osób, dla każdego obiektu w jednym roku: prev=(CASES/POP)*100000/5

Analiza globalna nie dała jednoznacznego rozstrzygnięcia co do występowania autokorelacji przestrzennej. Sprawdzimy więc, czy uda się znaleźć regiony, gdzie częstość występowania białaczki jest nieprzeciętnie wyższa.

By zlokalizować skupiska białaczki wyliczymy współczynnik $G_i$ oraz $G_i^*$ . Do analizy wykorzystamy zmienną prev oraz proponowaną przez program macierz sąsiedztwa według wspólnej granicy – Queen, standaryzowaną rzędami (by wykorzystać inną macierz należy ją najpierw wygenerować - patrz rozdział: Macierz wag przestrzennych). Wybieramy również jedną z poprawek poziomu istotności.

Uzyskany raport przedstawia wartości lokalnych współczynników, wartości statystyki testowej oraz odpowiadające im wartości prawdopodobieństwa testowego. Znajdziemy tu również informacje o ilości rejonów wyznaczających reżimy przestrzenne (High-High, Low-Low).

Do analizy przypisany jest także wynik, który możemy wyrysować na mapie (przycisk ) - są to reżimy przestrzenne opisane w raporcie poprzez kolumnę kolor.

Udało się zlokalizować 3 skupiska (6 regionów spisowych w analizie współczynnika $G_i$ i 4 regiony w analizie współczynnika $G_i^*$ ) gdzie częstość występowania białaczki jest istotnie wyższa. Są to centra klasterów wysokich wartości białaczki oznaczone na mapie kolorem czerwonym.

Uzyskane wyniki możemy dodatkowo zobrazować kolorując mapę wartościami lokalnego współczynnika Getisa i Orda lub też wartościami statystyki testowej bądź wartościami $p$ . Wystarczy jedynie wcześniej przekopiować odpowiednie kolumny z raportu do arkusza danych. W tym przykładzie do kolorowania wykorzystamy wartości statystyki testowej $Z(G_i)$ . Po wklejeniu jej do pustej kolumny arkusza danych, w menadżerze map kolorujemy mapę bazową zgodnie z wartościami tej kolumny wybierając odchylenie standardowe o współczynniku 3 jako sposób gradacji kolorów. Dodatnie i wysokie wartości statystyki $Z_i$ świadczą o skoncentrowaniu obiektów o wysokich wartościach, wartości ujemne i niskie - obiektów o niskich wartościach, a wartości bliskie zeru wskazują na losowy rozkład badanej zmiennej w przestrzeni.

Analizując wygładzoną zmienną prev wzmacniamy efekt klasteryzacji. Uzyskujemy podobny rezultat, czyli 3 skupiska (15 regionów spisowych w analizie współczynnika $G_i$ i 9 regionów w analizie współczynnika $G_i^*$ ) będące centrami klasterów.

2014/08/20 20:20 · admin

CutL - wersja eksperymentalna

Metoda CutL jest rozwijana w celu wykrywania klasterów o istotnie wyższym współczynniku częstości niż wskazany przez badacza (Więckowska B. 2017 ²⁾). W rezultacie program znajduje klastery, bada ich istotność statystyczną i wyrysowuje je na mapie.

Uwaga! Analiza bazuje na często wykorzystywanym teście dokładnym dla jednej proporcji.

By przeprowadzić analizę powinniśmy dysponować danymi mapy zawierającej obiekty typu wielokąt. Dane do analizy powinny być zorganizowane w postaci dwóch kolumn, gdzie dla każdego obiektu podana jest liczność populacji i odpowiednia liczba przypadków wyszczególnionych.

$\begin{tabular}{|c|c|c|} \hline ID&Populacja&Przypadki\\\hline 1&548028&505\\ 2&4896&2\\ 3&3981&5\\ 4&5658&7\\ 5&9591&4\\ 6&3011&2\\ 7&4938&7\\ 8&8664&11\\ …&…&…\\ …&…&…\\\hline \end{tabular}$

Okno z ustawieniami opcji testu CutL wywołujemy poprzez menu Analiza przestrzenna→Statystyki przestrzenne→CutL

Analiza bazuje na liczności populacji i liczbie przypadków oraz na macierzy sąsiedztwa przestrzennego.

Wykorzystanie macierzy sąsiedztwa:

Domyślnie wyliczaną w analizie macierzą sąsiedztwa jest macierz przyległości granic typu Queen. Inne macierze mogą być użyte w analizie, ale wymaga to ich wcześniejszego przygotowania i wybrania w oknie analizy CutL.

Punkt odcięcia jest wartością powyżej której wyszukiwane są istotne statystycznie klastery i powinien być ustawiony w oknie analizy. Jeśli badacz nie określi tej wartości, wówczas stanowi ją ogólny współczynnik częstości wyliczony dla całego badanego obszaru.

Opcje

Korekcja wielokrotnych porównań

Następujące korekty wielokrotnych porównań mogą być wykorzystane:

Bonferroni-Hochberg
Sidak-Hochberg
Benjamini-Hochberg
porównaj klaster/poza klasterem

Dodatkowo każdy klaster może być porównany z obszarem poza klasterem. Test dla jednej proporcji porównuje wówczas współczynnik częstości uzyskany w klasterze do odpowiedniego współczynnika poza klasterem. Test jest wówczas jednostronny ze względu na poszukiwanie klasterów o wyższych wartościach niż punkt odcięcia.

Wyniki

Wynik analizy jest prezentowany w formie raportu z dołączonymi warstwami map.

CutL czasowo-przestrzenna

Przy pomocy metody CutL możliwe jest również wyznaczenie skupień czasowo-przestrzennych (Więckowska B. 2019 ³⁾), czyli takich, które nie utrzymują się przez cały badany zakres czasu, ale tylko przez krótszy okres. Poszczególne warstwy czasu dodajemy do arkusza danych poprzez wybór Edytuj oś czasu z drzewa projektu, po wskazaniu odpowiedniej mapy.

Okno analizy czasowo-przestrzennej uzyskujemy poprzez wybór menu Analiza przestrzenna→Statystyki→przestrzenne→CutL czasowo-przestrzenna.

2015/12/27 22:21 · admin

¹⁾

Anselin L. (1995), Local Indicators of Spatial Association – LISA; Geographical Analysis, 27(2): 93–115

²⁾

Więckowska B., Marcinkowska J. (2017), CutL: an alternative to Kulldorff’s scan statistics for cluster detection with a specified cut-off level. Geospatial Health, 12(2): 556

³⁾

Więckowska B., Górna I., Trojanowski M., Pruciak A., Stawińska-Witoszyńska B. (2019), Searching for space-time clusters: The CutL method compared to Kulldorff's scan statistic 14(2

PQStat - Baza Wiedzy

Pasek boczny

Spis treści

Statystyki lokalne i wyszukiwanie klasterów

Statystyka lokalna I Morana

Statystyka lokalna Getisa i Orda

CutL - wersja eksperymentalna

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Statystyki lokalne i wyszukiwanie klasterów

Statystyka lokalna I Morana

Statystyka lokalna Getisa i Orda

CutL - wersja eksperymentalna

Narzędzia strony