pqstat.pl

Narzędzia użytkownika

Statystyki opisowe

Statystyki opisowe punktów

By przeprowadzić statystykę opisową powinniśmy dysponować danymi mapy zawierającej obiekty typu: punkt, wielopunkt lub wielokąt. W przypadku analizy wielokątów obliczenia oparte są na centroidach, a przypadku wielopunktów na centrach obiektów.

Granice obszaru, w którym zamknięte są analizowane punkty, w zależności od potrzeb, mogą być zdefiniowane za pomocą: otoczki wypukłej, najmniejszego prostokąta, prostokąta z granic warstwy lub najmniejszego okręgu. Badany obszar może być również zdefiniowany jedynie przez wielkość swojego pola.

Odległość pomiędzy punktami mierzona jest metryką Euklidesową.

Podstawowe statystyki wyznaczane dla analizy punktów:

  • $A$ - pole powierzchni badanego obszaru,
  • $n$ - wielkość próby, czyli ilość punktów leżących wewnątrz badanego obszaru,
  • $D=\frac{n}{A}$ - gęstość,
  • statystyki opisowe macierzy odległości pomiędzy punktami:
  • średnia arytmetyczna wraz z przedziałem ufności,
  • odchylenie standardowe,
  • mediana,
  • kwartyle,
  • minimum i maksimum.

Analiza zwraca również wykres dotyczący macierzy odległości oraz warstwy, które mogą być wyrysowane na płaszczyźnie mapy. Warstwy dotyczą miar centrograficznych: miary tendencji centralnej i rozproszenia:

  • Centrum rozkładu punktów: średnia wsółrzędnych osi $X$ i osi $Y$ ($\overline{x}$, $\overline{y}$),
  • Obszar odchyleń standardowych zbudowany wokół centrum, zdefiniowany poprzez:
  • Okrąg
    Promień okręgu to $sdd$ - standardowa odległość od centrum (ang. standard distance deviation) wyrażona wzorem:

\begin{displaymath}
sdd=\sqrt{\frac{\sum_{i=1}^n x_i^{'2}+\sum_{i=1}^n y_i^{'2}}{n-2}},
\end{displaymath}

gdzie:

$x_i^{'}=x_i-\overline{x}$,

$y_i^{'}=y_i-\overline{y}$.

  • Elipsa
    Kąt nachylenia osi elipsy (Y) wobec układu współrzędnych (osi OY) wyrażony jest wzorem:

\begin{displaymath}
\theta=\arctan\left(\frac{A+B}{C}\right),
\end{displaymath}

gdzie:

$\displaystyle A=\sum_{i=1}^n x_i^{'2}-\sum_{i=1}^n y_i^{'2}$,

$\displaystyle B=\sqrt{\left(\sum_{i=1}^n x_i^{'2}-\sum_{i=1}^n y_i^{'2}\right)^2+4\left(\sum_{i=1}^nx_i^{'}y_i^{'}\right)^2}$,

$\displaystyle C=2\sum_{i=1}^nx_i^{'}y_i^{'}$.

Długości półosi elipsy: \begin{displaymath}
\sigma_x=\sqrt{\frac{2}{n-2}\sum_{i=1}^n\left(x_i^{'}\cos\theta-y_i^{'}\sin\theta\right)^2}
\end{displaymath} \begin{displaymath}
\sigma_y=\sqrt{\frac{2}{n-2}\sum_{i=1}^n\left(x_i^{'}\sin\theta+y_i^{'}\cos\theta\right)^2}
\end{displaymath}

  • Prostokąt
    Długości boków prostokąta to: $a=2sd_x$, $b=2sd_y$, gdzie $sd_x$ i $sd_y$ to odchylenia standardowe dla współrzędnych osi $X$ i osi $Y$

Gdy dla poszczególnych obiektów zostaną zdefiniowane wagi, wówczas wyliczone będzie ważone centrum rozkładu punktów i ważony okrąg przedstawiający obszar odchyleń standardowych

  • Ważone centrum rozkładu punktów: ważona średnia współrzędnych osi $X$ i osi $Y$:
    \begin{displaymath}
\overline{x_w}=\frac{\sum_{i=1}^n w_ix_i}{\sum_{i=1}^n w_i},\qquad
\overline{y_w}=\frac{\sum_{i=1}^n w_iy_i}{\sum_{i=1}^n w_i}
\end{displaymath}

gdzie:

$w_i$ - wagi określające wielkość cechy w $i$-tym obiekcie.

  • Ważony okrąg
    Promień okręgu to $wsdd$ - ważona standardowa odległość od centrum wyrażona wzorem:
    \begin{displaymath}
wsdd=\sqrt{\frac{\sum_{i=1}^n w_ix_i^{*2}+\sum_{i=1}^n w_iy_i^{*2}}{\sum_{i=1}^n w_i-2}},
\end{displaymath}

gdzie:

$x_i^{*}=x_i-\overline{x_w}$,

$y_i^{*}=y_i-\overline{y_w}$.

Uwaga!

We wzorach dotyczących długości promienia okręgu i półosi elipsy, mianownik pomniejszono o wartość 2 - Buliung (2008)1), Smith (2007)2).

Okno z ustawieniami opcji statystyk opisowych wywołujemy poprzez menu Analiza przestrzennaPrzestrzenne statystyki opisowe.

Przykład (katalog: snow, pliki SHP: deaths, pumps, streets)

Dane, których dotyczyć będzie analiza są prawdopodobnie najbardziej znanym, klasycznym przykładem zastosowania kartografii w epidemiologii. Obrazują epidemię cholery w Londynie w roku 1854. Mapę przedstawiającą zakres epidemii sporządził lekarz, odkrywca przyczyny epidemii, uznany za jednego z twórców epidemiologii - John Snow. Współrzędne punktów, które posłużyły do wyrysowania map, pochodzą z oryginalnej mapy stworzonej przez Johna Snowa, która została zdigitalizowana przez Rusty Dodson z US National Center for Geographic Information Analysis (http://ncgia.ucsb.edu/Publications/Software/cholera/) a następnie przedstawiona w metrach.

  • Mapa deaths zawiera informacje o lokalizacji 578 punktów (śmierci z powodu cholery) w Soho - jednej z dzielnic Londynu.
  • Mapa pumps zawiera informacje o lokalizacji 13 punktów (pomp wodnych) w Soho.
  • Mapa streets zawiera informacje o położeniu linii (ulic) w Soho.

Po zaimportowaniu powyższych plików kształtów SHP, możemy każdy z nich obejrzeć i edytować w Menadżerze map.

By przeprowadzić analizę zaznaczamy mapę deaths i wykonujemy Przestrzenne statystyki opisowe. Ponieważ jako dane do analizy posłużą nam współrzędne mapy, w oknie statystyk opisowych zaznaczamy opcję Pobierz współrzędne punktów z mapy, jako rodzaj obwiedni obiektów wybieramy otoczkę wypukłą.

Pole powierzchni, w którym znajdują się punkty (określone przez otoczkę wypukłą) wynosi $0.257531 km^2$. Możemy je wyrysować na mapie uruchamiając przycisk i wybierając warstwę obwiedni obiektów.

Na $1000 m^2$ przypada ponad 2 punkty (gęstość=$0.002244$ punktów na $m^2$).

Analiza macierzy odległości punktów pozwala na dokładniejszą ocenę ich gęstości. Niektóre punkty znajdują się w tym samym miejscu, ponieważ najmniejsza odległość to $0m$. Są też punkty znacznie bardziej oddalone od siebie - największa odległość to $662.896352 m$. Znajdujemy tu również informację o przeciętnej odległości i o ich odchyleniu standardowym.

Najbardziej interesującą informację w przypadku analizy mapy deaths daje zlokalizowane Centrum rozkładu punktów ($703.79$, $631.65$) wraz z obszarem odchyleń standardowych, które opisują stopień koncentracji oraz kierunek dyspersji (okrąg, elipsa, prostokąt).

Elipsę odchyleń standardowych oraz Centrum wyrysujemy ponownie przechodząc do menadżera map (na liście warstw odznaczamy obwiednię obiektów).

Snow przeprowadził rozmowy z mieszkańcami okolicy i zaczął podejrzewać, że źródłem epidemii może być woda. Połączenie wszystkich trzech map pozwala na zidentyfikowanie pompy wodnej, z której woda okazała się być przyczyną epidemii. By to zrobić w Menadżerze map wyświetlamy najpierw mapę streets a następnie poprzez przycisk nanosimy na nią mapę deaths i pumps.

Źródłem epidemii okazuje się być pompa wodna przy ulicy Broad Street (możemy wyświetlić jej etykietę w menadżerze map). Jest to jedyna pompa, która znalazła się w zaznaczonym eliptycznym obszarze, a jej położenie ($678.85$, $633.27$) i położenie środka elipsy ($703.79$, $631.65$), czyli miejsca wokół którego skoncentrowane są zgony, jest bardzo bliskie.

 
1) Buliung R.N., Remmel T.K. (2008), Open source, spatial analysis, and activity-travel behaviour research: capabilities of the aspace package. Journal of Geographical Systems 10, 191-216
2) De Smith M.J., Goodchild M.F., Longley P.A. (2007) , Geospatial Analysis, A Comprehensive Guide to Principles, Techniques and Software Tools (2nd ed). Matador

Narzędzia strony