Spis treści

Estymacja jądrowa

Jednowymiarowy estymator jądrowy

Jednowymiarowy jądrowy estymator gęstości pozwala na przybliżenie gęstości rozkładu danych tworząc wygładzoną krzywą gęstości w sposób nieparametryczny. Dzięki niemu uzyskuje się lepszą estymację gęstości niż daje tradycyjny histogram, którego kolumny tworzą funkcję schodkową.

Estymator jądrowy definiowany jest w oparciu o odpowiednio wygładzone jądro $K_h(t_i)$. Parametr wygładzania $h$ (ang. bandwidth) ma decydujący wpływ na uzyskany estymator. Im wyższa wartość parametru wygładzania, tym stopień wygładzenia jest większy.

Dla każdego punktu $x$ z zakresu określonego przez dane wyznacza się gęstość czyli podaje wartość estymatora jądrowego w tym punkcie. Estymator ten powstaje poprzez zsumowanie wartości funkcji jąder $K_h(t_i)$ w tym punkcie:

\begin{displaymath}
\hat{f}_K(x)=\frac{1}{n}\sum_{i=1}^nK_h(t_i)
\end{displaymath}

Jeśli poszczególnym przypadkom nadamy wagi $w_i$, wówczas możemy zbudować ważony jądrowy estymator gęstości definiowany wzorem:

\begin{displaymath}
\hat{f}_K(x)=\frac{1}{\sum_{i=1}^nw_i}\sum_{i=1}^nw_iK_h(t_i)
\end{displaymath}

Współczynniki wygładzania

  • Użytkownika - daje możliwość wybrania dowolnego współczynnika wygładzania wskazanego przez użytkownika, przy czym współczynnik ten musi być dodatni.
  • Użytkownika skalowane - jest ustalane tak, by można było zmieniać funkcję jądra pozostając przy wygładzeniu jakie wybrane zostało wcześniej dla jądra Gaussa. W praktyce wybierając inną funkcję niż Gaussa współczynnik wygładzania zostaje przeskalowany (Scott, D. W. 19921)), przez co wygładzenie pozostaje na podobnym poziomie jaki był dla funkcji Gaussa. Daje to wygodę przełączania się pomiędzy różnymi jądrami bez rozważania skalowania parametru wygładzania. Przeliczenia dotyczące skalowania dokonywane są w oparciu o odchylenie standardowe:

\begin{displaymath}
h_2=\frac{\sigma(K_{h_1})}{\sigma(K_{h_2})}h_1
\end{displaymath}

  • SNR - współczynnik wygładzania budowany na podstawie metody Silverman'a (Silverman B. W. 1986 2) str 45 i 47) i korekty Jones'a (Jones M. C. i inni 19963)) wykorzystującej odchylenie standardowe z próby a nie z populacji - jak zaproponował Silverman:

\begin{displaymath}
h_{SNR}=1.06sd\cdot n^{1/5}
\end{displaymath}

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 19924))

  • SROT - współczynnik wygładzania budowany na podstawie metody Silverman'a (Silverman B. W. 1986 5) str. 48) z korektą Jones'a (Jones M. C. i inni 19966)):

\begin{displaymath}
h_{SROT}=0.9\min\left(sd, \frac{IQR}{1.34}\right) n^{1/5}
\end{displaymath}

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 19927))

  • OS - współczynnik wygładzania budowany na podstawie metody Terrell'a i Scott'a (Terrell G. R. i Scott D. W. 19858), Terrell G. R. 1990 9) str. 470):

\begin{displaymath}
h_{OS}=1.144sd\cdot n^{1/5}
\end{displaymath}

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 199210))

Funkcja jądra

Funkcja jądra w mniejszym zakresie niż parametr wygładzania wpływa na uzyskaną wartość estymatora jądrowego. Jądro jest funkcją gęstości prawdopodobieństwa budowaną wokół każdego punktu danych $x_i$. Zwykle jest to funkcja symetryczna osiągająca maksimum w punkcie $x_i$, a zmniejszająca swoje wartości wraz z oddalaniem się (wzrostem odległości $d_i$) od tego punktu. Odległość od analizowanego punktu jest modyfikowana przez parametr wygładzania $h$ zgodnie z wzorem: $t_i=\frac{d_i}{h}$.

W zależności od potrzeb funkcja jądra może przyjmować postać funkcji:

  • Gaussa

\begin{displaymath}
K_h(t_i)=\frac{1}{h\sqrt{2\pi}}\exp(-\frac{t_i^2}{2})
\end{displaymath}

  • jednostajnej (prostokąt)

\begin{displaymath}
K_h(t_i)= \left\{ \begin{array}{ll}
\frac{0,5}{h} & \textrm{jeżeli $t_i<1$}\\
0 & \textrm{jeżeli $t_i \geq 1$}\\
\end{array} \right.
\end{displaymath}

  • trójkątnej

\begin{displaymath}
K_h(t_i)= \left\{ \begin{array}{ll}
\frac{1-t_i}{h} & \textrm{jeżeli $t_i<1$}\\
0 & \textrm{jeżeli $t_i \geq 1$}\\
\end{array} \right.
\end{displaymath}

  • Epanechnikova

\begin{displaymath}
K_h(t_i)= \left\{ \begin{array}{ll}
\frac{3}{4}\frac{1-t_i^2}{h} & \textrm{jeżeli $t_i<1$}\\
0 & \textrm{jeżeli $t_i \geq 1$}\\
\end{array} \right.
\end{displaymath}

  • quartic lub biweight (czwartego stopnia)

\begin{displaymath}
K_h(t_i)= \left\{ \begin{array}{ll}
\frac{15}{16}\frac{(1-t_i^2)^2}{h} & \textrm{jeżeli $t_i<1$}\\
0 & \textrm{jeżeli $t_i \geq 1$}\\
\end{array} \right.
\end{displaymath}


\textcolor{green}{Gaussa}
\textcolor{red}{jednostajna}
\textcolor{blue}{trójkątna}
\textcolor{orange}{Epanechnikova}
\textcolor[rgb]{0,0.58,0}{quartic/biweight}

Przykład (plik BMI.pqs)

Wyliczono wartości współczynnika wagowo-wzrostowego BMI1 dla pewnej grupy osób otyłych. Przedstawiono ich rozkład za pomocą histogramu z podziałem wartości co 1 jednostkę BMI. Dane zobrazowano również za pomocą jądrowego estymatora gęstości wybierając Gaussowską funkcję jądra i ustawiając współczynniki wygładzania odpowiednio: 0.5, 1, 2.

Współczynniki wygładzania estymatora jądrowego sugerowane przez metody SROT, SNR i OS osiągają wielkości pomiędzy 1.4 a 2.

1) , 4) , 7) , 10)
Scott D. W., (1992), Multivariate Density Estimation. Theory, Practice and Visualization. New York: Wiley
2) , 5)
Silverman B. W., (1986), Density estimation for statistics and data analysis, London: Chapman and Hall
3) , 6)
Jones M. C., Marron J. S., Sheather S. J., (1996)., A brief survey of bandwidth selection for density estimation. J. Amer. Statist. Assoc. 91 401–407
8)
Terrell G.R., Scott D. W. (1985), Oversmoothed nonparametric density estimates. Journal of the American Statistical Association 80, 209-214
9)
Terrell G. R. (1990), The maximal smoothing principle in density estimation. Journal of the American Statistical Association 85, 470–477