PQStat - Baza Wiedzy

Spis treści

Estymacja jądrowa
- Jednowymiarowy estymator jądrowy

Estymacja jądrowa

Jednowymiarowy estymator jądrowy

Jednowymiarowy jądrowy estymator gęstości pozwala na przybliżenie gęstości rozkładu danych tworząc wygładzoną krzywą gęstości w sposób nieparametryczny. Dzięki niemu uzyskuje się lepszą estymację gęstości niż daje tradycyjny histogram, którego kolumny tworzą funkcję schodkową.

Estymator jądrowy definiowany jest w oparciu o odpowiednio wygładzone jądro $K_h(t_i)$ . Parametr wygładzania $h$ (ang. bandwidth) ma decydujący wpływ na uzyskany estymator. Im wyższa wartość parametru wygładzania, tym stopień wygładzenia jest większy.

Dla każdego punktu $x$ z zakresu określonego przez dane wyznacza się gęstość czyli podaje wartość estymatora jądrowego w tym punkcie. Estymator ten powstaje poprzez zsumowanie wartości funkcji jąder $K_h(t_i)$ w tym punkcie:

$\begin{displaymath} \hat{f}_K(x)=\frac{1}{n}\sum_{i=1}^nK_h(t_i) \end{displaymath}$

Jeśli poszczególnym przypadkom nadamy wagi $w_i$ , wówczas możemy zbudować ważony jądrowy estymator gęstości definiowany wzorem:

$\begin{displaymath} \hat{f}_K(x)=\frac{1}{\sum_{i=1}^nw_i}\sum_{i=1}^nw_iK_h(t_i) \end{displaymath}$

Współczynniki wygładzania

Użytkownika - daje możliwość wybrania dowolnego współczynnika wygładzania wskazanego przez użytkownika, przy czym współczynnik ten musi być dodatni.
Użytkownika skalowane - jest ustalane tak, by można było zmieniać funkcję jądra pozostając przy wygładzeniu jakie wybrane zostało wcześniej dla jądra Gaussa. W praktyce wybierając inną funkcję niż Gaussa współczynnik wygładzania zostaje przeskalowany (Scott, D. W. 1992¹⁾), przez co wygładzenie pozostaje na podobnym poziomie jaki był dla funkcji Gaussa. Daje to wygodę przełączania się pomiędzy różnymi jądrami bez rozważania skalowania parametru wygładzania. Przeliczenia dotyczące skalowania dokonywane są w oparciu o odchylenie standardowe:

$\begin{displaymath} h_2=\frac{\sigma(K_{h_1})}{\sigma(K_{h_2})}h_1 \end{displaymath}$

SNR - współczynnik wygładzania budowany na podstawie metody Silverman'a (Silverman B. W. 1986 ²⁾ str 45 i 47) i korekty Jones'a (Jones M. C. i inni 1996³⁾) wykorzystującej odchylenie standardowe z próby a nie z populacji - jak zaproponował Silverman:

$\begin{displaymath} h_{SNR}=1.06sd\cdot n^{1/5} \end{displaymath}$

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 1992⁴⁾)

SROT - współczynnik wygładzania budowany na podstawie metody Silverman'a (Silverman B. W. 1986 ⁵⁾ str. 48) z korektą Jones'a (Jones M. C. i inni 1996⁶⁾):

$\begin{displaymath} h_{SROT}=0.9\min\left(sd, \frac{IQR}{1.34}\right) n^{1/5} \end{displaymath}$

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 1992⁷⁾)

OS - współczynnik wygładzania budowany na podstawie metody Terrell'a i Scott'a (Terrell G. R. i Scott D. W. 1985⁸⁾, Terrell G. R. 1990 ⁹⁾ str. 470):

$\begin{displaymath} h_{OS}=1.144sd\cdot n^{1/5} \end{displaymath}$

Dla jądra innego niż Gaussa, współczynnik wygładzania podlega skalowaniu (Scott D. W., 1992¹⁰⁾)

Funkcja jądra

Funkcja jądra w mniejszym zakresie niż parametr wygładzania wpływa na uzyskaną wartość estymatora jądrowego. Jądro jest funkcją gęstości prawdopodobieństwa budowaną wokół każdego punktu danych $x_i$ . Zwykle jest to funkcja symetryczna osiągająca maksimum w punkcie $x_i$ , a zmniejszająca swoje wartości wraz z oddalaniem się (wzrostem odległości $d_i$ ) od tego punktu. Odległość od analizowanego punktu jest modyfikowana przez parametr wygładzania $h$ zgodnie z wzorem: $t_i=\frac{d_i}{h}$ .

W zależności od potrzeb funkcja jądra może przyjmować postać funkcji:

Gaussa

$\begin{displaymath} K_h(t_i)=\frac{1}{h\sqrt{2\pi}}\exp(-\frac{t_i^2}{2}) \end{displaymath}$

jednostajnej (prostokąt)

$\begin{displaymath} K_h(t_i)= \left\{ \begin{array}{ll} \frac{0,5}{h} & \textrm{jeżeli $t_i<1$}\\ 0 & \textrm{jeżeli $t_i \geq 1$}\\ \end{array} \right. \end{displaymath}$

trójkątnej

$\begin{displaymath} K_h(t_i)= \left\{ \begin{array}{ll} \frac{1-t_i}{h} & \textrm{jeżeli $t_i<1$}\\ 0 & \textrm{jeżeli $t_i \geq 1$}\\ \end{array} \right. \end{displaymath}$

Epanechnikova

$\begin{displaymath} K_h(t_i)= \left\{ \begin{array}{ll} \frac{3}{4}\frac{1-t_i^2}{h} & \textrm{jeżeli $t_i<1$}\\ 0 & \textrm{jeżeli $t_i \geq 1$}\\ \end{array} \right. \end{displaymath}$

quartic lub biweight (czwartego stopnia)

$\begin{displaymath} K_h(t_i)= \left\{ \begin{array}{ll} \frac{15}{16}\frac{(1-t_i^2)^2}{h} & \textrm{jeżeli $t_i<1$}\\ 0 & \textrm{jeżeli $t_i \geq 1$}\\ \end{array} \right. \end{displaymath}$

$\textcolor{green}{Gaussa} \textcolor{red}{jednostajna} \textcolor{blue}{trójkątna} \textcolor{orange}{Epanechnikova} \textcolor[rgb]{0,0.58,0}{quartic/biweight}$

Przykład (plik BMI.pqs)

Wyliczono wartości współczynnika wagowo-wzrostowego BMI1 dla pewnej grupy osób otyłych. Przedstawiono ich rozkład za pomocą histogramu z podziałem wartości co 1 jednostkę BMI. Dane zobrazowano również za pomocą jądrowego estymatora gęstości wybierając Gaussowską funkcję jądra i ustawiając współczynniki wygładzania odpowiednio: 0.5, 1, 2.

Współczynniki wygładzania estymatora jądrowego sugerowane przez metody SROT, SNR i OS osiągają wielkości pomiędzy 1.4 a 2.

¹⁾ , ⁴⁾ , ⁷⁾ , ¹⁰⁾

Scott D. W., (1992), Multivariate Density Estimation. Theory, Practice and Visualization. New York: Wiley

²⁾ , ⁵⁾

Silverman B. W., (1986), Density estimation for statistics and data analysis, London: Chapman and Hall

³⁾ , ⁶⁾

Jones M. C., Marron J. S., Sheather S. J., (1996)., A brief survey of bandwidth selection for density estimation. J. Amer. Statist. Assoc. 91 401–407

⁸⁾

Terrell G.R., Scott D. W. (1985), Oversmoothed nonparametric density estimates. Journal of the American Statistical Association 80, 209-214

⁹⁾

Terrell G. R. (1990), The maximal smoothing principle in density estimation. Journal of the American Statistical Association 85, 470–477

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Estymacja jądrowa

Jednowymiarowy estymator jądrowy

Narzędzia strony