Transformacja

Okno transformacji danych wywołujemy poprzez DaneTransformuj…

Transformacja danych to ich przekształcenie w taki sposób, by spełniały określone kryteria np. spełniały kryteria normalności rozkładu czy też rozciągały się w określonym przedziale.

Transformacja Boxa-Coxa wyraża się wzorem:
\begin{displaymath}
x'=\left\{
	\begin{array}{cl}
	\frac{x^\lambda-1}{\lambda} & $dla $  \lambda \neq 0\\
	\ln(x) & $dla $\lambda = 0,
 	\end{array}\right.
\end{displaymath}

gdzie wartość $\lambda$ wyznaczana jest jako maksymalna wartość logartmu funkcji wiarygodności ($LL$) w podanym przez badacza przedziale. Domyślny przedział dla poszukiwania wartości $\lambda$ to przedział [-5, 5], a funkcja $LL$ opisana jest wzorem:


\begin{displaymath}
LL=-\frac{n}{2}\ln(sd_{pop}^2)+(\lambda -1)\sum\ln x
\end{displaymath}

gdzie:
$n$ - liczność próby,
$sd_{pop}$ - odchylenie standardowe populacji.

Uwaga! Jeśli przed transformacją Boxa-Coxa wykorzystano normalizację min-max, wówczas po transformacji Boxa-Coxa można powrócić do poprzedniego przedziału ponownie używając tej transformacji.

Rangi - są to kolejne liczby (zwykle naturalne) przypisane do wartości uporządkowanych pomiarów badanej zmiennej. Często wykorzystywane są w tych testach nieparametrycznych, które bazują wyłącznie na kolejności elementów w próbie. Przypisanie do zmiennej wyliczonych według niej rang zwane jest rangowaniem. Rangowanie może odbywać się dla zmiennych sortowanych rosnąco (jest to domyślne ustawienie) lub malejąco.

Powtarzającym się wartościom zmiennej przypisuje się rangę wiązaną. Rangą wiązaną może być:
- średnia arytmetyczna wyliczana z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych - jest to domyślne ustawienie;
- dolna granica, czyli najmniejsza z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych;
- górna granica, czyli największa z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych. ;. Taka ranga nazywana jest rangą wiązaną.

Na przykład dla zmiennej o następujących wartościach: 8.6, 5.3, 8.6, 7.1, 9.3, 7.2, 7.3, 7.4, 7.3, 5.2, 7, 9.9, 8.6, 5.7 przypisywane są następujące rangi:

\begin{tabular}{|c|c|}
\hline
posortowane wartości zmiennej	&rangi\\\hline
5.2	&1	\\
5.3	&2	\\
5.7	&3	\\
7	&4	\\
7.1	&5	\\
7.2	&6	\\
7.3	&7.5	\\
7.3	&7.5	\\
7.4	&9	\\
8.6	&11	\\
8.6	&11	\\
8.6	&11	\\
9.3	&13	\\
9.9	&14	\\
\hline
\end{tabular}

Przy czym dla zmiennej o wartości 7.3 przypisana jest ranga wiązana wyliczona z liczb: 7 i 8, a dla zmiennej o wartości 8.6 ranga wiązana wyliczona z liczb: 10, 11, 12.

\begin{tabular}{|c|c|c|c|}
\hline
Alkohol	&Alkohol(piwo) &Alkohol(wino) & Alkohol(wódka)\\\hline
piwo;wino	&1 &1 &0	\\
wino	&0 &1 &0	\\
wino	&0 &1 &0	\\
piwo	&1 &0 &0	\\
wódka;wino	&0 &1 &1	\\
wino;wódka	&0 &1 &1	\\
piwo;wódka	&1 &0 &1	\\
piwo;wino;wódka	&1 &1 &1	\\	
\hline
\end{tabular}

Zadanie (plik: normalizacja.pqs)

Dokonaj przekształcenia wszystkich zmiennych zawartych w pliku

a) Przekształć wartość trójglicerydów poprzez transformację Boxa-Coxa a następnie sprawdź przy pomocy odpowiedniego testu, czy dane te mają rozkład normalny.
b) Przekształć wartość trójglicerydów poprzez transformację logarytmiczną a następnie sprawdź przy pomocy odpowiedniego testu, czy dane te mają rozkład normalny.
c) Stosując normalizację min-max przekształć wybrane zmienne do przedziału [0,10].
d) Stosując normalizację logistyczną przekształć wybrane zmienne do zadanego przez siebie przedziału.
e) Stosując normalizację ze współczynnikiem przekształć wybrane zmienne do zadanego przez siebie przedziału. Zrób to kilkukrotnie zmieniając wartość współczynnika $\alpha$.
f) Dokonaj standaryzacji wszystkich danych, które są opisane rozkładem normalnym.
g) Przekształć zmienną obrazującą jak zmieniła się masa ciała podczas stosowania diety tak, by przedstawiała ona rozkład normalny.
h) Pytanie o przebytych chorobach zakaźnych było pytaniem wielokrotnego wyboru. Przygotuj uzyskane odpowiedzi na to pytanie tak, by można było poddać je dalszej obróbce statystycznej tzn. zapisz każdą z wielokrotnych odpowiedzi w innej kolumnie.
i) Przygotuj zmienną wykształcenie tak, by była zapisana przy pomocy zmiennych fikcyjnych o kodowaniu zero-jedynkowym.
j) Przygotuj zmienną cholesterol całkowity dzieląc ją na 3 klasy wg podziału na percentyle (kwartyle). Powstałym klasom nadaj etykiety :„niski”, „przeciętny”, „wysoki” i dobierz schemat kolorów.

1)
Box G. E. , Cox D. R. (1964), An analysis of transformations. Journal of the Royal Statistical Society, Series B 26: 211–252