Okno transformacji danych wywołujemy poprzez Dane
→Transformuj…
Transformacja danych to ich przekształcenie w taki sposób, by spełniały określone kryteria np. spełniały kryteria normalności rozkładu czy też rozciągały się w określonym przedziale.
Transformacja Boxa-Coxa wyraża się wzorem:
gdzie wartość wyznaczana jest jako maksymalna wartość logartmu funkcji wiarygodności () w podanym przez badacza przedziale. Domyślny przedział dla poszukiwania wartości to przedział [-5, 5], a funkcja opisana jest wzorem:
gdzie:
- liczność próby,
- odchylenie standardowe populacji.
Uwaga! Jeśli przed transformacją Boxa-Coxa wykorzystano normalizację min-max, wówczas po transformacji Boxa-Coxa można powrócić do poprzedniego przedziału ponownie używając tej transformacji.
Rangi - są to kolejne liczby (zwykle naturalne) przypisane do wartości uporządkowanych pomiarów badanej zmiennej. Często wykorzystywane są w tych testach nieparametrycznych, które bazują wyłącznie na kolejności elementów w próbie. Przypisanie do zmiennej wyliczonych według niej rang zwane jest rangowaniem. Rangowanie może odbywać się dla zmiennych sortowanych rosnąco (jest to domyślne ustawienie) lub malejąco.
Powtarzającym się wartościom zmiennej przypisuje się rangę wiązaną. Rangą wiązaną może być:
- średnia arytmetyczna wyliczana z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych - jest to domyślne ustawienie;
- dolna granica, czyli najmniejsza z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych;
- górna granica, czyli największa z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych. ;. Taka ranga nazywana jest rangą wiązaną.
Na przykład dla zmiennej o następujących wartościach: 8.6, 5.3, 8.6, 7.1, 9.3, 7.2, 7.3, 7.4, 7.3, 5.2, 7, 9.9, 8.6, 5.7 przypisywane są następujące rangi:
Przy czym dla zmiennej o wartości 7.3 przypisana jest ranga wiązana wyliczona z liczb: 7 i 8, a dla zmiennej o wartości 8.6 ranga wiązana wyliczona z liczb: 10, 11, 12.
Transformacji
zaznaczamy wtedy opcję oblicz z próby
).Transformacji
należy wprowadzić zakres nowego przedziału.Transformacji
należy wprowadzić zakres nowego przedziału.
Taki sposób przygotowania danych pozwala na dowolny podział zmiennych np. cholesterol całkowity możemy podzielić zgodnie z obowiązującymi normami (wówczas wybieramy podział Ręczny, ustawiamy liczbę kategorii i sami wpisujemy ich granice oraz nadajemy odpowiednie etykiety dla każdej kategorii). Jeśli jednak nie mamy gotowego pomysłu na podział naszych danych można skorzystać z zaproponowanych w oknie opcji podziału automatycznego. Możliwe sposoby podziału zmiennej:
- Naturalny Podział (Jenks) - metoda polegająca na takim podziale zmiennej na klasy, by zminimalizować wariancję w klasach a zmaksymalizować wariancję pomiędzy klasami.
- Podział według kwantyli - metoda polegająca na podziale zmiennej na klasy równej liczności.
- Odchylenie standardowe - metoda polegająca na podziale zmiennej na klasy w oparciu o oddalenie od średniej o 1, 2 lub więcej odchyleń standardowych.
- Błąd standardowy średniej - metoda polegająca na podziale zmiennej na klasy w oparciu o oddalenie od średniej o 1, 2 lub więcej błędów standardowych średniej.
- Ręczny - metoda polegająca na podziale zmiennej na klasy wg dowolnego podziału wprowadzonego ręcznie przez badacza.
W oknie podziału możliwe jest również wybranie opcji Dodaj schemat kolorów
wówczas kolumna, która będzie przechowywała nowe dane zostanie oznaczona kolorami zgodnie ze wskazanym schematem
Zadanie (plik: normalizacja.pqs)
Dokonaj przekształcenia wszystkich zmiennych zawartych w pliku
a) Przekształć wartość trójglicerydów poprzez transformację Boxa-Coxa a następnie sprawdź przy pomocy odpowiedniego testu, czy dane te mają rozkład normalny.
b) Przekształć wartość trójglicerydów poprzez transformację logarytmiczną a następnie sprawdź przy pomocy odpowiedniego testu, czy dane te mają rozkład normalny.
c) Stosując normalizację min-max przekształć wybrane zmienne do przedziału [0,10].
d) Stosując normalizację logistyczną przekształć wybrane zmienne do zadanego przez siebie przedziału.
e) Stosując normalizację ze współczynnikiem przekształć wybrane zmienne do zadanego przez siebie przedziału. Zrób to kilkukrotnie zmieniając wartość współczynnika .
f) Dokonaj standaryzacji wszystkich danych, które są opisane rozkładem normalnym.
g) Przekształć zmienną obrazującą jak zmieniła się masa ciała podczas stosowania diety tak, by przedstawiała ona rozkład normalny.
h) Pytanie o przebytych chorobach zakaźnych było pytaniem wielokrotnego wyboru. Przygotuj uzyskane odpowiedzi na to pytanie tak, by można było poddać je dalszej obróbce statystycznej tzn. zapisz każdą z wielokrotnych odpowiedzi w innej kolumnie.
i) Przygotuj zmienną wykształcenie tak, by była zapisana przy pomocy zmiennych fikcyjnych o kodowaniu zero-jedynkowym.
j) Przygotuj zmienną cholesterol całkowity dzieląc ją na 3 klasy wg podziału na percentyle (kwartyle). Powstałym klasom nadaj etykiety :„niski”, „przeciętny”, „wysoki” i dobierz schemat kolorów.