Normalizacja/Standaryzacja

Okno transformacji danych wywołujemy poprzez DaneTransformuj…

Transformacja danych to ich przekształcenie w taki sposób, by spełniały określone kryteria np. spełniały kryteria normalności rozkładu czy też rozciągały się w określonym przedziale.

  • Standaryzacja
    Standaryzacja, to przekształcenie danych, w wyniku którego zmienna uzyskuje średnią równą 0 a odchylenie standardowe równe 1.
    \begin{displaymath}
x'=\frac{x-\bar{x}}{sd}
\end{displaymath}
  • Rangowanie

Rangi - są to kolejne liczby (zwykle naturalne) przypisane do wartości uporządkowanych pomiarów badanej zmiennej. Często wykorzystywane są w tych testach nieparametrycznych, które bazują wyłącznie na kolejności elementów w próbie. Przypisanie do zmiennej wyliczonych według niej rang zwane jest rangowaniem. Rangowanie może odbywać się dla zmiennych sortowanych rosnąco (jest to domyślne ustawienie) lub malejąco.

Powtarzającym się wartościom zmiennej przypisuje się rangę wiązaną. Rangą wiązaną może być:
- średnia arytmetyczna wyliczana z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych - jest to domyślne ustawienie;
- dolna granica, czyli najmniejsza z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych;
- górna granica, czyli największa z proponowanych dla powtarzanych wartości kolejnych liczb naturalnych. ;. Taka ranga nazywana jest rangą wiązaną.

Na przykład dla zmiennej o następujących wartościach: 8.6, 5.3, 8.6, 7.1, 9.3, 7.2, 7.3, 7.4, 7.3, 5.2, 7, 9.9, 8.6, 5.7 przypisywane są następujące rangi:

\begin{tabular}{|c|c|}
\hline
posortowane wartości zmiennej	&rangi\\\hline
5.2	&1	\\
5.3	&2	\\
5.7	&3	\\
7	&4	\\
7.1	&5	\\
7.2	&6	\\
7.3	&7.5	\\
7.3	&7.5	\\
7.4	&9	\\
8.6	&11	\\
8.6	&11	\\
8.6	&11	\\
9.3	&13	\\
9.9	&14	\\
\hline
\end{tabular}

Przy czym dla zmiennej o wartości 7.3 przypisana jest ranga wiązana wyliczona z liczb: 7 i 8, a dla zmiennej o wartości 8.6 ranga wiązana wyliczona z liczb: 10, 11, 12.

  • Normalizacja min-max
    Normalizacja min-max przy pomocy funkcji liniowej sprowadza dane do wskazanego przez użytkownika przedziału ($new_{\min}$, $new_{\max}$). Powinniśmy przy tym znać zakres jaki mogą osiągnąć dane. Jeśli nie znamy tego zakresu, możemy posłużyć się wartością największą i najmniejszą występującą w analizowanym zbiorze (w oknie Transformacji zaznaczamy wtedy opcję oblicz z próby).
    \begin{displaymath}
x'=\frac{x-\min}{\max-\min}\cdot(new_{\max}-new_{\min})+new_{\min}
\end{displaymath}
  • Normalizacja S-kształtna
    Normalizacja przy pomocy funkcji logarytmicznej (S-kształtnej) sprowadza dane zestandaryzowane do wskazanego przedziału.
    \begin{displaymath}
x'=\frac{e^x}{1-e^x}
\end{displaymath}
    Jeśli tak przekształcone dane chcemy rozciągnąć na innym przedziale niż zadany, wówczas w oknie Transformacji należy wprowadzić zakres nowego przedziału.
  • Funkcja normalizująca ze współczynnikiem
    Normalizacja ta sprowadza dane zestandaryzowane do wskazanego przedziału przy pomocy funkcji S-kształtnej o zmieniającym się współczynniku normalizacji $\alpha$.
    \begin{displaymath}
x'=\frac{x}{\sqrt{x^2+\alpha}}
\end{displaymath}
    Zwiększenie wartości współczynnika $\alpha$ tworzy wykres o bardziej łagodnym zboczu.
    Jeśli tak przekształcone dane chcemy rozciągnąć na innym przedziale niż zadany, wówczas w oknie Transformacji należy wprowadzić zakres nowego przedziału.

(plik: normalizacja.pqs)

Dokonaj przekształcenia wszystkich zmiennych zawartych w pliku

  1. stosując normalizację min-max do przedziału [0,10];
  2. stosując normalizację logarytmiczną;
  3. stosując normalizację ze współczynnikiem;
  4. stosując standaryzację.

Narzędzia witryny