Porównywanie krzywych przeżycia

Funkcje przeżycia mogą być budowane oddzielnie dla różnych podgrup np. oddzielnie dla kobiet i mężczyzn, a następnie porównane między sobą. Takie porównanie może dotyczyć zarówno dwóch, jak i kilku krzywych.

Okno z ustawieniami opcji porównania krzywych przeżycia wywołujemy poprzez menu StatystykaAnaliza przeżyciaPorównanie grup

Porównania $k$ krzywych przeżycia $S_1,S_2,...,S_k$ w poszczególnych punktach czasu przeżycia $t$ w programie możemy dokonać przy pomocy trzech testów:

Testu log-rank najbardziej znanego i szeroko stosowanego, nawiązującego do procedury Mantela-Heanszela dla wielu tabel 2×2 (Mantel-Heanszel 19591), Mantel 19662), Cox 19723)),

Uogólnienia Gehana testu Wilcoxona wywodzącego się od testu Wilcoxona (Breslow 1970, Gehan 19654)5)),

Testu Taron-Ware wywodzącego się od testu Wilcoxona (Tarone i Ware 19776)).

Wszystkie trzy testy działają w oparciu o tę samą statystykę testową, inne są tylko wagi $w_j$ w poszczególnych punktach osi czasu, na których bazuje statystyka testowa.

Test log-rank: $w_j=1$ - wszystkie punkty osi czasu posiadają tę samą wagę, co daje większy wpływ na uzyskany wynik późniejszym wartościom osi czasu;

Uogólnienie Gehana testu Wilcoxona: $w_j=n_j$ - momenty czasowe są ważone liczbą obserwacji w każdym z nich, a zatem przypisywane są większe wagi początkowym wartościom osi czasu;

Test Taron-Ware: $w_j=\sqrt{n_j}$ - momenty czasowe są ważone pierwiastkiem z liczby obserwacji w każdym z nich co powoduje, usytuowanie tego testu pomiędzy dwoma omówionymi wcześniej.

Ważnym warunkiem stosowania powyższych testów jest proporcjonalność hazardu. Hazard definiowany jako nachylenie krzywej przeżycia jest miarą tego, jak szybko następuje niepożądane zdarzenie. Złamanie założenia proporcjonalności hazardu choć nie dyskwalifikuje całkowicie powyższych testów, to niesie kilka niebezpieczeństw. Przede wszystkim położenie punktu przecięcia krzywych względem osi czasu ma decydujący wpływ na obniżenie mocy poszczególnych testów.

Przykład c.d. (plik przeszczep.pqs)

Różnice w krzywych przeżycia

Hipotezy:

\begin{array}{ll}
\mathcal{H}_0: & S_1(t)=S_2(t)=...=S_k(t),$\quad dla wszystkich $t,\\
\mathcal{H}_1: & $nie wszystkie $S_i(t)$ są sobie równe$.
\end{array}

W obliczeniach wykorzystano statystykę chi-kwadrat postaci:

\begin{displaymath}
\chi^2=U'V^{-1}U
\end{displaymath} gdzie:

$U_i=\sum_{j=1}^{m}w_j(d_{ij}-e_{ij})$

$V$ - macierz kowariancji o wymiarach $(k-1)\times(k-1)$

gdzie:

diagonala: $\sum_{j=1}^{m}w_j^2\frac{n_{ij}(n_j-n_{ij})d_j(n_j-d_j)}{n^2_j(n_j-1)}$,

poza diagonalą (off diagonal): $\sum_{j=1}^{m}w_j^2\frac{n_{ij}n_{lj}d_j(n_j-d_j)}{n^2_j(n_j-1)}$

$m$ - liczba momentów czasowych, w których nastąpiło niepożądane zdarzenie (zgon),

$d_j=\sum_{i=1}^k d_{ij}$ - obserwowana liczba niepożądanych zdarzeń (zgonów) w $j$-tym momencie czasowym,

$d_{ij}$ - obserwowana liczba niepożądanych zdarzeń (zgonów) w $i$-tej grupie w $j$-tym momencie czasowym,

$e_{ij}=\frac{n_{ij}d_j}{n_j}$ - oczekiwana liczba niepożądanych zdarzeń (zgonów) w $i$-tej grupie w $j$-tym momencie czasowym,

$n_j=\sum_{i=1}^k n_{ij}$ - liczba narażonych w $j$-tym momencie czasowym.

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z $df=k-1$ stopniami swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Iloraz Hazardów

W teście Log-rank dla każdej grupy podawane są obserwowane wartości niepożądanych zdarzeń (zgonów) $O_i=\sum_{j=1}^m d_{ij}$ oraz odpowiednie wartości oczekiwane $E_i=\sum_{j=1}^m e_{ij}$.

Miarą opisującą wielkość obserwowanej różnicy między parą krzywych przeżycia jest Iloraz Hazardów (ang. Hazard Ratio - $HR$).

\begin{displaymath}
HR= \frac{O_1/E_1}{O_2/E_2}
\end{displaymath}

Jeśli Iloraz Hazardów jest większy niż 1 np. $HR=2$, to stopień narażenia na niepożądane zdarzenie w pierwszej grupie jest dwa razy większy niż w grupie drugiej. Odwrotna sytuacja jest gdy $HR$ jest mniejsze niż jeden. Natomiast przy $HR$ równym 1 obie grupy są narażone w tym samym stopniu.

Uwaga!

Przedział ufności dla $HR$ wyliczany jest w oparciu o błąd standardowy logarytmu $HR$ (Armitage i Berry 19947)).

Przykład c.d. (plik przeszczep.pqs)

2014/08/22 20:00

Trend w krzywych przeżycia

Hipotezy:

\begin{array}{ll}
\mathcal{H}_0: & $W badanej populacji nie istnieje trend w położeniu krzywych $S_1,S_2,...,S_k,\\
\mathcal{H}_1: & $W badanej populacji istnieje trend w położeniu krzywych $S_1,S_2,...,S_k.
\end{array}

W obliczeniach wykorzystano statystykę chi-kwadrat postaci:

\begin{displaymath}
\chi^2=\frac{(c'U)^2}{c'Vc}
\end{displaymath}

gdzie:

$c=(c_1,c_2,...,c_k)$ $-$ wektor wag dla porównywanych grup informujący o ich naturalnym porządku (najczęściej kolejne liczby naturalne).

Statystyka ta ma asymptotycznie (dla dużych liczności oczekiwanych) rozkład chi-kwadrat z jednym stopniem swobody. Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Uwaga!

By można było przeprowadzić analizę trendu w krzywych przeżycia, zmienna grupująca musi być zmienną liczbową, w której wartości liczb informują o naturalnym porządku grup. Liczby te w analizie traktowane są jako wagi $c_1,c_2,...,c_k$.

Przykład c.d. (plik przeszczep.pqs)

2014/08/22 20:00

Krzywe przeżycia dla warstw

Często chcąc porównać czasy przeżycia dla dwóch lub więcej grup nie możemy zapomnieć o innych czynnikach, które mogą mieć wpływ na wynik tego porównania. Dostosowanie (korekcja) analizy o takie czynniki może być przydatna. Na przykład w badaniach domu opieki porównujących długość pobytu osób poniżej i powyżej 80 roku życia uzyskano istotną różnicę. Wiadomo jednak, że płeć ma silny związek z długością pobytu, a także wiekiem. Dlatego próbując ocenić wpływ wieku dobrym pomysłem byłaby stratyfikacja analizy ze względu na płeć.

Hipotezy dla różnic w krzywych przeżycia:

\begin{array}{ll}
\mathcal{H}_0: & S_1^*(t)=S_2^*(t)=...=S_k^*(t),$\quad dla wszystkich $t,\\
\mathcal{H}_1: & $nie wszystkie $S_i^*(t)$ są sobie równe$.
\end{array}

Hipotezy dla analizy trendu w krzywych przeżycia:

\begin{array}{ll}
\mathcal{H}_0: & $W badanej populacji nie istnieje trend w położeniu krzywych $S_1^*,S_2^*,...,S_k^*,\\
\mathcal{H}_1: & $W badanej populacji istnieje trend w położeniu krzywych $S_1^*,S_2^*,...,S_k^*.
\end{array}

gdzie $S_1^*(t), S_2^*(t), ..., S_k^*(t)$ -to krzywe przeżycia po korekcji o zmienną wyznaczającą warstwy.

Obliczenia dla statystyk testowych bazują na formułach opisanych dla testów nie uwzględniających warstw z tą różnicą, że macierz U i V jest zastąpiona sumą macierzy $\sum_{l=1}^L U$ i $\sum_{l=1}^L V$. Sumowanie następuje po warstwach utworzonych przez zmienną, względem której dostosowujemy (korygujemy) analizę (adjusted) l={1,2,…,L}

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład c.d. (plik przeszczep.pqs)

Różnice dla dwóch krzywych przeżycia

Przeszczepy wątroby dokonywane były w dwóch różnych szpitalach. Sprawdzimy, czy długość życia pacjentów po przeszczepie zależały od szpitala, w którym dokonywano przeszczepu. Porównania krzywych przeżycia dla tych szpitali dokonamy w oparciu o wszystkie zaproponowane w programie testy służące temu porównaniu.

Hipotezy:

\begin{array}{ll}
\mathcal{H}_0: & $krzywa przeżycia pacjentów szpitala 1 $=$ krzywa przeżycia pacjentów szpitala 2$,\\
\mathcal{H}_1: & $krzywa przeżycia pacjentów szpitala 1 $\neq $ krzywa przeżycia pacjentów szpitala 2$.
\end{array}

Na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p$=0.6004 dla testu log-rank (p=0.6959 dla Gehana i 0.6465 dla Tarona) wnioskujemy, że nie ma podstaw by odrzucić hipotezę $\mathcal{H}_0$. Długość życia wyliczona dla pacjentów obu tych szpitali jest podobna.

Do tego samego wniosku dojdziemy porównując ryzyko zgonu dla tych szpitali poprzez wyznaczenie ilorazu tego ryzyka. Uzyskana oszacowana wartość $HR=1.1499$, a 95% przedział ufności dla tej wartości zawiera jedynkę: $\langle$0.6570, 2.0126$\rangle$.

Różnice dla wielu krzywych przeżycia

Przeszczepy wątroby dokonywane były u ludzi w różnym wieku. Wyróżniono 3 grupy wiekowe: $\langle 45 $lat$; 50 $lat$)$, $\langle 50 $lat$; 55 $lat$)$, $\langle 55 $lat$; 60 $lat$)$. Sprawdzimy, czy długość życia pacjentów po przeszczepie zależy od ich wieku w chwili dokonania przeszczepu.

Hipotezy:

\begin{array}{ll}
\mathcal{H}_0: & $krzywe przeżycia pacjentów w wieku $\langle 45 $lat$; 50 $lat$), \langle 50 $lat$; 55 $lat$), \langle 55 $lat$; 60 $lat$)\\
& $są podobne,$\\
\mathcal{H}_1: & $przynajmniej jedna krzywa przeżycia, spośród powyższych 3 krzywych,$\\
& $różni się od pozostałych.$\\
\end{array}

Na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p$=0.0692 w teście log-rank (p=0.09279 dla Gehana, p=0.0779 dla Tarona) wnioskujemy, że nie ma podstaw by odrzucić hipotezę $\mathcal{H}_0$. Długość życia wyliczona dla pacjentów należących do porównywanych trzech grup wiekowych jest podobna. Choć należy zauważyć że wartości p są dość bliskie standardowemu poziomowi istotności 0.05.

Przeglądając wartości hazardu (ilorazu wartości obserwowanych i oczekiwanych niepożądanych zdarzeń) zauważamy, że z każdą kategorią wiekową są one nieco wyższe $\langle$0.68, 0.93, 1.43$\rangle$. Chociaż nie wykryto istotnych statystycznie różnic między nimi, to możliwe jest, że znaleziony zostanie trend wzrostu wartości hazardu (trend w położeniu krzywych przeżycia).

Trend dla kilku krzywych przeżycia

Jeśli do testu wprowadzimy informację dotyczącą uporządkowania porównywanych kategorii (wykorzystamy zmienną wiek, w której przedziały wiekowe ponumerujemy odpowiednio 1, 2 i 3), wówczas będziemy mogli sprawdzić, czy istnieje trend w porównywanych krzywych. Będziemy badać hipotezy:

\begin{array}{ll}
\mathcal{H}_0: & $brak trendu w krzywych czasu przeżycia pacjentów po przeszczepie,$\\
& $(trendu zależnego od wieku pacjentów w chwili przeszczepu),$\\
\mathcal{H}_1: & $czym starsi są pacjenci w momencie dokonania przeszczepu, tym większe/mniejsze$\\
& $ jest prawdopodobieństwo ich przeżycia określonego odcinka czasu.$\\
\end{array}

Na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p$=0.0237 w teście log-rank (p=0.0317 dla Gehana, p=0.0241 dla Tarona) wnioskujemy, że krzywe przeżycia ułożone są w pewnym trendzie. Najniżej na wykresie Kaplana-Meiera znajduje się krzywa dla osób w wieku $\langle$55 lat; 60 lat). Nad nią jest krzywa dla pacjentów w wieku $\langle$50 lat; 55 lat). Najwyżej zaś krzywa dla pacjentów w wieku $\langle$45 lat; 50 lat). Zatem czym starszy pacjent w chwili przeszczepu, tym mniejsze prawdopodobieństwo przeżycia określonego odcinka czasu.

Krzywe przeżycia dla warstw

Sprawdzimy teraz, czy obserwowany wcześniej trend jest niezależny od szpitala w którym dokonano przeszczepu. W tym celu jako zmienną warstwa wybierzemy szpital.

W raporcie najpierw przedstawiona jest analiza poszczególnych warstw, zarówno wyniki testów jak i wartości hazardu. W warstwie pierwszej trend wzrostu hazardu jest widoczny, choć nieistotny, trend o tym samym kierunku (wynik na pograniczu istotności statystycznej) obserwowany jest w warstwie drugiej. Kumulacja tych trendów we wspólnej analizie warstw pozwoliła uzyskać istotność trendu krzywych przeżycia. Zatem: czym starszy pacjent w chwili przeszczepu, tym mniejsze prawdopodobieństwo przeżycia określonego odcinka czasu niezależnie od szpitala dokonującego przeszczepu.

Analiza porównawcza krzywych przeżycia w korekcji o warstwy daje wynik istotny dla testu log-rank i Tarona a nieistotny dla Gehana, co może wskazywać na to, że pojawiające się różnice w krzywych nie są tak widoczne w początkowych okresach czasu przeżycia co w okresach późniejszych. Przyglądając się ilorazowi hazardu dla porównywanych parami krzywych

możemy zlokalizować istotne różnice. Najmniejszy iloraz hazardu mamy dla porównania krzywej dla najmłodszej grupy z krzywą dla grupy najstarszej 0.53, 95% przedział ufności dla tego ilorazu $\langle$0.26 ; 1.05$\rangle$ zawiera co prawda wartość 1, ale jest na pograniczu tej wartości, co może sugerować wystąpienie między odpowiadającymi im krzywymi istotnych różnic. By potwierdzić to przypuszczenie dociekliwy badacz, używając filtru danych w oknie analizy, może porównać krzywe parami.

Należy jednak pamiętać by zastosować jedną z poprawek używanych przy wielokrotnych porównaniach i zmodyfikować poziom istotności. W tym przypadku dla poprawki Bonferroniego przy trzech porównaniach poziom istotności wyniesie 0.017. Dla uproszczenia rozważań posłużymy się tylko testem log-rank.

$\langle$45 lat; 50 lat) vs $\langle$50 lat; 55 lat)

$\langle$45 lat; 50 lat) vs $\langle$55 lat; 60 lat)

$\langle$50 lat; 55 lat) vs $\langle$55 lat; 60 lat)

Zgodnie z oczekiwaniem istotne statystycznie różnice dotyczą tylko krzywych przeżycia dla najmłodszej i najstarszej grupy wiekowej.

2014/08/22 20:00
1)
Mantel N. and Haenszel W. (1959), Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22,719-748
2)
Mantel N. (1966), Evaluation of Survival Data and Two New Rank Order Statistics Arising in Its Consideration. Cancer Chemotherapy Reports, 50:163—170
3)
Cox D.R. (1972), Regression models and life tables. Journal of the Royal Statistical Society, B34:187-220
4)
Gehan E. A. (1965a), A Generalized Wilcoxon Test for Comparing Arbitrarily Singly-Censored Samples. Biometrika, 52:203—223
5)
Gehan E. A. (1965b), A Generalized Two-Sample Wilcoxon Test for Doubly-Censored Data. Biometrika, 52:650—653
6)
Tarone R. E., Ware J. (1977), On distribution-free tests for equality of survival distributions. Biometrica, 64(1):156-160
7)
Armitage P., Berry G., (1994), Statistical Methods in Medical Research (3rd edition); Blackwell

Narzędzia witryny