Spis treści

Testy diagnostyczne

Ocena testu diagnostycznego

Załóżmy, że przy pomocy testu diagnostycznego badamy występowanie danej cechy (najczęściej choroby) i znamy rzeczywistość (tzw. gold-standard) czyli wiemy, czy ta cecha rzeczywiście występuje u badanych osób. Na podstawie tych informacji możemy zbudować tabelę kontyngencji $2\times2$:

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{Rzeczywistość (gold-standard)} \\\cline{3-5}
\multicolumn{2}{|c||}{ }&choroba \textbf{(+)}&brak choroby \textbf{($-$)}& \textbf{Suma}\\ \hline \hline
\multirow{3}{*}{test diagnostyczny} & wynik pozytywny \textbf{(+)} & TP & FP & TP+FP \\\cline{2-5}
&wynik negatywny \textbf{($-$)}& FN &TN & FN+TN\\\cline{2-5}
&\textbf{Suma} & TP+FN & FP+TN & n=TP+FP+FN+TN\\\hline
\end{tabular}

gdzie:

TP - wyniki prawdziwie dodatnie (ang. true positive)

FP - wyniki fałszywie dodatnie (ang. false positive)

FN - wyniki fałszywie ujemne (ang. false negative)

TN - wyniki prawdziwie ujemne (ang. true negative)

Dla takiej tabeli możemy wyliczyć podane niżej miary.

  • Czułość i swoistość testu diagnostycznego

Każdy test diagnostyczny może w niektórych przypadkach uzyskać wyniki różne od wyników rzeczywistych, na przykład test diagnostyczny na podstawie otrzymanych parametrów klasyfikuje pacjenta do grupy osób chorych na daną chorobę, bądź zdrowych. W rzeczywistości ilość osób zakwalifikowanych do powyższych grup przez test może się różnić od ilości osób rzeczywiście zdrowych i rzeczywiście chorych.

Stosowane są dwie miary oceny trafności testu diagnostycznego. Są to:

  • Czułość (ang. sensitivity) - opisuje zdolność wykrywania osób rzeczywiście chorych (posiadających daną cechę). Jeśli więc badamy grupę osób chorych, to czułość daje nam informacje jaki procent z nich ma pozytywny wynik tetsu.

\begin{displaymath}
\textrm{czułość}=\frac{TP}{TP+FN}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji.

* Swoistość (ang. specificity) - opisuje zdolność wykrywania osób rzeczywiście zdrowych (bez danej cechy). Jeśli więc badamy grupę osób zdrowych, to swoistość daje nam informacje jaki procent z nich ma negatywny wynik testu.

\begin{displaymath}
\textrm{swoistość}=\frac{TN}{FP+TN}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji.

  • Wartości predykcyjne dodatnie i ujemne oraz współczynnik chorobowości
  • Wartość predykcyjna dodatnia (ang. positive predictive value - $PPV$) - prawdopodobieństwo, że osobnik miał chorobę mając pozytywny wynik testu. Jeśli więc badana osoba otrzymała pozytywny wynik testu, to PPV daje jej informację na ile może być pewna, że cierpi na daną chorobę.

\begin{displaymath}
PPV=\frac{TP}{TP+FP}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji.

  • Wartość predykcyjna ujemna (ang. negative predictive value - $NPV$) - prawdopodobieństwo, że osobnik nie miał choroby mając negatywny wynik testu. Jeśli więc badana osoba otrzymała negatywny wynik testu, to NPV daje jej informację na ile może być pewna, że nie cierpi na daną chorobę.

\begin{displaymath}
NPV=\frac{TN}{FN+TN}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji. Wartości predykcyjne dodatnie i ujemne są zależne od rozpowszechnienia choroby (od współczynnika chorobowości).

  • Współczynnik chorobowości (ang. prevalence) - prawdopodobieństwo wystąpienia choroby w populacji, dla której przeprowadzony był test diagnostyczny.

\begin{displaymath}
\textrm{Współczynnik chorobowości}=\frac{TP+FN}{n}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji.

  • Iloraz wiarygodności wyniku dodatniego i iloraz wiarygodności wyniku ujemnego
  • WypunktowanieIloraz wiarygodności wyniku dodatniego (ang. likelihood ratio of positive test - $LR_+$) - miara ta pozwala na porównywanie dopasowania wyników kilku testów do tzw. gold-standard i nie jest zależna od rozpowszechnienia choroby. Jest to iloraz dwóch szans: szansy na to, że pozytywny wynik testu otrzyma osoba z grupy chorych do szansy, że ten sam efekt będzie obserwowany wśród osób zdrowych.

\begin{displaymath}
LR_+=\frac{\textrm{czułość}}{1-\textrm{swoistość}}=\frac{TP\left(TP+FN\right)}{FP\left(FP+TN\right)}
\end{displaymath}

Przedział ufności dla $LR_+$ buduje się w oparciu o błąd standardowy:

\begin{displaymath}
SE=\sqrt{\frac{1-\textrm{czułość}}{TP}+\frac{\textrm{swoistość}}{FP}}.
\end{displaymath}

  • WypunktowanieIloraz wiarygodności wyniku ujemnego (ang. likelihood ratio of negative test - $LR_-$) - jest to iloraz dwóch szans: szansy na to, że negatywny wynik testu otrzyma osoba z grupy chorych do szansy, że ten sam efekt będzie obserwowany wśród osób zdrowych.

\begin{displaymath}
LR_-=\frac{1-\textrm{czułość}}{\textrm{swoistość}}=\frac{FN\left(TP+FN\right)}{TN\left(FP+TN\right)}
\end{displaymath}

Przedział ufności dla $LR_-$ buduje się w oparciu o błąd standardowy:

\begin{displaymath}
SE=\sqrt{\frac{\textrm{czułość}}{FN}+\frac{1-\textrm{swoistość}}{TN}}.
\end{displaymath}

  • Dokładność
  • Dokładność (ang. Accuracy (Acc)) - prawdopodobieństwo prawidłowej diagnozy przy wykorzystaniu testu diagnostycznego. Jeśli więc badana osoba otrzymała pozytywny lub negatywny wynik testu, to $Acc$ daje jej informację o tym na ile może być pewna postawionej diagnozy.

\begin{displaymath}
Acc=\frac{TP+TN)}{n}
\end{displaymath}

Przedział ufności budowany jest w oparciu o metodę Cloppera-Pearsona dla pojedynczej proporcji.

Okno z ustawieniami opcji wiarygodności diagnostycznej wywołujemy poprzez menu StatystykaTesty diagnostyczneWiarygodność diagnostyczna

Przykład (plik mammografia.pqs)

Mammografia jest jednym z najpowszechniej stosowanych testów przesiewowych pozwalających na wykrycie raka piersi. Poniższe badanie zostało przeprowadza na grupie 250 tzw. „bezobjawowych” kobiet w wieku od 40 do 50 lat. Mammografia może wykryć ognisko raka mniejsze niż 5 mm, ale również pozwala stwierdzić zmiany, które nie są jeszcze guzkiem, a jedynie zmianą struktury tkanek. Poniżej przedstawiono przykładowy wynik badania mammograficznego.

\begin{tabular}{|c|c||c|c|c|}
\hline
\multicolumn{2}{|c||}{Liczności obserwowane}& \multicolumn{3}{|c|}{Rzeczywistość (badanie histopatologiczne)} \\\cline{3-5}
\multicolumn{2}{|c||}{ }&choroba \textbf{(+)}&brak choroby \textbf{($-$)}& \textbf{Suma}\\\hline \hline
\multirow{3}{*}{test diagnostyczny} & wynik pozytywny \textbf{(+)} & 9 & 10 & 19 \\\cline{2-5}
&wynik negatywny \textbf{($-$)}& 1 &230 & 231\\\cline{2-5}
&\textbf{Suma} & 10 & 240 & 250\\\hline
\end{tabular}

Wyznaczymy wartości pozwalające dokonać oceny przeprowadzonego testu diagnostycznego.

  • 90% kobiet chorych na raka piersi zostało poprawnie zdiagnozowanych, czyli uzyskało pozytywny wynik mammografii;
  • 95.83% kobiet zdrowych (nie chorujących na raka piersi) zostało poprawnie zdiagnozowanych, czyli uzyskało negatywny wynik mammografii;
  • 4 kobiety na 100 przebadanych cierpi z powodu raka piersi;
  • Kobieta uzyskująca pozytywny wynik mammografii może być w 47.3\% pewna, że ma raka piersi;
  • Kobieta uzyskująca negatywny wynik mammografii może być w 99.57% pewna, że nie ma raka piersi;
  • WypunktowanieSzansa na to, że pozytywny wynik mammografii otrzyma kobieta rzeczywiście chora na raka jest 21.60 razy większa niż szansa, że pozytywny wynik mammografii otrzyma kobieta rzeczywiście zdrowa (nie chorujących na raka piersi);
  • WypunktowanieSzansa na to, że negatywny wynik mammografii otrzyma kobieta rzeczywiście chora na raka stanowi 10.43% szansy na to, że negatywny wynik mammografii otrzyma kobieta rzeczywiście zdrowa (nie chorujących na raka piersi);
  • WypunktowanieKobieta poddająca się mammografii (bez względu na uzyskany wynik) może być pewna postawionej diagnozy w 96.50%.
 

Krzywa ROC

Testem diagnostycznym posługujemy się, by odróżnić obiekty z daną cechą (oznaczone jako ($+$), np. osoby chore) od obiektów bez danej cechy (oznaczone jako ($-$), np. osoby zdrowe). Aby test diagnostyczny mógł być uznany za wartościowy, powinien dawać stosunkowo niewielką liczbę błędnych klasyfikacji. Jeśli test opiera się na zmiennej dychotomicznej, wówczas właściwym narzędziem do oceny jego jakości jest analiza tabeli kontyngencji $2\times2$ wartości prawdziwie dodatnich (TP), prawdziwie ujemnych (TN), fałszywie dodatnich (FP) i fałszywie ujemnych (FN). Najczęściej jednak testy diagnostyczne opierają się na zmiennych ciągłych lub o uporządkowanych kategoriach. W takiej sytuacji właściwym środkiem oceny zdolności testu do rozróżnienia ($+$) i ($-$) są krzywe ROC (ang. Receiver Operating Characteristic).

Często obserwuje się, że wraz ze wzrostem wartości zmiennej diagnostycznej rosną szansę na wystąpienie badanego zjawiska lub odwrotnie: wraz ze wzrostem wartości zmiennej diagnostycznej maleją szansę na wystąpienie badanego zjawiska. Wówczas przy użyciu krzywych ROC dokonuje się wyboru optymalnego punktu odcięcia, czyli pewnej wartości zmiennej diagnostycznej, która najlepiej dzieli badaną zbiorowość na dwie grupy: ($+$) w której występuje dane zjawisko i ($-$) w której dane zjawisko nie występuje.

Kiedy w oparciu o badania przeprowadzone na tych samych obiektach, są zbudowane dwie lub więcej krzywych ROC, można dokonać porównania tych krzywych pod kątem jakości klasyfikacji.

Załóżmy, że dysponujemy $n$ elementową próbą, w której każdy obiekt uzyskuje jedną z $k$ wartości zmiennej diagnostycznej. Każda z uzyskanych wartość zmiennej diagnostycznej $x_1, x_2, ...x_k$ staje sie potencjalnym punktem odcięcia $x_{cat}$.

Jeśli zmienna diagnostyczna to:

  • stymulanta (wraz ze wzrostem jej wartości rosną szanse na wystąpienie badanego zjawiska), to wartości większe lub równe punktowi odcięcia ($x_i>=x_{cat}$) zaliczamy do grupy ($+$);
  • destymulanta (wraz ze wzrostem jej wartości maleją szanse na wystąpienie badanego zjawiska), to wartości mniejsze lub równe punktowi odcięcia ($x_i<=x_{cat}$) zaliczamy do grupy ($+$).

Dla każdego z $k$ punktów odcięcia wyznaczamy wartości prawdziwie dodatnie (TP), prawdziwie ujemne (TN), fałszywie dodatnie (FP) i fałszywie ujemne (FN).

\begin{tabular}{|c|c||c|c|}
\hline
\multicolumn{2}{|c||}{stymulanta}& \multicolumn{2}{|c|}{Rzeczywistość} \\\cline{3-4}
\multicolumn{2}{|c||}{ }&\textbf{(+)}&\textbf{($-$)}\\\hline \hline
\multirow{2}{*}{zmienna diagnostyczna} &$x_i>=x_{cat}$ \textbf{(+)} & TP & FP \\\cline{3-4}
&$x_i<x_{cat}$ \textbf{($-$)}& FN &TN\\\hline
\end{tabular}

\begin{tabular}{|c|c||c|c|}
\hline
\multicolumn{2}{|c||}{destymulanta}& \multicolumn{2}{|c|}{Rzeczywistość} \\\cline{3-4}
\multicolumn{2}{|c||}{ }&\textbf{(+)}&\textbf{($-$)}\\\hline \hline
\multirow{2}{*}{zmienna diagnostyczna} &$x_i<=x_{cat}$ \textbf{(+)} & TP & FP \\\cline{3-4}
&$x_i>x_{cat}$ \textbf{($-$)}& FN &TN\\\hline
\end{tabular}

Na podstawie tych wartości każdy punkt odcięcia $x_{cat}$ może być dalej opisany za pomocą czułości i swoistości oraz wartości predykcyjnych dodatnich (PPV), wartości predykcyjnych ujemnych (NPV), ilorazu wiarygodności wyniku dodatniego (LR$_+$), ilorazu wiarygodności wyniku ujemnego (LR$_-$) i dokładności (Acc).

Uwaga!

Program PQStat na podstawie posiadanej próby wylicza współczynnik chorobowości. Wyliczony współczynnik chorobowości będzie odzwierciedlał występowanie badanego zjawiska (choroby) w populacji, gdy są to badania przesiewowe obejmujące dużą próbę reprezentującą populację. Gdy na badania skierowane są tylko osoby z podejrzeniem choroby, to wyliczony dla nich współczynnik chorobowości może być znacznie wyższy od tego współczynnika w populacji.

Ponieważ zarówno wartość predykcyjna dodatnia jak i ujemna zależy od współczynnika chorobowości, znając a priori ten współczynnik dla populacji, możemy się nim posłużyć by wyliczyć dla każdego punktu odcięcia $x_{cat}$ poprawione wartości predykcyjne zgodnie z wzorami Bayesa:

\begin{displaymath}
PPV_{revised}=\frac{\textrm{Czułość}\cdot P_{a priori}}{\textrm{Czułość}\cdot P_{a priori} + (1-\textrm{Swoistść})\cdot (1-P_{a priori})}
\end{displaymath}

\begin{displaymath}
NPV_{revised}=\frac{\textrm{Swoistość}\cdot (1-P_{a priori})}{\textrm{Swoistość}\cdot (1-P_{a priori}) + (1-\textrm{Czułość})\cdot P_{a priori}}
\end{displaymath}

gdzie:

$P_{a priori}$ - zadany przez użytkownika współczynnik chorobowości, tzw. pre-test probability of disease

\begin{tabular}{|c||c|c|c|c|c|c|c||c|c|}
\hline
\textbf{$x_{cat}$} & \textbf{czułość} & \textbf{swoistość} & $\textbf{PPV}$ & $\textbf{NPV}$ & $\textbf{LR}_+$ & $\textbf{LR}_-$ & $\textbf{Acc}$ &$\textbf{PPV}_{rev}$ & $\textbf{NPV}_{rev}$\\\hline\hline
$x_1$ & czułość$_1$ & swoistość$_1$ & $PPV_1$ & $NPV_1$ & $LR_{+1}$ & $LR_{-1}$ & $Acc_1$ & $PPV_{rev1}$ & $NPV_{rev1}$\\\hline
$x_2$ & czułość$_2$ & swoistość$_2$ & $PPV_2$ & $NPV_2$ & $LR_{+2}$ & $LR_{-2}$ & $Acc_2$ & $PPV_{rev2}$ & $NPV_{rev2}$\\\hline
\vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\\hline
$x_k$ & czułość$_k$ & swoistość$_k$ & $PPV_k$ & $NPV_k$ & $LR_{+k}$ & $LR_{-k}$ & $Acc_k$ & $PPV_{revk}$ & $NPV_{revk}$\\\hline
\end{tabular}

Krzywa ROC powstaje na podstawie wyznaczonych wartości czułości i swoistości. Na osi odciętych umieszczona jest $x$ = 1-swoistość, a na osi rzędnych $y$ = czułość. Uzyskane punkty są ze sobą połączone. Powstała w ten sposób krzywa, a w szczególności pole pod nią, obrazuje jakość klasyfikacyjną analizowanej zmiennej diagnostycznej. Gdy krzywa ROC pokrywa się z przekątną $y=x$, to decyzja podejmowana na podstawie zmiennej diagnostycznej jest tak samo dobra jak losowy podział badanych obiektów na grupy ($+$) i ($-$).

AUC(ang. area under curve) - wielkość pola pod krzywą ROC mieści się w przedziale $<0; 1>$. Im większe jest pole, tym dokładniej zaklasyfikujemy obiekty do grupy ($+$) i ($-$) na podstawie analizowanej zmiennej diagnostycznej. Zatem z tym lepszym skutkiem ta zmienna diagnostyczna może być wykorzystywana jako klasyfikator. Pole $AUC$, błąd $SE_{AUC}$ i przedział ufności dla AUC wyliczane są w oparciu:

  • metodę nieparametryczną DeLong (DeLong E.R. i inni 19881), Hanley J.A. i Hajian-Tilaki K.O. 19972) - rekomendowane,
  • metodę nieparametryczną Hanley-McNeil (Hanley J.A. i McNeil M.D. 19823)),
  • metodę Hanley-McNeil zakładającą dwu-ujemny rozkład wykładniczy (Hanley J.A. i McNeil M.D. 19824)) - wyliczną tylko wtedy, gdy grupy ($+$) i ($-$) są równoliczne.

By klasyfikacja była lepsza niż losowy podział obiektów do dwóch klas, pole pod krzywą ROC powinno być istotnie większe niż pole pod prostą $y=x$ czyli niż 0.5.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & AUC=0.5, \\
\mathcal{H}_1: & AUC\neq 0.5.
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
Z=\frac{AUC-0.5}{SE_{0.5}},
\end{displaymath}

gdzie:

$SE_{0.5}=\sqrt{\frac{n_{(+)}+n_{(-)}+1}{12n_{(+)}n_{(-)}}}$,

$n_{(+)}$ - liczność grupy ($+$), w której dane zjawisko rzeczywiście występuje,

$n_{(-)}$ - liczność grupy ($-$), w której dane zjawisko rzeczywiście nie występuje.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Przykład (plik bakteriemia.pqs)

 

Wybór optymalnego punktu odcięcia

Ten poszukiwany punkt, to pewna wartość zmiennej diagnostycznej, która optymalnie dzieli badaną zbiorowość na dwie grupy: $(+)$ w której występuje dane zjawisko i $(-)$ w której dane zjawisko nie występuje. Wybór optymalnego punktu odcięcia nie jest łatwy, gdyż wymaga fachowej wiedzy z zakresu tematu badań. Na przykład innego punktu odcięcia będzie wymagał test użyty w badaniach przesiewowych obejmujących dużą grupę osób np. w badaniu mammograficznym, a innego w badaniach inwazyjnych przeprowadzanych by potwierdzić wcześniejsze podejrzenie np. w histopatologii. Stosując zaawansowany aparat matematyczny możemy znaleźć taki punkt tzw. cut-off, który będzie najkorzystniejszy z matematycznego punktu widzenia.

Program PQStat wybór optymalnego punktu odcięcia umożliwia poprzez analizę wykresu przecięcia czułości i swoistości. Poza tym optymalny punkt odcięcia może być wyliczony na podstawie podanych przez użytkownika kosztów błędnych decyzji i wartości współczynnika chorobowości a priori.

  • Optymalny punkt odcięcia na krzywej ROC - wyliczany w oparciu o czułość, swoistość, koszty błędnych decyzji i współczynnik chorobowości.

Błędy jakie można popełnić przydzielając badane obiekty do grupy $(+)$ i do grupy $(-)$ to wyniki fałszywie dodatnie ($FP$) i wyniki fałszywie ujemne ($FN$). Jeśli popełnienie tych błędów jest tak samo kosztowne (koszty etyczne, finansowe, …), to wówczas w polu koszt FP i w polu koszt FN wpisujemy tą samą dodatnią wartość $-$ zwykle 1. Jeśli natomiast uznamy, że jeden rodzaj błędu jest obarczony większym kosztem niż drugi, wówczas przypiszemy mu odpowiednio większą wagę.

Optymalna wartość odcięcia obliczana jest na podstawie czułości, swoistości i przy użyciu wielkości $m$ - nachylenia stycznej do krzywej ROC. Kąt nachylenia $m$ jest określany w odniesieniu do dwóch wartości: kosztów błędnych decyzji i współczynnika chorobowości. Standardowo koszty błędnych decyzji są równe 1, a współczynnik chorobowości estymowany jest z próby. Znając a priori współczynnik chorobowości ($P_{a priori}$) i koszty błędnych decyzji użytkownik może wpływać na wartość $m$ a tym samym na wyszukiwanie optymalnego punktu odcięcia. W rezultacie za optymalny punkt odcięcia uznana zostaje taka wartość zmiennej diagnostycznej, przy której wyrażenie:

\begin{displaymath}\textrm{Czułość} - m\cdot(1- \textrm{Swoistość})\end{displaymath} osiąga minimum (Zweig M.H. 19935)).

Wybrany w ten sposób optymalny punkt odcięcia zmiennej diagnostycznej zostanie ostatecznie zaznaczony na wykresie krzywej ROC.

  • Wykres kosztów - prezentuje wyliczone wartości błędnej diagnozy wraz z ich kosztami. Wartości te wyliczane są zgodnie z wzorem:

\begin{displaymath}
koszt=koszt_{FP}\cdot FP+koszt_{FN}\cdot FN
\end{displaymath}

Zaznaczony na wykresie punkt, to minimum powyższej funkcji.

  • Wykres przecięcia czułości i swoistości - pozwala na zlokalizowanie punktu, w którym wartość czułości i swoistości jest jednocześnie największa.

Okno z ustawieniami opcji analizy ROC wywołujemy poprzez menu StatystykaTesty diagnostyczneKrzywa ROC.

Przykład (plik bakteriemia.pqs)

Utrzymująca się wysoka gorączka u niemowlęcia lub małego dziecka bez ustalonych wyraźnych przyczyn jest wskazówką do przeprowadzenia badań w kierunku bakteriemii. Za najbardziej przydatne i wiarygodne parametry służące do przesiewowej diagnostyki i monitorowania zakażeń bakteryjnych uważa się wskaźniki:

  • WBC - liczba białych krwinek (ang. white blood cells),
  • PCT - prokalcytonina (ang. procalcitonin).

Przyjmuje się, że u zdrowego niemowlęcia i małego dziecka WBC nie powinno przekraczać 15 tys/µl, a PCT powinno być niższe niż 0.5 ng/ml.

Przykładowe wartości tych wskaźników dla 136 dzieci do 3 roku życia z utrzymującą się gorączką $>39^0C$ przedstawia poniższy fragment tabeli:

Jednym z możliwych sposobów analizy wskaźnika PCT jest przekształcenie go w zmienną dychotomiczną przez wybranie punktu odcięcia (np. $x_{cat}$=0.5 ng/ml), powyżej którego badanie jest uznane za „pozytywne”. Jak dobry jest taki podział wskaże wartość czułości i swoistości. Chcemy wykorzystać bardziej kompleksowe podejście, czyli wyliczyć czułość i swoistość nie tylko dla jednej wartości, ale dla każdej uzyskanej w próbie wartości PCT - czyli zbudować krzywą ROC. Na podstawie uzyskanych w ten sposób informacji chcemy sprawdzić, czy wskaźnik PCT jest rzeczywiście przydatny w rozpoznawaniu bakteriemii. Jeśli tak, jaki jest optymalny punkt odcięcia powyżej którego możemy uznać badanie za „pozytywne” - wykrywające bakteriemię.

By sprawdzić, czy PCT jest rzeczywiście przydatny w rozpoznawaniu bakteriemii wyliczymy wielkość pola pod krzywą ROC i zweryfikujemy hipotezę, że:

\begin{array}{cl}
\mathcal{H}_0: & $pole pod zbudowaną krzywą ROC $=0.5, \\
\mathcal{H}_1: & $pole pod zbudowaną krzywą ROC $\neq 0.5.
\end{array}

Ponieważ bakteriemi towarzyszy podwyższony poziom PCT, to w oknie opcji testu wskaźnik ten uznajemy za stymulantę. W zmiennej stanu musimy określić, która wartość znajdująca się w kolumnie bakteriemia określa jej obecność, tutaj wybieramy wartość „tak”. W raporcie oprócz wyniku testu statystycznego możemy znaleźć dokładny opis każdego z możliwych punktów odcięcia.

Wyliczona wielkość pola pod krzywą ROC wynosi $AUC=0.889$. Zatem na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p<0.000001$ wnioskujemy, że rozpoznawanie bakteriemii przy użyciu wskaźnika PCT jest istotnie korzystniejsze niż losowy podział pacjentów na 2 grupy: chorujących na bakteriemię i nie chorujących. Wracamy więc do analizy (przycisk ), by wyznaczyć optymalny punkt odcięcia.

Algorytm poszukiwania optymalnego punktu odcięcia uwzględnia koszty błędnych decyzji i współczynnik chorobowości:

  • koszt FN - błędna diagnoza, to koszt uznania, że pacjent nie choruje na bakteriemię mimo, że rzeczywiście jest on chory (koszty decyzji fałszywie ujemnej)
  • Wypunktowaniekoszt FP - błędna diagnoza, to koszt uznania, że pacjent choruje na bakteriemię mimo, że rzeczywiście na nią nie choruje (koszty decyzji fałszywie dodatniej)

Ponieważ koszty FN są znacznie poważniejsze niż koszty FP, to w polu pierwszym wpisujemy wartość większą niż w polu drugim. Uznaliśmy, że będzie to wartość 5.

Wartość PCT ma być wykorzystywana w badaniach przesiewowych, nie podajemy więc populacyjnego współczynnika chorobowości (współczynnika chorobowości a priori), który jest bardzo niski, ale pozostajemy przy współczynniku estymowanym z próby. Postępujemy tak, by nie przesunąć punktu odcięcia wartości PCT zbyt wysoko i nie zwiększyć ilości fałszywie ujemnych wyników.

Wyznaczony optymalny punkt odcięcia PCT to 1.819. Dla tego punktu czułość=0.85 a swoistość=0.96.

Innym sposobem wyboru punktu odcięcia jest analiza wykresu kosztów i wykresu przecięcia czułości:

Analiza wykresu kosztów wskazuje, że minimum kosztów błędnych decyzji przypada na PCT=1.819. Natomiast wartość czułości i swoistości jest podobna dla PCT=1.071

 

Porównywanie krzywych ROC

Bardzo często celem badań jest porównanie wielkości pola pod krzywą ROC ($AUC_1$) z polem pod inną krzywą ROC ($AUC_2$). Krzywa ROC o większym polu, pozwala zwykle na dokładniejszą klasyfikację obiektów. Metody służące porównaniu pól zależne są od modelu badania.

  • Model zależny - porównywane krzywe ROC powstają na bazie pomiarów dokonanych na tych samych obiektach.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & AUC_1=AUC_2, \\
\mathcal{H}_1: & AUC_1\neq AUC_2.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{|AUC_1-AUC_2|}{SE_{AUC_1-AUC_2}},
\end{displaymath}

gdzie:

$AUC_1$, $AUC_2$ i błąd standardowy różnicy pól $SE_{AUC_1-AUC_2}$ wyliczane są w oparciu o metodę nieparametryczną zaproponowaną przez DeLong (DeLong E.R. i inni 19886), Hanley J.A. i Hajian-Tilaki K.O. 19977))

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji porównywania zależnych krzywych ROC wywołujemy poprzez menu StatystykaTesty diagnostyczneZależne Krzywe ROC - porównywanie.

  • Model niezależny - porównywane krzywe ROC powstają na bazie pomiarów dokonanych na różnych obiektach.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & AUC_1=AUC_2, \\
\mathcal{H}_1: & AUC_1\neq AUC_2.
\end{array}

Statystyka testowa (Hanley J.A. i McNeil M.D. 19838)) ma postać:

\begin{displaymath}
Z=\frac{|AUC_1-AUC_2|}{\sqrt{SE_{AUC_1}^2-SE_{AUC_2}^2}},
\end{displaymath}

gdzie:

$AUC_1$, $AUC_2$ i błędy standardowe pól $SE_{AUC_1}$, $SE_{AUC_2}$ wyliczane są w oparciu:

  • metodę nieparametryczną DeLong (DeLong E.R. i inni 19889), Hanley J.A. i Hajian-Tilaki K.O. 199710)) - rekomendowane,
  • metodę nieparametryczną Hanley-McNeil (Hanley J.A. i McNeil M.D. 198211)).

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji porównywania niezależnych krzywych ROC wywołujemy poprzez menu StatystykaTesty diagnostyczneNiezależne Krzywe ROC - porównywanie.

Przykład c.d. (plik bakteriemia.pqs)

Wykonamy 2 porównania:

  1. Zbudujemy 2 krzywe ROC, by porównać wartość diagnostyczną parametrów WBC i PCT;
  2. Zbudujemy 2 krzywe ROC, by porównać wartość diagnostyczną parametru PCT dla chłopców i dziewczynek.

ad1)

Zarówno parametr WBC jak i PCT jest stymulantą (wysokie wartości tych parametrów towarzyszą bakteriemii). Porównując wartość diagnostyczną tych parametrów weryfikujemy hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $pole pod krzywą ROC dla WBC $=$ pole pod krzywą ROC dla PCT$, \\
\mathcal{H}_1: & $pole pod krzywą ROC dla WBC $\neq $ pole pod krzywą ROC dla PCT$.
\end{array}

Wyliczone wielkości pól to $AUC_{WBC}=0.8613$, $AUC_{PCT}=0.8956$. Na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p$0.130321915 wnioskujemy, że nie możemy wskazać, który z parametrów WBC czy PCT jest lepszy w rozpoznawaniu bakteriemii.

ad2)

Parametr PCT jest stymulantą (jego wysokie wartości towarzyszą bakteriemii). Porównując jego wartość diagnostyczną dla dziewczynek i chłopców weryfikujemy hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & $pole pod krzywą ROC dla $PCT_k$ $=$ pole pod krzywą ROC dla $PCT_m$$, \\
\mathcal{H}_1: & $pole pod krzywą ROC dla $PCT_k$ $\neq $ pole pod krzywą ROC dla $PCT_m$$.
\end{array}

Wyliczone wielkości pól to $AUC_k=0.8649$, $AUC_m=0.9118$. Zatem na podstawie przyjętego poziomu $\alpha=0.05$, w oparciu o uzyskaną wartość $p$=0.637176453 wnioskujemy, że nie możemy wybrać płci, dla której parametr PCT jest lepszy w rozpoznawaniu bakteriemii.

 
1) , 6) , 9) DeLong E.R., DeLong D.M., Clarke-Pearson D.L., (1988), Comparing the areas under two or more correlated receiver operating curves: A nonparametric approach. Biometrics 44:837-845
2) , 7) , 10) Hanley J.A. i Hajian-Tilaki K.O. (1997), Sampling variability of nonparametric estimates of the areas under receiver operating characteristic curves: an update. Academic radiology 4(1):49-58
3) , 4) , 11) Hanley J.A. i McNeil M.D. (1982), The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 143(1):29-36
5) Zweig M.H., Campbell G. (1993), Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine. Clinical Chemistry 39:561-577
8) Hanley J.A. i McNeil M.D. (1983), A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology 148: 839-843