Współczynnik Kappa Cohena i test badający jego istotność

Współczynnik Kappa Cohena (ang. Cohen's Kappa), Cohen J. (1960)1), określa stopień zgodności dwukrotnych pomiarów tej samej zmiennej w różnych warunkach. Pomiaru tej samej zmiennej może dokonać dwóch różnych sędziów (odtwarzalność) lub jeden sędzia może dokonać pomiaru dwukrotnie (powtarzalność). Współczynnik $\hat \kappa$ wyznacza się dla zależnych zmiennych kategorialnych, a jego wartość zawiera się w przedziale od -1 do 1. Wartość 1 oznacza pełną zgodność, wartość 0 oznacza zgodność na poziomie takim samym jaki powstałby dla losowego rozłożenia danych w tabeli kontyngencji. Poziom pomiędzy 0 a -1 jest w praktyce niewykorzystywany. Ujemna wartość $\hat \kappa$ oznacza zgodność na poziomie mniejszym niż powstała dla losowego rozłożenia danych w tabeli kontyngencji. Współczynnik $\hat \kappa$ można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $c\times c$.

W zależności od potrzeb można wyznaczać Kappę nieważoną (czyli Kappę Cohena) lub Kappę ważoną. Przydzielane wagi ($w_{ij}$) odnoszą się do poszczególnych komórek tabeli kontyngencji, na przekątnej wynoszą 1 a poza przekątną należą do przedziału $<0; 1)$.

Kappa nieważona

Wyliczana jest dla danych, których kategorii nie da się uporządkować np. dane pochodzą od pacjentów, których dzielimy ze względu na rodzaj choroby jaka została zdiagnozowana, a chorób tych nie można uporządkować np. zapalenie płuc $(1)$, zapalenie oskrzeli $(2)$ i inne $(3)$. W takiej sytuacji można sprawdzać zgodność diagnoz wystawionych przez dwóch lekarzy stosując nieważoną Kappę, czyli Kappę Cohena. Niezgodność par $\{(1), (3)\}$ oraz $\{(1), (2)\}$ traktowana będzie równoważnie, a więc wagi poza przekątną macierzy wag będą zerowane.

Kappa ważona

W sytuacji kiedy kategorie danych mogą być posortowane np. dane pochodzą od pacjentów, których dzielimy ze względu na stopień zmian chorobowych na: brak zmian $(1)$, zmiany łagodne $(2)$, podejrzenie raka $(3)$, rak $(4)$, budować można zgodność wystawionych ocen przez dwóch radiologów uwzględniając możliwość sortowania. Za bardziej niezgodne pary ocen mogą być wówczas uznane oceny $\{(1), (4)\}$ niż $\{(1), (2)\}$. By tak było, by kolejność kategorii wpływała na wynik zgodności, wyznaczać należy ważoną Kappę.

Przydzielane wagi mogą mieć postać liniową lub kwadratową.

  • Wagi liniowe (Cicchetti, 19712)) - wyliczane według wzoru:

\begin{displaymath}
w_{ij}=1-\frac{|i-j|}{c-1}.
\end{displaymath}

Czym większe oddalenie od przekątnej macierzy tym mniejsza waga, przy czym wagi maleją proporcjonalnie. Przykładowe wagi dla macierzy wielkości 5×5 przedstawia tabela:

\begin{tabular}{|c|c|c|c|c|}
\hline1&0.75&0.5&0.25&0\\\hline
0.75&1&0.75&0.5&0.25\\\hline
0.5&0.75&1&0.75&0.5\\\hline
0.25&0.5&0.75&1&0.75\\\hline
0&0.25&0.5&0.75&1\\\hline
\end{tabular}

  • Wagi kwadratowe (Cohen, 19683)) - wyliczane według wzoru:

\begin{displaymath}
w_{ij}=1-\frac{(i-j)^2}{(c-1)^2}.
\end{displaymath}

Czym większe oddalenie od przekątnej macierzy tym mniejsza waga, przy czym wagi maleją wolniej w bliższej odległości od przekątnej i szybciej w odległości dalszej. Przykładowe wagi dla macierzy wielkości 5×5 przedstawia tabela:

\begin{tabular}{|c|c|c|c|c|}
\hline1&0.9375&0.75&0.4375&0\\\hline
0.9375&1&0.9375&0.75&0.4375\\\hline
0.75&0.9375&1&0.9375&0.75\\\hline
0.4375&0.75&0.9375&1&0.9375\\\hline
0&0.4375&0.75&0.9375&1\\\hline
\end{tabular}

Wagi kwadratowe cieszą się większym zainteresowaniem ze względu na praktyczną interpretację współczynnika Kappa, który w tym przypadku tożsamy jest ze współczynnikiem korelacji wewnątrzklasowej 4).

By wyznaczyć zgodność współczynnikiem Kappa dane przedstawia się w postaci tabeli liczności obserwowanych $O_{ij}$, dalej tą tabelę przekształca się w tabelę kontyngencji prawdopodobieństw $p_{ij}=O_{ij}/n$.

Współczynnik Kappa ($\hat \kappa$) wyraża się wtedy wzorem:

\begin{displaymath}
\hat \kappa=\frac{P_o-P_e}{1-P_e},
\end{displaymath}

gdzie:

$P_o=\sum_{i=1}^c\sum_{j=1}^c w_{ij}p_{ij}$,

$P_e=\sum_{i=1}^c\sum_{j=1}^c w_{ij}p_{i.}p_{.i}$,

$p_{i.}$, $p_{.i}$ - sumy końcowe kolumn i wierszy tabeli kontyngencji prawdopodobieństw.

Uwaga! $\hat \kappa$ oznacza współczynnik zgodności w próbie, natomiast $\kappa$ w populacji.

Błąd standardowy dla Kappa wyraża się wzorem:

\begin{displaymath}
SE_{\hat \kappa}=\frac{1}{(1-P_e)\sqrt{n}}\sqrt{\sum_{i=1}^{c}\sum_{j=1}^{c}p_{i.}p_{.j}[w_{ij}-(\overline{w}_{i.}+(\overline{w}_{.j})]^2-P_e^2}
\end{displaymath} gdzie:

$\overline{w}_{i.}=\sum_{j=1}^{c}p_{.j}w_{ij}$,

$\overline{w}_{.j}=\sum_{i=1}^{c}p_{i.}w_{ij}$.

Test Z do sprawdzania istotności współczynnika Kappa Cohena ($\hat \kappa$) (ang. The Z test of significance for the Cohen's Kappa) Fleiss (20035)) służy do weryfikacji hipotezy o zgodności wyników dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ i opiera się na współczynniku $\hat \kappa$ wyliczonym dla próby.

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \kappa= 0, \\
\mathcal{H}_1: & \kappa \ne 0.
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
Z=\frac{\hat \kappa}{SE_{\kappa_{distr}}},
\end{displaymath}

gdzie:

$\displaystyle{SE_{\kappa_{distr}}=\frac{1}{(1-P_e)\sqrt{n}}\sqrt{\sum_{i=1}^c\sum_{j=1}^c p_{ij}[w_{ij}-(\overline{w}_{i.}+\overline{w}_{.j})(1-\hat \kappa)]^2-[\hat \kappa-P_e(1-\hat \kappa)]^2}}$.

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji testu istotności Kappa-Cohena wywołujemy poprzez menu StatystykaTesty nieparametryczneKappa-Cohena lub poprzez Kreator.

Przykład (plik diagnoza.pqs)

Badamy zgodność diagnozy postawionej przez 2 lekarzy. W tym celu pobieramy próbę 110 pacjentów szpitala dziecięcego. Lekarze przyjmują pacjentów w sąsiednich gabinetach. Każdy z pacjentów jest najpierw badany przez lekarza A a następnie przez lekarza B. Diagnozy postawione przez lekarzy przedstawia poniższa tabela.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \kappa= 0, \\
\mathcal{H}_1: & \kappa \ne 0.
\end{array}

Moglibyśmy badać zgodność diagnozy poprzez zwykły procent wartości zgodnych. W naszym przykładzie zgodną diagnozę lekarze postawili dla 73 pacjentów (31+39+3=73) co stanowi 66.36% badanej grupy. Współczynnik Kappa wprowadza korekcję tej wartości o szanse na zgodność (tzn. w korekcji o tę zgodność, która pojawia się dla przypadkowego rozłożenia danych w tabeli).

Zgodność wyrażona współczynnikiem $\hat \kappa=44,58\%$ jest mniejsza niż ta nie skorygowana o szanse na zgodność.

Wartość $p<0.000001$. Wynik taki, na poziomie istotności $\alpha=0.05$, świadczy o zgodności opinii tych 2 lekarzy.

Przykład (plik radiologia.pqs)

W obrazie radiologicznym oceniano uszkodzenie wątroby w następujących kategoriach: brak zmian $(1)$, zmiany łagodne $(2)$, podejrzenie raka $(3)$, rak $(4)$. Oceny dokonywało dwóch niezależnych radiologów bazując na grupie 70 pacjentów. Chcemy sprawdzić zgodność postawionej diagnozy.

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: & \kappa= 0, \\
\mathcal{H}_1: & \kappa \ne 0.
\end{array}

Ze względu na to, że diagnoza wystawiona jest na skali porządkowej, właściwą miarą zgodności byłby ważony współczynnik Kappa.

Ponieważ dane koncentrują się głównie na głównej przekątnej macierzy i w jej bliskim sąsiedztwie, współczynnik ważony wagami liniowymi jest niższy ($\hat \kappa= 0.390194$) niż współczynnik wyznaczony dla wag kwadratowych ($\hat \kappa= 0.418658$). W obu sytuacjach jest to wynik istoty statystycznie (na poziomie istotności $\alpha=0.05$), wartość $p$ wynosi odpowiednio: 0.000007 i 0.000431.

Gdyby w ocenach istniała duża niezgodność dotycząca dwóch skrajnych przypadków i para: (brak zmian i rak) znajdująca się w prawym górnym roku tabeli występowała zdecydowanie częściej, np. 15 razy, wówczas taki duży brak zgodności widoczny będzie bardziej, gdy wykorzystamy wagi kwadratowe (współczynnik Kappa drastycznie spadnie) niż przy wykorzystaniu wag liniowych.

1)
Cohen J. (1960), A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 10,3746
2)
Cicchetti D. and Allison T. (1971), A new procedure for assessing reliability of scoring eeg sleep recordings. American Journal EEG Technology, 11, 101-109
3)
Cohen J. (1968), Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70, 213-220
4)
Fleiss J.L., Cohen J. (1973), The equivalence of weighted kappa and the intraclass correlation coeffcient as measure of reliability. Educational and Psychological Measurement, 33, 613-619
5)
Fleiss J.L., Levin B., Paik M.C. (2003), Statistical methods for rates and proportions. 3rd ed. (New York: John Wiley) 598-626