Współczynnik korelacji wewnątrzklasowej i test badający jego istotność

Współczynnik korelacji wewnątrzklasowej (ang. ICC - intraclass correlation coefficient) stosuje się w sytuacji, gdy pomiarów badanej zmiennej dokonuje kilku „sędziów” ($k\geq2$). Mierzy on siłę sędziowskiej rzetelności, czyli stopień w jakim ich oceny są zgodne.

Ponieważ można go wyznaczać w kilku różnych sytuacjach, rozróżnia się kilka jego odmian zależnych od modelu i typu zgodności. W zależności od występującej w danych zmienności możemy rozróżnić 2 główne modele badań i 2 typy zgodności.

Model 1

Dla każdego z losowo wybranych $n$ ocenianych obiektów, wybierany jest losowo zestaw $k$ sędziów z populacji sędziów. Przy czym dla każdego obiektu inny zestaw $k$ sędziów może być wylosowany. Współczynnik ICC jest wówczas wyznaczany w modelu losowym ANOVA dla grup niezależnych. Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(1,1) dany wzorem:

\begin{displaymath}
ICC(1,1)=\frac{MS_{WG}-MS_{BG}}{MS_{WG}+(k-1)MS_{BG}}.
\end{displaymath}

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(1,k) dany wzorem:

\begin{displaymath}ICC(1,k)=\frac{MS_{WG}-MS_{BG}}{MS_{WG}},\end{displaymath}

gdzie:

$MS_{WG}$ - średnia kwadratów wewnątrz grup,

$MS_{BG}$ - średnia kwadratów między obiektami.

Model 2

Wybierany jest losowo zestaw $k$ sędziów z populacji sędziów i każdy z nich ocenia wszystkie $n$ losowych obiektów. Współczynnik ICC jest wówczas wyznaczany w modelu losowym ANOVA dla grup zależnych.

W zależności od poszukiwanego typu zgodności możemy szacować: zgodność bezwzględną tzn. jeśli sędziowie są zgodni bezwzględnie, to wydają dokładnie takie same oceny np. perfekcyjnie zgodne będą takie oceny wydane przez parę sędziów (2,2), (5,5), (8,8); lub spójność tzn. sędziowie mogą używać innych zakresów wartości ale poza tym przesunięciem nie powinno być różnic by zachować spójność werdyktu np. perfekcyjnie spójne będą takie oceny wydane przez parę sędziów (2,5), (5,8), (8,11).

  • Zgodność bezwzględna

Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(2,1) dany wzorem:

\begin{displaymath}
ICC(2,1)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(k-1)MS_{res}+\frac{k}{n}(MS_{BC}-MS_{res})}.
\end{displaymath}

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(2,k) dany wzorem:

\begin{displaymath}ICC(2,k)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(MS_{BC}-MS_{res})/n},\end{displaymath}

gdzie:

$MS_{BC}$ - średnia kwadratów między sędziami,

$MS_{BS}$ - średnia kwadratów między obiektami,

$MS_{res}$ - średnia kwadratów dla reszt.

  • Spójność

Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(2,1) dany wzorem:

\begin{displaymath}
ICC(2,1)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(k-1)MS_{res}},
\end{displaymath}

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(2,k) dany wzorem:

\begin{displaymath}ICC(2,k)=\frac{MS_{BS}-MS_{res}}{MS_{BS}},\end{displaymath}

gdzie:

$MS_{BS}$ - średnia kwadratów między obiektami,

$MS_{res}$ - średnia kwadratów dla reszt.

Uwaga! Czasami istnieje konieczność rozważania modelu 3 1), tzn. wybierany jest zestaw $k$ sędziów i każdy z nich ocenia wszystkie $n$ losowych obiektów. Wynik zgodności dotyczy tylko tych konkretnych $k$ sędziów. Współczynnik ICC jest wówczas wyznaczany w modelu mieszanym (ponieważ losowość dotyczy tylko obiektów a nie dotyczy sędziów). Ponieważ ignorujemy zmienność dotyczącą sędziów, badamy spójność (a nie absolutną zgodność) i zastosowanie mogą mieć współczynniki z modelu drugiego: ICC(2,1) i ICC (2,k), gdyż są one tożsame z pożądanymi w tym przypadku współczynnikami ICC(3,1) i ICC (3,k) przy założeniu braku interakcji obiektów i sędziów.

Uwaga! Wartość $ICC\in<-1; 1>$ interpretujemy w następujący sposób:

  • $ICC\approx1$ oznacza silną zgodność w ocenie poszczególnych obiektów przez sędziów, co ma odzwierciedlenie w dużej wariancji między obiektami (znacznej różnicy średnich między $n$ obiektami) i małej wariancji między ocenami sędziowskimi (niewielkiej różnicy średnich ocen wyznaczonych dla $k$ sędziów);
  • $ICC\approx-1$ negatywny współczynnik korelacji wewnątrzklasowej, jest traktowany w ten sam sposób jak $r_{ICC}\approx0$;
  • $ICC\approx0$ oznacza brak zgodności w ocenie poszczególnych obiektów przez sędziów, co ma odzwierciedlenie w małej wariancji między obiektami (niewielkiej różnicy średnich między $n$ obiektami) i dużej wariancji między ocenami sędziowskimi (znaczącej różnicy średnich ocen wyznaczonych dla $k$ sędziów).

Test F do sprawdzania istotności współczynnika korelacji wewnątrzklasowej

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: &  ICC=0\\
\mathcal{H}_1: &  ICC\neq 0 \quad(ICC=1)
\end{array}

Statystyka testowa ma postać:

\begin{displaymath}
F=\frac{MS_{BS}}{MS_{res}} - \textrm{w modelu zależnym}
\end{displaymath}

lub

\begin{displaymath}
F=\frac{MS_{WG}}{MS_{BG}} - \textrm{w modelu niezależnym.}
\end{displaymath}

Statystyka ta podlega rozkładowi F Snedecora ze zdefiniowaną w modelu liczbą stopni swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji korelacji wewnątrzklasowej (ICC) wywołujemy poprzez menu StatystykaTesty parametryczneKorelacja wewnątrzklasowa (ICC) lub poprzez ''Kreator''.

Przykład (plik natężenie dźwięku.pqs)

By skutecznie dbać o słuch pracowników zakładu pracy, w pierwszej kolejności należy rzetelnie oszacować natężenie dźwięku w poszczególnych miejscach przebywania osób. W pewnym zakładzie pracy postanowiono przed wyborem miernika natężenia dźwięku (sonografu) przeprowadzić eksperyment. Pomiarów natężenia dźwięku dokonano w 42 losowo wybranych na terenie zakładu punktach pomiarowych przy pomocy 3 wylosowanych sonografów analogowych i 3 losowo wybranych sonografów cyfrowych. Fragment zebranych pomiarów przedstawia poniższa tabela.

By sprawdzić który typ urządzenia (analogowy czy cyfrowy) lepiej zrealizuje postawione przed nim zadanie należy wyznaczyć współczynnik ICC w modelu 2 badając bezwzględną zgodność. Typ miernika o wyższym wskaźniku ICC będzie charakteryzował się bardziej wiarygodnymi pomiarami, przez co będzie w przyszłości wykorzystywany na terenie zakładu.

Analiza przeprowadzona dla mierników analogowych wskazuje na istotną zgodność pomiarów ($p<0.000001$). Rzetelność pomiaru dokonana miernikiem analogowym wynosi $ICC(2,1) = 0.45$, natomiast rzetelność pomiaru będącego średnią pomiarów dokonanych przez 3 mierniki analogowe jest nieco wyższa i wynosi $ICC(2,k) = 0.71$. Niepokojąco niska jest jednak dolna granica 95% przedziału ufności dla tych współczynników.

Podobna analiza przeprowadzona dla mierników cyfrowych dała lepsze rezultaty. Model ponownie jest istotny statystycznie, ale współczynniki ICC oraz ich przedziały ufności są znacznie wyżej niż dla mierników analogowych, a więc uzyskana zgodność bezwzględna jest wyższa $ICC(2,1) = 0.73$, $ICC(2,k) = 0.89$.

Dlatego ostatecznie w zakładzie pracy wykorzystywane będą mierniki cyfrowe.

Zgodność uzyskanych wyników dla mierników cyfrowych przedstawiono na wykresie punktowym, gdzie każdy punkt pomiarowy opisany jest wartością natężenia dźwięku uzyskaną dla poszczególnych mierników.

Przedstawiając wykres dla uprzednio posortowanych danych zgodnie ze średnią wartością natężenia dźwięku, można sprawdzić czy stopień zgodności rośnie lub spada wraz z wzrostem natężenia dźwięku. W przypadku naszych danych nieco wyższą zgodność (bliskość położenia punktów na wykresie) obserwować można przy wysokich wartościach natężenia dźwięku.

Podobnie, zgodność uzyskanych wyników obserwować można na wykresach Blanda-Altmana2) budowanych oddzielnie dla każdej pary mierników. Wykres dla miernika I i miernika II przedstawiono poniżej.

Tu również obserwujemy wyższą zgodność (punkty koncentrują się blisko osi poziomej y=0) dla wyższych wartości natężenia dźwięku.

Uwaga! Gdyby badaczowi nie zależało na oszacowaniu rzeczywistej wartości natężenia dźwięku na terenie zakładu, ale chciałby wskazać miejsca gdzie ten poziom jest wyższy niż w innych miejscach lub sprawdzić czy poziom hałasu zmienia się w czasie, wówczas wystarczającym modelem byłby model 2 badający spójność.

1)
Shrout P.E., and Fleiss J.L (1979), Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 86, 420-428
2)
Bland J.M., Altman D.G. (1999), Measuring agreement in method comparison studies. Statistical Methods in Medical Research 8:135-160.

Narzędzia witryny