Spis treści

Analiza zgodności
- Testy parametryczne
  - - Współczynnik korelacji wewnątrzklasowej i test badający jego istotność
- Testy nieparametryczne

Analiza zgodności

$\begin{pspicture}(0,6)(15,14.5) \rput(2,14){\hyperlink{interwalowa}{Skala interwałowa}} \rput[tl](.1,13.4){\ovalnode{A}{\hyperlink{rozklad_normalny}{\begin{tabular}{c}Czy rozkład\\zmiennej jest\\rozkładem\\normalnym?\end{tabular}}}} \rput[br](3.7,6.2){\rnode{B}{\psframebox{\hyperlink{ICC}{\begin{tabular}{c}test\\do sprawdzania\\istotności\\współczynnika\\zgodności\\wewnątrzklasowej $r_{ICC}$\end{tabular}}}}} \ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{B} \rput(2.2,10.4){T} \rput(4.3,12.5){N} \rput(7.5,14){\hyperlink{porzadkowa}{Skala porządkowa}} \rput[br](9.4,10.8){\rnode{C}{\psframebox{\hyperlink{Kendall_W}{\begin{tabular}{c}test\\do sprawdzania\\istotności\\współczynnika\\zgodności\\$\widetilde{W}$ Kendalla \end{tabular}}}}} \ncline[angleA=-90, angleB=90, arm=.5, linearc=.2]{->}{A}{C} \rput(12.5,14){\hyperlink{nominalna}{Skala nominalna}} \rput[br](14.2,10.8){\rnode{D}{\psframebox{\hyperlink{wspolczynnik_Kappa}{\begin{tabular}{c}test\\do sprawdzania\\istotności\\współczynnika\\zgodności\\$\hat \kappa$ Cohena\end{tabular}}}}} \rput(6,9.8){\hyperlink{testy_normalnosci}{testy normalności}} \rput(6,9.5){\hyperlink{testy_normalnosci}{rozkładu}} \psline[linestyle=dotted]{<-}(3.4,11.2)(4,10) \end{pspicture}$

Testy parametryczne

Współczynnik korelacji wewnątrzklasowej i test badający jego istotność

Współczynnik korelacji wewnątrzklasowej (ang. ICC - intraclass correlation coefficient) stosuje się w sytuacji, gdy pomiarów badanej zmiennej dokonuje kilku „sędziów” ( $k\geq2$ ). Mierzy on siłę sędziowskiej rzetelności, czyli stopień w jakim ich oceny są zgodne.

Ponieważ można go wyznaczać w kilku różnych sytuacjach, rozróżnia się kilka jego odmian zależnych od modelu i typu zgodności. W zależności od występującej w danych zmienności możemy rozróżnić 2 główne modele badań i 2 typy zgodności.

Model 1

Dla każdego z losowo wybranych $n$ ocenianych obiektów, wybierany jest losowo zestaw $k$ sędziów z populacji sędziów. Przy czym dla każdego obiektu inny zestaw $k$ sędziów może być wylosowany. Współczynnik ICC jest wówczas wyznaczany w modelu losowym ANOVA dla grup niezależnych. Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(1,1) dany wzorem:

$\begin{displaymath} ICC(1,1)=\frac{MS_{WG}-MS_{BG}}{MS_{WG}+(k-1)MS_{BG}}. \end{displaymath}$

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(1,k) dany wzorem:

$\begin{displaymath}ICC(1,k)=\frac{MS_{WG}-MS_{BG}}{MS_{WG}},\end{displaymath}$

gdzie:

$MS_{WG}$ - średnia kwadratów wewnątrz grup,

$MS_{BG}$ - średnia kwadratów między obiektami.

Model 2

Wybierany jest losowo zestaw $k$ sędziów z populacji sędziów i każdy z nich ocenia wszystkie $n$ losowych obiektów. Współczynnik ICC jest wówczas wyznaczany w modelu losowym ANOVA dla grup zależnych.

W zależności od poszukiwanego typu zgodności możemy szacować: zgodność bezwzględną tzn. jeśli sędziowie są zgodni bezwzględnie, to wydają dokładnie takie same oceny np. perfekcyjnie zgodne będą takie oceny wydane przez parę sędziów (2,2), (5,5), (8,8); lub spójność tzn. sędziowie mogą używać innych zakresów wartości ale poza tym przesunięciem nie powinno być różnic by zachować spójność werdyktu np. perfekcyjnie spójne będą takie oceny wydane przez parę sędziów (2,5), (5,8), (8,11).

Zgodność bezwzględna

Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(2,1) dany wzorem:

$\begin{displaymath} ICC(2,1)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(k-1)MS_{res}+\frac{k}{n}(MS_{BC}-MS_{res})}. \end{displaymath}$

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(2,k) dany wzorem:

$\begin{displaymath}ICC(2,k)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(MS_{BC}-MS_{res})/n},\end{displaymath}$

gdzie:

$MS_{BC}$ - średnia kwadratów między sędziami,

$MS_{BS}$ - średnia kwadratów między obiektami,

$MS_{res}$ - średnia kwadratów dla reszt.

Spójność

Na pytanie o rzetelność ocen pojedynczego sędziego odpowiada ICC(2,1) dany wzorem:

$\begin{displaymath} ICC(2,1)=\frac{MS_{BS}-MS_{res}}{MS_{BS}+(k-1)MS_{res}}, \end{displaymath}$

Do oszacowania wiarygodności wyników będących średnią ocen sędziowskich (dla $k$ sędziów) wyznacza się ICC(2,k) dany wzorem:

$\begin{displaymath}ICC(2,k)=\frac{MS_{BS}-MS_{res}}{MS_{BS}},\end{displaymath}$

gdzie:

$MS_{BS}$ - średnia kwadratów między obiektami,

$MS_{res}$ - średnia kwadratów dla reszt.

Uwaga! Czasami istnieje konieczność rozważania modelu 3 ¹⁾, tzn. wybierany jest zestaw $k$ sędziów i każdy z nich ocenia wszystkie $n$ losowych obiektów. Wynik zgodności dotyczy tylko tych konkretnych $k$ sędziów. Współczynnik ICC jest wówczas wyznaczany w modelu mieszanym (ponieważ losowość dotyczy tylko obiektów a nie dotyczy sędziów). Ponieważ ignorujemy zmienność dotyczącą sędziów, badamy spójność (a nie absolutną zgodność) i zastosowanie mogą mieć współczynniki z modelu drugiego: ICC(2,1) i ICC (2,k), gdyż są one tożsame z pożądanymi w tym przypadku współczynnikami ICC(3,1) i ICC (3,k) przy założeniu braku interakcji obiektów i sędziów.

Uwaga! Wartość $ICC\in<-1; 1>$ interpretujemy w następujący sposób:

$ICC\approx1$ oznacza silną zgodność w ocenie poszczególnych obiektów przez sędziów, co ma odzwierciedlenie w dużej wariancji między obiektami (znacznej różnicy średnich między $n$ obiektami) i małej wariancji między ocenami sędziowskimi (niewielkiej różnicy średnich ocen wyznaczonych dla $k$ sędziów);
$ICC\approx-1$ negatywny współczynnik korelacji wewnątrzklasowej, jest traktowany w ten sam sposób jak $r_{ICC}\approx0$ ;
$ICC\approx0$ oznacza brak zgodności w ocenie poszczególnych obiektów przez sędziów, co ma odzwierciedlenie w małej wariancji między obiektami (niewielkiej różnicy średnich między $n$ obiektami) i dużej wariancji między ocenami sędziowskimi (znaczącej różnicy średnich ocen wyznaczonych dla $k$ sędziów).

Test F do sprawdzania istotności współczynnika korelacji wewnątrzklasowej

Podstawowe warunki stosowania:

pomiar na skali interwałowej,
normalność rozkładu dla wszystkich zmiennych będących różnicą par pomiarowych (lub normalność badanej zmiennej dla każdego pomiaru).
dla modelu 1 - model niezależny, dla modelu 2 / 3 - model zależny.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & ICC=0\\ \mathcal{H}_1: & ICC\neq 0 \quad(ICC=1) \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} F=\frac{MS_{BS}}{MS_{res}} - \textrm{w modelu zależnym} \end{displaymath}$

lub

$\begin{displaymath} F=\frac{MS_{WG}}{MS_{BG}} - \textrm{w modelu niezależnym.} \end{displaymath}$

Statystyka ta podlega rozkładowi F Snedecora ze zdefiniowaną w modelu liczbą stopni swobody.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji korelacji wewnątrzklasowej (ICC) wywołujemy poprzez menu Statystyka→Testy parametryczne→Korelacja wewnątrzklasowa (ICC) lub poprzez ''Kreator''.

Przykład (plik natężenie dźwięku.pqs)

By skutecznie dbać o słuch pracowników zakładu pracy, w pierwszej kolejności należy rzetelnie oszacować natężenie dźwięku w poszczególnych miejscach przebywania osób. W pewnym zakładzie pracy postanowiono przed wyborem miernika natężenia dźwięku (sonografu) przeprowadzić eksperyment. Pomiarów natężenia dźwięku dokonano w 42 losowo wybranych na terenie zakładu punktach pomiarowych przy pomocy 3 wylosowanych sonografów analogowych i 3 losowo wybranych sonografów cyfrowych. Fragment zebranych pomiarów przedstawia poniższa tabela.

By sprawdzić który typ urządzenia (analogowy czy cyfrowy) lepiej zrealizuje postawione przed nim zadanie należy wyznaczyć współczynnik ICC w modelu 2 badając bezwzględną zgodność. Typ miernika o wyższym wskaźniku ICC będzie charakteryzował się bardziej wiarygodnymi pomiarami, przez co będzie w przyszłości wykorzystywany na terenie zakładu.

Analiza przeprowadzona dla mierników analogowych wskazuje na istotną zgodność pomiarów ( $p<0.000001$ ). Rzetelność pomiaru dokonana miernikiem analogowym wynosi $ICC(2,1) = 0.45$ , natomiast rzetelność pomiaru będącego średnią pomiarów dokonanych przez 3 mierniki analogowe jest nieco wyższa i wynosi $ICC(2,k) = 0.71$ . Niepokojąco niska jest jednak dolna granica 95% przedziału ufności dla tych współczynników.

Podobna analiza przeprowadzona dla mierników cyfrowych dała lepsze rezultaty. Model ponownie jest istotny statystycznie, ale współczynniki ICC oraz ich przedziały ufności są znacznie wyżej niż dla mierników analogowych, a więc uzyskana zgodność bezwzględna jest wyższa $ICC(2,1) = 0.73$ , $ICC(2,k) = 0.89$ .

Dlatego ostatecznie w zakładzie pracy wykorzystywane będą mierniki cyfrowe.

Zgodność uzyskanych wyników dla mierników cyfrowych przedstawiono na wykresie punktowym, gdzie każdy punkt pomiarowy opisany jest wartością natężenia dźwięku uzyskaną dla poszczególnych mierników.

Przedstawiając wykres dla uprzednio posortowanych danych zgodnie ze średnią wartością natężenia dźwięku, można sprawdzić czy stopień zgodności rośnie lub spada wraz z wzrostem natężenia dźwięku. W przypadku naszych danych nieco wyższą zgodność (bliskość położenia punktów na wykresie) obserwować można przy wysokich wartościach natężenia dźwięku.

Podobnie, zgodność uzyskanych wyników obserwować można na wykresach Blanda-Altmana²⁾ budowanych oddzielnie dla każdej pary mierników. Wykres dla miernika I i miernika II przedstawiono poniżej.

Tu również obserwujemy wyższą zgodność (punkty koncentrują się blisko osi poziomej y=0) dla wyższych wartości natężenia dźwięku.

Uwaga! Gdyby badaczowi nie zależało na oszacowaniu rzeczywistej wartości natężenia dźwięku na terenie zakładu, ale chciałby wskazać miejsca gdzie ten poziom jest wyższy niż w innych miejscach lub sprawdzić czy poziom hałasu zmienia się w czasie, wówczas wystarczającym modelem byłby model 2 badający spójność.

2014/08/22 20:00

Testy nieparametryczne

Współczynnik Kappa Cohena i test badający jego istotność

Współczynnik Kappa Cohena (ang. Cohen's Kappa), Cohen J. (1960)³⁾, określa stopień zgodności dwukrotnych pomiarów tej samej zmiennej w różnych warunkach. Pomiaru tej samej zmiennej może dokonać dwóch różnych sędziów (odtwarzalność) lub jeden sędzia może dokonać pomiaru dwukrotnie (powtarzalność). Współczynnik $\hat \kappa$ wyznacza się dla zależnych zmiennych kategorialnych, a jego wartość zawiera się w przedziale od -1 do 1. Wartość 1 oznacza pełną zgodność, wartość 0 oznacza zgodność na poziomie takim samym jaki powstałby dla losowego rozłożenia danych w tabeli kontyngencji. Poziom pomiędzy 0 a -1 jest w praktyce niewykorzystywany. Ujemna wartość $\hat \kappa$ oznacza zgodność na poziomie mniejszym niż powstała dla losowego rozłożenia danych w tabeli kontyngencji. Współczynnik $\hat \kappa$ można wyliczać na podstawie danych surowych albo z wykonanej na podstawie danych surowych tabeli kontyngencji o wymiarach $c\times c$ .

W zależności od potrzeb można wyznaczać Kappę nieważoną (czyli Kappę Cohena) lub Kappę ważoną. Przydzielane wagi ( $w_{ij}$ ) odnoszą się do poszczególnych komórek tabeli kontyngencji, na przekątnej wynoszą 1 a poza przekątną należą do przedziału $<0; 1)$ .

Kappa nieważona

Wyliczana jest dla danych, których kategorii nie da się uporządkować np. dane pochodzą od pacjentów, których dzielimy ze względu na rodzaj choroby jaka została zdiagnozowana, a chorób tych nie można uporządkować np. zapalenie płuc $(1)$ , zapalenie oskrzeli $(2)$ i inne $(3)$ . W takiej sytuacji można sprawdzać zgodność diagnoz wystawionych przez dwóch lekarzy stosując nieważoną Kappę, czyli Kappę Cohena. Niezgodność par $\{(1), (3)\}$ oraz $\{(1), (2)\}$ traktowana będzie równoważnie, a więc wagi poza przekątną macierzy wag będą zerowane.

Kappa ważona

W sytuacji kiedy kategorie danych mogą być posortowane np. dane pochodzą od pacjentów, których dzielimy ze względu na stopień zmian chorobowych na: brak zmian $(1)$ , zmiany łagodne $(2)$ , podejrzenie raka $(3)$ , rak $(4)$ , budować można zgodność wystawionych ocen przez dwóch radiologów uwzględniając możliwość sortowania. Za bardziej niezgodne pary ocen mogą być wówczas uznane oceny $\{(1), (4)\}$ niż $\{(1), (2)\}$ . By tak było, by kolejność kategorii wpływała na wynik zgodności, wyznaczać należy ważoną Kappę.

Przydzielane wagi mogą mieć postać liniową lub kwadratową.

Wagi liniowe (Cicchetti, 1971⁴⁾) - wyliczane według wzoru:

$\begin{displaymath} w_{ij}=1-\frac{|i-j|}{c-1}. \end{displaymath}$

Czym większe oddalenie od przekątnej macierzy tym mniejsza waga, przy czym wagi maleją proporcjonalnie. Przykładowe wagi dla macierzy wielkości 5×5 przedstawia tabela:

$\begin{tabular}{|c|c|c|c|c|} \hline1&0.75&0.5&0.25&0\\\hline 0.75&1&0.75&0.5&0.25\\\hline 0.5&0.75&1&0.75&0.5\\\hline 0.25&0.5&0.75&1&0.75\\\hline 0&0.25&0.5&0.75&1\\\hline \end{tabular}$

Wagi kwadratowe (Cohen, 1968⁵⁾) - wyliczane według wzoru:

$\begin{displaymath} w_{ij}=1-\frac{(i-j)^2}{(c-1)^2}. \end{displaymath}$

Czym większe oddalenie od przekątnej macierzy tym mniejsza waga, przy czym wagi maleją wolniej w bliższej odległości od przekątnej i szybciej w odległości dalszej. Przykładowe wagi dla macierzy wielkości 5×5 przedstawia tabela:

$\begin{tabular}{|c|c|c|c|c|} \hline1&0.9375&0.75&0.4375&0\\\hline 0.9375&1&0.9375&0.75&0.4375\\\hline 0.75&0.9375&1&0.9375&0.75\\\hline 0.4375&0.75&0.9375&1&0.9375\\\hline 0&0.4375&0.75&0.9375&1\\\hline \end{tabular}$

Wagi kwadratowe cieszą się większym zainteresowaniem ze względu na praktyczną interpretację współczynnika Kappa, który w tym przypadku tożsamy jest ze współczynnikiem korelacji wewnątrzklasowej ⁶⁾.

By wyznaczyć zgodność współczynnikiem Kappa dane przedstawia się w postaci tabeli liczności obserwowanych $O_{ij}$ , dalej tą tabelę przekształca się w tabelę kontyngencji prawdopodobieństw $p_{ij}=O_{ij}/n$ .

Współczynnik Kappa ( $\hat \kappa$ ) wyraża się wtedy wzorem:

$\begin{displaymath} \hat \kappa=\frac{P_o-P_e}{1-P_e}, \end{displaymath}$

gdzie:

$P_o=\sum_{i=1}^c\sum_{j=1}^c w_{ij}p_{ij}$ ,

$P_e=\sum_{i=1}^c\sum_{j=1}^c w_{ij}p_{i.}p_{.i}$ ,

$p_{i.}$ , $p_{.i}$ - sumy końcowe kolumn i wierszy tabeli kontyngencji prawdopodobieństw.

Uwaga! $\hat \kappa$ oznacza współczynnik zgodności w próbie, natomiast $\kappa$ w populacji.

Błąd standardowy dla Kappa wyraża się wzorem:

$\begin{displaymath} SE_{\hat \kappa}=\frac{1}{(1-P_e)\sqrt{n}}\sqrt{\sum_{i=1}^{c}\sum_{j=1}^{c}p_{i.}p_{.j}[w_{ij}-(\overline{w}_{i.}+(\overline{w}_{.j})]^2-P_e^2} \end{displaymath}$ gdzie:

$\overline{w}_{i.}=\sum_{j=1}^{c}p_{.j}w_{ij}$ ,

$\overline{w}_{.j}=\sum_{i=1}^{c}p_{i.}w_{ij}$ .

Test Z do sprawdzania istotności współczynnika Kappa Cohena ( $\hat \kappa$ ) (ang. The Z test of significance for the Cohen's Kappa) Fleiss (2003⁷⁾) służy do weryfikacji hipotezy o zgodności wyników dwukrotnych pomiarów $X^{(1)}$ i $X^{(2)}$ cechy $X$ i opiera się na współczynniku $\hat \kappa$ wyliczonym dla próby.

Podstawowe warunki stosowania:

pomiar na skali nominalnej (Kappa Cohena - nieważona) i skali porządkowej (Kappa ważona).

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{\hat \kappa}{SE_{\kappa_{distr}}}, \end{displaymath}$

gdzie:

$\displaystyle{SE_{\kappa_{distr}}=\frac{1}{(1-P_e)\sqrt{n}}\sqrt{\sum_{i=1}^c\sum_{j=1}^c p_{ij}[w_{ij}-(\overline{w}_{i.}+\overline{w}_{.j})(1-\hat \kappa)]^2-[\hat \kappa-P_e(1-\hat \kappa)]^2}}$ .

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji testu istotności Kappa-Cohena wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Kappa-Cohena lub poprzez Kreator.

Przykład (plik diagnoza.pqs)

Badamy zgodność diagnozy postawionej przez 2 lekarzy. W tym celu pobieramy próbę 110 pacjentów szpitala dziecięcego. Lekarze przyjmują pacjentów w sąsiednich gabinetach. Każdy z pacjentów jest najpierw badany przez lekarza A a następnie przez lekarza B. Diagnozy postawione przez lekarzy przedstawia poniższa tabela.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Moglibyśmy badać zgodność diagnozy poprzez zwykły procent wartości zgodnych. W naszym przykładzie zgodną diagnozę lekarze postawili dla 73 pacjentów (31+39+3=73) co stanowi 66.36% badanej grupy. Współczynnik Kappa wprowadza korekcję tej wartości o szanse na zgodność (tzn. w korekcji o tę zgodność, która pojawia się dla przypadkowego rozłożenia danych w tabeli).

Zgodność wyrażona współczynnikiem $\hat \kappa=44,58\%$ jest mniejsza niż ta nie skorygowana o szanse na zgodność.

Wartość $p<0.000001$ . Wynik taki, na poziomie istotności $\alpha=0.05$ , świadczy o zgodności opinii tych 2 lekarzy.

Przykład (plik radiologia.pqs)

W obrazie radiologicznym oceniano uszkodzenie wątroby w następujących kategoriach: brak zmian $(1)$ , zmiany łagodne $(2)$ , podejrzenie raka $(3)$ , rak $(4)$ . Oceny dokonywało dwóch niezależnych radiologów bazując na grupie 70 pacjentów. Chcemy sprawdzić zgodność postawionej diagnozy.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Ze względu na to, że diagnoza wystawiona jest na skali porządkowej, właściwą miarą zgodności byłby ważony współczynnik Kappa.

Ponieważ dane koncentrują się głównie na głównej przekątnej macierzy i w jej bliskim sąsiedztwie, współczynnik ważony wagami liniowymi jest niższy ( $\hat \kappa= 0.390194$ ) niż współczynnik wyznaczony dla wag kwadratowych ( $\hat \kappa= 0.418658$ ). W obu sytuacjach jest to wynik istoty statystycznie (na poziomie istotności $\alpha=0.05$ ), wartość $p$ wynosi odpowiednio: 0.000007 i 0.000431.

Gdyby w ocenach istniała duża niezgodność dotycząca dwóch skrajnych przypadków i para: (brak zmian i rak) znajdująca się w prawym górnym roku tabeli występowała zdecydowanie częściej, np. 15 razy, wówczas taki duży brak zgodności widoczny będzie bardziej, gdy wykorzystamy wagi kwadratowe (współczynnik Kappa drastycznie spadnie) niż przy wykorzystaniu wag liniowych.

2014/08/22 20:00

Współczynnik zgodności Kendalla i test badający jego istotność

Współczynnik zgodności $\widetilde{W}$ Kendalla (ang. Kendall's Coefficient of Concordance) opisany w pracy Kendalla i Babingtona-Smitha (1939)⁸⁾ oraz Wallisa (1939)⁹⁾ stosuje się w sytuacji, gdy dysponujemy rankingami pochodzącymi z różnych źródeł (od różnych sędziów) i dotyczącymi kilku ( $k\geq2$ ) obiektów a zależy nam na ocenie zgodności tych rankingów. Często używa się go do mierzenia siły sędziowskiej rzetelności, czyli stopnia w jakim oceny sędziów są zgodne.

Współczynnik zgodności Kendalla wyznacza się dla skali porządkowej lub interwałowej, a jego wartość wylicza się według wzoru:

$\begin{displaymath} \widetilde{W}=\frac{12U-3n^2k(k+1)^2}{n^2k(k^2-1)-nC}, \end{displaymath}$

gdzie:

$n$ - liczba różnych zbiorów ocen (ilość sędziów),

$k$ - liczba rangowanych obiektów,

$\displaystyle U=\sum_{j=1}^k\left(\sum_{i=1}^nR_{ij}\right)^2$ ,

$R_{ij}$ - rangi przypisane kolejnym obiektom $(j=1,2,...k)$ , oddzielnie dla każdego z sędziów $(i=1,2,...n)$ ,

$\displaystyle C=\sum(t^3-t)$ - korekta na rangi wiązane,

$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na współczynnik zawiera poprawkę na rangi wiązane $C$ . Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $C=0$ ).

Uwaga!

$W$ oznacza współczynnik zgodności Kendalla w populacji, natomiast $\widetilde{W}$ w próbie.

Wartość $W\in<0; 1>$ interpretujemy w następujący sposób:

$\widetilde{W}\approx1$ oznacza silną zgodność w ocenie poszczególnych obiektów przez sędziów;
$\widetilde{W}\approx0$ oznacza brak zgodności w ocenie poszczególnych obiektów przez sędziów.

Współczynnik zgodności $\widetilde{W}$ Kendalla a współczynnik $r_s$ Spearmana:

Gdy wyliczymy wartość współczynnika korelacji Spearmana $r_s$ dla wszystkich możliwych par rankingów, to średni współczynnik $r_s$ - oznaczony przez $\bar{r}_s$ , jest funkcją liniową wartości współczynnika $\widetilde{W}$ wyliczonego na podstawie tych danych:

$\begin{displaymath} \bar{r}_s=\frac{n\widetilde{W}-1}{n-1} \end{displaymath}$

Współczynnik zgodności $\widetilde{W}$ Kendalla a ANOVA Friedmana:

Współczynnik zgodności $\widetilde{W}$ Kendalla i ANOVA Friedmana bazują na tym samym modelu matematycznym. W rezultacie wartość statystyki testowej testu chi-kwadrat do sprawdzania istotności współczynnika zgodności Kendalla i wartość statystyki testowej ANOVA Friedmana jest taka sama.

Test chi-kwadrat do sprawdzania istotności współczynnika zgodności Kendalla

Podstawowe warunki stosowania:

pomiar na skali porządkowej lub interwałowej.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & W=0\\ \mathcal{H}_1: & W\neq0 \end{array}$

Statystyka testowa ma postać: $\begin{displaymath} \chi^2=n(k-1)\widetilde{W} \end{displaymath}$

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z liczbą stopni swobody wyliczaną z wzoru: $df=k-1$ .

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Okno z ustawieniami opcji testu istotności W Kendalla wywołujemy poprzez menu Statystyka→Testy nieparametryczne→W Kendalla lub poprzez ''Kreator''.

Przykład (plik sędziowie.pqs)

W systemie szóstkowym oceny par tanecznych 9 sędziów punktuje m.in. wrażenie artystyczne. Sędziowie rozpoczynają wystawianie oceny od porównania zawodników względem siebie i ustawienia ich na określonym miejscu (tworzą ich ranking). Sprawdzimy, czy rangi przypisane przez sędziów są zgodne:

$\begin{tabular}{|c|c|c|c|c|c|c|} \hline Sędziowie&Para A&Para B&Para C&Para D&Para E&Para F\\\hline S1&3&6&2&5&4&1\\ S2&4&6&1&5&3&2\\ S3&4&6&2&5&3&1\\ S4&2&6&3&5&4&1\\ S5&2&6&1&5&4&3\\ S6&3&5&1&6&4&2\\ S7&5&4&1&6&3&2\\ S8&3&6&2&5&4&1\\ S9&2&6&3&5&4&1\\\hline \end{tabular}$

Hipotezy:

$$ \begin{array}{cl} \mathcal{H}_0: & $brak zgodności pomiędzy rankingami 9 sędziów$\\ & $w populacji reprezentowanej przez zebraną próbę, $\\ \mathcal{H}_1: & $rankingi 9 sędziów w populacji reprezentowanej$\\ & $przez zebraną próbę są zgodne.$ \end{array}$

Porównując wartość $p<0.000001$ z poziomem istotności $\alpha=0.05$ , stwierdziliśmy, że oceny sędziów są statystycznie zgodne. Siła tej zgodności jest wysoka i wynosi $\widetilde{W} = 0.83351$ , podobnie jak średni współczynnik korelacji monotonicznej Spearmana $\bar{r}_s = 0.81270$ . Wynik ten możemy przedstawić na wykresie, na którym oś X reprezentuje kolejnych sędziów. Wówczas im częściej przecinają się linie, (które powinny być równoległe do osi X, gdy zgodność jest pełna), tym słabszą zgodność reprezentują oceny sędziów.

2014/08/22 20:00

Współczynnik Kappa Fleissa i test badający jego istotność

Współczynnik ten określa zgodność pomiarów prowadzonych przez kliku sędziów (Fleiss, 1971¹⁰⁾) i jest rozszerzeniem współczynnika Kappa Cohena, pozwalającego na badanie zgodności jedynie dwóch sędziów. Przy czym, należy zaznaczyć że każdy z $n$ losowo wybranych obiektów może być oceniany przez inny losowy zestaw $k$ sędziów. Analiza opiera się na danych przekształconych do tabeli o $n$ wierszach i $c$ kolumnach, gdzie $c$ stanowi liczbę możliwych kategorii, do których sędziowie przydzielają badane obiekty. Zatem w każdym wierszu tabeli podano $x_{ij}$ czyli liczbę sędziów wydających określone w danej kolumnie opinie.

Współczynnik Kappa ( $\hat \kappa$ ) wyraża się wtedy wzorem:

$\begin{displaymath} \hat \kappa=\frac{P_o-P_e}{1-P_e}, \end{displaymath}$

gdzie:

$P_o=\frac{1}{kn(k-1)}\sum_{i=1}^n\sum_{j=1}^c x_{ij}-kn$ ,

$P_e=\sum_{i=1}^c q_j^2$ ,

$q_j=\frac{1}{km}\sum_{i=1}^n x_{ij}$ .

Wartość $\hat \kappa=1$ oznacza pełną zgodność sędziów, natomiast $\hat \kappa = 0$ oznacza zgodność jaka powstałaby, gdyby opinie sędziów wydane były w sposób losowy. Wartości ujemne Kappa wskazują natomiast na zgodność mniejszą niż na poziomie losowym.

Dla współczynnika $\hat \kappa$ można wyznaczyć błąd standardowy $SE$ , który pozwala na zbadanie istotności statystycznej i wyznaczenie asymptotycznych przedziałów ufności.

Test Z do sprawdzania istotności współczynnika Kappa Fleissa ( $\hat \kappa$ ) (ang. The Z test of significance for the Fleiss's Kappa) Fleiss (2003¹¹⁾) służy do weryfikacji hipotezy o zgodności ocen kilku sędziów i opiera się na współczynniku $\hat \kappa$ wyliczonym dla próby.

Podstawowe warunki stosowania:

pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{\hat \kappa}{SE}, \end{displaymath}$

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Uwaga! Wyznaczanie współczynnika Kappa Fleissa zbliżone jest koncepcyjnie do metody Mantela-Haenszela. Wyznaczona Kappa jest ogólną miarą podsumowującą zgodność wszystkich ocen sędziowskich i może być wyznaczona jako Kappa utworzona z poszczególnych warstw, którymi są konkretne oceny sędziowskie (Fleiss, 2003¹²⁾). Dlatego, jako podsumowanie każdej warstwy można wyznaczyć zgodność sędziowską (współczynnik Kappa) podsumowującą każdą możliwą ocenę z osobna.

Okno z ustawieniami opcji testu istotności Kappa-Fleissa wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Kappa-Fleissa

Przykład (plik temperament.pqs)

20 ochotników bierze udział w zabawie mającej na celu ustalenie typu osobowości badanych. Każdy z ochotników dysponuje oceną wystawioną przez 7 różnych obserwatorów (najczęściej osób z bliskiego otoczenia lub rodziny). Każdy z obserwatorów został zapoznany z podstawowymi cechami opisującymi temperament w poszczególnych typach osobowości: choleryk, flegmatyk, melancholik, sangwinik. Badamy zgodność obserwatorów w przypisywaniu typów osobowości. Fragment danych przedstawia poniższa tabela.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Obserwujemy nieduży współczynnik Kappa = 0.244918, lecz istotny statystycznie (p<0.000001), co oznacza nieprzypadkową zgodność ocen sędziowskich. Istotna zgodność dotyczy każdej oceny, czego potwierdzeniem jest raport podsumowujący zgodność dla każdej warstwy (dla każdej oceny) oraz wykres prezentujący poszczególne współczynniki Kappa i Kappę podsumowującą całość.

Ciekawy może być fakt, że najwyższa zgodność dotyczy oceny flegmatyków (Kappa=0.479952).

Przy niewielkiej liczbie obserwowanych osób warto również wykonać wykres obrazujący w jaki sposób obserwatorzy oceniali każdą z nich.

W tym przypadku tylko osoba nr 14 uzyskała jednoznaczną ocenę typu osobowości - sangwinik. Osoby nr 13 i 16 ocenione były jako typ flegmatyk przez 6 obserwatorów (na 7 możliwych). W przypadku pozostałych osób panowała nieco mniejsza zgodność ocen. Najtrudniejszy do zdefiniowania typ osobowości wydaje się cechować ostatnią osobę, która uzyskała najbardziej różnorodny zestaw ocen.

2015/12/27 23:42 · admin

2014/08/22 20:00

¹⁾

Shrout P.E., and Fleiss J.L (1979), Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 86, 420-428

²⁾

Bland J.M., Altman D.G. (1999), Measuring agreement in method comparison studies. Statistical Methods in Medical Research 8:135-160.

³⁾

Cohen J. (1960), A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 10,3746

⁴⁾

Cicchetti D. and Allison T. (1971), A new procedure for assessing reliability of scoring eeg sleep recordings. American Journal EEG Technology, 11, 101-109

⁵⁾

Cohen J. (1968), Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70, 213-220

⁶⁾

Fleiss J.L., Cohen J. (1973), The equivalence of weighted kappa and the intraclass correlation coeffcient as measure of reliability. Educational and Psychological Measurement, 33, 613-619

⁷⁾ , ¹¹⁾ , ¹²⁾

Fleiss J.L., Levin B., Paik M.C. (2003), Statistical methods for rates and proportions. 3rd ed. (New York: John Wiley) 598-626

⁸⁾

Kendall M.G., Babington-Smith B. (1939), The problem of m rankings. Annals of Mathematical Statistics, 10, 275-287

⁹⁾

Wallis W.A. (1939), The correlation ratio for ranked data. Journal of the American Statistical Association, 34,533-538

¹⁰⁾

Fleiss J.L. (1971), Measuring nominal scale agreement among many raters. Psychological Bulletin, 76 (5): 378–382

PQStat - Baza Wiedzy

Pasek boczny

Spis treści

Analiza zgodności

Testy parametryczne

Współczynnik korelacji wewnątrzklasowej i test badający jego istotność

Testy nieparametryczne

Współczynnik Kappa Cohena i test badający jego istotność

Współczynnik zgodności Kendalla i test badający jego istotność

Współczynnik Kappa Fleissa i test badający jego istotność

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Spis treści

Analiza zgodności

Testy parametryczne

Współczynnik korelacji wewnątrzklasowej i test badający jego istotność

Testy nieparametryczne

Współczynnik Kappa Cohena i test badający jego istotność

Współczynnik zgodności Kendalla i test badający jego istotność

Współczynnik Kappa Fleissa i test badający jego istotność

Narzędzia strony