PQStat - Baza Wiedzy

Współczynnik Kappa Fleissa i test badający jego istotność

Współczynnik ten określa zgodność pomiarów prowadzonych przez kliku sędziów (Fleiss, 1971¹⁾) i jest rozszerzeniem współczynnika Kappa Cohena, pozwalającego na badanie zgodności jedynie dwóch sędziów. Przy czym, należy zaznaczyć że każdy z $n$ losowo wybranych obiektów może być oceniany przez inny losowy zestaw $k$ sędziów. Analiza opiera się na danych przekształconych do tabeli o $n$ wierszach i $c$ kolumnach, gdzie $c$ stanowi liczbę możliwych kategorii, do których sędziowie przydzielają badane obiekty. Zatem w każdym wierszu tabeli podano $x_{ij}$ czyli liczbę sędziów wydających określone w danej kolumnie opinie.

Współczynnik Kappa ( $\hat \kappa$ ) wyraża się wtedy wzorem:

$\begin{displaymath} \hat \kappa=\frac{P_o-P_e}{1-P_e}, \end{displaymath}$

gdzie:

$P_o=\frac{1}{kn(k-1)}\sum_{i=1}^n\sum_{j=1}^c x_{ij}-kn$ ,

$P_e=\sum_{i=1}^c q_j^2$ ,

$q_j=\frac{1}{km}\sum_{i=1}^n x_{ij}$ .

Wartość $\hat \kappa=1$ oznacza pełną zgodność sędziów, natomiast $\hat \kappa = 0$ oznacza zgodność jaka powstałaby, gdyby opinie sędziów wydane były w sposób losowy. Wartości ujemne Kappa wskazują natomiast na zgodność mniejszą niż na poziomie losowym.

Dla współczynnika $\hat \kappa$ można wyznaczyć błąd standardowy $SE$ , który pozwala na zbadanie istotności statystycznej i wyznaczenie asymptotycznych przedziałów ufności.

Test Z do sprawdzania istotności współczynnika Kappa Fleissa ( $\hat \kappa$ ) (ang. The Z test of significance for the Fleiss's Kappa) Fleiss (2003²⁾) służy do weryfikacji hipotezy o zgodności ocen kilku sędziów i opiera się na współczynniku $\hat \kappa$ wyliczonym dla próby.

Podstawowe warunki stosowania:

pomiar na skali nominalnej - ewentualne uporządkowanie kategorii nie jest brane pod uwagę.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Statystyka testowa ma postać:

$\begin{displaymath} Z=\frac{\hat \kappa}{SE}, \end{displaymath}$

Statystyka $Z$ ma asymptotycznie (dla dużych liczności) rozkład normalny.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$ :

$\begin{array}{ccl} $ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ \mathcal{H}_1, \\ $ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\ \end{array}$

Uwaga! Wyznaczanie współczynnika Kappa Fleissa zbliżone jest koncepcyjnie do metody Mantela-Haenszela. Wyznaczona Kappa jest ogólną miarą podsumowującą zgodność wszystkich ocen sędziowskich i może być wyznaczona jako Kappa utworzona z poszczególnych warstw, którymi są konkretne oceny sędziowskie (Fleiss, 2003³⁾). Dlatego, jako podsumowanie każdej warstwy można wyznaczyć zgodność sędziowską (współczynnik Kappa) podsumowującą każdą możliwą ocenę z osobna.

Okno z ustawieniami opcji testu istotności Kappa-Fleissa wywołujemy poprzez menu Statystyka→Testy nieparametryczne→Kappa-Fleissa

Przykład (plik temperament.pqs)

20 ochotników bierze udział w zabawie mającej na celu ustalenie typu osobowości badanych. Każdy z ochotników dysponuje oceną wystawioną przez 7 różnych obserwatorów (najczęściej osób z bliskiego otoczenia lub rodziny). Każdy z obserwatorów został zapoznany z podstawowymi cechami opisującymi temperament w poszczególnych typach osobowości: choleryk, flegmatyk, melancholik, sangwinik. Badamy zgodność obserwatorów w przypisywaniu typów osobowości. Fragment danych przedstawia poniższa tabela.

Hipotezy:

$\begin{array}{cl} \mathcal{H}_0: & \kappa= 0, \\ \mathcal{H}_1: & \kappa \ne 0. \end{array}$

Obserwujemy nieduży współczynnik Kappa = 0.244918, lecz istotny statystycznie (p<0.000001), co oznacza nieprzypadkową zgodność ocen sędziowskich. Istotna zgodność dotyczy każdej oceny, czego potwierdzeniem jest raport podsumowujący zgodność dla każdej warstwy (dla każdej oceny) oraz wykres prezentujący poszczególne współczynniki Kappa i Kappę podsumowującą całość.

Ciekawy może być fakt, że najwyższa zgodność dotyczy oceny flegmatyków (Kappa=0.479952).

Przy niewielkiej liczbie obserwowanych osób warto również wykonać wykres obrazujący w jaki sposób obserwatorzy oceniali każdą z nich.

W tym przypadku tylko osoba nr 14 uzyskała jednoznaczną ocenę typu osobowości - sangwinik. Osoby nr 13 i 16 ocenione były jako typ flegmatyk przez 6 obserwatorów (na 7 możliwych). W przypadku pozostałych osób panowała nieco mniejsza zgodność ocen. Najtrudniejszy do zdefiniowania typ osobowości wydaje się cechować ostatnią osobę, która uzyskała najbardziej różnorodny zestaw ocen.

¹⁾

Fleiss J.L. (1971), Measuring nominal scale agreement among many raters. Psychological Bulletin, 76 (5): 378–382

²⁾ , ³⁾

Fleiss J.L., Levin B., Paik M.C. (2003), Statistical methods for rates and proportions. 3rd ed. (New York: John Wiley) 598-626

PQStat - Baza Wiedzy

Narzędzia użytkownika

Narzędzia witryny

Pasek boczny

Współczynnik Kappa Fleissa i test badający jego istotność

Narzędzia strony