Współczynnik zgodności Kendalla i test badający jego istotność

Współczynnik zgodności $\widetilde{W}$ Kendalla (ang. Kendall's Coefficient of Concordance) opisany w pracy Kendalla i Babingtona-Smitha (1939)1) oraz Wallisa (1939)2) stosuje się w sytuacji, gdy dysponujemy rankingami pochodzącymi z różnych źródeł (od różnych sędziów) i dotyczącymi kilku ($k\geq2$) obiektów a zależy nam na ocenie zgodności tych rankingów. Często używa się go do mierzenia siły sędziowskiej rzetelności, czyli stopnia w jakim oceny sędziów są zgodne.

Współczynnik zgodności Kendalla wyznacza się dla skali porządkowej lub interwałowej, a jego wartość wylicza się według wzoru:

\begin{displaymath}
\widetilde{W}=\frac{12U-3n^2k(k+1)^2}{n^2k(k^2-1)-nC},
\end{displaymath}

gdzie:

$n$ - liczba różnych zbiorów ocen (ilość sędziów),

$k$ - liczba rangowanych obiektów,

$\displaystyle U=\sum_{j=1}^k\left(\sum_{i=1}^nR_{ij}\right)^2$,

$R_{ij}$ - rangi przypisane kolejnym obiektom $(j=1,2,...k)$, oddzielnie dla każdego z sędziów $(i=1,2,...n)$,

$\displaystyle C=\sum(t^3-t)$ - korekta na rangi wiązane,

$t$ - liczba przypadków wchodzących w skład rangi wiązanej.

Wzór na współczynnik zawiera poprawkę na rangi wiązane $C$. Poprawka ta jest stosowana, gdy rangi wiązane występują (gdy nie ma rang wiązanych poprawka ta nie jest wyliczana, gdyż wówczas $C=0$).

Uwaga!

$W$ oznacza współczynnik zgodności Kendalla w populacji, natomiast $\widetilde{W}$ w próbie.

Wartość $W\in<0; 1>$ interpretujemy w następujący sposób:

  • $\widetilde{W}\approx1$ oznacza silną zgodność w ocenie poszczególnych obiektów przez sędziów;
  • $\widetilde{W}\approx0$ oznacza brak zgodności w ocenie poszczególnych obiektów przez sędziów.

Współczynnik zgodności $\widetilde{W}$ Kendalla a współczynnik $r_s$ Spearmana:

  • Gdy wyliczymy wartość współczynnika korelacji Spearmana $r_s$ dla wszystkich możliwych par rankingów, to średni współczynnik $r_s$ - oznaczony przez $\bar{r}_s$, jest funkcją liniową wartości współczynnika $\widetilde{W}$ wyliczonego na podstawie tych danych:

\begin{displaymath}
\bar{r}_s=\frac{n\widetilde{W}-1}{n-1}
\end{displaymath}

Współczynnik zgodności $\widetilde{W}$ Kendalla a ANOVA Friedmana:

  • Współczynnik zgodności $\widetilde{W}$ Kendalla i ANOVA Friedmana bazują na tym samym modelu matematycznym. W rezultacie wartość statystyki testowej testu chi-kwadrat do sprawdzania istotności współczynnika zgodności Kendalla i wartość statystyki testowej ANOVA Friedmana jest taka sama.

Test chi-kwadrat do sprawdzania istotności współczynnika zgodności Kendalla

Podstawowe warunki stosowania:

Hipotezy:

\begin{array}{cl}
\mathcal{H}_0: &  W=0\\
\mathcal{H}_1: &  W\neq0
\end{array}

Statystyka testowa ma postać: \begin{displaymath}
\chi^2=n(k-1)\widetilde{W}
\end{displaymath}

Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z liczbą stopni swobody wyliczaną z wzoru: $df=k-1$.

Wyznaczoną na podstawie statystyki testowej wartość $p$ porównujemy z poziomem istotności $\alpha$:

\begin{array}{ccl}
$ jeżeli $ p \le \alpha & \Longrightarrow & $ odrzucamy $ \mathcal{H}_0 $ przyjmując $ 	\mathcal{H}_1, \\
$ jeżeli $ p > \alpha & \Longrightarrow & $ nie ma podstaw, aby odrzucić $ \mathcal{H}_0. \\
\end{array}

Okno z ustawieniami opcji testu istotności W Kendalla wywołujemy poprzez menu StatystykaTesty nieparametryczneW Kendalla lub poprzez ''Kreator''.

Przykład (plik sędziowie.pqs)

W systemie szóstkowym oceny par tanecznych 9 sędziów punktuje m.in. wrażenie artystyczne. Sędziowie rozpoczynają wystawianie oceny od porównania zawodników względem siebie i ustawienia ich na określonym miejscu (tworzą ich ranking). Sprawdzimy, czy rangi przypisane przez sędziów są zgodne:

\begin{tabular}{|c|c|c|c|c|c|c|}
\hline
Sędziowie&Para A&Para B&Para C&Para D&Para E&Para F\\\hline
S1&3&6&2&5&4&1\\
S2&4&6&1&5&3&2\\
S3&4&6&2&5&3&1\\
S4&2&6&3&5&4&1\\
S5&2&6&1&5&4&3\\
S6&3&5&1&6&4&2\\
S7&5&4&1&6&3&2\\
S8&3&6&2&5&4&1\\
S9&2&6&3&5&4&1\\\hline
\end{tabular}

Hipotezy:


$
\begin{array}{cl}
\mathcal{H}_0: & $brak zgodności pomiędzy rankingami 9 sędziów$\\
& $w populacji reprezentowanej przez zebraną próbę, $\\
\mathcal{H}_1: & $rankingi 9 sędziów w populacji reprezentowanej$\\
& $przez zebraną próbę są zgodne.$
\end{array}

Porównując wartość $p<0.000001$ z poziomem istotności $\alpha=0.05$, stwierdziliśmy, że oceny sędziów są statystycznie zgodne. Siła tej zgodności jest wysoka i wynosi $\widetilde{W} = 0.83351$, podobnie jak średni współczynnik korelacji monotonicznej Spearmana $\bar{r}_s = 0.81270$. Wynik ten możemy przedstawić na wykresie, na którym oś X reprezentuje kolejnych sędziów. Wówczas im częściej przecinają się linie, (które powinny być równoległe do osi X, gdy zgodność jest pełna), tym słabszą zgodność reprezentują oceny sędziów.

1)
Kendall M.G., Babington-Smith B. (1939), The problem of m rankings. Annals of Mathematical Statistics, 10, 275-287
2)
Wallis W.A. (1939), The correlation ratio for ranked data. Journal of the American Statistical Association, 34,533-538

Narzędzia witryny