Kappa de Fleiss

El kappa de Fleiss (que debe su nombre a Joseph L. Fleiss ) es una medida estadística para evaluar la fiabilidad del acuerdo entre un número fijo de evaluadores al asignar calificaciones categóricas a una serie de ítems o clasificar ítems. Esto contrasta con otros kappas como el kappa de Cohen , que solo funcionan al evaluar el acuerdo entre no más de dos evaluadores o la fiabilidad intraevaluador (para un evaluador frente a ellos mismos). La medida calcula el grado de acuerdo en la clasificación por encima del que se esperaría por casualidad.

El kappa de Fleiss se puede utilizar con valores binarios o de escala nominal . También se puede aplicar a datos ordinales (datos clasificados): la documentación en línea de MiniTab ^[1] ofrece un ejemplo. Sin embargo, este documento señala: "Cuando se tienen clasificaciones ordinales, como clasificaciones de gravedad de defectos en una escala de 1 a 5, los coeficientes de Kendall , que tienen en cuenta el ordenamiento, suelen ser estadísticas más apropiadas para determinar la asociación que el kappa solo". Sin embargo, tenga en cuenta que los coeficientes de rango de Kendall solo son apropiados para datos de rango.

Introducción

El kappa de Fleiss es una generalización del estadístico pi de Scott , ^[2] una medida estadística de la confiabilidad entre evaluadores . ^[3] También está relacionado con el estadístico kappa de Cohen y el estadístico J de Youden , que pueden ser más apropiados en ciertos casos. ^[4] Mientras que el pi de Scott y el kappa de Cohen funcionan solo para dos evaluadores, el kappa de Fleiss funciona para cualquier número de evaluadores que otorguen calificaciones categóricas, a un número fijo de elementos, con la condición de que para cada elemento los evaluadores sean muestreados aleatoriamente. Puede interpretarse como una expresión del grado en el que la cantidad observada de acuerdo entre los evaluadores excede lo que se esperaría si todos los evaluadores hicieran sus calificaciones de manera completamente aleatoria. Es importante señalar que mientras que el kappa de Cohen supone que los mismos dos evaluadores han calificado un conjunto de elementos, el kappa de Fleiss permite específicamente que, aunque haya un número fijo de evaluadores (por ejemplo, tres), diferentes elementos pueden ser calificados por diferentes individuos. ^[3] Es decir, el ítem 1 es calificado por los evaluadores A, B y C; pero el ítem 2 podría ser calificado por los evaluadores D, E y F. La condición de muestreo aleatorio entre los evaluadores hace que el kappa de Fleiss no sea adecuado para los casos en que todos los evaluadores califican a todos los pacientes. ^[5]

El acuerdo se puede considerar de la siguiente manera: si un número fijo de personas asigna calificaciones numéricas a una serie de elementos, el kappa dará una medida de cuán consistentes son las calificaciones. El kappa, , se puede definir como: $\kappa \,$

(1) $\kappa ={\frac {{\bar {P}}-{\bar {P_{e}}}}{1-{\bar {P_{e}}}}}$

El factor indica el grado de acuerdo que se puede alcanzar por encima del azar, y indica el grado de acuerdo que realmente se logra por encima del azar. Si los evaluadores están completamente de acuerdo, entonces . Si no hay acuerdo entre los evaluadores (salvo lo que se esperaría por azar), entonces . $1-{\bar {P_{e}}}$ ${\bar {P}}-{\bar {P_{e}}}$ $\kappa = 1~$ $\kappa \leq 0$

Un ejemplo de uso del kappa de Fleiss puede ser el siguiente: considere varios psiquiatras a los que se les pide que examinen a diez pacientes. Para cada paciente, 14 psiquiatras dan uno de los cinco diagnósticos posibles. Estos se compilan en una matriz y el kappa de Fleiss se puede calcular a partir de esta matriz (ver el ejemplo a continuación) para mostrar el grado de acuerdo entre los psiquiatras por encima del nivel de acuerdo esperado por el azar.

Definición

Sea $N$ el número total de elementos, sea $n$ el número de calificaciones por elemento y sea $k$ el número de categorías en las que se realizan las asignaciones. Los elementos están indexados por $i = 1, ..., N$ y las categorías están indexadas por $j = 1, ..., k$ . Sea $n ij$ el número de evaluadores que asignaron el elemento $i a la categoría$ $j$ .

Primero calcule $p j$ , la proporción de todas las asignaciones que fueron para la categoría $j :$

(2) $p_{j}={\frac {1}{Nn}}\suma _{i=1}^{N}n_{ij},\quad \quad 1=\suma _{j=1}^{k}p_{j}$

Ahora calcule hasta qué punto los evaluadores están de acuerdo con el elemento $i$ -ésimo (es decir, calcule cuántos pares evaluador-evaluador están de acuerdo, en relación con el número de todos los pares evaluador-evaluador posibles): $P_{i}\,$

(3)

{\begin{aligned}P_{i}&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}n_{ij}(n_{ij) }-1)\\&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}(n_{ij}^{2}-n_{ij}) \\&={\frac {1}{n(n-1)}}{\biggl [}\sum _{j=1}^{k}{\bigl (}n_{ij}^{2}{ \bigr )}-n{\biggr ]}\end{aligned}}

Tenga en cuenta que está limitado entre $0$ , cuando las calificaciones se asignan por igual a todas las categorías, y $1$ , cuando todas las calificaciones se asignan a una sola categoría. $Estilo de visualización P_{i}}$

Ahora calcula , la media de los , y , que entran en la fórmula para : ${\bar {P}}$ $Estilo de visualización P_{i}}$ ${\bar {P_{e}}}$ ${\estilo de visualización \kappa}$

(4) ${\begin{alineado}{\bar {P}}&={\frac {1}{N}}\sum _{i=1}^{N}P_{i}\\&={\ frac {1}{Nn(n-1)}}{\biggl [}\sum _{i=1}^{N}\sum _{j=1}^{k}{\bigl (}n_{ij) }^{2}{\bigr )}-Nn{\biggr ]}\end{aligned}}$

(5) ${\bar {P_{e}}}=\sum _{j=1}^{k}p_{j}^{2}$

Ejemplo resuelto

En el siguiente ejemplo, para cada uno de los diez "sujetos" ( ), catorce evaluadores ( ), seleccionados de un grupo más grande, asignan un total de cinco categorías ( ). Las categorías se presentan en las columnas, mientras que los sujetos se presentan en las filas. Cada celda enumera el número de evaluadores que asignaron el sujeto indicado (fila) a la categoría indicada (columna). ${\estilo de visualización N}$ ${\estilo de visualización n}$ ${\estilo de visualización k}$

En la siguiente tabla, dado que , y . El valor es la proporción de todas las asignaciones que se realizaron a la categoría n. Por ejemplo, tomando la primera columna y tomando la segunda fila, ${\estilo de visualización N=10}$ ${\estilo de visualización n=14}$ ${\estilo de visualización k=5}$ $estilo de visualización p_ {j}}$ ${\estilo de visualización j}$ $p_{1}={\frac {0+0+0+0+2+7+3+2+6+0}{140}}=0.143,$ $P_{2}={\frac {1}{14(14-1)}}\left(0^{2}+2^{2}+6^{2}+4^{2}+2^{2}-14\right)=0.253.$

Para calcular , necesitamos saber la suma de , ${\bar {P}}$ $P_{i}$ $\sum _{i=1}^{N}P_{i}=1.000+0.253+\cdots +0.286+0.286=3.780.$

Sobre toda la hoja,

{\begin{aligned}{\bar {P}}&={\frac {1}{(10)}}(3.780)=0.378\\{\bar {P}}_{e}&=0.143^{2}+0.200^{2}+0.279^{2}+0.150^{2}+0.229^{2}=0.213\\\kappa &={\frac {0.378-0.213}{1-0.213}}=0.210\end{aligned}}

Interpretación

Landis y Koch (1977) dieron la siguiente tabla para interpretar los valores de un ejemplo de 2 clases y 2 anotadores. ^[6] Sin embargo, esta tabla no es de ninguna manera aceptada universalmente. No aportaron ninguna evidencia para respaldarla, sino que la basaron en su opinión personal. Se ha observado que estas pautas pueden ser más perjudiciales que útiles, ^[7] ya que la cantidad de categorías y sujetos afectará la magnitud del valor. Por ejemplo, el kappa es mayor cuando hay menos categorías. ^[8] $\kappa$

Pruebas de significancia

Los paquetes estadísticos pueden calcular una puntuación estándar (puntuación Z) para el kappa de Cohen o el kappa de Fleiss, que se puede convertir en un valor P. Sin embargo, incluso cuando el valor P alcanza el umbral de significación estadística (normalmente menos de 0,05), solo indica que el acuerdo entre los evaluadores es significativamente mejor de lo que se esperaría por casualidad. El valor P no indica, por sí solo, si el acuerdo es lo suficientemente bueno como para tener un alto valor predictivo.

Véase también

Referencias

^ Estadísticas Kappa para el análisis de concordancia de atributos, MiniTab Inc , consultado el 22 de enero de 2019.
^ Scott, W. (1955), "Fiabilidad del análisis de contenido: el caso de la codificación de escala nominal", Public Opinion Quarterly , 19 (3): 321–325, doi :10.1086/266577, JSTOR 2746450.
^ ab Fleiss, JL (1971), "Medición del acuerdo de escala nominal entre muchos evaluadores", Psychological Bulletin , 76 (5): 378–382, doi :10.1037/h0031619.
^ Powers, David MW (2012), El problema con Kappa , vol. Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP., Asociación de Lingüística Computacional.
^ Hallgren, Kevin A. (2012), "Cálculo de la fiabilidad entre evaluadores para datos observacionales: descripción general y tutorial", Tutoriales en métodos cuantitativos para psicología , 8 (1): 3–34, doi :10.20982/tqmp.08.1.p023, PMID 22833776.
^ ab Landis, JR; Koch, GG (1977), "La medición del acuerdo entre observadores para datos categóricos", Biometrics , 33 (1): 159–174, doi :10.2307/2529310, JSTOR 2529310, PMID 843571.
^ Gwet, KL (2014), "Capítulo 6. (Gaithersburg: Advanced Analytics, LLC)", Manual de confiabilidad entre evaluadores (PDF) (4.ª ed.), Advanced Analytics, LLC, ISBN 978-0970806284.
^ Sim, J.; Wright, CC (2005), "La estadística Kappa en estudios de confiabilidad: uso, interpretación y requisitos de tamaño de muestra", Fisioterapia , 85 (3): 257–268, doi :10.1093/ptj/85.3.257.

Lectura adicional

Fleiss, JL; Cohen, J. (1973), "La equivalencia de la kappa ponderada y el coeficiente de correlación intraclase como medidas de fiabilidad", Educational and Psychological Measurement , 33 (3): 613–619, doi :10.1177/001316447303300309, S2CID 145183399.
Fleiss, JL (1981), Métodos estadísticos para tasas y proporciones (2.ª ed.), Nueva York: John Wiley & Sons , págs. 38–46.
Gwet, KL (2008), "Computing inter-rater reliability and its variance in the presence of high agreement" (PDF) , British Journal of Mathematical and Statistical Psychology , 61 (Pt 1): 29–48, doi :10.1348/000711006X126600, PMID 18482474, S2CID 13915043, archivado desde el original (PDF) el 2016-03-03 , consultado el 2010-06-16.

Enlaces externos

La implementación del algoritmo Wikibook tiene una página sobre el tema: Kappa de Fleiss

Análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1/AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizado de Fleiss, coeficientes de correlación intraclase
Kappa: Pros y contras: contiene una buena bibliografía de artículos sobre el coeficiente
Calculadora Kappa en línea Archivado el 28 de febrero de 2009 en Wayback Machine : calcula una variación del kappa de Fleiss