Confiabilidad entre evaluadores

En estadística, la confiabilidad entre evaluadores (también denominada por varios nombres similares, como acuerdo entre evaluadores , concordancia entre evaluadores , confiabilidad entre observadores , confiabilidad entre codificadores , etc.) es el grado de acuerdo entre observadores independientes que califican, codifican o evalúan el mismo fenómeno.

Las herramientas de evaluación que se basan en calificaciones deben mostrar una buena confiabilidad entre evaluadores; de lo contrario, no son pruebas válidas .

Hay una serie de estadísticas que se pueden utilizar para determinar la confiabilidad entre evaluadores. Diferentes estadísticas son apropiadas para diferentes tipos de medición. Algunas opciones son la probabilidad conjunta de acuerdo, como el kappa de Cohen , el pi de Scott y el kappa de Fleiss ; o la correlación entre evaluadores, el coeficiente de correlación de concordancia , la correlación intraclase y el alfa de Krippendorff .

Concepto

Existen varias definiciones operativas de “fiabilidad entre evaluadores”, que reflejan diferentes puntos de vista sobre qué es un acuerdo confiable entre evaluadores. ^[1] Existen tres definiciones operativas de acuerdo:

Los evaluadores confiables están de acuerdo con la calificación "oficial" de una actuación.
Los evaluadores confiables se ponen de acuerdo entre sí sobre las calificaciones exactas que se otorgarán.
Los evaluadores confiables coinciden en qué desempeño es mejor y cuál es peor.

Estos se combinan con dos definiciones operativas del comportamiento:

Los evaluadores confiables son autómatas que se comportan como "máquinas de calificación". Esta categoría incluye la calificación de ensayos por computadora ^[2]. Este comportamiento puede evaluarse mediante la teoría de la generalización .
Los evaluadores confiables se comportan como testigos independientes. Demuestran su independencia discrepando ligeramente. Este comportamiento puede evaluarse mediante el modelo de Rasch .

Estadística

Probabilidad conjunta de acuerdo

La probabilidad conjunta de acuerdo es la medida más simple y menos robusta. Se calcula como el porcentaje de veces que los evaluadores están de acuerdo en un sistema de calificación nominal o categórico. No tiene en cuenta el hecho de que el acuerdo puede darse únicamente por casualidad. Hay algunas dudas sobre si es necesario o no "corregir" el acuerdo por casualidad; algunos sugieren que, en cualquier caso, cualquier ajuste de ese tipo debería basarse en un modelo explícito de cómo el azar y el error afectan las decisiones de los evaluadores. ^[3]

Cuando el número de categorías que se utilizan es pequeño (por ejemplo, 2 o 3), la probabilidad de que dos evaluadores estén de acuerdo por pura casualidad aumenta drásticamente. Esto se debe a que ambos evaluadores deben limitarse a la cantidad limitada de opciones disponibles, lo que afecta la tasa de acuerdo general y no necesariamente su propensión al acuerdo "intrínseco" (un acuerdo se considera "intrínseco" si no se debe al azar).

Por lo tanto, la probabilidad conjunta de acuerdo seguirá siendo alta incluso en ausencia de cualquier acuerdo "intrínseco" entre los evaluadores. Se espera que un coeficiente de confiabilidad entre evaluadores útil (a) sea cercano a 0 cuando no hay acuerdo "intrínseco" y (b) aumente a medida que mejora la tasa de acuerdo "intrínseco". La mayoría de los coeficientes de acuerdo corregidos por el azar logran el primer objetivo. Sin embargo, el segundo objetivo no se logra con muchas medidas corregidas por el azar conocidas. ^[4]

Estadísticas de Kappa

El kappa es una forma de medir el acuerdo o la fiabilidad, que corrige la frecuencia con la que las valoraciones pueden coincidir por casualidad. El kappa de Cohen ^[5] , que funciona para dos evaluadores, y el kappa de Fleiss ^[6] , una adaptación que funciona para cualquier número fijo de evaluadores, mejoran la probabilidad conjunta en el sentido de que tienen en cuenta la cantidad de acuerdo que se podría esperar que se produjera por casualidad. Las versiones originales tenían el mismo problema que la probabilidad conjunta en el sentido de que tratan los datos como nominales y suponen que las valoraciones no tienen un orden natural; si los datos tienen realmente un rango (nivel ordinal de medición), entonces esa información no se tiene plenamente en cuenta en las mediciones.

Las extensiones posteriores del enfoque incluyeron versiones que podían manejar "crédito parcial" y escalas ordinales. ^[7] Estas extensiones convergen con la familia de correlaciones intraclase (ICC), por lo que hay una forma conceptualmente relacionada de estimar la confiabilidad para cada nivel de medición desde nominal (kappa) a ordinal (kappa ordinal o ICC, ampliando los supuestos) a intervalo (ICC o kappa ordinal, tratando la escala de intervalo como ordinal) y proporción (ICC). También hay variantes que pueden observar el acuerdo de los evaluadores en un conjunto de elementos (por ejemplo, ¿dos entrevistadores están de acuerdo sobre las puntuaciones de depresión para todos los elementos en la misma entrevista semiestructurada para un caso?) así como evaluadores x casos (por ejemplo, ¿qué tan bien están de acuerdo dos o más evaluadores sobre si 30 casos tienen un diagnóstico de depresión, sí/no, una variable nominal)?

El coeficiente kappa es similar a un coeficiente de correlación en el sentido de que no puede superar +1,0 ni ser inferior a -1,0. Como se utiliza como medida de acuerdo, en la mayoría de las situaciones solo se esperarían valores positivos; los valores negativos indicarían un desacuerdo sistemático. El coeficiente kappa solo puede alcanzar valores muy altos cuando el acuerdo es bueno y la tasa de la condición objetivo es cercana al 50% (porque incluye la tasa base en el cálculo de las probabilidades conjuntas). Varias autoridades han ofrecido "reglas generales" para interpretar el nivel de acuerdo, muchas de las cuales coinciden en lo esencial aunque las palabras no sean idénticas. ^[8]^[9]^[10]^[11]

Coeficientes de correlación

Se pueden utilizar las pruebas de Pearson , τ de Kendall o Spearman para medir la correlación por pares entre evaluadores utilizando una escala ordenada. Pearson supone que la escala de calificación es continua; las estadísticas de Kendall y Spearman suponen únicamente que es ordinal. Si se observan más de dos evaluadores, se puede calcular un nivel promedio de acuerdo para el grupo como la media de los valores de , τ o de cada posible par de evaluadores. ${\estilo de visualización r}$ ${\estilo de visualización \rho}$ ${\estilo de visualización r}$ ${\estilo de visualización \rho}$

Coeficiente de correlación intraclase

Otra forma de realizar pruebas de confiabilidad es utilizar el coeficiente de correlación intraclase (ICC). ^[12] Hay varios tipos de este y uno se define como "la proporción de varianza de una observación debido a la variabilidad entre sujetos en las puntuaciones verdaderas". ^[13] El rango del ICC puede estar entre 0,0 y 1,0 (una definición temprana de ICC podría ser entre −1 y +1). El ICC será alto cuando haya poca variación entre las puntuaciones dadas a cada elemento por los evaluadores, por ejemplo, si todos los evaluadores dan las mismas puntuaciones o puntuaciones similares a cada uno de los elementos. El ICC es una mejora con respecto a Pearson y Spearman , ya que tiene en cuenta las diferencias en las calificaciones de los segmentos individuales, junto con la correlación entre evaluadores. ${\estilo de visualización r}$ ${\estilo de visualización \rho}$

Límites del acuerdo

Otro método para determinar el grado de acuerdo (útil cuando solo hay dos evaluadores y la escala es continua) consiste en calcular las diferencias entre cada par de observaciones de los dos evaluadores. La media de estas diferencias se denomina sesgo y el intervalo de referencia (media ± 1,96 × desviación estándar ) se denomina límites de acuerdo . Los límites de acuerdo permiten saber en qué medida la variación aleatoria puede estar influyendo en las calificaciones.

Si los evaluadores tienden a estar de acuerdo, las diferencias entre las observaciones de los evaluadores serán cercanas a cero. Si un evaluador suele tener una puntuación superior o inferior a la del otro en una cantidad constante, el sesgo será distinto de cero. Si los evaluadores tienden a estar en desacuerdo, pero sin un patrón constante de una puntuación superior a la del otro, la media será cercana a cero. Se pueden calcular límites de confianza (normalmente del 95 %) tanto para el sesgo como para cada uno de los límites de acuerdo.

Existen varias fórmulas que se pueden utilizar para calcular los límites de acuerdo. La fórmula simple, que se proporcionó en el párrafo anterior y que funciona bien para tamaños de muestra mayores de 60, ^[14] es

{\bar {x}}\pm 1,96 s

Para tamaños de muestra más pequeños, otra simplificación común ^[15] es

{\bar {x}}\pm 2s

Sin embargo, la fórmula más precisa (que es aplicable para todos los tamaños de muestra) ^[14] es

{\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Bland y Altman ^[15] han ampliado esta idea al graficar la diferencia de cada punto, la diferencia media y los límites de acuerdo en la vertical contra el promedio de las dos calificaciones en la horizontal. El gráfico de Bland-Altman resultante demuestra no solo el grado general de acuerdo, sino también si el acuerdo está relacionado con el valor subyacente del elemento. Por ejemplo, dos evaluadores pueden estar muy de acuerdo al estimar el tamaño de elementos pequeños, pero no estar de acuerdo con respecto a elementos más grandes.

Al comparar dos métodos de medición, no sólo es interesante estimar tanto el sesgo como los límites de acuerdo entre los dos métodos (acuerdo entre evaluadores), sino también evaluar estas características para cada método en sí mismo. Es muy posible que el acuerdo entre dos métodos sea deficiente simplemente porque uno de los métodos tiene límites de acuerdo amplios mientras que el otro tiene estrechos. En este caso, el método con los límites de acuerdo estrechos sería superior desde un punto de vista estadístico, mientras que consideraciones prácticas o de otro tipo podrían cambiar esta apreciación. Lo que constituye límites de acuerdo estrechos o amplios o un sesgo grande o pequeño es una cuestión de evaluación práctica en cada caso.

Alfa de Krippendorff

El alfa de Krippendorff ^[16]^[17] es una estadística versátil que evalúa el acuerdo alcanzado entre los observadores que categorizan, evalúan o miden un conjunto dado de objetos en términos de los valores de una variable. Generaliza varios coeficientes de acuerdo especializados al aceptar cualquier número de observadores, es aplicable a niveles de medición nominal, ordinal, de intervalo y de razón, puede manejar datos faltantes y se corrige para tamaños de muestra pequeños.

Alpha surgió en el análisis de contenido, donde las unidades textuales son categorizadas por codificadores capacitados, y se utiliza en asesoramiento e investigación de encuestas , donde los expertos codifican datos de entrevistas abiertas en términos analizables; en psicometría , donde los atributos individuales se prueban mediante múltiples métodos; en estudios de observación , donde se registran sucesos no estructurados para su posterior análisis; y en lingüística computacional, donde los textos se anotan para diversas cualidades sintácticas y semánticas.

Desacuerdo

En cualquier tarea en la que resulte útil contar con varios evaluadores, se espera que estos no estén de acuerdo sobre el objetivo observado. Por el contrario, las situaciones que implican una medición inequívoca, como las tareas de conteo simples (por ejemplo, el número de clientes potenciales que ingresan a una tienda), a menudo no requieren que más de una persona realice la medición.

Las mediciones que implican ambigüedad en las características de interés en el objetivo de la calificación generalmente se mejoran con múltiples evaluadores capacitados. Estas tareas de medición a menudo implican un juicio subjetivo de calidad. Algunos ejemplos incluyen calificaciones del "trato con el paciente" del médico, la evaluación de la credibilidad de los testigos por parte de un jurado y la habilidad de presentación de un orador.

La variación entre los evaluadores en los procedimientos de medición y la variabilidad en la interpretación de los resultados de las mediciones son dos ejemplos de fuentes de variación de error en las mediciones de calificación. Es necesario establecer pautas claras para la presentación de calificaciones a fin de garantizar la confiabilidad en situaciones de medición ambiguas o desafiantes.

Sin pautas de calificación, las calificaciones se ven cada vez más afectadas por el sesgo del experimentador , es decir, una tendencia de los valores de calificación a desviarse hacia lo esperado por el evaluador. Durante los procesos que involucran mediciones repetidas, la corrección de la desviación del evaluador se puede abordar mediante un reentrenamiento periódico para garantizar que los evaluadores comprendan las pautas y los objetivos de la medición.

Véase también

Referencias

^ Saal, FE; Downey, RG; Lahey, MA (1980). "Calificación de las calificaciones: evaluación de la calidad psicométrica de los datos de calificación". Psychological Bulletin . 88 (2): 413. doi :10.1037/0033-2909.88.2.413.
^ Page, EB; Petersen, NS (1995). "La computadora entra en la calificación de ensayos: actualización de la antigua prueba". Phi Delta Kappan . 76 (7): 561.
^ Uebersax, JS (1987). "Diversidad de modelos de toma de decisiones y medición del acuerdo entre evaluadores". Psychological Bulletin . 101 (1): 140–146. doi :10.1037/0033-2909.101.1.140. S2CID 39240770.
^ "Corrección de la confiabilidad entre evaluadores para el acuerdo aleatorio: ¿por qué?". www.agreestat.com . Archivado desde el original el 2018-04-02 . Consultado el 2018-12-26 .
^ Cohen, J. (1960). "Un coeficiente de acuerdo para escalas nominales" (PDF) . Medición educativa y psicológica . 20 (1): 37–46. doi :10.1177/001316446002000104. S2CID 15926286.
^ Fleiss, JL (1971). "Medición del acuerdo de escala nominal entre muchos evaluadores". Psychological Bulletin . 76 (5): 378–382. doi :10.1037/h0031619.
^ Landis, J. Richard; Koch, Gary G. (1977). "La medición de la concordancia entre observadores para datos categóricos". Biometrics . 33 (1): 159–74. doi :10.2307/2529310. JSTOR 2529310. PMID 843571. S2CID 11077516.
^ Landis, J. Richard; Koch, Gary G. (1977). "Una aplicación de las estadísticas jerárquicas de tipo Kappa en la evaluación del acuerdo mayoritario entre múltiples observadores". Biometrics . 33 (2): 363–74. doi :10.2307/2529786. JSTOR 2529786. PMID 884196.
^ Cicchetti, DV; Sparrow, SA (1981). "Desarrollo de criterios para establecer la fiabilidad entre evaluadores de elementos específicos: aplicaciones a la evaluación de la conducta adaptativa". American Journal of Mental Deficiency . 86 (2): 127–137. PMID 7315877.
^ Fleiss, JL (21 de abril de 1981). Métodos estadísticos para tasas y proporciones. 2.ª ed . Wiley. ISBN 0-471-06428-9.OCLC 926949980 .
^ Regier, Darrel A.; Narrow, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). "Ensayos de campo del DSM-5 en los Estados Unidos y Canadá, Parte II: Fiabilidad test-retest de diagnósticos categóricos seleccionados". American Journal of Psychiatry . 170 (1): 59–70. doi :10.1176/appi.ajp.2012.12070999. ISSN 0002-953X. PMID 23111466.
^ Shrout, PE; Fleiss, JL (1979). "Correlaciones intraclase: usos en la evaluación de la fiabilidad del evaluador". Psychological Bulletin . 86 (2): 420–428. doi :10.1037/0033-2909.86.2.420. PMID 18839484. S2CID 13168820.
^ Everitt, BS (1996). Dando sentido a las estadísticas en psicología: un curso de segundo nivel . Oxford University Press. ISBN 978-0-19-852365-9.
^ ab Ludbrook, J. (2010). Confianza en los gráficos de Altman-Bland: una revisión crítica del método de diferencias. Farmacología y fisiología clínica y experimental, 37 (2), 143-149.
^ ab Bland, JM, y Altman, D. (1986). Métodos estadísticos para evaluar la concordancia entre dos métodos de medición clínica. The Lancet, 327 (8476), 307-310.
^ Krippendorff, Klaus (2018). Análisis de contenido: una introducción a su metodología (4.ª ed.). Los Ángeles. ISBN 9781506395661.OCLC 1019840156 .{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Hayes, AF; Krippendorff, K. (2007). "Respondiendo a la demanda de una medida de fiabilidad estándar para la codificación de datos". Métodos y medidas de comunicación . 1 (1): 77–89. doi :10.1080/19312450709336664. S2CID 15408575.

Lectura adicional

Gwet, Kilem L. (2014). Manual de confiabilidad entre evaluadores (4.ª ed.). Gaithersburg: Advanced Analytics. ISBN 978-0970806284.OCLC 891732741 .
Gwet, KL (2008). "Computing inter-rater reliability and its variance in the presence of high agreement" (PDF) [Cálculo de la fiabilidad entre evaluadores y su varianza en presencia de un alto grado de acuerdo] . British Journal of Mathematical and Statistical Psychology [Revista británica de psicología matemática y estadística ]. 61 (parte 1): 29–48. doi :10.1348/000711006X126600. PMID 18482474. S2CID 13915043. Archivado desde el original (PDF) el 2016-03-03 . Consultado el 2010-06-16 .
Johnson, R.; Penny, J.; Gordon, B. (2009). Evaluación del desempeño: desarrollo, calificación y validación de tareas de desempeño . Guilford. ISBN 978-1-59385-988-6.
Shoukri, MM (2010). Medidas de concordancia y confiabilidad entre observadores (2.ª ed.). CRC Press. ISBN 978-1-4398-1080-4.OCLC 815928115 .

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Confiabilidad entre evaluadores .

AgreeStat 360: análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1/AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizado de Fleiss, coeficientes de correlación intraclase
Métodos estadísticos para la concordancia entre evaluadores por John Uebersax
Calculadora de confiabilidad entre evaluadores de Medical Education Online
Calculadora Kappa en línea (con múltiples evaluadores) Archivado el 28 de febrero de 2009 en Wayback Machine
Calculadora en línea para acuerdos entre evaluadores Archivado el 10 de abril de 2016 en Wayback Machine