Fiabilidad entre

En estadística, la confiabilidad entre evaluadores (también llamada con varios nombres similares, como acuerdo entre evaluadores , concordancia entre evaluadores , confiabilidad entre observadores , confiabilidad entre codificadores , etc.) es el grado de acuerdo entre observadores independientes que calificar, codificar o evaluar el mismo fenómeno.

Las herramientas de evaluación que se basan en calificaciones deben exhibir una buena confiabilidad entre evaluadores; de lo contrario, no son pruebas válidas .

Hay una serie de estadísticas que se pueden utilizar para determinar la confiabilidad entre evaluadores. Diferentes estadísticas son apropiadas para diferentes tipos de medición. Algunas opciones son la probabilidad conjunta de acuerdo, como la kappa de Cohen , la pi de Scott y la kappa de Fleiss ; o correlación entre evaluadores, coeficiente de correlación de concordancia , correlación intraclase y alfa de Krippendorff .

Concepto

Existen varias definiciones operativas de "confiabilidad entre evaluadores", que reflejan diferentes puntos de vista sobre lo que es un acuerdo confiable entre evaluadores. ^[1] Hay tres definiciones operativas de acuerdo:

Los evaluadores confiables están de acuerdo con la calificación "oficial" de una actuación.
Los evaluadores confiables acuerdan entre sí acerca de las calificaciones exactas que se otorgarán.
Los evaluadores confiables coinciden en cuanto a qué desempeño es mejor y cuál es peor.

Estos se combinan con dos definiciones operativas de comportamiento:

Los evaluadores confiables son autómatas y se comportan como "máquinas de calificación". Esta categoría incluye la calificación de ensayos por computadora ^[2] Este comportamiento puede evaluarse mediante la teoría de la generalización .
Los evaluadores confiables se comportan como testigos independientes. Demuestran su independencia estando ligeramente en desacuerdo. Este comportamiento puede evaluarse mediante el modelo de Rasch .

Estadísticas

Probabilidad conjunta de acuerdo

La probabilidad conjunta de acuerdo es la medida más simple y menos sólida. Se estima como el porcentaje de veces que los evaluadores coinciden en un sistema de calificación nominal o categórico. No tiene en cuenta el hecho de que un acuerdo puede ocurrir únicamente por casualidad. Hay dudas sobre si es necesario o no "corregir" el acuerdo fortuito; algunos sugieren que, en cualquier caso, cualquier ajuste de este tipo debería basarse en un modelo explícito de cómo el azar y el error afectan las decisiones de los evaluadores. ^[3]

Cuando el número de categorías utilizadas es pequeño (por ejemplo, 2 o 3), la probabilidad de que dos evaluadores estén de acuerdo por pura casualidad aumenta dramáticamente. Esto se debe a que ambos evaluadores deben limitarse al número limitado de opciones disponibles, lo que afecta la tasa de acuerdo general y no necesariamente su propensión a un acuerdo "intrínseco" (un acuerdo se considera "intrínseco" si no se debe al azar).

Por lo tanto, la probabilidad conjunta de acuerdo seguirá siendo alta incluso en ausencia de cualquier acuerdo "intrínseco" entre los evaluadores. Se espera que un coeficiente de confiabilidad entre evaluadores útil (a) sea cercano a 0 cuando no hay un acuerdo "intrínseco" y (b) aumente a medida que mejora la tasa de acuerdo "intrínseco". La mayoría de los coeficientes de acuerdo corregidos por azar logran el primer objetivo. Sin embargo, el segundo objetivo no se logra con muchas medidas conocidas corregidas por el azar. ^[4]

Kappa estadísticas

Kappa es una forma de medir la concordancia o la confiabilidad, corrigiendo la frecuencia con la que las calificaciones pueden coincidir por casualidad. La kappa de Cohen, ^[5] que funciona para dos evaluadores, y la kappa de Fleiss, ^[6] una adaptación que funciona para cualquier número fijo de evaluadores, mejoran la probabilidad conjunta porque tienen en cuenta el grado de acuerdo que podría esperarse. ocurrir por casualidad. Las versiones originales tenían el mismo problema que la probabilidad conjunta, ya que tratan los datos como nominales y asumen que las calificaciones no tienen un orden natural; si los datos realmente tienen un rango (nivel ordinal de medición), entonces esa información no se considera completamente en las mediciones.

Extensiones posteriores del enfoque incluyeron versiones que podían manejar "créditos parciales" y escalas ordinales. ^[7] Estas extensiones convergen con la familia de correlaciones intraclase (ICC), por lo que existe una forma conceptualmente relacionada de estimar la confiabilidad para cada nivel de medición desde nominal (kappa) hasta ordinal (kappa ordinal o ICC—supuestos extendidos) a intervalo (ICC, o kappa ordinal: tratar la escala de intervalo como ordinal) y relación (ICC). También hay variantes que pueden analizar el acuerdo entre los evaluadores en un conjunto de ítems (por ejemplo, ¿dos entrevistadores están de acuerdo sobre las puntuaciones de depresión para todos los ítems en la misma entrevista semiestructurada para un caso?), así como los evaluadores x casos. (p. ej., qué tan bien coinciden dos o más evaluadores sobre si 30 casos tienen un diagnóstico de depresión, sí/no, una variable nominal).

Kappa es similar a un coeficiente de correlación en el sentido de que no puede ser superior a +1,0 ni inferior a -1,0. Debido a que se utiliza como medida de acuerdo, en la mayoría de las situaciones sólo se esperarían valores positivos; los valores negativos indicarían un desacuerdo sistemático. Kappa sólo puede alcanzar valores muy altos cuando ambas concordancias son buenas y la tasa de la condición objetivo es cercana al 50% (porque incluye la tasa base en el cálculo de probabilidades conjuntas). Varias autoridades han ofrecido "reglas generales" para interpretar el nivel de acuerdo, muchas de las cuales coinciden en esencia aunque las palabras no sean idénticas. ^[8]^[9]^[10]^[11]

Coeficientes de correlación

Se puede utilizar la τ de Pearson , la τ de Kendall o la de Spearman para medir la correlación por pares entre evaluadores utilizando una escala ordenada. Pearson supone que la escala de calificación es continua; Las estadísticas de Kendall y Spearman suponen únicamente que es ordinal. Si se observan más de dos evaluadores, se puede calcular un nivel promedio de acuerdo para el grupo como la media de los valores de , τ o de cada posible par de evaluadores. $r$ ${\displaystyle\rho}$ $r$ ${\displaystyle\rho}$

Coeficiente de correlación intraclase

Otra forma de realizar pruebas de confiabilidad es utilizar el coeficiente de correlación intraclase (ICC). ^[12] Hay varios tipos de esto y uno se define como "la proporción de varianza de una observación debido a la variabilidad entre sujetos en las puntuaciones verdaderas". ^[13] El rango de ICC puede estar entre 0,0 y 1,0 (una definición temprana de ICC podría estar entre −1 y +1). El CCI será alto cuando haya poca variación entre las puntuaciones otorgadas a cada ítem por los evaluadores, por ejemplo, si todos los evaluadores otorgan puntuaciones iguales o similares a cada uno de los ítems. El ICC es una mejora con respecto al de Pearson y Spearman , ya que tiene en cuenta las diferencias en las calificaciones de segmentos individuales, junto con la correlación entre los evaluadores. $r$ ${\displaystyle\rho}$

Límites del acuerdo

Otro método para llegar al acuerdo (útil cuando sólo hay dos evaluadores y la escala es continua) es calcular las diferencias entre cada par de observaciones de los dos evaluadores. La media de estas diferencias se denomina sesgo y el intervalo de referencia (media ± 1,96 × desviación estándar ) se denomina límites de acuerdo . Los límites de acuerdo proporcionan una idea de cuánta variación aleatoria puede estar influyendo en las calificaciones.

Si los evaluadores tienden a estar de acuerdo, las diferencias entre sus observaciones serán cercanas a cero. Si un evaluador suele ser mayor o menor que el otro en una cantidad constante, el sesgo será diferente de cero. Si los evaluadores tienden a no estar de acuerdo, pero sin un patrón consistente de una calificación más alta que la otra, la media será cercana a cero. Los límites de confianza (generalmente 95%) se pueden calcular tanto para el sesgo como para cada uno de los límites de acuerdo.

Existen varias fórmulas que se pueden utilizar para calcular los límites de acuerdo. La fórmula simple, que se dio en el párrafo anterior y funciona bien para un tamaño de muestra mayor que 60, ^[14] es

{\bar {x}}\pm 1,96s

Para tamaños de muestra más pequeños, otra simplificación común ^[15] es

{\bar {x}}\pm 2s

Sin embargo, la fórmula más precisa (que es aplicable a todos los tamaños de muestra) ^[14] es

{\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Bland y Altman ^[15] han ampliado esta idea graficando la diferencia de cada punto, la diferencia media y los límites de acuerdo en la vertical contra el promedio de las dos calificaciones en la horizontal. El gráfico de Bland-Altman resultante demuestra no sólo el grado general de acuerdo, sino también si el acuerdo está relacionado con el valor subyacente del artículo. Por ejemplo, dos evaluadores pueden estar muy de acuerdo al estimar el tamaño de elementos pequeños, pero no estar de acuerdo respecto de elementos más grandes.

Al comparar dos métodos de medición, no sólo es interesante estimar tanto el sesgo como los límites de acuerdo entre los dos métodos (acuerdo entre evaluadores), sino también evaluar estas características para cada método dentro de sí mismo. Es muy posible que el acuerdo entre dos métodos sea pobre simplemente porque uno de los métodos tiene límites de acuerdo amplios mientras que el otro tiene límites estrechos. En este caso, el método con límites estrechos de acuerdo sería superior desde un punto de vista estadístico, mientras que consideraciones prácticas o de otro tipo podrían cambiar esta apreciación. Lo que constituye límites estrechos o amplios de acuerdo o un sesgo grande o pequeño es una cuestión de evaluación práctica en cada caso.

Alfa de Krippendorff

El alfa de Krippendorff ^[16]^[17] es una estadística versátil que evalúa el acuerdo logrado entre observadores que categorizan, evalúan o miden un conjunto determinado de objetos en términos de los valores de una variable. Generaliza varios coeficientes de acuerdo especializados al aceptar cualquier número de observadores, ser aplicable a niveles de medición nominal, ordinal, de intervalo y de razón, ser capaz de manejar datos faltantes y corregirse para tamaños de muestra pequeños.

Alpha surgió en el análisis de contenido, donde codificadores capacitados clasifican las unidades textuales y se utiliza en asesoramiento e investigación de encuestas donde los expertos codifican datos de entrevistas abiertas en términos analizables, en psicometría donde los atributos individuales se prueban mediante múltiples métodos, en estudios observacionales donde se analizan sucesos no estructurados. se registran para su posterior análisis, y en lingüística computacional, donde los textos se anotan según diversas cualidades sintácticas y semánticas.

Desacuerdo

Para cualquier tarea en la que sean útiles varios evaluadores, se espera que los evaluadores no estén de acuerdo sobre el objetivo observado. Por el contrario, las situaciones que implican mediciones inequívocas, como tareas simples de conteo (por ejemplo, el número de clientes potenciales que ingresan a una tienda), a menudo no requieren que más de una persona realice la medición.

Las mediciones que implican ambigüedad en las características de interés en el objetivo de calificación generalmente se mejoran con múltiples evaluadores capacitados. Estas tareas de medición a menudo implican juicios subjetivos de calidad. Los ejemplos incluyen calificaciones del "comportamiento al paciente" del médico, evaluación de la credibilidad de los testigos por parte de un jurado y habilidad de presentación de un orador.

La variación entre evaluadores en los procedimientos de medición y la variabilidad en la interpretación de los resultados de la medición son dos ejemplos de fuentes de variación de error en las mediciones de calificación. Se necesitan pautas claramente establecidas para las calificaciones de representación para lograr confiabilidad en escenarios de medición ambiguos o desafiantes.

Sin pautas de puntuación, las calificaciones se ven cada vez más afectadas por el sesgo del experimentador , es decir, una tendencia de los valores de calificación a desviarse hacia lo que espera el evaluador. Durante los procesos que involucran mediciones repetidas, la corrección de la deriva del evaluador se puede abordar mediante un reentrenamiento periódico para garantizar que los evaluadores comprendan las pautas y los objetivos de medición.

Ver también

Referencias

^ Saal, FE; Downey, RG; Lahey, MA (1980). "Calificación de las calificaciones: evaluación de la calidad psicométrica de los datos de calificación". Boletín Psicológico . 88 (2): 413. doi :10.1037/0033-2909.88.2.413.
^ Página, EB; Petersen, NS (1995). "La computadora pasa a la calificación de ensayos: actualización de la antigua prueba". Phi Delta Kappan . 76 (7): 561.
^ Übersax, JS (1987). "Diversidad de modelos de toma de decisiones y medición del acuerdo entre evaluadores". Boletín Psicológico . 101 (1): 140-146. doi :10.1037/0033-2909.101.1.140. S2CID 39240770.
^ "Corrección de la confiabilidad entre evaluadores para un acuerdo aleatorio: ¿por qué?". www.agreestat.com . Archivado desde el original el 2018-04-02 . Consultado el 26 de diciembre de 2018 .
^ Cohen, J. (1960). «Un coeficiente de concordancia para escalas nominales» (PDF) . Medición Educativa y Psicológica . 20 (1): 37–46. doi :10.1177/001316446002000104. S2CID 15926286.
^ Fleiss, JL (1971). "Medición del acuerdo de escala nominal entre muchos evaluadores". Boletín Psicológico . 76 (5): 378–382. doi :10.1037/h0031619.
^ Landis, J. Richard; Koch, Gary G. (1977). "La medición del acuerdo de observador para datos categóricos". Biometría . 33 (1): 159–74. doi :10.2307/2529310. JSTOR 2529310. PMID 843571. S2CID 11077516.
^ Landis, J. Richard; Koch, Gary G. (1977). "Una aplicación de estadísticas jerárquicas de tipo Kappa en la evaluación del acuerdo mayoritario entre múltiples observadores". Biometría . 33 (2): 363–74. doi :10.2307/2529786. JSTOR 2529786.PMID 884196 .
^ Cicchetti, DV; Gorrión, SA (1981). "Desarrollo de criterios para establecer la confiabilidad entre evaluadores de elementos específicos: aplicaciones a la evaluación del comportamiento adaptativo". Revista estadounidense de deficiencia mental . 86 (2): 127-137. PMID 7315877.
^ Fleiss, JL (21 de abril de 1981). Métodos estadísticos para tasas y proporciones. 2da ed . Wiley. ISBN 0-471-06428-9. OCLC 926949980.
^ Regier, Darrel A.; Estrecho, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). "Pruebas de campo del DSM-5 en los Estados Unidos y Canadá, parte II: confiabilidad de prueba y repetición de diagnósticos categóricos seleccionados". Revista Estadounidense de Psiquiatría . 170 (1): 59–70. doi : 10.1176/appi.ajp.2012.12070999. ISSN 0002-953X. PMID 23111466.
^ Shrout, educación física; Fleiss, JL (1979). "Correlaciones intraclase: usos para evaluar la confiabilidad del evaluador". Boletín Psicológico . 86 (2): 420–428. doi :10.1037/0033-2909.86.2.420. PMID 18839484. S2CID 13168820.
^ Everitt, BS (1996). Dar sentido a la estadística en psicología: un curso de segundo nivel . Prensa de la Universidad de Oxford. ISBN 978-0-19-852365-9.
^ ab Ludbrook, J. (2010). Confianza en los gráficos de Altman-Bland: una revisión crítica del método de diferencias. Farmacología y fisiología clínica y experimental, 37 (2), 143-149.
^ ab Bland, JM y Altman, D. (1986). Métodos estadísticos para evaluar la concordancia entre dos métodos de medición clínica. The Lancet, 327 (8476), 307-310.
^ Krippendorff, Klaus (2018). Análisis de contenido: una introducción a su metodología (4ª ed.). Los Angeles. ISBN 9781506395661. OCLC 1019840156.{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
^ Hayes, AF; Krippendorff, K. (2007). "Respondiendo al llamado de una medida de confiabilidad estándar para codificar datos". Métodos y medidas de comunicación . 1 (1): 77–89. doi :10.1080/19312450709336664. S2CID 15408575.

Otras lecturas

Gwet, Kilem L. (2014). Manual de confiabilidad entre evaluadores (4ª ed.). Gaithersburg: análisis avanzado. ISBN 978-0970806284. OCLC 891732741.
Gwet, KL (2008). "Cálculo de la confiabilidad entre evaluadores y su varianza en presencia de un alto acuerdo" (PDF) . Revista británica de psicología matemática y estadística . 61 (Parte 1): 29–48. doi :10.1348/000711006X126600. PMID 18482474. S2CID 13915043. Archivado desde el original (PDF) el 3 de marzo de 2016 . Consultado el 16 de junio de 2010 .
Johnson, R.; Penny, J.; Gordon, B. (2009). Evaluación del desempeño: desarrollo, calificación y validación de tareas de desempeño . Guilford. ISBN 978-1-59385-988-6.
Shoukri, MM (2010). Medidas de acuerdo y confiabilidad entre observadores (2ª ed.). Prensa CRC. ISBN 978-1-4398-1080-4. OCLC 815928115.

enlaces externos

Wikimedia Commons tiene medios relacionados con la confiabilidad entre evaluadores .

AgreeStat 360: análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1/AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizada de Fleiss, coeficientes de correlación intraclase
Métodos estadísticos para el acuerdo de evaluadores por John Uebersax
Calculadora de confiabilidad entre evaluadores de Medical Education Online
Calculadora Kappa en línea (multievaluador) Archivado el 28 de febrero de 2009 en Wayback Machine.
Calculadora en línea para el acuerdo entre evaluadores Archivado el 10 de abril de 2016 en Wayback Machine.