En estadística, la confiabilidad entre evaluadores (también denominada por varios nombres similares, como acuerdo entre evaluadores , concordancia entre evaluadores , confiabilidad entre observadores , confiabilidad entre codificadores , etc.) es el grado de acuerdo entre observadores independientes que califican, codifican o evalúan el mismo fenómeno.
Las herramientas de evaluación que se basan en calificaciones deben mostrar una buena confiabilidad entre evaluadores; de lo contrario, no son pruebas válidas .
Hay una serie de estadísticas que se pueden utilizar para determinar la confiabilidad entre evaluadores. Diferentes estadísticas son apropiadas para diferentes tipos de medición. Algunas opciones son la probabilidad conjunta de acuerdo, como el kappa de Cohen , el pi de Scott y el kappa de Fleiss ; o la correlación entre evaluadores, el coeficiente de correlación de concordancia , la correlación intraclase y el alfa de Krippendorff .
Existen varias definiciones operativas de “fiabilidad entre evaluadores”, que reflejan diferentes puntos de vista sobre qué es un acuerdo confiable entre evaluadores. [1] Existen tres definiciones operativas de acuerdo:
Estos se combinan con dos definiciones operativas del comportamiento:
La probabilidad conjunta de acuerdo es la medida más simple y menos robusta. Se calcula como el porcentaje de veces que los evaluadores están de acuerdo en un sistema de calificación nominal o categórico. No tiene en cuenta el hecho de que el acuerdo puede darse únicamente por casualidad. Hay algunas dudas sobre si es necesario o no "corregir" el acuerdo por casualidad; algunos sugieren que, en cualquier caso, cualquier ajuste de ese tipo debería basarse en un modelo explícito de cómo el azar y el error afectan las decisiones de los evaluadores. [3]
Cuando el número de categorías que se utilizan es pequeño (por ejemplo, 2 o 3), la probabilidad de que dos evaluadores estén de acuerdo por pura casualidad aumenta drásticamente. Esto se debe a que ambos evaluadores deben limitarse a la cantidad limitada de opciones disponibles, lo que afecta la tasa de acuerdo general y no necesariamente su propensión al acuerdo "intrínseco" (un acuerdo se considera "intrínseco" si no se debe al azar).
Por lo tanto, la probabilidad conjunta de acuerdo seguirá siendo alta incluso en ausencia de cualquier acuerdo "intrínseco" entre los evaluadores. Se espera que un coeficiente de confiabilidad entre evaluadores útil (a) sea cercano a 0 cuando no hay acuerdo "intrínseco" y (b) aumente a medida que mejora la tasa de acuerdo "intrínseco". La mayoría de los coeficientes de acuerdo corregidos por el azar logran el primer objetivo. Sin embargo, el segundo objetivo no se logra con muchas medidas corregidas por el azar conocidas. [4]
El kappa es una forma de medir el acuerdo o la fiabilidad, que corrige la frecuencia con la que las valoraciones pueden coincidir por casualidad. El kappa de Cohen [5] , que funciona para dos evaluadores, y el kappa de Fleiss [6] , una adaptación que funciona para cualquier número fijo de evaluadores, mejoran la probabilidad conjunta en el sentido de que tienen en cuenta la cantidad de acuerdo que se podría esperar que se produjera por casualidad. Las versiones originales tenían el mismo problema que la probabilidad conjunta en el sentido de que tratan los datos como nominales y suponen que las valoraciones no tienen un orden natural; si los datos tienen realmente un rango (nivel ordinal de medición), entonces esa información no se tiene plenamente en cuenta en las mediciones.
Las extensiones posteriores del enfoque incluyeron versiones que podían manejar "crédito parcial" y escalas ordinales. [7] Estas extensiones convergen con la familia de correlaciones intraclase (ICC), por lo que hay una forma conceptualmente relacionada de estimar la confiabilidad para cada nivel de medición desde nominal (kappa) a ordinal (kappa ordinal o ICC, ampliando los supuestos) a intervalo (ICC o kappa ordinal, tratando la escala de intervalo como ordinal) y proporción (ICC). También hay variantes que pueden observar el acuerdo de los evaluadores en un conjunto de elementos (por ejemplo, ¿dos entrevistadores están de acuerdo sobre las puntuaciones de depresión para todos los elementos en la misma entrevista semiestructurada para un caso?) así como evaluadores x casos (por ejemplo, ¿qué tan bien están de acuerdo dos o más evaluadores sobre si 30 casos tienen un diagnóstico de depresión, sí/no, una variable nominal)?
El coeficiente kappa es similar a un coeficiente de correlación en el sentido de que no puede superar +1,0 ni ser inferior a -1,0. Como se utiliza como medida de acuerdo, en la mayoría de las situaciones solo se esperarían valores positivos; los valores negativos indicarían un desacuerdo sistemático. El coeficiente kappa solo puede alcanzar valores muy altos cuando el acuerdo es bueno y la tasa de la condición objetivo es cercana al 50% (porque incluye la tasa base en el cálculo de las probabilidades conjuntas). Varias autoridades han ofrecido "reglas generales" para interpretar el nivel de acuerdo, muchas de las cuales coinciden en lo esencial aunque las palabras no sean idénticas. [8] [9] [10] [11]
Se pueden utilizar las pruebas de Pearson , τ de Kendall o Spearman para medir la correlación por pares entre evaluadores utilizando una escala ordenada. Pearson supone que la escala de calificación es continua; las estadísticas de Kendall y Spearman suponen únicamente que es ordinal. Si se observan más de dos evaluadores, se puede calcular un nivel promedio de acuerdo para el grupo como la media de los valores de , τ o de cada posible par de evaluadores.
Otra forma de realizar pruebas de confiabilidad es utilizar el coeficiente de correlación intraclase (ICC). [12] Hay varios tipos de este y uno se define como "la proporción de varianza de una observación debido a la variabilidad entre sujetos en las puntuaciones verdaderas". [13] El rango del ICC puede estar entre 0,0 y 1,0 (una definición temprana de ICC podría ser entre −1 y +1). El ICC será alto cuando haya poca variación entre las puntuaciones dadas a cada elemento por los evaluadores, por ejemplo, si todos los evaluadores dan las mismas puntuaciones o puntuaciones similares a cada uno de los elementos. El ICC es una mejora con respecto a Pearson y Spearman , ya que tiene en cuenta las diferencias en las calificaciones de los segmentos individuales, junto con la correlación entre evaluadores.
Otro método para determinar el grado de acuerdo (útil cuando solo hay dos evaluadores y la escala es continua) consiste en calcular las diferencias entre cada par de observaciones de los dos evaluadores. La media de estas diferencias se denomina sesgo y el intervalo de referencia (media ± 1,96 × desviación estándar ) se denomina límites de acuerdo . Los límites de acuerdo permiten saber en qué medida la variación aleatoria puede estar influyendo en las calificaciones.
Si los evaluadores tienden a estar de acuerdo, las diferencias entre las observaciones de los evaluadores serán cercanas a cero. Si un evaluador suele tener una puntuación superior o inferior a la del otro en una cantidad constante, el sesgo será distinto de cero. Si los evaluadores tienden a estar en desacuerdo, pero sin un patrón constante de una puntuación superior a la del otro, la media será cercana a cero. Se pueden calcular límites de confianza (normalmente del 95 %) tanto para el sesgo como para cada uno de los límites de acuerdo.
Existen varias fórmulas que se pueden utilizar para calcular los límites de acuerdo. La fórmula simple, que se presentó en el párrafo anterior y funciona bien para tamaños de muestra mayores de 60, [14] es
Para tamaños de muestra más pequeños, otra simplificación común [15] es
Sin embargo, la fórmula más precisa (que es aplicable para todos los tamaños de muestra) [14] es
Bland y Altman [15] han ampliado esta idea al graficar la diferencia de cada punto, la diferencia media y los límites de acuerdo en la vertical contra el promedio de las dos calificaciones en la horizontal. El gráfico de Bland-Altman resultante demuestra no solo el grado general de acuerdo, sino también si el acuerdo está relacionado con el valor subyacente del elemento. Por ejemplo, dos evaluadores pueden estar muy de acuerdo al estimar el tamaño de elementos pequeños, pero no estar de acuerdo con respecto a elementos más grandes.
Al comparar dos métodos de medición, no sólo es interesante estimar tanto el sesgo como los límites de acuerdo entre los dos métodos (acuerdo entre evaluadores), sino también evaluar estas características para cada método en sí mismo. Es muy posible que el acuerdo entre dos métodos sea deficiente simplemente porque uno de los métodos tiene límites de acuerdo amplios mientras que el otro tiene estrechos. En este caso, el método con los límites de acuerdo estrechos sería superior desde un punto de vista estadístico, mientras que consideraciones prácticas o de otro tipo podrían cambiar esta apreciación. Lo que constituye límites de acuerdo estrechos o amplios o un sesgo grande o pequeño es una cuestión de evaluación práctica en cada caso.
El alfa de Krippendorff [16] [17] es una estadística versátil que evalúa el acuerdo alcanzado entre los observadores que categorizan, evalúan o miden un conjunto dado de objetos en términos de los valores de una variable. Generaliza varios coeficientes de acuerdo especializados al aceptar cualquier número de observadores, es aplicable a niveles de medición nominal, ordinal, de intervalo y de razón, puede manejar datos faltantes y se corrige para tamaños de muestra pequeños.
Alpha surgió en el análisis de contenido, donde las unidades textuales son categorizadas por codificadores capacitados, y se utiliza en asesoramiento e investigación de encuestas , donde los expertos codifican datos de entrevistas abiertas en términos analizables; en psicometría , donde los atributos individuales se prueban mediante múltiples métodos; en estudios de observación , donde se registran sucesos no estructurados para su posterior análisis; y en lingüística computacional, donde los textos se anotan para diversas cualidades sintácticas y semánticas.
En cualquier tarea en la que resulte útil contar con varios evaluadores, se espera que estos no estén de acuerdo sobre el objetivo observado. Por el contrario, las situaciones que implican una medición inequívoca, como las tareas de conteo simples (por ejemplo, el número de clientes potenciales que ingresan a una tienda), a menudo no requieren que más de una persona realice la medición.
Las mediciones que implican ambigüedad en las características de interés en el objetivo de la calificación generalmente se mejoran con múltiples evaluadores capacitados. Dichas tareas de medición a menudo implican un juicio subjetivo de calidad. Algunos ejemplos incluyen calificaciones del "trato con el paciente" del médico, la evaluación de la credibilidad de los testigos por parte de un jurado y la habilidad de presentación de un orador.
La variación entre los evaluadores en los procedimientos de medición y la variabilidad en la interpretación de los resultados de las mediciones son dos ejemplos de fuentes de variación de error en las mediciones de calificación. Es necesario establecer pautas claras para la presentación de calificaciones a fin de garantizar la confiabilidad en situaciones de medición ambiguas o desafiantes.
Sin pautas de calificación, las calificaciones se ven cada vez más afectadas por el sesgo del experimentador , es decir, una tendencia de los valores de calificación a desviarse hacia lo esperado por el evaluador. Durante los procesos que involucran mediciones repetidas, la corrección de la desviación del evaluador se puede abordar mediante un reentrenamiento periódico para garantizar que los evaluadores comprendan las pautas y los objetivos de la medición.
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )