La repetibilidad o confiabilidad test-retest [1] es la cercanía de la concordancia entre los resultados de mediciones sucesivas de la misma medida, cuando se llevan a cabo bajo las mismas condiciones de medición. [2] En otras palabras, las mediciones son tomadas por una sola persona o instrumento sobre el mismo artículo, en las mismas condiciones y en un corto período de tiempo. Una confiabilidad test-retest que no es perfecta provoca variabilidad test-retest . Dicha variabilidad puede ser causada, por ejemplo, por la variabilidad intraindividual y la variabilidad entre observadores . Se puede decir que una medición es repetible cuando esta variación es menor que un criterio de aceptación predeterminado.
La variabilidad test-retest se utiliza en la práctica, por ejemplo, en el seguimiento médico de enfermedades. En estas situaciones, a menudo existe una "diferencia crítica" predeterminada, y para diferencias en los valores monitoreados que son menores que esta diferencia crítica, se puede considerar la posibilidad de variabilidad como única causa de la diferencia, además de, por ejemplo, cambios. en enfermedades o tratamientos. [3]
Se deben cumplir las siguientes condiciones para establecer la repetibilidad: [2] [4]
Los métodos de repetibilidad fueron desarrollados por Bland y Altman (1986). [5]
Si la correlación entre administraciones separadas de la prueba es alta (por ejemplo, 0,7 o más, como en esta tabla de consistencia interna alfa de Cronbach [6] ), entonces tiene una buena confiabilidad test-retest.
El coeficiente de repetibilidad es una medida de precisión que representa el valor por debajo del cual se puede esperar que se encuentre la diferencia absoluta entre dos resultados de pruebas repetidas con una probabilidad del 95%.
La desviación estándar bajo condiciones de repetibilidad es parte de la precisión y exactitud .
Un análisis de concordancia de atributos está diseñado para evaluar simultáneamente el impacto de la repetibilidad y la reproducibilidad en la precisión. Permite al analista examinar las respuestas de varios revisores mientras analizan varios escenarios varias veces. Produce estadísticas que evalúan la capacidad de los tasadores para estar de acuerdo consigo mismos (repetibilidad), entre sí ( reproducibilidad ) y con un valor maestro conocido o correcto (precisión general) para cada característica, una y otra vez. [7]
Debido a que la misma prueba se administra dos veces y cada prueba es paralela a sí misma, las diferencias entre las puntuaciones de la prueba y las de la nueva prueba deberían deberse únicamente a errores de medición. Es muy probable que este tipo de argumento sea cierto para muchas mediciones físicas. Sin embargo, este argumento suele ser inapropiado para la medición psicológica, porque a menudo es imposible considerar la segunda administración de una prueba como una medida paralela a la primera. [8]
La segunda administración de una prueba psicológica puede arrojar puntuaciones sistemáticamente diferentes a las de la primera administración debido a las siguientes razones: [8]
{{cite book}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace )