Fiabilidad (estadísticas)

En estadística y psicometría , la confiabilidad es la consistencia general de una medida. ^[1] Se dice que una medida tiene una alta confiabilidad si produce resultados similares en condiciones consistentes:

"Es la característica de un conjunto de puntajes de pruebas que se relaciona con la cantidad de error aleatorio del proceso de medición que podría estar incluido en los puntajes. Los puntajes que son altamente confiables son precisos, reproducibles y consistentes de una ocasión de prueba a otra. Es decir, si el proceso de prueba se repitiera con un grupo de examinados, se obtendrían esencialmente los mismos resultados. Generalmente se utilizan varios tipos de coeficientes de confiabilidad, con valores que oscilan entre 0,00 (mucho error) y 1,00 (ningún error). indicar la cantidad de error en las puntuaciones." ^[2]

Por ejemplo, las mediciones de la altura y el peso de las personas suelen ser extremadamente fiables. ^[3]^[4]

Tipos

Hay varias clases generales de estimaciones de confiabilidad:

La confiabilidad entre evaluadores evalúa el grado de acuerdo entre dos o más evaluadores en sus valoraciones. Por ejemplo, a una persona le duele el estómago y diferentes médicos dan el mismo diagnóstico. ^[5]^{: 71}
La confiabilidad test-retest evalúa el grado en que los puntajes de las pruebas son consistentes de una administración a la siguiente. Las mediciones se obtienen de un único evaluador que utiliza los mismos métodos o instrumentos y las mismas condiciones de prueba. ^[4] Esto incluye la confiabilidad intraevaluador .
La confiabilidad entre métodos evalúa el grado en que los puntajes de las pruebas son consistentes cuando hay una variación en los métodos o instrumentos utilizados. Esto permite descartar la confiabilidad entre evaluadores. Cuando se trata de formas , se le puede denominar confiabilidad de formas paralelas . ^[6]
Fiabilidad de coherencia interna : evalúa la coherencia de los resultados entre los elementos de una prueba. ^[6]

Diferencia de validez

Fiabilidad no implica validez . Es decir, una medida confiable que mide algo de manera consistente no necesariamente mide lo que se quiere medir. Por ejemplo, si bien existen muchas pruebas confiables de habilidades específicas, no todas serían válidas para predecir, digamos, el desempeño laboral.

Si bien la confiabilidad no implica validez , la confiabilidad sí impone un límite a la validez general de una prueba. Una prueba que no es perfectamente confiable no puede ser perfectamente válida, ya sea como medio para medir los atributos de una persona o como medio para predecir puntuaciones en un criterio. Si bien una prueba confiable puede proporcionar información útil y válida, una prueba que no lo es no puede ser válida. ^[7]

Por ejemplo, si un conjunto de básculas midiera consistentemente el peso de un objeto como 500 gramos por encima del peso real, entonces la báscula sería muy confiable, pero no sería válida (ya que el peso devuelto no es el peso real). Para que la báscula sea válida, debe devolver el peso real de un objeto. Este ejemplo demuestra que una medida perfectamente confiable no es necesariamente válida, pero que una medida válida necesariamente debe ser confiable.

Diferencia de reproducibilidad

modelo general

En la práctica, las medidas de prueba nunca son perfectamente consistentes. Se han desarrollado teorías de confiabilidad de las pruebas para estimar los efectos de la inconsistencia en la precisión de la medición. El punto de partida básico de casi todas las teorías sobre la confiabilidad de las pruebas es la idea de que las puntuaciones de las pruebas reflejan la influencia de dos tipos de factores: ^[7]

1. Factores de consistencia: características estables del individuo o del atributo que se intenta medir.

2. Factores de inconsistencia: características del individuo o de la situación que pueden afectar los puntajes de las pruebas pero que no tienen nada que ver con el atributo que se mide.

Estos factores incluyen: ^[7]

Características temporales pero generales del individuo: salud, fatiga, motivación, tensión emocional.
Características temporales y específicas del individuo: comprensión de la tarea de prueba específica, trucos o técnicas específicas para tratar con los materiales de prueba particulares, fluctuaciones de la memoria, la atención o la precisión.
Aspectos de la situación de prueba: ausencia de distracciones, claridad de instrucciones, interacción de la personalidad, etc.
Factores de azar: suerte en la selección de respuestas por pura conjetura, distracciones momentáneas.

El objetivo de estimar la confiabilidad es determinar qué parte de la variabilidad en los puntajes de las pruebas se debe a errores de medición y qué parte se debe a la variabilidad en los puntajes verdaderos ( valor verdadero ). ^[7]

Una puntuación verdadera es la característica replicable del concepto que se está midiendo. Es la parte de la puntuación observada que se repetiría en diferentes ocasiones de medición en ausencia de error.

Los errores de medición se componen tanto de errores aleatorios como de errores sistemáticos . Representa las discrepancias entre las puntuaciones obtenidas en las pruebas y las puntuaciones verdaderas correspondientes.

Este desglose conceptual suele representarse mediante la simple ecuación:

Puntaje de prueba observado = puntaje real + errores de medición

Teoría clásica de las pruebas

El objetivo de la teoría de la confiabilidad es estimar los errores en la medición y sugerir formas de mejorar las pruebas para minimizar los errores.

El supuesto central de la teoría de la confiabilidad es que los errores de medición son esencialmente aleatorios. Esto no significa que los errores surjan de procesos aleatorios. Para cualquier individuo, un error de medición no es un evento completamente aleatorio. Sin embargo, en un gran número de individuos, se supone que las causas del error de medición son tan variadas que los errores de medición actúan como variables aleatorias. ^[7]

Si los errores tienen las características esenciales de las variables aleatorias, entonces es razonable suponer que es igualmente probable que los errores sean positivos o negativos y que no están correlacionados con las puntuaciones verdaderas ni con los errores en otras pruebas.

Se supone que: ^[8]

1. Error medio de medición = 0

2. Las puntuaciones verdaderas y los errores no están correlacionados

3. Los errores en diferentes medidas no están correlacionados

La teoría de la confiabilidad muestra que la varianza de las puntuaciones obtenidas es simplemente la suma de la varianza de las puntuaciones verdaderas más la varianza de los errores de medición . ^[7]

\sigma _{X}^{2}=\sigma _{T}^{2}+\sigma _{E}^{2}

Esta ecuación sugiere que los puntajes de las pruebas varían como resultado de dos factores:

1. Variabilidad en las puntuaciones reales

2. Variabilidad por errores de medición.

El coeficiente de confiabilidad proporciona un índice de la influencia relativa de las puntuaciones verdaderas y de error en las puntuaciones obtenidas en las pruebas. En su forma general, el coeficiente de confiabilidad se define como la relación entre la varianza de la puntuación real y la varianza total de las puntuaciones de las pruebas. O, de manera equivalente, uno menos la relación entre la variación de la puntuación de error y la variación de la puntuación observada : $\rho _ {xx'}$

\rho _{xx'}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac {\sigma _{ mi}^{2}}{\sigma _{X}^{2}}}

Desafortunadamente, no hay forma de observar o calcular directamente la puntuación real, por lo que se utilizan diversos métodos para estimar la confiabilidad de una prueba.

Algunos ejemplos de métodos para estimar la confiabilidad incluyen la confiabilidad test-retest , la confiabilidad de consistencia interna y la confiabilidad de pruebas paralelas . Cada método aborda el problema de descubrir la fuente del error en la prueba de manera algo diferente.

Teoría de la respuesta al ítem

Los teóricos de las pruebas clásicas sabían bien que la precisión de la medición no es uniforme en toda la escala de medición. Las pruebas tienden a distinguir mejor entre los examinados con niveles moderados de rasgos y peor entre los examinados con puntuaciones altas y bajas. La teoría de la respuesta al ítem extiende el concepto de confiabilidad de un único índice a una función llamada función de información . La función de información TRI es la inversa del error estándar de la puntuación observada condicional en cualquier puntuación de prueba determinada.

Estimacion

El objetivo de estimar la confiabilidad es determinar qué parte de la variabilidad en los puntajes de las pruebas se debe a errores en la medición y qué parte se debe a la variabilidad en los puntajes verdaderos.

Se han desarrollado cuatro estrategias prácticas que proporcionan métodos viables para estimar la confiabilidad de las pruebas. ^[7]

1. Método de confiabilidad test-retest : evalúa directamente el grado en que los puntajes de las pruebas son consistentes de una administración de prueba a la siguiente.

Implica:

Administrar una prueba a un grupo de personas.
Volver a administrar la misma prueba al mismo grupo en algún momento posterior
Correlacionar el primer conjunto de puntuaciones con el segundo

La correlación entre las puntuaciones de la primera prueba y las puntuaciones de la nueva prueba se utiliza para estimar la confiabilidad de la prueba utilizando el coeficiente de correlación momento-producto de Pearson : consulte también correlación ítem-total .

2. Método de formas paralelas :

La clave de este método es el desarrollo de formularios de prueba alternativos que sean equivalentes en términos de contenido, procesos de respuesta y características estadísticas. Por ejemplo, existen formas alternativas para varias pruebas de inteligencia general y estas pruebas generalmente se consideran equivalentes. ^[7]

Con el modelo de prueba paralela es posible desarrollar dos formas de prueba que sean equivalentes en el sentido de que la puntuación verdadera de una persona en el formulario A sería idéntica a su puntuación verdadera en el formulario B. Si ambas formas de la prueba se administraran a un número de personas, las diferencias entre las puntuaciones en el formulario A y el formulario B pueden deberse únicamente a errores de medición. ^[7]

Implica:

Administrar una forma de la prueba a un grupo de personas.
En algún momento posterior, administrar una forma alternativa de la misma prueba al mismo grupo de personas.
Correlacionar puntuaciones en el formulario A con puntuaciones en el formulario B

La correlación entre las puntuaciones de las dos formas alternativas se utiliza para estimar la confiabilidad de la prueba.

Este método proporciona una solución parcial a muchos de los problemas inherentes al método de confiabilidad test-retest . Por ejemplo, dado que las dos formas de la prueba son diferentes, el efecto de arrastre es un problema menor. Los efectos de la reactividad también están parcialmente controlados; aunque realizar la primera prueba puede cambiar las respuestas a la segunda prueba. Sin embargo, es razonable suponer que el efecto no será tan fuerte con formas alternativas de la prueba como con dos administraciones de la misma prueba. ^[7]

Sin embargo, esta técnica tiene sus desventajas:

Puede resultar muy difícil crear varias formas alternativas de una prueba.
También puede ser difícil, si no imposible, garantizar que dos formas alternativas de una prueba sean medidas paralelas.

3. Método de división por mitades :

Este método trata las dos mitades de un compás como formas alternativas. Proporciona una solución sencilla al problema que enfrenta el método de formas paralelas : la dificultad para desarrollar formas alternativas. ^[7]

Implica:

Administrar una prueba a un grupo de personas.
Dividiendo la prueba por la mitad
Correlacionar las puntuaciones de una mitad de la prueba con las puntuaciones de la otra mitad de la prueba

La correlación entre estas dos mitades divididas se utiliza para estimar la confiabilidad de la prueba. Esta estimación de confiabilidad se reduce a la mitad y luego se aumenta hasta la duración total de la prueba utilizando la fórmula de predicción de Spearman-Brown .

Hay varias formas de dividir una prueba para estimar la confiabilidad. Por ejemplo, una prueba de vocabulario de 40 ítems podría dividirse en dos subpruebas, la primera compuesta por los ítems del 1 al 20 y la segunda por los ítems del 21 al 40. Sin embargo, las respuestas de la primera mitad pueden ser sistemáticamente diferentes de las de la primera mitad. respuestas en la segunda mitad debido a un aumento en la dificultad y la fatiga del ítem. ^[7]

Al dividir una prueba, las dos mitades tendrían que ser lo más similares posible, tanto en términos de su contenido como en términos del estado probable del encuestado. El método más simple es adoptar una división par-impar, en la que los ítems impares forman la mitad de la prueba y los ítems pares forman la otra. Esta disposición garantiza que cada mitad contendrá la misma cantidad de elementos del principio, la mitad y el final de la prueba original. ^[7]

4. Coherencia interna : evalúa la coherencia de los resultados entre los elementos de una prueba. La medida de consistencia interna más común es el alfa de Cronbach , que generalmente se interpreta como la media de todos los coeficientes posibles de división por mitades. ^[9] El alfa de Cronbach es una generalización de una forma anterior de estimación de la consistencia interna, la fórmula de Kuder-Richardson 20 . ^[9] Aunque es el más utilizado, existen algunas ideas erróneas sobre el alfa de Cronbach. ^[10]^[11]

Estas medidas de confiabilidad difieren en su sensibilidad a diferentes fuentes de error y, por lo tanto, no necesitan ser iguales. Además, la confiabilidad es una propiedad de las puntuaciones de una medida más que de la medida en sí y, por lo tanto, se dice que depende de la muestra . Las estimaciones de confiabilidad de una muestra pueden diferir de las de una segunda muestra (más allá de lo que podría esperarse debido a variaciones de muestreo) si la segunda muestra se extrae de una población diferente porque la verdadera variabilidad es diferente en esta segunda población. (Esto se aplica a medidas de todo tipo: las varas de medir pueden medir bien las casas, pero tienen poca confiabilidad cuando se usan para medir la longitud de los insectos).

La confiabilidad puede mejorarse mediante claridad de expresión (para evaluaciones escritas), alargamiento de la medida ^[9] y otros medios informales. Sin embargo, el análisis psicométrico formal, llamado análisis de ítems, se considera la forma más eficaz de aumentar la confiabilidad. Este análisis consiste en el cálculo de las dificultades de los ítems y de los índices de discriminación de ítems ; este último índice implica el cálculo de las correlaciones entre los ítems y la suma de las puntuaciones de los ítems de toda la prueba. Si los ítems que son demasiado difíciles, demasiado fáciles y/o que tienen una discriminación cercana a cero o negativa se reemplazan por ítems mejores, la confiabilidad de la medida aumentará.

$R(t)=1-F(t).$
$R(t)=\exp(-\lambda t),$ ¿ Dónde está la tasa de fracaso? ${\estilo de texto \lambda }$

Ver también

Referencias

^ William MK Trochim, Fiabilidad
^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorR
^ al.], Neil R. Carlson ... [et (2009). Psicología: la ciencia del comportamiento (4ª ed. canadiense). Toronto: Pearson. ISBN 978-0-205-64524-4.
^ ab La Junta de Normas de Responsabilidad de Marketing (MASB) respalda esta definición como parte de su proyecto en curso Lenguaje común: métricas y actividades de marketing Archivado el 12 de febrero de 2013 en Wayback Machine .
^ Durand, V. Mark. (2015). Fundamentos de la psicología anormal . [Lugar de publicación no identificado]: Cengage Learning. ISBN 978-1305633681. OCLC 884617637.
^ ab Tipos de confiabilidad Base de conocimientos sobre métodos de investigación. Última revisión: 20 de octubre de 2006
^ abcdefghijklm Davidshofer, Kevin R. Murphy, Charles O. (2005). Pruebas psicológicas: principios y aplicaciones (6ª ed.). Upper Saddle River, Nueva Jersey: Pearson/Prentice Hall. ISBN 0-13-189172-3.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Gulliksen, Harold (1987). Teoría de las pruebas mentales . Hillsdale, Nueva Jersey: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.
^ abc Cortina, JM, (1993). ¿Qué es el coeficiente alfa? Un examen de teoría y aplicaciones. Revista de Psicología Aplicada, 78 (1), 98–104.
^ Ritter, N. (2010). Comprender una estadística ampliamente incomprendida: el alfa de Cronbach. Trabajo presentado en la Conferencia 2010 de la Southwestern Educational Research Association (SERA), Nueva Orleans, LA (ED526237).
^ Eisinga, R.; Te Grotenhuis, M.; Pelzer, B. (2012). "¿La fiabilidad de una escala de dos ítems: Pearson, Cronbach o Spearman-Brown?" (PDF) . Revista Internacional de Salud Pública . 58 (4): 637–642. doi :10.1007/s00038-012-0416-3. hdl : 2066/116735 . PMID 23089674. S2CID 215730043.

enlaces externos

Wikimedia Commons tiene medios relacionados con la confiabilidad (estadísticas) .

Se explica la confiabilidad y validez interna y externa.
Modelos de incertidumbre, cuantificación de incertidumbre y procesamiento de incertidumbre en ingeniería.
Las relaciones entre los conceptos correlacional y de consistencia interna de la confiabilidad de las pruebas.
El problema de las confiabilidades negativas