Confiabilidad (estadísticas)

En estadística y psicometría , la confiabilidad es la consistencia general de una medida. ^[1] Se dice que una medida tiene una alta confiabilidad si produce resultados similares en condiciones consistentes:

"Es una característica de un conjunto de puntuaciones de pruebas que se relaciona con la cantidad de error aleatorio del proceso de medición que podría estar incluido en las puntuaciones. Las puntuaciones que son altamente confiables son precisas, reproducibles y consistentes de una ocasión de prueba a otra. Es decir, si el proceso de prueba se repitiera con un grupo de examinados, se obtendrían esencialmente los mismos resultados. Se utilizan varios tipos de coeficientes de confiabilidad, con valores que oscilan entre 0,00 (mucho error) y 1,00 (ningún error), para indicar la cantidad de error en las puntuaciones". ^[2]

Por ejemplo, las mediciones de la altura y el peso de las personas suelen ser extremadamente fiables. ^[3]^[4]

Tipos

Existen varias clases generales de estimaciones de confiabilidad:

La fiabilidad entre evaluadores evalúa el grado de acuerdo entre dos o más evaluadores en sus valoraciones. Por ejemplo, una persona tiene dolor de estómago y diferentes médicos dan el mismo diagnóstico.^[5]^{: 71}
La confiabilidad test-retest evalúa el grado en que las puntuaciones de las pruebas son consistentes de una administración de prueba a la siguiente. Las mediciones se obtienen de un solo evaluador que utiliza los mismos métodos o instrumentos y las mismas condiciones de prueba.^[4] Esto incluye la confiabilidad intraevaluador .
La confiabilidad entre métodos evalúa el grado en que las puntuaciones de las pruebas son consistentes cuando hay una variación en los métodos o instrumentos utilizados. Esto permite descartar la confiabilidad entre evaluadores. Cuando se trata de formularios , se puede denominar confiabilidad de formularios paralelos . ^[6]
La confiabilidad de la consistencia interna evalúa la consistencia de los resultados entre los elementos de una prueba.^[6]

Diferencia de validez

La fiabilidad no implica validez . Es decir, una medida fiable que mide algo de forma consistente no mide necesariamente lo que se quiere medir. Por ejemplo, si bien existen muchas pruebas fiables de capacidades específicas, no todas serían válidas para predecir, por ejemplo, el desempeño laboral.

Si bien la confiabilidad no implica validez , la confiabilidad sí impone un límite a la validez general de una prueba. Una prueba que no es perfectamente confiable no puede ser perfectamente válida, ya sea como medio para medir atributos de una persona o como medio para predecir puntajes en un criterio. Si bien una prueba confiable puede proporcionar información válida útil, una prueba que no es confiable no puede ser válida. ^[7]

Por ejemplo, si una balanza mide de forma constante el peso de un objeto y muestra un incremento de 500 gramos respecto del peso real, la balanza será muy fiable, pero no válida (ya que el peso devuelto no es el peso real). Para que la balanza sea válida, debe devolver el peso real de un objeto. Este ejemplo demuestra que una medida perfectamente fiable no es necesariamente válida, pero que una medida válida necesariamente debe ser fiable.

Diferencia con la reproducibilidad

Modelo general

En la práctica, las medidas de evaluación nunca son perfectamente consistentes. Se han desarrollado teorías de confiabilidad de las pruebas para estimar los efectos de la inconsistencia en la precisión de la medición. El punto de partida básico de casi todas las teorías de confiabilidad de las pruebas es la idea de que las puntuaciones de las pruebas reflejan la influencia de dos tipos de factores: ^[7]

1. Factores de consistencia: características estables del individuo o del atributo que se pretende medir.

2. Factores de inconsistencia: características del individuo o de la situación que pueden afectar los puntajes de las pruebas pero que no tienen nada que ver con el atributo que se está midiendo.

Estos factores incluyen: ^[7]

Características temporales pero generales del individuo: salud, fatiga, motivación, tensión emocional.
Características temporales y específicas del individuo: comprensión de la tarea de prueba específica, trucos o técnicas específicas para manejar los materiales de prueba particulares, fluctuaciones de la memoria, la atención o la precisión.
Aspectos de la situación de prueba: libertad de distracciones, claridad de las instrucciones, interacción de la personalidad, etc.
Factores de azar: suerte en la selección de respuestas por pura adivinanza, distracciones momentáneas

El objetivo de estimar la confiabilidad es determinar qué parte de la variabilidad en los puntajes de las pruebas se debe a errores de medición y qué parte se debe a la variabilidad en los puntajes reales ( valor real ). ^[7]

Una puntuación verdadera es la característica reproducible del concepto que se mide. Es la parte de la puntuación observada que se repetiría en diferentes ocasiones de medición en ausencia de error.

Los errores de medición se componen tanto de errores aleatorios como de errores sistemáticos . Representan las discrepancias entre las puntuaciones obtenidas en los tests y las puntuaciones reales correspondientes.

Este desglose conceptual suele representarse mediante la sencilla ecuación:

Puntuación de prueba observada = puntuación real + errores de medición

Teoría clásica de pruebas

El objetivo de la teoría de la confiabilidad es estimar errores en la medición y sugerir formas de mejorar las pruebas para minimizar los errores.

El supuesto central de la teoría de la fiabilidad es que los errores de medición son esencialmente aleatorios. Esto no significa que los errores surjan de procesos aleatorios. Para cualquier individuo, un error de medición no es un evento completamente aleatorio. Sin embargo, en un gran número de individuos, se supone que las causas del error de medición son tan variadas que los errores de medición actúan como variables aleatorias. ^[7]

Si los errores tienen las características esenciales de las variables aleatorias, entonces es razonable suponer que es igualmente probable que sean positivos o negativos y que no están correlacionados con puntuaciones reales o con errores en otras pruebas.

Se supone que: ^[8]

1. Error medio de medición = 0

2. Las puntuaciones verdaderas y los errores no están correlacionados

3. Los errores en diferentes medidas no están correlacionados

La teoría de la confiabilidad muestra que la varianza de las puntuaciones obtenidas es simplemente la suma de la varianza de las puntuaciones reales más la varianza de los errores de medición . ^[7]

\sigma _{X}^{2}=\sigma _{T}^{2}+\sigma _{E}^{2}

Esta ecuación sugiere que los puntajes de las pruebas varían como resultado de dos factores:

1. Variabilidad en las puntuaciones reales

2. Variabilidad debida a errores de medición.

El coeficiente de fiabilidad proporciona un índice de la influencia relativa de las puntuaciones verdaderas y erróneas en las puntuaciones obtenidas en los tests. En su forma general, el coeficiente de fiabilidad se define como la relación entre la varianza de la puntuación verdadera y la varianza total de las puntuaciones de los tests. O, equivalentemente, uno menos la relación entre la variación de la puntuación errónea y la variación de la puntuación observada : $\rho_{xx'}$

\rho _{xx'}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac {\sigma _{E}^{2}}{\sigma _{X}^{2}}}

Desafortunadamente, no hay forma de observar o calcular directamente la puntuación real, por lo que se utilizan diversos métodos para estimar la confiabilidad de una prueba.

Algunos ejemplos de métodos para estimar la confiabilidad incluyen la confiabilidad test-retest , la confiabilidad de consistencia interna y la confiabilidad de pruebas paralelas . Cada método aborda el problema de determinar la fuente de error en la prueba de manera un tanto diferente.

Teoría de la respuesta al ítem

Los teóricos clásicos de las pruebas sabían bien que la precisión de la medición no es uniforme en toda la escala de medición. Las pruebas tienden a distinguir mejor entre los examinados con niveles moderados de rasgos y peor entre los examinados con puntajes altos y bajos. La teoría de respuesta al ítem extiende el concepto de confiabilidad de un índice único a una función llamada función de información . La función de información de la IRT es la inversa del error estándar de la puntuación observada condicional en cualquier puntaje de prueba dado.

Estimación

El objetivo de estimar la confiabilidad es determinar cuánto de la variabilidad en los puntajes de las pruebas se debe a errores en la medición y cuánto a la variabilidad en los puntajes reales.

Se han desarrollado cuatro estrategias prácticas que proporcionan métodos viables para estimar la confiabilidad de las pruebas. ^[7]

1. Método de confiabilidad test-retest : evalúa directamente el grado en que los puntajes de la prueba son consistentes de una administración de prueba a la siguiente.

Implica:

Administrar una prueba a un grupo de individuos
Volver a administrar la misma prueba al mismo grupo en algún momento posterior
Correlacionar el primer conjunto de puntuaciones con el segundo

La correlación entre las puntuaciones de la primera prueba y las puntuaciones de la segunda prueba se utiliza para estimar la confiabilidad de la prueba utilizando el coeficiente de correlación producto-momento de Pearson : véase también correlación ítem-total .

2. Método de formas paralelas :

La clave de este método es el desarrollo de formas alternativas de prueba que sean equivalentes en términos de contenido, procesos de respuesta y características estadísticas. Por ejemplo, existen formas alternativas para varias pruebas de inteligencia general, y estas pruebas generalmente se consideran equivalentes. ^[7]

Con el modelo de prueba paralela es posible desarrollar dos formas de una prueba que sean equivalentes en el sentido de que la puntuación real de una persona en el formulario A sería idéntica a su puntuación real en el formulario B. Si ambas formas de la prueba se administraran a varias personas, las diferencias entre las puntuaciones en el formulario A y el formulario B podrían deberse únicamente a errores de medición. ^[7]

Implica:

Administrar una forma de la prueba a un grupo de personas
En algún momento posterior, administrar una forma alternativa de la misma prueba al mismo grupo de personas.
Correlacionar las puntuaciones del formulario A con las puntuaciones del formulario B

La correlación entre las puntuaciones de las dos formas alternativas se utiliza para estimar la confiabilidad de la prueba.

Este método proporciona una solución parcial a muchos de los problemas inherentes al método de fiabilidad test-retest . Por ejemplo, dado que las dos formas de la prueba son diferentes, el efecto de arrastre es un problema menor. Los efectos de reactividad también se controlan parcialmente; aunque la realización de la primera prueba puede cambiar las respuestas a la segunda prueba. Sin embargo, es razonable suponer que el efecto no será tan fuerte con formas alternativas de la prueba como con dos administraciones de la misma prueba. ^[7]

Sin embargo, esta técnica tiene sus desventajas:

Puede resultar muy difícil crear varias formas alternativas de una prueba.
También puede ser difícil, si no imposible, garantizar que dos formas alternativas de una prueba sean medidas paralelas.

3. Método de división por la mitad :

Este método trata las dos mitades de un compás como formas alternativas y ofrece una solución sencilla al problema que plantea el método de formas paralelas : la dificultad de desarrollar formas alternativas. ^[7]

Implica:

Administrar una prueba a un grupo de individuos
Dividir la prueba por la mitad
Correlacionar las puntuaciones de una mitad de la prueba con las puntuaciones de la otra mitad de la prueba

La correlación entre estas dos mitades divididas se utiliza para estimar la confiabilidad de la prueba. Esta estimación de confiabilidad de las dos mitades se amplía luego a la duración total de la prueba utilizando la fórmula de predicción de Spearman-Brown .

Existen varias formas de dividir una prueba para estimar la confiabilidad. Por ejemplo, una prueba de vocabulario de 40 ítems podría dividirse en dos subpruebas, la primera compuesta por los ítems 1 a 20 y la segunda compuesta por los ítems 21 a 40. Sin embargo, las respuestas de la primera mitad pueden ser sistemáticamente diferentes de las respuestas de la segunda mitad debido a un aumento en la dificultad de los ítems y la fatiga. ^[7]

Al dividir una prueba, las dos mitades deben ser lo más similares posible, tanto en términos de su contenido como en términos del estado probable del encuestado. El método más simple es adoptar una división en pares e impares, en la que los ítems impares forman una mitad de la prueba y los pares forman la otra. Esta disposición garantiza que cada mitad contendrá un número igual de ítems del principio, el medio y el final de la prueba original. ^[7]

4. Consistencia interna : evalúa la consistencia de los resultados en los distintos ítems de una prueba. La medida de consistencia interna más común es el alfa de Cronbach , que suele interpretarse como la media de todos los coeficientes posibles de división por la mitad. ^[9] El alfa de Cronbach es una generalización de una forma anterior de estimar la consistencia interna, la fórmula de Kuder-Richardson 20. [ ^9] Aunque es la más utilizada, existen algunos conceptos erróneos con respecto al alfa de Cronbach. ^[10]^[11]

Estas medidas de fiabilidad difieren en su sensibilidad a distintas fuentes de error y, por lo tanto, no tienen por qué ser iguales. Además, la fiabilidad es una propiedad de las puntuaciones de una medida, más que de la medida en sí, y, por lo tanto, se dice que dependen de la muestra . Las estimaciones de fiabilidad de una muestra pueden diferir de las de una segunda muestra (más allá de lo que podría esperarse debido a las variaciones de muestreo) si la segunda muestra se extrae de una población diferente, porque la variabilidad real es diferente en esta segunda población. (Esto es cierto para medidas de todo tipo: los criterios pueden medir bien las casas, pero tienen poca fiabilidad cuando se utilizan para medir la longitud de los insectos).

La fiabilidad puede mejorarse mediante la claridad de expresión (para evaluaciones escritas), la ampliación de la medida ^[9] y otros medios informales. Sin embargo, el análisis psicométrico formal, llamado análisis de ítems, se considera la forma más eficaz de aumentar la fiabilidad. Este análisis consiste en el cálculo de las dificultades de los ítems y los índices de discriminación de los ítems ; este último índice implica el cálculo de las correlaciones entre los ítems y la suma de las puntuaciones de los ítems de toda la prueba. Si los ítems que son demasiado difíciles, demasiado fáciles y/o tienen una discriminación cercana a cero o negativa se reemplazan por ítems mejores, la fiabilidad de la medida aumentará.

$R(t)=1-F(t).$
$R(t)=\exp(-\lambda t),$ ¿Dónde está la tasa de fallos? ${\textstyle \lambda}$

Véase también

Referencias

^ William MK Trochim, Confiabilidad
^ Consejo Nacional de Medición en Educación http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorR
^ al.], Neil R. Carlson ... [et (2009). Psicología: la ciencia del comportamiento (4.ª edición canadiense). Toronto: Pearson. ISBN 978-0-205-64524-4.
^ ab El Marketing Accountability Standards Board (MASB) avala esta definición como parte de su proyecto en curso Common Language: Marketing Activities and Metrics Project Archivado el 12 de febrero de 2013 en Wayback Machine .
^ Durand, V. Mark. (2015). Fundamentos de psicología anormal . [Lugar de publicación no identificado]: Cengage Learning. ISBN 978-1305633681.OCLC 884617637 .
^ ab Tipos de confiabilidad Base de conocimientos sobre métodos de investigación. Última revisión: 20 de octubre de 2006
^ abcdefghijklm Davidshofer, Kevin R. Murphy, Charles O. (2005). Pruebas psicológicas: principios y aplicaciones (6.ª ed.). Upper Saddle River, NJ: Pearson/Prentice Hall. ISBN 0-13-189172-3.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Gulliksen, Harold (1987). Teoría de las pruebas mentales . Hillsdale, NJ: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.
^ abc Cortina, JM, (1993). ¿Qué es el coeficiente alfa? Un examen de la teoría y las aplicaciones. Journal of Applied Psychology, 78 (1), 98–104.
^ Ritter, N. (2010). Entender una estadística ampliamente incomprendida: el alfa de Cronbach. Documento presentado en la Conferencia de la Southwestern Educational Research Association (SERA) de 2010, Nueva Orleans, LA (ED526237).
^ Eisinga, R.; Te Grotenhuis, M.; Pelzer, B. (2012). "La confiabilidad de una escala de dos ítems: ¿Pearson, Cronbach o Spearman-Brown?" (PDF) . Revista Internacional de Salud Pública . 58 (4): 637–642. doi :10.1007/s00038-012-0416-3. hdl : 2066/116735 . PMID 23089674. S2CID 215730043.

Enlaces externos

Wikimedia Commons tiene medios relacionados con Confiabilidad (estadística) .

Se explica la confiabilidad y validez interna y externa.
Modelos de incertidumbre, cuantificación de la incertidumbre y procesamiento de la incertidumbre en ingeniería
Las relaciones entre los conceptos de consistencia interna y correlacional de la confiabilidad de las pruebas
El problema de las confiabilidades negativas