Validación de modelos estadísticos

En estadística , la validación de modelos es la tarea de evaluar si un modelo estadístico elegido es apropiado o no. A menudo, en la inferencia estadística, las inferencias de modelos que parecen ajustarse a sus datos pueden ser casualidades, lo que da como resultado una mala interpretación por parte de los investigadores de la relevancia real de su modelo. Para combatir esto, se utiliza la validación de modelos para probar si un modelo estadístico puede resistir permutaciones en los datos. Este tema no debe confundirse con la tarea estrechamente relacionada de la selección de modelos , el proceso de discriminación entre múltiples modelos candidatos: la validación de modelos no se refiere tanto al diseño conceptual de los modelos como a la prueba solo de la coherencia entre un modelo elegido y sus resultados establecidos.

Existen muchas formas de validar un modelo. Los gráficos de residuos representan la diferencia entre los datos reales y las predicciones del modelo: las correlaciones en los gráficos de residuos pueden indicar una falla en el modelo. La validación cruzada es un método de validación del modelo que reajusta iterativamente el modelo, dejando fuera cada vez solo una pequeña muestra y comparando si las muestras omitidas son las predichas por el modelo: existen muchos tipos de validación cruzada . La simulación predictiva se utiliza para comparar datos simulados con datos reales. La validación externa implica ajustar el modelo a nuevos datos. El criterio de información de Akaike estima la calidad de un modelo.

Descripción general

La validación de modelos se presenta de muchas formas y el método específico de validación de modelos que utiliza un investigador suele ser una limitación de su diseño de investigación. Para enfatizar, lo que esto significa es que no existe un método único para validar un modelo. Por ejemplo, si un investigador está operando con un conjunto muy limitado de datos, pero sobre los que tiene fuertes suposiciones previas, puede considerar validar el ajuste de su modelo utilizando un marco bayesiano y probando el ajuste de su modelo utilizando varias distribuciones previas. Sin embargo, si un investigador tiene muchos datos y está probando múltiples modelos anidados, estas condiciones pueden prestarse a una validación cruzada y posiblemente a una prueba de exclusión. Estos son dos ejemplos abstractos y cualquier validación de modelo real tendrá que considerar muchas más complejidades que las descritas aquí, pero estos ejemplos ilustran que los métodos de validación de modelos siempre serán circunstanciales.

En general, los modelos se pueden validar utilizando datos existentes o con datos nuevos, y ambos métodos se analizan con más detalle en las siguientes subsecciones; también se proporciona una nota de precaución.

Validación con datos existentes

La validación basada en datos existentes implica analizar la bondad del ajuste del modelo o analizar si los residuos parecen ser aleatorios (es decir, diagnósticos de residuos). Este método implica utilizar análisis de la proximidad de los modelos a los datos e intentar comprender qué tan bien el modelo predice sus propios datos. Un ejemplo de este método se encuentra en la Figura 1, que muestra una función polinómica ajustada a algunos datos. Vemos que la función polinómica no se ajusta bien a los datos, que parecen lineales y podrían invalidar este modelo polinómico.

Por lo general, los modelos estadísticos basados en datos existentes se validan mediante un conjunto de validación, que también puede denominarse conjunto de reserva. Un conjunto de validación es un conjunto de puntos de datos que el usuario omite al ajustar un modelo estadístico. Una vez ajustado el modelo estadístico, el conjunto de validación se utiliza como medida del error del modelo. Si el modelo se ajusta bien a los datos iniciales pero tiene un error grande en el conjunto de validación, esto es un signo de sobreajuste.

Validación con nuevos datos

Si se dispone de nuevos datos, se puede validar un modelo existente evaluando si el modelo anterior predice los nuevos datos. Si el modelo anterior no predice los nuevos datos, es posible que el modelo no sea válido para los objetivos del investigador.

Teniendo esto en mente, un enfoque moderno para validar una red neuronal es probar su desempeño en datos desplazados del dominio. Esto permite determinar si el modelo aprendió características invariantes del dominio. ^[1]

Una nota de precaución

Un modelo puede ser validado únicamente en relación con un área de aplicación determinada. ^[2]^[3] Un modelo que es válido para una aplicación puede no ser válido para otras aplicaciones. Como ejemplo, considere la curva de la Figura 1: si la aplicación solo utilizara entradas del intervalo [0, 2], entonces la curva podría ser un modelo aceptable.

Métodos de validación

Según la Enciclopedia de Ciencias Estadísticas , al realizar una validación, existen tres causas notables de posibles dificultades . ^[4] Las tres causas son las siguientes: falta de datos; falta de control de las variables de entrada; incertidumbre sobre las distribuciones de probabilidad y correlaciones subyacentes. Los métodos habituales para abordar las dificultades en la validación incluyen los siguientes: comprobar los supuestos realizados al construir el modelo; examinar los datos disponibles y los resultados relacionados del modelo; aplicar el juicio de expertos. ^[2] Cabe señalar que el juicio de expertos generalmente requiere experiencia en el área de aplicación. ^[2]

El juicio de expertos puede utilizarse a veces para evaluar la validez de una predicción sin obtener datos reales: por ejemplo, en el caso de la curva de la Figura 1, un experto podría evaluar que una extrapolación sustancial no será válida. Además, el juicio de expertos puede utilizarse en pruebas de tipo Turing , en las que se presentan a los expertos tanto datos reales como resultados de modelos relacionados y luego se les pide que distingan entre ambos. ^[5]

Para algunas clases de modelos estadísticos, existen métodos especializados para realizar la validación. Por ejemplo, si el modelo estadístico se obtuvo mediante una regresión , existen análisis especializados para la validación del modelo de regresión y se emplean generalmente.

Diagnóstico residual

Los diagnósticos de residuos comprenden análisis de los residuos para determinar si parecen ser efectivamente aleatorios. Estos análisis suelen requerir estimaciones de las distribuciones de probabilidad de los residuos. Las estimaciones de las distribuciones de los residuos se pueden obtener a menudo ejecutando el modelo repetidamente, es decir, utilizando simulaciones estocásticas repetidas (empleando un generador de números pseudoaleatorios para las variables aleatorias en el modelo).

Si el modelo estadístico se obtuvo mediante una regresión, entonces existen diagnósticos de residuos de regresión y pueden utilizarse; dichos diagnósticos han sido bien estudiados.

Validación cruzada

La validación cruzada es un método de muestreo que implica dejar algunas partes de los datos fuera del proceso de ajuste y luego ver si esos datos que se dejaron fuera están cerca o lejos de donde el modelo predice que estarían. Lo que eso significa en la práctica es que las técnicas de validación cruzada ajustan el modelo muchas, muchas veces con una parte de los datos y comparan cada ajuste del modelo con la parte que no utilizó. Si los modelos muy rara vez describen los datos con los que no fueron entrenados, entonces el modelo probablemente esté equivocado.

Véase también

Todos los modelos son erróneos – Aforismo en estadística
Validación cruzada (estadística) : técnica de validación de modelos estadísticos
Análisis de identificabilidad : métodos utilizados para determinar qué tan bien se estiman los parámetros de un modelo a partir de datos experimentales.
Validez interna : grado en el que una pieza de evidencia respalda una afirmación sobre causa y efecto.
Identificación del modelo : propiedad estadística que debe satisfacer un modelo para permitir una inferencia precisa
Sobreajuste : falla en el modelado matemático
Perplejidad – Concepto en la teoría de la información
Modelo predictivo : forma de modelado que utiliza estadísticas para predecir resultados.
Análisis de sensibilidad : estudio de la incertidumbre en la salida de un modelo o sistema matemático.
Relación espuria : correlación aparente, pero falsa, entre variables causalmente independientes
Validez de la conclusión estadística – prueba estadística
Selección de modelo estadístico : tarea de seleccionar un modelo estadístico de un conjunto de modelos candidatos
Especificación del modelo estadístico : parte del proceso de construcción de un modelo estadístico
Validez (estadística) : Grado en que una medición corresponde a la realidad.

Referencias

^ Feng, Cheng; Zhong, Chaoliang; Wang, Jie; Zhang, Ying; Sun, Jun; Yokota, Yasuto (julio de 2022). "Aprendizaje de representaciones invariantes de dominio no olvidadas para la adaptación de dominio no supervisada en línea". Actas de la 31.ª Conferencia Conjunta Internacional sobre Inteligencia Artificial . California: Organización de Conferencias Conjuntas Internacionales sobre Inteligencia Artificial. págs. 2958–2965. doi : 10.24963/ijcai.2022/410 . ISBN . 978-1-956792-00-3.
^ abc National Research Council (2012), "Capítulo 5: Validación y predicción de modelos", Evaluación de la confiabilidad de modelos complejos: Fundamentos matemáticos y estadísticos de la verificación, validación y cuantificación de la incertidumbre , Washington, DC: National Academies Press , pp. 52–85, doi :10.17226/13395, ISBN 978-0-309-25634-6{{citation}}: CS1 maint: varios nombres: lista de autores ( enlace ).
^ Batzel, JJ; Bachar, M.; Karemaker, JM; Kappel, F. (2013), "Capítulo 1: Fusión de conocimientos matemáticos y fisiológicos", en Batzel, JJ; Bachar, M.; Kappel, F. (eds.), Modelado matemático y validación en fisiología , Springer , págs. 3–19, doi :10.1007/978-3-642-32882-4_1.
^ Deaton, ML (2006), "Modelos de simulación, validación de", en Kotz, S. ; et al. (eds.), Enciclopedia de Ciencias Estadísticas , Wiley.
^ Mayer, DG; Butler, DG (1993), "Validación estadística", Ecological Modelling , 68 (1–2): 21–32, doi :10.1016/0304-3800(93)90105-2.

Lectura adicional

Barlas, Y. (1996), "Aspectos formales de la validez y validación de modelos en dinámica de sistemas", System Dynamics Review , 12 (3): 183–210, doi :10.1002/(SICI)1099-1727(199623)12:3<183::AID-SDR103>3.0.CO;2-4
Good, PI ; Hardin, JW (2012), "Capítulo 15: Validación", Errores comunes en estadística (cuarta edición), John Wiley & Sons , págs. 277–285
Huber, PJ (2002), "Capítulo 3: Modelos aproximados", en Huber-Carol, C.; Balakrishnan, N.; Nikulin, MS; Mesbah, M. (eds.), Pruebas de bondad de ajuste y validez del modelo , Springer , págs. 25–41

Enlaces externos

¿Cómo puedo saber si un modelo se ajusta a mis datos? — Manual de métodos estadísticos ( NIST )
Hicks, Dan (14 de julio de 2017). "¿Cuáles son las principales técnicas de validación de modelos estadísticos?". Stack Exchange .