Criterio de información focalizada

En estadística , el criterio de información focalizada (FIC) es un método para seleccionar el modelo más apropiado entre un conjunto de competidores para un conjunto de datos dado. A diferencia de la mayoría de las otras estrategias de selección de modelos , como el criterio de información de Akaike (AIC), el criterio de información bayesiano (BIC) y el criterio de información de desviación (DIC), el FIC no intenta evaluar el ajuste general de los modelos candidatos, sino que centra la atención directamente en el parámetro de interés primario con el análisis estadístico, digamos , para el cual los modelos en competencia conducen a diferentes estimaciones, digamos para el modelo . El método FIC consiste en desarrollar primero una expresión exacta o aproximada para la precisión o calidad de cada estimador , digamos para , y luego usar datos para estimar estas medidas de precisión, digamos . Al final, se selecciona el modelo con la mejor precisión estimada. La metodología FIC fue desarrollada por Gerda Claeskens y Nils Lid Hjort , primero en dos artículos de discusión de 2003 en Journal of the American Statistical Association y luego en otros artículos y en su libro de 2008. ${\estilo de visualización \mu}$ ${\sombrero {\mu }}_{j}$ ${\estilo de visualización j}$ $estilo de visualización r_ {j}}$ ${\sombrero {\mu }}_{j}$ ${\sombrero {r}}_{j}$

Las fórmulas concretas y la implementación de la FIC dependen, en primer lugar, del parámetro de interés particular, cuya elección no depende de las matemáticas, sino del contexto científico y estadístico. Por lo tanto, el aparato de la FIC puede seleccionar un modelo como el más apropiado para estimar un cuartil de una distribución, pero preferir otro modelo como el mejor para estimar el valor medio. En segundo lugar, las fórmulas de la FIC dependen de las particularidades de los modelos utilizados para los datos observados y también de cómo se medirá la precisión. El caso más claro es aquel en el que la precisión se toma como el error cuadrático medio , por ejemplo, en términos del sesgo cuadrático y la varianza para el estimador asociado con el modelo . Las fórmulas de la FIC están entonces disponibles en una variedad de situaciones, tanto para manejar situaciones paramétricas , semiparamétricas y no paramétricas , que implican la estimación separada del sesgo cuadrático y la varianza, lo que conduce a la precisión estimada . Al final, la FIC selecciona el modelo con el error cuadrático medio estimado más pequeño. $r_{j}=b_{j}^{2}+\tau _ {j}^{2}$ ${\estilo de visualización j}$ ${\sombrero {r}}_{j}$

El gráfico FIC está asociado con el uso del FIC para seleccionar un buen modelo , y está diseñado para brindar una imagen clara e informativa de todas las estimaciones, en todos los modelos candidatos, y de sus méritos. Muestra las estimaciones en el eje junto con las puntuaciones FIC en el eje; por lo tanto, las estimaciones que se encuentran a la izquierda del gráfico están asociadas con los mejores modelos y las que se encuentran en el medio y a la derecha provienen de modelos menos adecuados o no adecuados para el propósito de estimar el parámetro de enfoque en cuestión. ${\estilo de visualización y}$ ${\estilo de visualización x}$

En términos generales, los modelos complejos (con muchos parámetros en relación con el tamaño de la muestra ) tienden a generar estimadores con un sesgo pequeño pero una varianza alta; los modelos más parsimoniosos (con menos parámetros) suelen generar estimadores con un sesgo mayor pero una varianza menor. El método FIC equilibra los dos datos deseados de tener un sesgo pequeño y una varianza pequeña de manera óptima. La principal dificultad radica en el sesgo , ya que involucra la distancia desde el valor esperado del estimador hasta la verdadera cantidad subyacente que se va a estimar, y el verdadero mecanismo de generación de datos puede estar fuera de cada uno de los modelos candidatos. $Estilo de visualización b_ {j}}$

En situaciones donde no hay un parámetro de enfoque único, sino más bien una familia de ellos, existen versiones de FIC promedio (AFIC o wFIC) que encuentran el mejor modelo en términos de medidas de desempeño adecuadamente ponderadas, por ejemplo, cuando se busca un modelo de regresión que funcione particularmente bien en una porción del espacio de covariables .

También es posible mantener varios de los mejores modelos a bordo, terminando el análisis estadístico con un promedio ponderado determinado por los datos de los estimadores de las mejores puntuaciones FIC, generalmente otorgando el mayor peso a los estimadores asociados con las mejores puntuaciones FIC. Estos esquemas de promediado de modelos extienden el método de selección directa de FIC.

La metodología FIC se aplica en particular a la selección de variables en diferentes formas de análisis de regresión , incluido el marco de modelos lineales generalizados y los modelos de riesgos proporcionales semiparamétricos (es decir, la regresión de Cox).

Véase también

Referencias

Claeskens, G. y Hjort, NL (2003). "El criterio de información focalizada" (con discusión). Journal of the American Statistical Association , volumen 98, págs. 879–899. doi :10.1198/016214503000000819
Hjort, NL y Claeskens, G. (2003). "Estimadores promedio de modelos frecuentistas" (con discusión). Journal of the American Statistical Association , volumen 98, págs. 900–916. doi :10.1198/016214503000000828
Hjort, NL y Claeskens, G. (2006). "Criterios de información focalizada y promedios de modelos para el modelo de regresión de riesgos de Cox". Journal of the American Statistical Association , volumen 101, págs. 1449–1464. doi :10.1198/016214506000000069
Claeskens, G. y Hjort, NL (2008). Selección de modelos y promedio de modelos. Cambridge University Press .

Enlaces externos

Entrevista sobre el promedio del modelo frecuentista con Essential Science Indicators
Página web para la selección de modelos y el cálculo de promedios de modelos del libro de Claeskens y Hjort