Bondad de ajuste

La bondad de ajuste de un modelo estadístico describe qué tan bien se ajusta a un conjunto de observaciones. Las medidas de bondad de ajuste generalmente resumen la discrepancia entre los valores observados y los valores esperados bajo el modelo en cuestión. Dichas medidas se pueden utilizar en pruebas de hipótesis estadísticas , por ejemplo, para probar la normalidad de los residuos , para probar si dos muestras se extraen de distribuciones idénticas (ver prueba de Kolmogorov-Smirnov ), o si las frecuencias de los resultados siguen una distribución específica (ver prueba de chi-cuadrado de Pearson ). En el análisis de varianza , uno de los componentes en los que se divide la varianza puede ser una suma de cuadrados de falta de ajuste .

Ajuste de distribuciones

Para evaluar si una distribución dada es adecuada para un conjunto de datos, se pueden utilizar las siguientes pruebas y sus medidas de ajuste subyacentes:

Criterio de información bayesiano
Prueba de Kolmogorov-Smirnov
Criterio de Cramér-von Mises
Prueba de Anderson-Darling
Pruebas de Berk-Jones ^[1]^[2]
Prueba de Shapiro-Wilk
Prueba de chi-cuadrado
Criterio de información de Akaike
Prueba de Hosmer-Lemeshow
Prueba de Kuiper
Discrepancia de Stein kernelizada ^[3]^[4]
Pruebas Z _K , Z _C y Z _A de Zhang ^[5]
Prueba de Moran
Pruebas de razón de verosimilitud empírica basadas en densidad ^[6]

Análisis de regresión

En el análisis de regresión , más específicamente en la validación de regresión , los siguientes temas se relacionan con la bondad del ajuste:

Coeficiente de determinación (medida R-cuadrado de bondad de ajuste);
Suma de cuadrados sin ajuste ;
Criterio Cp de Mallows
Error de predicción
Chi-cuadrado reducido

Datos categóricos

Los siguientes son ejemplos que surgen en el contexto de datos categóricos .

Prueba de chi-cuadrado de Pearson

La prueba de chi-cuadrado de Pearson utiliza una medida de bondad de ajuste que es la suma de las diferencias entre las frecuencias de resultados observados y esperados (es decir, el número de observaciones), cada una elevada al cuadrado y dividida por la expectativa:

$\chi ^{2}=\sum _{i=1}^{n}{{\frac {(O_{i}-E_{i})}{E_{i}}}^{2}}$ dónde:

O _i = un recuento observado para el bin i
E _i = un recuento esperado para el bin i , afirmado por la hipótesis nula .

La frecuencia esperada se calcula mediante: donde: $E_{i}\,=\,{\bigg (}F(Y_{u})\,-\,F(Y_{l}){\bigg )}\,N$

F = la función de distribución acumulativa para la distribución de probabilidad que se está probando.
Y _u = el límite superior para el bin i ,
Y _l = el límite inferior para el bin i , y
N = el tamaño de la muestra

El valor resultante se puede comparar con una distribución de chi-cuadrado para determinar la bondad del ajuste. La distribución de chi-cuadrado tiene ( k − c ) grados de libertad , donde k es el número de compartimentos no vacíos y c es el número de parámetros estimados (incluidos los parámetros de ubicación y escala y los parámetros de forma) para la distribución más uno. Por ejemplo, para una distribución de Weibull de 3 parámetros , c = 4.

Caso binomial

Un experimento binomial es una secuencia de ensayos independientes en los que los ensayos pueden dar uno de dos resultados, éxito o fracaso. Hay n ensayos, cada uno con probabilidad de éxito, denotada por p . Siempre que np _i ≫ 1 para cada i (donde i = 1, 2, ..., k ), entonces

$\chi ^{2}=\sum _{i=1}^{k}{\frac {(N_{i}-np_{i})^{2}}{np_{i}}}=\sum _{\mathrm {all\ bins} }^{}{\frac {(\mathrm {O} -\mathrm {E} )^{2}}{\mathrm {E} }}.$

Esta distribución tiene aproximadamente una distribución de chi-cuadrado con k − 1 grados de libertad. El hecho de que haya k − 1 grados de libertad es una consecuencia de la restricción . Sabemos que hay k recuentos de bins observados, sin embargo, una vez que se conocen k − 1, el restante se determina de forma única. Básicamente, se puede decir que solo hay k − 1 recuentos de bins determinados libremente, por lo tanto, k − 1 grados de libertad. ${\textstyle \sum N_{i}=n}$

GRAMO-prueba

Las pruebas G sonpruebas de razón de verosimilitud de significación estadística que se utilizan cada vez más en situaciones en las que antes se recomendaban las pruebas de chi-cuadrado de Pearson.^[7]

La fórmula general para G es

G=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)},

donde y son los mismos que para la prueba de chi-cuadrado, denota el logaritmo natural y la suma se toma sobre todos los contenedores no vacíos. Además, el recuento total observado debe ser igual al recuento total esperado: donde es el número total de observaciones. ${\textstyle O_{i}}$ ${\textstyle E_{i}}$ ${\textstyle \ln }$ $\sum _{i}O_{i}=\sum _{i}E_{i}=N$ ${\textstyle N}$

Las pruebas G se han recomendado al menos desde la edición de 1981 del popular libro de texto de estadística de Robert R. Sokal y F. James Rohlf . ^[8]

Véase también

Todos los modelos están equivocados
Desviación (estadística) (relacionada con GLM )
Sobreajuste
Validación de modelos estadísticos
Estimador de Theil-Sen

Referencias

^ Berk, Robert H.; Jones, Douglas H. (1979). "Estadísticas de pruebas de bondad de ajuste que dominan las estadísticas de Kolmogorov". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 47 (1): 47–59. doi :10.1007/BF00533250.
^ Moscovich, Amit; Nadler, Boaz; Spiegelman, Clifford (2016). "Sobre las estadísticas exactas de Berk-Jones y su cálculo del valor p". Revista electrónica de estadística . 10 (2). arXiv : 1311.3190 . doi :10.1214/16-EJS1172.
^ Liu, Qiang; Lee, Jason; Jordan, Michael (20 de junio de 2016). "Una discrepancia de Stein kernelizada para pruebas de bondad de ajuste". Actas de la 33.ª Conferencia Internacional sobre Aprendizaje Automático . La 33.ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York, Nueva York, EE. UU.: Actas de investigación sobre aprendizaje automático. págs. 276–284.
^ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 de junio de 2016). "Una prueba de kernel de bondad de ajuste". Actas de la 33.ª Conferencia Internacional sobre Aprendizaje Automático . La 33.ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York, Nueva York, EE. UU.: Actas de investigación sobre aprendizaje automático. págs. 2606–2615.
^ Zhang, Jin (2002). "Potentes pruebas de bondad de ajuste basadas en la razón de verosimilitud" (PDF) . JR Stat. Soc. B . 64 (2): 281–294. doi :10.1111/1467-9868.00337 . Consultado el 5 de noviembre de 2018 .
^ Vexler, Albert; Gurevich, Gregory (2010). "Razones de verosimilitud empírica aplicadas a pruebas de bondad de ajuste basadas en la entropía de la muestra". Estadística computacional y análisis de datos . 54 (2): 531–545. doi :10.1016/j.csda.2009.09.025.
^ McDonald, JH (2014). "Prueba G de bondad de ajuste". Handbook of Biological Statistics (Tercera edición). Baltimore, Maryland: Sparky House Publishing. págs. 53–58.
^ Sokal, RR; Rohlf, FJ (1981). Biometría: Principios y práctica de la estadística en la investigación biológica (segunda edición). WH Freeman . ISBN 0-7167-2411-1.

Lectura adicional

Huber-Carol, C.; Balakrishnan, N.; Nikulin, MS; Mesbah, M., eds. (2002), Pruebas de bondad de ajuste y validez del modelo , Springer
Ingster, Yu. I.; Suslina, IA (2003), Pruebas no paramétricas de bondad de ajuste bajo modelos gaussianos , Springer
Rayner, JCW; Thas, O.; Best, DJ (2009), Pruebas suaves de bondad de ajuste (2.ª ed.), Wiley
Vexler, Albert; Gurevich, Gregory (2010), "Razones de verosimilitud empírica aplicadas a pruebas de bondad de ajuste basadas en la entropía de la muestra", Computational Statistics & Data Analysis , 54 (2): 531–545, doi :10.1016/j.csda.2009.09.025