Bondad de ajuste

La bondad de ajuste de un modelo estadístico describe qué tan bien se ajusta a un conjunto de observaciones. Las medidas de bondad de ajuste suelen resumir la discrepancia entre los valores observados y los valores esperados según el modelo en cuestión. Estas medidas se pueden utilizar en pruebas de hipótesis estadísticas , por ejemplo, para probar la normalidad de los residuos , para probar si dos muestras se extraen de distribuciones idénticas (ver prueba de Kolmogorov-Smirnov ), o si las frecuencias de resultados siguen una distribución específica (ver chi-cuadrado de Pearson). prueba ). En el análisis de varianza , uno de los componentes en los que se divide la varianza puede ser una suma de cuadrados no ajustada .

Ajuste de distribuciones

Para evaluar si una distribución determinada es adecuada para un conjunto de datos, se pueden utilizar las siguientes pruebas y sus medidas de ajuste subyacentes:

Criterio de información bayesiano
Prueba de Kolmogorov-Smirnov
Criterio de Cramér-von Mises
Prueba de Anderson-Darling
Pruebas de Berk-Jones ^[1]^[2]
Prueba de Shapiro-Wilk
Prueba de chi-cuadrado
Criterio de información de Akaike
Prueba de Hosmer-Lemeshow
prueba de kuiper
Discrepancia de Stein kernelizada ^[3]^[4]
Pruebas Z _K , Z _C y ZA _de Zhang ^[5]
prueba de moran
Pruebas de relación de verosimilitud empírica basadas en densidad ^[6]

Análisis de regresión

En el análisis de regresión , más específicamente en la validación de regresión , los siguientes temas se relacionan con la bondad de ajuste:

Coeficiente de determinación (la medida R cuadrado de bondad de ajuste);
Suma de cuadrados por falta de ajuste ;
Criterio de Cp de Mallows
Error de predicción
Chi-cuadrado reducido

Datos categóricos

Los siguientes son ejemplos que surgen en el contexto de datos categóricos .

Prueba de chi-cuadrado de Pearson

La prueba de chi-cuadrado de Pearson utiliza una medida de bondad de ajuste que es la suma de las diferencias entre las frecuencias de resultados observadas y esperadas (es decir, recuentos de observaciones), cada una al cuadrado y dividida por la expectativa:

\chi ^{2}=\sum _{i=1}^{n}{{\frac {(O_{i}-E_{i})}{E_{i}}}^{2}}

O _i = un recuento observado para el contenedor i
E _i = un recuento esperado para bin i , afirmado por la hipótesis nula .

La frecuencia esperada se calcula mediante:

E_{i}\,=\,{\bigg (}F(Y_{u})\,-\,F(Y_{l}){\bigg )}\,N

F = la función de distribución acumulada para la distribución de probabilidad que se está probando.
Y _u = el límite superior para la clase i ,
Y _l = el límite inferior para la clase i , y
N = el tamaño de la muestra

El valor resultante se puede comparar con una distribución chi-cuadrado para determinar la bondad del ajuste. La distribución chi-cuadrado tiene ( k − c ) grados de libertad , donde k es el número de celdas no vacías y c es el número de parámetros estimados (incluidos los parámetros de ubicación y escala y los parámetros de forma) para la distribución más uno. Por ejemplo, para una distribución de Weibull de 3 parámetros , c = 4.

Caso binomial

Un experimento binomial es una secuencia de ensayos independientes en los que los ensayos pueden dar como resultado uno de dos resultados: éxito o fracaso. Hay n ensayos, cada uno con probabilidad de éxito, denotada por p . Siempre que np _i ≫ 1 para cada i (donde i = 1, 2, ..., k ), entonces

\chi ^{2}=\sum _{i=1}^{k}{\frac {(N_{i}-np_{i})^{2}}{np_{i}}}=\sum _{\mathrm {all\ cells} }^{}{\frac {(\mathrm {O} -\mathrm {E} )^{2}}{\mathrm {E} }}.

Esto tiene aproximadamente una distribución chi-cuadrado con k − 1 grados de libertad. El hecho de que haya k − 1 grados de libertad es consecuencia de la restricción . Sabemos que hay k recuentos de células observadas; sin embargo, una vez que se conoce cualquier k − 1, el restante se determina de forma única. Básicamente, se puede decir que sólo hay k − 1 recuentos de células determinados libremente, por lo tanto k − 1 grados de libertad. ${\textstyle \sum N_{i}=n}$

prueba G

Las pruebas G sonpruebas de razón de verosimilitud de significación estadística que se utilizan cada vez más en situaciones en las que anteriormente se recomendaban las pruebas de chi-cuadrado de Pearson. ^[7]

La fórmula general para G es

G=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)},

donde y son los mismos que para la prueba de chi-cuadrado, denota el logaritmo natural y la suma se toma en todas las celdas que no están vacías. Además, el recuento total observado debe ser igual al recuento total esperado: ${\textstyle O_{i}}$ ${\textstyle E_{i}}$ ${\textstyle \ln }$

\sum _{i}O_{i}=\sum _{i}E_{i}=N

{\textstyle N}

Las pruebas G se han recomendado al menos desde la edición de 1981 del popular libro de texto de estadística de Robert R. Sokal y F. James Rohlf . ^[8]

Ver también

todos los modelos estan mal
Desviación (estadísticas) (relacionada con GLM )
Sobreajuste
Validación del modelo estadístico.
Estimador Theil-Sen

Referencias

^ Berk, Robert H.; Jones, Douglas H. (1979). "Estadísticas de pruebas de bondad de ajuste que dominan las estadísticas de Kolmogorov". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 47 (1): 47–59. doi :10.1007/BF00533250.
^ Moscovich, Amit; Nadler, Booz; Spiegelman, Clifford (2016). "Sobre las estadísticas exactas de Berk-Jones y su cálculo del valor p". Revista Electrónica de Estadística . 10 (2). arXiv : 1311.3190 . doi :10.1214/16-EJS1172.
^ Liu, Qiang; Lee, Jason; Jordan, Michael (20 de junio de 2016). "Una discrepancia de Stein kernelizada para pruebas de bondad de ajuste". Actas de la 33ª Conferencia Internacional sobre Aprendizaje Automático . La 33ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York, Nueva York, EE.UU.: Actas de investigación sobre aprendizaje automático. págs. 276–284.
^ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 de junio de 2016). "Una prueba básica de bondad de ajuste". Actas de la 33ª Conferencia Internacional sobre Aprendizaje Automático . La 33ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York, Nueva York, EE.UU.: Actas de investigación sobre aprendizaje automático. págs. 2606–2615.
^ Zhang, Jin (2002). "Potentes pruebas de bondad de ajuste basadas en el índice de verosimilitud" (PDF) . Estadística JR. Soc. B . 64 (2): 281–294. doi : 10.1111/1467-9868.00337 . Consultado el 5 de noviembre de 2018 .
^ Vexler, Alberto; Gurevich, Gregory (2010). "Razones de verosimilitud empíricas aplicadas a pruebas de bondad de ajuste basadas en entropía de muestra". Estadística Computacional y Análisis de Datos . 54 (2): 531–545. doi : 10.1016/j.csda.2009.09.025.
^ McDonald, JH (2014). "Prueba G de bondad de ajuste". Manual de estadísticas biológicas (Tercera ed.). Baltimore, Maryland: Sparky House Publishing. págs. 53–58.
^ Sokal, RR; Rohlf, FJ (1981). Biometría: los principios y la práctica de la estadística en la investigación biológica (Segunda ed.). WH Freeman . ISBN 0-7167-2411-1.

Otras lecturas

Huber-Carol, C.; Balakrishnan, N.; Nikulin, MS; Mesbah, M., eds. (2002), Pruebas de bondad de ajuste y validez del modelo , Springer
Ingster, Yu. I.; Suslina, IA (2003), Pruebas no paramétricas de bondad de ajuste según modelos gaussianos , Springer
Rayner, JCW; Eso, O.; Best, DJ (2009), Pruebas suaves de bondad de ajuste (2ª ed.), Wiley
Vexler, Alberto; Gurevich, Gregory (2010), "Razones de probabilidad empírica aplicadas a pruebas de bondad de ajuste basadas en entropía de muestra", Estadísticas computacionales y análisis de datos , 54 (2): 531–545, doi :10.1016/j.csda.2009.09. 025