En estadística , el teorema de Wilks ofrece una distribución asintótica de la estadística de razón de verosimilitud, que puede utilizarse para producir intervalos de confianza para estimaciones de máxima verosimilitud o como estadística de prueba para realizar la prueba de razón de verosimilitud .
Las pruebas estadísticas (como las pruebas de hipótesis ) generalmente requieren el conocimiento de la distribución de probabilidad de la estadística de prueba . Esto suele ser un problema en el caso de los cocientes de verosimilitud , donde la distribución de probabilidad puede ser muy difícil de determinar.
Un resultado conveniente de Samuel S. Wilks dice que a medida que el tamaño de la muestra se acerca a , la distribución de la estadística de prueba se acerca asintóticamente a la distribución de chi-cuadrado ( ) bajo la hipótesis nula . [1] Aquí, denota la razón de verosimilitud , y la distribución tiene grados de libertad iguales a la diferencia en dimensionalidad de y , donde es el espacio de parámetros completo y es el subconjunto del espacio de parámetros asociado con . Este resultado significa que para muestras grandes y una gran variedad de hipótesis, un profesional puede calcular la razón de verosimilitud para los datos y compararla con el valor correspondiente a una significancia estadística deseada como una prueba estadística aproximada.
El teorema ya no se aplica cuando el valor verdadero del parámetro está en el límite del espacio de parámetros: el teorema de Wilks supone que los valores "verdaderos" pero desconocidos de los parámetros estimados se encuentran dentro del interior del espacio de parámetros admitido . En la práctica, uno notará el problema si la estimación se encuentra en ese límite. En ese caso, la prueba de verosimilitud sigue siendo una estadística de prueba sensata e incluso posee algunas propiedades de optimalidad asintótica, pero la significancia (el valor p ) no se puede estimar de manera confiable utilizando la distribución de chi-cuadrado con el número de grados de libertad prescrito por Wilks. En algunos casos, la distribución de hipótesis nula asintótica de la estadística es una mezcla de distribuciones de chi-cuadrado con diferentes números de grados de libertad.
Cada uno de los dos modelos en competencia, el modelo nulo y el modelo alternativo, se ajusta por separado a los datos y se registra la probabilidad logarítmica . La estadística de prueba (a menudo denotada por D ) es el doble del logaritmo de la razón de verosimilitud, es decir , es el doble de la diferencia en las probabilidades logarítmicas:
El modelo con más parámetros (aquí alternative ) siempre se ajustará al menos tan bien —es decir, tendrá la misma o mayor log-verosimilitud— que el modelo con menos parámetros (aquí null ). Si el ajuste es significativamente mejor y por lo tanto debería preferirse se determina derivando qué tan probable es ( p -valor ) observar tal diferencia D solo por casualidad , si el modelo con menos parámetros fuera verdadero. Donde la hipótesis nula representa un caso especial de la hipótesis alternativa, la distribución de probabilidad de la estadística de prueba es aproximadamente una distribución de chi-cuadrado con grados de libertad iguales a , [2] respectivamente el número de parámetros libres de los modelos alternative y null .
Por ejemplo: si el modelo nulo tiene 1 parámetro y una verosimilitud logarítmica de −8024 y el modelo alternativo tiene 3 parámetros y una verosimilitud logarítmica de −8012, entonces la probabilidad de esta diferencia es la del valor de chi-cuadrado de con grados de libertad, y es igual a . Se deben cumplir ciertos supuestos [1] para que la estadística siga una distribución de chi-cuadrado , pero también se pueden calcular valores p empíricos si no se cumplen esas condiciones.
Un ejemplo de la prueba de Pearson es la comparación de dos monedas para determinar si tienen la misma probabilidad de que salga cara. Las observaciones se pueden incluir en una tabla de contingencia con filas correspondientes a la moneda y columnas correspondientes a cara o cruz. Los elementos de la tabla de contingencia serán el número de veces que cada moneda salió cara o cruz. El contenido de esta tabla son nuestras observaciones X .
Aquí Θ consiste en las posibles combinaciones de valores de los parámetros , , , y , que son la probabilidad de que las monedas 1 y 2 salgan cara o cruz. En lo que sigue, y . El espacio de hipótesis H está restringido por las restricciones habituales en una distribución de probabilidad, , y . El espacio de la hipótesis nula es el subespacio donde . La dimensionalidad del espacio de parámetros completo Θ es 2 (cualquiera de los y cualquiera de los pueden tratarse como parámetros libres bajo la hipótesis ), y la dimensionalidad de es 1 (solo uno de los puede considerarse un parámetro libre bajo la hipótesis nula ).
Escribiendo para las mejores estimaciones de bajo la hipótesis H , la estimación de máxima verosimilitud está dada por
De manera similar, las estimaciones de máxima verosimilitud bajo la hipótesis nula se dan por
que no depende de la moneda i .
La hipótesis y la hipótesis nula se pueden reescribir ligeramente para que satisfagan las restricciones para que el logaritmo de la razón de verosimilitud tenga la distribución deseada. Dado que la restricción hace que la H bidimensional se reduzca a la unidimensional , la distribución asintótica para la prueba será , la distribución con un grado de libertad.
Para la tabla de contingencia general, podemos escribir la estadística de razón de verosimilitud logarítmica como
El teorema de Wilks supone que los valores verdaderos pero desconocidos de los parámetros estimados se encuentran en el interior del espacio de parámetros . Esto se viola comúnmente en los modelos de efectos aleatorios o mixtos , por ejemplo, cuando uno de los componentes de la varianza es insignificante en relación con los demás. En algunos de estos casos, un componente de la varianza puede ser efectivamente cero en relación con los demás, o en otros casos los modelos pueden estar anidados incorrectamente.
Para ser claros: estas limitaciones del teorema de Wilks no niegan ninguna propiedad de potencia de una prueba de razón de verosimilitud particular. [3] El único problema es que a veces una distribución es una mala elección para estimar la significancia estadística del resultado.
Pinheiro y Bates (2000) demostraron que la distribución real de esta estadística de chi-cuadrado de razón de verosimilitud podría ser sustancialmente diferente de la ingenua , a menudo dramáticamente diferente. [4] Las suposiciones ingenuas podrían dar probabilidades de significancia ( valores p ) que son, en promedio, demasiado grandes en algunos casos y demasiado pequeñas en otros.
En general, para probar los efectos aleatorios, recomiendan utilizar la máxima verosimilitud restringida (REML). Para las pruebas de efectos fijos, dicen, “una prueba de razón de verosimilitud para ajustes REML no es factible”, porque cambiar la especificación de los efectos fijos cambia el significado de los efectos mixtos y, por lo tanto, el modelo restringido no está anidado dentro del modelo más grande. [4] Como demostración, establecieron una o dos varianzas de efectos aleatorios en cero en pruebas simuladas. En esos ejemplos particulares, los valores p simulados con k restricciones coincidieron más estrechamente con una mezcla 50-50 de y . (Con k = 1 , es 0 con probabilidad 1. Esto significa que una buena aproximación fue ) [4]
Pinheiro y Bates también simularon pruebas de diferentes efectos fijos. En una prueba de un factor con 4 niveles ( grados de libertad = 3), descubrieron que una mezcla 50-50 de y era una buena coincidencia para los valores p reales obtenidos por simulación, y el error en el uso del ingenuo “puede no ser demasiado alarmante”. [4]
Sin embargo, en otra prueba de un factor con 15 niveles, encontraron una coincidencia razonable con -4 grados de libertad más que los 14 que se obtendrían de una aplicación ingenua (inapropiada) del teorema de Wilks, y el valor p simulado fue varias veces el ingenuo . Concluyen que para probar efectos fijos, "es prudente usar simulación". [a]
simulate.lme
función en su nlme
paquete para S-PLUS
y Rpara soportar la simulación REML; ver ref. [5]nlme