En estadística , la estimación del espaciado máximo ( MSE o MSP ), o estimación del producto máximo del espaciado (MPS) , es un método para estimar los parámetros de un modelo estadístico univariado . [1] El método requiere la maximización de la media geométrica de los espaciamientos en los datos, que son las diferencias entre los valores de la función de distribución acumulativa en puntos de datos vecinos.
El concepto subyacente al método se basa en la transformada integral de probabilidad , en la que un conjunto de muestras aleatorias independientes derivadas de cualquier variable aleatoria debería, en promedio, estar distribuidas uniformemente con respecto a la función de distribución acumulativa de la variable aleatoria. El método MPS elige los valores de los parámetros que hacen que los datos observados sean lo más uniformes posible, de acuerdo con una medida cuantitativa específica de uniformidad.
Uno de los métodos más comunes para estimar los parámetros de una distribución a partir de datos, el método de máxima verosimilitud (MLE), puede fallar en varios casos, como cuando se trata de ciertas mezclas de distribuciones continuas. [2] En estos casos, el método de estimación de espaciamiento máximo puede resultar exitoso.
Además de su uso en matemáticas puras y estadística, se han reportado aplicaciones de prueba del método utilizando datos de campos como hidrología , [3] econometría , [4] imágenes por resonancia magnética , [5] y otros. [6]
El método MSE fue derivado independientemente por Russel Cheng y Nik Amin en el Instituto de Ciencia y Tecnología de la Universidad de Gales , y Bo Ranneby en la Universidad Sueca de Ciencias Agrícolas . [2] Los autores explicaron que debido a la transformación integral de probabilidad en el parámetro verdadero, el "espaciamiento" entre cada observación debería distribuirse uniformemente. Esto implicaría que la diferencia entre los valores de la función de distribución acumulativa en observaciones consecutivas debería ser igual. Este es el caso que maximiza la media geométrica de tales espaciamientos, por lo que resolver los parámetros que maximizan la media geométrica lograría el "mejor" ajuste según se define de esta manera. Ranneby (1984) justificó el método demostrando que es un estimador de la divergencia de Kullback-Leibler , similar a la estimación de máxima verosimilitud , pero con propiedades más robustas para algunas clases de problemas.
Existen ciertas distribuciones, especialmente aquellas con tres o más parámetros, cuyas probabilidades pueden volverse infinitas a lo largo de ciertas trayectorias en el espacio de parámetros . El uso de la máxima verosimilitud para estimar estos parámetros a menudo falla, ya que un parámetro tiende al valor específico que hace que la probabilidad sea infinita, lo que hace que los otros parámetros sean inconsistentes. Sin embargo, el método de espaciamiento máximo, al depender de la diferencia entre los puntos de la función de distribución acumulativa y no de los puntos de probabilidad individuales, no tiene este problema y arrojará resultados válidos en una gama mucho más amplia de distribuciones. [1]
Las distribuciones que tienden a presentar problemas de verosimilitud son a menudo las que se utilizan para modelar fenómenos físicos. Hall y otros (2004) tratan de analizar métodos de mitigación de inundaciones, lo que requiere modelos precisos de los efectos de las inundaciones fluviales. Las distribuciones que mejor modelan estos efectos son todas modelos de tres parámetros, que sufren el problema de la verosimilitud infinita descrita anteriormente, lo que llevó a Hall a investigar el procedimiento de espaciamiento máximo. Wong y Li (2006), al comparar el método con la verosimilitud máxima, utilizan varios conjuntos de datos que van desde un conjunto sobre las edades más avanzadas al morir en Suecia entre 1905 y 1958 hasta un conjunto que contiene las velocidades máximas anuales del viento.
Dada una muestra aleatoria iid { x 1 , ..., x n } de tamaño n de una distribución univariante con función de distribución acumulativa continua F ( x ; θ 0 ), donde θ 0 ∈ Θ es un parámetro desconocido a estimar , sea { x (1) , ..., x ( n ) } la muestra ordenada correspondiente , que es el resultado de ordenar todas las observaciones de menor a mayor. Para mayor comodidad, denotemos también x (0) = −∞ y x ( n +1) = +∞.
Defina los espaciamientos como los “espacios” entre los valores de la función de distribución en puntos ordenados adyacentes: [7]
Entonces, el estimador de espaciamiento máximo de θ 0 se define como un valor que maximiza el logaritmo de la media geométrica de los espaciamientos muestrales:
Por la desigualdad de las medias aritméticas y geométricas , la función S n ( θ ) está acotada superiormente por −ln( n +1), y por tanto el máximo tiene que existir al menos en sentido supremo .
Obsérvese que algunos autores definen la función S n ( θ ) de forma algo diferente. En particular, Ranneby (1984) multiplica cada D i por un factor de ( n +1), mientras que Cheng & Stephens (1989) omiten el factor 1 ⁄ n +1 delante de la suma y añaden el signo “−” para convertir la maximización en minimización. Como se trata de constantes con respecto a θ , las modificaciones no alteran la ubicación del máximo de la función S n .
En esta sección se presentan dos ejemplos de cálculo del estimador de espaciado máximo.
Supongamos que se tomaron dos valores x (1) = 2, x (2) = 4 de la distribución exponencial F ( x ; λ ) = 1 − e − xλ , x ≥ 0 con parámetro desconocido λ > 0. Para construir el MSE primero tenemos que encontrar los espaciamientos:
El proceso continúa encontrando el λ que maximiza la media geométrica de la columna de “diferencia”. Usando la convención que ignora tomar la raíz ( n + 1)a, esto se convierte en la maximización del siguiente producto: (1 − e −2 λ ) · (e −2 λ − e −4 λ ) · (e −4 λ ). Dejando μ = e −2 λ , el problema se convierte en encontrar el máximo de μ 5 −2 μ 4 + μ 3 . Derivando, el μ tiene que satisfacer 5 μ 4 −8 μ 3 +3 μ 2 = 0. Esta ecuación tiene raíces 0, 0.6 y 1. Como μ es en realidad e −2 λ , tiene que ser mayor que cero pero menor que uno. Por lo tanto, la única solución aceptable es la que corresponde a una distribución exponencial con una media de 1 ⁄ λ ≈ 3,915. A modo de comparación, la estimación de máxima verosimilitud de λ es la inversa de la media de la muestra, 3, por lo que λ MLE = ⅓ ≈ 0,333.
Supongamos que { x (1) , ..., x ( n ) } es la muestra ordenada de una distribución uniforme U ( a , b ) con extremos desconocidos a y b . La función de distribución acumulativa es F ( x ; a , b ) = ( x − a )/( b − a ) cuando x ∈[ a , b ]. Por lo tanto, los espaciamientos individuales se dan por
Calculando la media geométrica y luego sacando el logaritmo, el estadístico S n será igual a Aquí sólo tres términos dependen de los parámetros a y b . Derivando con respecto a esos parámetros y resolviendo el sistema lineal resultante, las estimaciones de espaciado máximo serán
Se sabe que estos son los estimadores insesgados de varianza mínima uniforme (UMVU) para la distribución uniforme continua. [1] En comparación, las estimaciones de máxima verosimilitud para este problema son sesgadas y tienen un error cuadrático medio más alto .
El estimador de espaciado máximo es un estimador consistente en el sentido de que converge en probabilidad al valor verdadero del parámetro, θ 0 , a medida que el tamaño de la muestra aumenta hasta el infinito. [2] La consistencia de la estimación de espaciado máximo se mantiene en condiciones mucho más generales que para los estimadores de máxima verosimilitud . En particular, en los casos en que la distribución subyacente tiene forma de J, la máxima verosimilitud fallará donde MSE tiene éxito. [1] Un ejemplo de una densidad en forma de J es la distribución Weibull , específicamente una Weibull desplazada , con un parámetro de forma menor que 1. La densidad tenderá al infinito a medida que x se aproxima al parámetro de ubicación, lo que hace que las estimaciones de los otros parámetros sean inconsistentes.
Los estimadores de espaciamiento máximo también son al menos tan eficientes asintóticamente como los estimadores de máxima verosimilitud, cuando estos últimos existen. Sin embargo, pueden existir MSE en casos en que no existan MLE. [1]
Los estimadores de espaciado máximo son sensibles a observaciones muy espaciadas, y especialmente a los empates. [8] Dado que obtenemos
Cuando los empates se deben a observaciones múltiples, los espaciamientos repetidos (aquellos que de otro modo serían cero) deben reemplazarse por la probabilidad correspondiente. [1] Es decir, se debe sustituir por , ya que .
Cuando los empates se deben a un error de redondeo, Cheng y Stephens (1989) sugieren otro método para eliminar los efectos. [nota 1] Dadas r observaciones empatadas de x i a x i + r −1 , sea δ el error de redondeo . Todos los valores verdaderos deberían caer entonces en el rango . Los puntos correspondientes en la distribución deberían caer ahora entre y . Cheng y Stephens sugieren suponer que los valores redondeados están espaciados uniformemente en este intervalo, definiendo
El método MSE también es sensible al agrupamiento secundario. [8] Un ejemplo de este fenómeno es cuando se piensa que un conjunto de observaciones proviene de una única distribución normal , pero en realidad proviene de una mezcla de normales con diferentes medias. Un segundo ejemplo es cuando se piensa que los datos provienen de una distribución exponencial , pero en realidad provienen de una distribución gamma . En el último caso, pueden ocurrir espaciamientos más pequeños en la cola inferior. Un valor alto de M ( θ ) indicaría este efecto de agrupamiento secundario y sugeriría que se requiere una mirada más cercana a los datos. [8]
La estadística S n ( θ ) es también una forma de la estadística de Moran o Moran-Darling, M ( θ ), que se puede utilizar para probar la bondad de ajuste . [nota 2] Se ha demostrado que la estadística, cuando se define como es asintóticamente normal , y que existe una aproximación de chi-cuadrado para muestras pequeñas. [8] En el caso en el que conocemos el parámetro verdadero , Cheng y Stephens (1989) muestran que la estadística tiene una distribución normal con donde γ es la constante de Euler-Mascheroni que es aproximadamente 0,57722. [nota 3]
La distribución también puede aproximarse mediante la de , donde , en la que y donde sigue una distribución de chi-cuadrado con grados de libertad . Por lo tanto, para probar la hipótesis de que una muestra aleatoria de valores proviene de la distribución , se puede calcular el estadístico . Luego debe rechazarse con significancia si el valor es mayor que el valor crítico de la distribución de chi-cuadrado apropiada. [8]
Cheng y Stephens (1989) demostraron que, donde θ 0 se estima mediante la misma media y varianza asintóticas que en el caso conocido, sin embargo, la estadística de prueba que se utilizará requiere la adición de un término de corrección de sesgo y es: donde es el número de parámetros en la estimación.
Ranneby y Ekström (1997) generalizaron el método MSE para aproximar otras medidas además de la medida de Kullback-Leibler. Ekström (1997) expandió aún más el método para investigar las propiedades de los estimadores utilizando espaciamientos de orden superior, donde un espaciamiento de orden m se definiría como .
Ranneby y otros (2005) analizan métodos de espaciado máximo extendidos para el caso multivariado . Como no existe un orden natural para , analizan dos enfoques alternativos: un enfoque geométrico basado en celdas de Dirichlet y un enfoque probabilístico basado en una métrica de “bola vecina más próxima”.