En estadística , el método de momentos es un método de estimación de parámetros de población . El mismo principio se utiliza para derivar momentos superiores como asimetría y curtosis.
Se comienza expresando los momentos de la población (es decir, los valores esperados de las potencias de la variable aleatoria en cuestión) como funciones de los parámetros de interés. A continuación, esas expresiones se igualan a los momentos de la muestra. El número de esas ecuaciones es el mismo que el número de parámetros que se van a estimar. A continuación, esas ecuaciones se resuelven para los parámetros de interés. Las soluciones son estimaciones de esos parámetros.
El método de los momentos fue introducido por Pafnuty Chebyshev en 1887 en la demostración del teorema del límite central . La idea de hacer coincidir los momentos empíricos de una distribución con los momentos de la población se remonta al menos a Pearson . [1]
Supongamos que el parámetro = ( ) caracteriza la distribución de la variable aleatoria . [1] Supongamos que los primeros momentos de la distribución verdadera (los "momentos de población") se pueden expresar como funciones de s:
Supongamos que se extrae una muestra de tamaño , lo que da como resultado los valores . Para , sea
sea el momento muestral j -ésimo, una estimación de . El estimador del método de momentos para denotado por se define como la solución (si existe) de las ecuaciones: [2]
El método descrito aquí para variables aleatorias individuales se generaliza de manera obvia a múltiples variables aleatorias, lo que lleva a múltiples opciones de momentos a utilizar. Diferentes opciones generalmente llevan a diferentes soluciones [5], [6].
El método de momentos es bastante simple y produce estimadores consistentes (bajo supuestos muy débiles), aunque estos estimadores a menudo están sesgados .
Es una alternativa al método de máxima verosimilitud .
Sin embargo, en algunos casos las ecuaciones de verosimilitud pueden resultar insolubles sin ordenadores, mientras que los estimadores del método de momentos se pueden calcular de forma mucho más rápida y sencilla. Debido a su fácil cálculo, las estimaciones del método de momentos se pueden utilizar como primera aproximación a las soluciones de las ecuaciones de verosimilitud, y luego se pueden encontrar aproximaciones mejoradas sucesivas mediante el método de Newton-Raphson . De esta forma, el método de momentos puede ayudar a encontrar estimaciones de máxima verosimilitud.
En algunos casos, poco frecuentes con muestras grandes pero menos infrecuentes con muestras pequeñas, las estimaciones dadas por el método de momentos están fuera del espacio de parámetros (como se muestra en el ejemplo siguiente); entonces no tiene sentido confiar en ellas. Ese problema nunca surge en el método de máxima verosimilitud [3] Además, las estimaciones por el método de momentos no son necesariamente estadísticas suficientes , es decir, a veces no tienen en cuenta toda la información relevante de la muestra.
Al estimar otros parámetros estructurales (por ejemplo, parámetros de una función de utilidad , en lugar de parámetros de una distribución de probabilidad conocida), es posible que no se conozcan distribuciones de probabilidad apropiadas y que se prefieran estimaciones basadas en momentos a estimaciones de máxima verosimilitud.
Las ecuaciones a resolver en el método de momentos (MoM) son en general no lineales y no hay garantías de aplicación general de que existan soluciones manejables [ cita requerida ] . Pero hay un enfoque alternativo para usar momentos de muestra para estimar parámetros del modelo de datos en términos de dependencia conocida de los momentos del modelo en estos parámetros, y esta alternativa requiere la solución de solo ecuaciones lineales o, más generalmente, ecuaciones tensoriales. Esta alternativa se conoce como MoM tipo bayesiano (BL-MoM), y se diferencia del MoM clásico en que utiliza momentos de muestra ponderados de manera óptima. Considerando que el MoM generalmente está motivado por una falta de conocimiento suficiente sobre el modelo de datos para determinar funciones de verosimilitud y probabilidades a posteriori asociadas de parámetros desconocidos o aleatorios, es extraño que exista un tipo de MoM que sea tipo bayesiano . Pero el significado particular de Bayesian-Like conduce a una formulación del problema en la que el conocimiento requerido de las probabilidades a posteriori se reemplaza con el conocimiento requerido únicamente de la dependencia de los momentos del modelo en parámetros desconocidos del modelo, que es exactamente el conocimiento requerido por el MoM tradicional [1],[2],[5]–[9]. El BL-MoM también utiliza el conocimiento de las probabilidades a priori de los parámetros a estimar, cuando están disponibles, pero por lo demás utiliza valores a priori uniformes. [ cita requerida ]
El BL-MoM ha sido reportado únicamente en la literatura de estadística aplicada en conexión con la estimación de parámetros y pruebas de hipótesis utilizando observaciones de procesos estocásticos para problemas en la Teoría de la Información y las Comunicaciones y, en particular, el diseño de receptores de comunicaciones en ausencia de conocimiento de funciones de verosimilitud o probabilidades a posteriori asociadas [10] y referencias allí citadas. Además, la reformulación de este enfoque de diseño de receptores para modelos de procesos estocásticos como una alternativa al MoM clásico para cualquier tipo de datos multivariados está disponible en forma de tutorial en el sitio web de la universidad [11, página 11.4]. Las aplicaciones en [10] y referencias citadas demuestran algunas características importantes de esta alternativa al MoM clásico, y una lista detallada de ventajas y desventajas relativas se da en [11, página 11.4], pero la literatura carece de comparaciones directas en aplicaciones específicas del MoM clásico y el BL-MoM. [ cita requerida ]
Un ejemplo de aplicación del método de momentos es la estimación de distribuciones de densidad de probabilidad polinómica. En este caso, se define un polinomio de aproximación de orden 1 en un intervalo . El método de momentos produce entonces un sistema de ecuaciones cuya solución implica la inversión de una matriz de Hankel . [2]
Sean variables aleatorias independientes con media 0 y varianza 1, entonces sea . Podemos calcular los momentos de como La expansión explícita muestra que donde el numerador es el número de formas de seleccionar pares distintos de bolas eligiendo una de cada uno de los cubos, cada uno con bolas numeradas del a . En el límite, todos los momentos convergen al de una distribución normal estándar. Luego, un análisis más detallado muestra que esta convergencia en momentos implica una convergencia en la distribución.
En esencia, este argumento fue publicado por Chebyshev en 1887. [3]
Consideremos la distribución uniforme en el intervalo , . Si entonces tenemos
Resolviendo estas ecuaciones obtenemos
Dado un conjunto de muestras podemos utilizar los momentos muestrales y en estas fórmulas para estimar y .
Sin embargo, cabe señalar que este método puede producir resultados inconsistentes en algunos casos. Por ejemplo, el conjunto de muestras da como resultado la estimación , aunque en este caso es imposible que se haya extraído del conjunto.
[4] Pearson, K. (1936), "Método de momentos y método de máxima verosimilitud", Biometrika 28(1/2), 35–59.
[5] Lindsay, BG y Basak P. (1993). “Mezclas normales multivariadas: un método rápido y consistente de momentos”, Journal of the American Statistical Association 88 , 468–476.
[6] Quandt, RE y Ramsey, JB (1978). “Estimación de mezclas de distribuciones normales y regresiones de conmutación”, Journal of the American Statistical Association 73 , 730–752.
[7] https://real-statistics.com/distribution-fitting/method-of-moments/
[8] Hansen, L. (1982). “Propiedades de muestras grandes de estimadores del método generalizado de momentos”, Econometrica 50 , 1029–1054.
[9] Lindsay, BG (1982). “Funciones de puntuación condicional: algunos resultados de optimalidad”, Biometrika 69 , 503–512.
[10] Gardner, WA, “Diseño de clasificadores de señales de prototipos más cercanos”, IEEE Transactions on Information Theory 27 (3), 368–372,1981