Estimación de máxima verosimilitud

En estadística , la estimación de máxima verosimilitud ( EMV ) es un método para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Esto se logra maximizando una función de verosimilitud de modo que, bajo el modelo estadístico supuesto , los datos observados sean los más probables. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. ^[1] La lógica de máxima verosimilitud es intuitiva y flexible, y como tal, el método se ha convertido en un medio dominante de inferencia estadística . ^[2]^[3]^[4]

Si la función de verosimilitud es diferenciable , se puede aplicar la prueba de la derivada para hallar máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud se pueden resolver analíticamente; por ejemplo, el estimador de mínimos cuadrados ordinarios para un modelo de regresión lineal maximiza la verosimilitud cuando se supone que los errores aleatorios tienen distribuciones normales con la misma varianza. ^[5]

Desde la perspectiva de la inferencia bayesiana , la estimación máxima a posteriori (MAP) generalmente es equivalente a una estimación máxima a posteriori (MAP) con una distribución previa que es uniforme en la región de interés. En la inferencia frecuentista , la estimación máxima a posteriori (MLE) es un caso especial de un estimador de extremos , donde la función objetivo es la verosimilitud.

Principios

Modelamos un conjunto de observaciones como una muestra aleatoria de una distribución de probabilidad conjunta desconocida que se expresa en términos de un conjunto de parámetros . El objetivo de la estimación de máxima verosimilitud es determinar los parámetros para los cuales los datos observados tienen la probabilidad conjunta más alta. Escribimos los parámetros que gobiernan la distribución conjunta como un vector de modo que esta distribución caiga dentro de una familia paramétrica donde se denomina espacio de parámetros , un subconjunto de dimensión finita del espacio euclidiano . La evaluación de la densidad conjunta en la muestra de datos observados da una función de valor real, $\;\theta =\left[\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{k}\right]^{\mathsf {T}}\;$ $\;\{f(\cdot \,;\theta )\mid \theta \in \Theta \}\;,$ ${\estilo de visualización \,\Theta \,}$ $\;\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})\;$

{\mathcal {L}}_{n}(\theta )={\mathcal {L}}_{n}(\theta ;\mathbf {y} )=f_{n}(\mathbf {y } ;\theta )\;,

que se denomina función de verosimilitud . Para variables aleatorias independientes e idénticamente distribuidas , será el producto de funciones de densidad univariadas : $f_{n}(\mathbf {y};\theta)$

f_{n}(\mathbf {y} ;\theta )=\prod _{k=1}^{n}\,f_{k}^{\mathsf {univar}}(y_{k}; \theta )~.

El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud en el espacio de parámetros, ^[6] es decir

{\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\,{\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Intuitivamente, esto selecciona los valores de los parámetros que hacen que los datos observados sean más probables. El valor específico que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. Además, si la función así definida es medible , entonces se denomina estimador de máxima verosimilitud . Generalmente es una función definida sobre el espacio muestral , es decir, tomando una muestra dada como su argumento. Una condición suficiente pero no necesaria para su existencia es que la función de verosimilitud sea continua sobre un espacio de parámetros que sea compacto . ^[7] Para un abierto, la función de verosimilitud puede aumentar sin alcanzar nunca un valor supremo. $~{\hat {\theta }}={\hat {\theta }}_{n}(\mathbf {y} )\in \Theta ~$ $\,{\mathcal {L}}_{n}\,$ $\;{\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta \;$ ${\estilo de visualización \,\Theta \,}$ ${\estilo de visualización \,\Theta \,}$

En la práctica, suele ser conveniente trabajar con el logaritmo natural de la función de verosimilitud, llamado log-verosimilitud :

\ell (\theta \,;\mathbf {y} )=\ln {\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Como el logaritmo es una función monótona , el máximo de ocurre en el mismo valor de como lo hace el máximo de ^[8] Si es diferenciable en condiciones suficientes para la ocurrencia de un máximo (o un mínimo) son $\;\ell (\theta \,;\mathbf {y} )\;$ ${\estilo de visualización \theta}$ $\,{\mathcal {L}}_{n}~.$ $\ell (\theta \,;\mathbf {y} )$ ${\estilo de visualización \,\Theta \,,}$

{\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0~,

conocidas como ecuaciones de verosimilitud. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente, pero en general no se conoce ni está disponible ninguna solución cerrada para el problema de maximización, y solo se puede encontrar una MLE mediante optimización numérica . Otro problema es que en muestras finitas, pueden existir múltiples raíces para las ecuaciones de verosimilitud. ^[9] Si la raíz identificada de las ecuaciones de verosimilitud es de hecho un máximo (local) depende de si la matriz de derivadas parciales y parciales cruzadas de segundo orden, la llamada matriz hessiana $\,{\widehat {\theta \,}}\,,$ $\,{\widehat {\theta \,}}\,$

\mathbf {H} \left({\widehat {\theta \,}}\right)={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\derecha|_{\theta ={\widehat {\theta \,}}}&\izquierda.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\derecha|_{\theta ={\widehat {\theta \,}}}&\puntos &\izquierda.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\derecha|_{\theta ={\widehat {\theta \,}}}\\\vpuntos &\vpuntos &\dpuntos &\vpuntos \\\izquierda.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}}~,

es semidefinida negativa en , ya que esto indica concavidad local . Convenientemente, la mayoría de las distribuciones de probabilidad comunes , en particular la familia exponencial , son logarítmicamente cóncavas . ^[10]^[11] ${\widehat {\theta \,}}$

Espacio de parámetros restringido

Si bien el dominio de la función de verosimilitud (el espacio de parámetros ) es generalmente un subconjunto finito-dimensional del espacio euclidiano , a veces es necesario incorporar restricciones adicionales al proceso de estimación. El espacio de parámetros se puede expresar como

\Theta =\left\{\theta :\theta \in \mathbb {R} ^{k},\;h(\theta )=0\right\}~,

donde es una función de valor vectorial que se asigna a Estimar el parámetro verdadero que pertenece a entonces, como cuestión práctica, significa encontrar el máximo de la función de verosimilitud sujeta a la restricción $\;h(\theta )=\left[h_{1}(\theta ),h_{2}(\theta ),\ldots ,h_{r}(\theta )\right]\;$ $\,\mathbb {R} ^{k}\,$ $\;\mathbb {R} ^{r}~.$ $\theta$ $\Theta$ $~h(\theta )=0~.$

En teoría, el enfoque más natural para este problema de optimización restringida es el método de sustitución, que consiste en "rellenar" las restricciones de un conjunto de tal manera que sea una función biunívoca de a sí mismo, y repararmetrizar la función de verosimilitud estableciendo ^[12] Debido a la equivariancia del estimador de máxima verosimilitud, las propiedades del MLE también se aplican a las estimaciones restringidas. ^[13] Por ejemplo, en una distribución normal multivariada , la matriz de covarianza debe ser definida positiva ; esta restricción se puede imponer reemplazando donde es una matriz triangular superior real y es su transpuesta . ^[14] $\;h_{1},h_{2},\ldots ,h_{r}\;$ $\;h_{1},h_{2},\ldots ,h_{r},h_{r+1},\ldots ,h_{k}\;$ $\;h^{\ast }=\left[h_{1},h_{2},\ldots ,h_{k}\right]\;$ $\mathbb {R} ^{k}$ $\;\phi _{i}=h_{i}(\theta _{1},\theta _{2},\ldots ,\theta _{k})~.$ $\,\Sigma \,$ $\;\Sigma =\Gamma ^{\mathsf {T}}\Gamma \;,$ $\Gamma$ $\Gamma ^{\mathsf {T}}$

En la práctica, las restricciones se imponen generalmente utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a las ecuaciones de probabilidad restringida.

{\frac {\partial \ell }{\partial \theta }}-{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\lambda =0

h(\theta )=0\;,

donde es un vector columna de multiplicadores de Lagrange y es la matriz jacobiana $k \times r$ de derivadas parciales. ^[12] Naturalmente, si las restricciones no son vinculantes en el máximo, los multiplicadores de Lagrange deberían ser cero. ^[15] Esto a su vez permite una prueba estadística de la "validez" de la restricción, conocida como la prueba del multiplicador de Lagrange . $~\lambda =\left[\lambda _{1},\lambda _{2},\ldots ,\lambda _{r}\right]^{\mathsf {T}}~$ $\;{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\;$

Estimación de máxima verosimilitud no paramétrica

La estimación de máxima verosimilitud no paramétrica se puede realizar utilizando la verosimilitud empírica .

Propiedades

Un estimador de máxima verosimilitud es un estimador de extremos que se obtiene maximizando, en función de θ , la función objetivo . Si los datos son independientes y se distribuyen de forma idéntica , entonces tenemos ${\widehat {\ell \,}}(\theta \,;x)$

{\widehat {\ell \,}}(\theta \,;x)={\frac {1}{n}}\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),

siendo este el análogo de muestra de la log-verosimilitud esperada , donde esta expectativa se toma con respecto a la densidad real. $\ell (\theta )=\operatorname {\mathbb {E} } [\,\ln f(x_{i}\mid \theta )\,]$

Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración alrededor del valor verdadero del parámetro. ^[16] Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de propiedades limitantes atractivas : A medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:

Consistencia : la secuencia de MLE converge en probabilidad al valor que se está estimando.
Equivarianza : Si es el estimador de máxima verosimilitud para , y si es una transformada biyectiva de , entonces el estimador de máxima verosimilitud para es . La propiedad de equivarianza se puede generalizar a transformadas no biyectivas, aunque se aplica en ese caso al máximo de una función de verosimilitud inducida que no es la verosimilitud verdadera en general. ${\hat {\theta }}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$ ${\hat {\alpha }}=g({\hat {\theta }})$
Eficiencia , es decir, alcanza el límite inferior de Cramér–Rao cuando el tamaño de la muestra tiende a infinito. Esto significa que ningún estimador consistente tiene un error cuadrático medio asintótico menor que el MLE (u otros estimadores que alcancen este límite), lo que también significa que el MLE tiene normalidad asintótica .
Eficiencia de segundo orden después de la corrección por sesgo.

Consistencia

En las condiciones que se describen a continuación, el estimador de máxima verosimilitud es consistente . La consistencia significa que si los datos fueron generados por y tenemos un número suficientemente grande de observaciones n , entonces es posible encontrar el valor de θ ₀ con precisión arbitraria. En términos matemáticos, esto significa que cuando n tiende a infinito, el estimador converge en probabilidad a su valor verdadero: $f(\cdot \,;\theta _{0})$ ${\widehat {\theta \,}}$

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{p}}}\ \theta _{0}.

En condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente ):

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{a.s.}}}\ \theta _{0}.

En aplicaciones prácticas, los datos nunca son generados por . Más bien, es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en estadística que todos los modelos son incorrectos . Por lo tanto, la consistencia verdadera no ocurre en aplicaciones prácticas. Sin embargo, la consistencia a menudo se considera una propiedad deseable para un estimador. $f(\cdot \,;\theta _{0})$ $f(\cdot \,;\theta _{0})$

Para establecer la coherencia son suficientes las siguientes condiciones: ^[17]

Identificación del modelo:
$\theta \neq \theta _{0}\quad \Leftrightarrow \quad f(\cdot \mid \theta )\neq f(\cdot \mid \theta _{0}).$
En otras palabras, los distintos valores de los parámetros θ corresponden a distintas distribuciones dentro del modelo. Si esta condición no se cumpliera, habría algún valor θ ₁ tal que θ ₀ y θ ₁ generarían una distribución idéntica de los datos observables. En ese caso, no seríamos capaces de distinguir entre estos dos parámetros ni siquiera con una cantidad infinita de datos: estos parámetros habrían sido observacionalmente equivalentes .
La condición de identificación es absolutamente necesaria para que el estimador ML sea consistente. Cuando se cumple esta condición, la función de verosimilitud límite ℓ ( θ |·) tiene un máximo global único en θ ₀ .
Compacidad: el espacio de parámetros Θ del modelo es compacto .
La condición de identificación establece que la probabilidad logarítmica tiene un máximo global único. La compacidad implica que la probabilidad no puede acercarse al valor máximo arbitrariamente cerca de algún otro punto (como se demuestra, por ejemplo, en la imagen de la derecha).
La compacidad es sólo una condición suficiente y no una condición necesaria. La compacidad puede sustituirse por otras condiciones, como:
- tanto la concavidad de la función de log-verosimilitud como la compacidad de algunos conjuntos de nivel superior (no vacíos) de la función de log-verosimilitud, o
- existencia de un vecindario compacto $N$ de $θ$ ₀ tal que fuera de $N$ la función de log-verosimilitud es menor que el máximo en al menos algún $ε$ > 0 .
Continuidad: la función $ln f (x | θ)$ es continua en $θ$ para casi todos los valores de $x$ :
$\operatorname {\mathbb {P} } {\Bigl [}\;\ln f(x\mid \theta )\;\in \;C^{0}(\Theta )\;{\Bigr ]}=1.$
La continuidad aquí puede ser reemplazada con una condición ligeramente más débil de semicontinuidad superior .
Dominancia: existe $D (x)$ integrable respecto de la distribución $f (x | θ 0)$ tal que
${\Bigl |}\ln f(x\mid \theta ){\Bigr |}<D(x)\quad {\text{ for all }}\theta \in \Theta .$
Por la ley uniforme de los grandes números , la condición de dominancia junto con la continuidad establecen la convergencia uniforme en probabilidad de la log-verosimilitud:
$\sup _{\theta \in \Theta }\left|{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\,\right|\ {\xrightarrow {\text{p}}}\ 0.$

La condición de dominancia se puede emplear en el caso de observaciones iid . En el caso no iid, la convergencia uniforme en probabilidad se puede comprobar demostrando que la secuencia es estocásticamente equicontinua . Si se quiere demostrar que el estimador ML converge a θ ₀casi con seguridad , entonces se debe imponer una condición más fuerte de convergencia uniforme casi con seguridad: ${\widehat {\ell \,}}(\theta \mid x)$ ${\widehat {\theta \,}}$

\sup _{\theta \in \Theta }\left\|\;{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\;\right\|\ \xrightarrow {\text{a.s.}} \ 0.

Además, si (como se supuso anteriormente) los datos fueron generados por , entonces, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Específicamente, ^[18] $f(\cdot \,;\theta _{0})$

{\sqrt {n}}\left({\widehat {\theta \,}}_{\mathrm {mle} }-\theta _{0}\right)\ \xrightarrow {d} \ {\mathcal {N}}\left(0,\,I^{-1}\right)

donde $I$ es la matriz de información de Fisher .

Invariancia funcional

El estimador de máxima verosimilitud selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consta de varios componentes, entonces definimos sus estimadores de máxima verosimilitud separados, como el componente correspondiente de la VME del parámetro completo. En consonancia con esto, si es la VME para , y si es cualquier transformación de , entonces la VME para es por definición ^[19] ${\widehat {\theta \,}}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$

{\widehat {\alpha }}=g(\,{\widehat {\theta \,}}\,).\,

Maximiza la denominada verosimilitud del perfil :

{\bar {L}}(\alpha )=\sup _{\theta :\alpha =g(\theta )}L(\theta ).\,

La MLE también es equivariante con respecto a ciertas transformaciones de los datos. Si donde es uno a uno y no depende de los parámetros a estimar, entonces las funciones de densidad satisfacen $y=g(x)$ $g$

f_{Y}(y)=f_{X}(g^{-1}(y))\,|(g^{-1}(y))^{\prime }|

y, por lo tanto, las funciones de probabilidad y difieren solo por un factor que no depende de los parámetros del modelo. $X$ $Y$

Por ejemplo, los parámetros MLE de la distribución log-normal son los mismos que los de la distribución normal ajustada al logaritmo de los datos. De hecho, en el caso log-normal si , entonces sigue una distribución log-normal . La densidad de Y sigue con Normal estándar y , para . $X\sim {\mathcal {N}}(0,1)$ $Y=g(X)=e^{X}$ $f_{X}$ $g^{-1}(y)=\log(y)$ $|(g^{-1}(y))^{\prime }|={\frac {1}{y}}$ $y>0$

Eficiencia

Como se supuso anteriormente, si los datos se generaron para entonces bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Es √ n -consistente y asintóticamente eficiente, lo que significa que alcanza el límite de Cramér–Rao . Específicamente, ^[18] $~f(\cdot \,;\theta _{0})~,$

{\sqrt {n\,}}\,\left({\widehat {\theta \,}}_{\text{mle}}-\theta _{0}\right)\ \ \xrightarrow {d} \ \ {\mathcal {N}}\left(0,\ {\mathcal {I}}^{-1}\right)~,

¿Dónde está la matriz de información de Fisher ? $~{\mathcal {I}}~$

{\mathcal {I}}_{jk}=\operatorname {\mathbb {E} } \,{\biggl [}\;-{\frac {\partial ^{2}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{j}\,\partial \theta _{k}}}\;{\biggr ]}~.

En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden ⁠1/√n $$ ⁠ .

Eficiencia de segundo orden después de la corrección por sesgo

Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que $θ mle$ tiene un sesgo de orden 1 ⁄ $n$ . Este sesgo es igual a (componente por componente) ^[20]

b_{h}\;\equiv \;\operatorname {\mathbb {E} } {\biggl [}\;\left({\widehat {\theta }}_{\mathrm {mle} }-\theta _{0}\right)_{h}\;{\biggr ]}\;=\;{\frac {1}{\,n\,}}\,\sum _{i,j,k=1}^{m}\;{\mathcal {I}}^{hi}\;{\mathcal {I}}^{jk}\left({\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\right)

donde (con superíndices) denota el componente ( j,k )-ésimo de la matriz de información de Fisher inversa , y ${\mathcal {I}}^{jk}$ ${\mathcal {I}}^{-1}$

{\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\;=\;\operatorname {\mathbb {E} } \,{\biggl [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{i}\;\partial \theta _{j}\;\partial \theta _{k}}}+{\frac {\;\partial \ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{j}}}\,{\frac {\;\partial ^{2}\ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\biggr ]}~.

Utilizando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:

{\widehat {\theta \,}}_{\text{mle}}^{*}={\widehat {\theta \,}}_{\text{mle}}-{\widehat {b\,}}~.

Este estimador es imparcial hasta los términos del pedido .1/ $norte$ ⁠ , y se llama estimador de máxima verosimilitud corregido por sesgo .

Este estimador corregido por sesgo es eficiente en el segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores corregidos por sesgo de segundo orden, hasta los términos del orden1/ $número$ ² Es posible continuar con este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente en el tercer orden. ^[21]

Relación con la inferencia bayesiana

Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme de los parámetros . En efecto, la estimación máxima a posteriori es el parámetro $θ$ que maximiza la probabilidad de $θ$ dados los datos, dada por el teorema de Bayes:

\operatorname {\mathbb {P} } (\theta \mid x_{1},x_{2},\ldots ,x_{n})={\frac {f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )}{\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})}}

donde es la distribución previa para el parámetro $θ$ y donde es la probabilidad de los datos promediados sobre todos los parámetros. Dado que el denominador es independiente de $θ$ , el estimador bayesiano se obtiene maximizando con respecto a $θ$ . Si suponemos además que la distribución previa es uniforme, el estimador bayesiano se obtiene maximizando la función de verosimilitud . Por lo tanto, el estimador bayesiano coincide con el estimador de máxima verosimilitud para una distribución previa uniforme . $\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (\theta )$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )$ $\operatorname {\mathbb {P} } (\theta )$

Aplicación de la estimación de máxima verosimilitud en la teoría de decisiones de Bayes

En muchas aplicaciones prácticas del aprendizaje automático , la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.

La teoría de la decisión bayesiana trata de diseñar un clasificador que minimice el riesgo total esperado, especialmente cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución. ^[22]

Por lo tanto, la regla de decisión de Bayes se enuncia como

"decide si de lo contrario decide "

\;w_{1}\;

~\operatorname {\mathbb {P} } (w_{1}|x)\;>\;\operatorname {\mathbb {P} } (w_{2}|x)~;~

\;w_{2}\;

donde son predicciones de diferentes clases. Desde una perspectiva de minimización de errores, también se puede expresar como $\;w_{1}\,,w_{2}\;$

w={\underset {w}{\operatorname {arg\;max} }}\;\int _{-\infty }^{\infty }\operatorname {\mathbb {P} } ({\text{ error}}\mid x)\operatorname {\mathbb {P} } (x)\,\operatorname {d} x~

dónde

\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{1}\mid x)~

si decidimos y si decidimos $\;w_{2}\;$ $\;\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{2}\mid x)\;$ $\;w_{1}\;.$

Aplicando el teorema de Bayes

\operatorname {\mathbb {P} } (w_{i}\mid x)={\frac {\operatorname {\mathbb {P} } (x\mid w_{i})\operatorname {\mathbb {P} } (w_{i})}{\operatorname {\mathbb {P} } (x)}}

y si asumimos además la función de pérdida cero o uno, que es la misma pérdida para todos los errores, la regla de decisión de Bayes se puede reformular como:

h_{\text{Bayes}}={\underset {w}{\operatorname {arg\;max} }}\,{\bigl [}\,\operatorname {\mathbb {P} } (x\mid w)\,\operatorname {\mathbb {P} } (w)\,{\bigr ]}\;,

donde es la predicción y es la probabilidad previa . $h_{\text{Bayes}}$ $\;\operatorname {\mathbb {P} } (w)\;$

Relación con la minimización de la divergencia de Kullback-Leibler y la entropía cruzada

Encontrar que maximiza la probabilidad es asintóticamente equivalente a encontrar que define una distribución de probabilidad ( ) que tiene una distancia mínima, en términos de divergencia de Kullback–Leibler , a la distribución de probabilidad real a partir de la cual se generaron nuestros datos (es decir, generada por ). ^[23] En un mundo ideal, P y Q son lo mismo (y lo único desconocido es que define P), pero incluso si no lo son y el modelo que usamos está mal especificado, aún así el MLE nos dará la distribución "más cercana" (dentro de la restricción de un modelo Q que depende de ) a la distribución real . ^[24] ${\hat {\theta }}$ ${\hat {\theta }}$ $Q_{\hat {\theta }}$ $P_{\theta _{0}}$ $\theta$ ${\hat {\theta }}$ $P_{\theta _{0}}$

Ejemplos

Distribución uniforme discreta

Consideremos un caso en el que n billetes numerados del 1 al n se colocan en una caja y se selecciona uno al azar ( véase distribución uniforme ); por tanto, el tamaño de la muestra es 1. Si n es desconocido, entonces el estimador de máxima verosimilitud de n es el número m del billete sorteado. (La verosimilitud es 0 para n < m , 1 ⁄ n para n ≥ m , y es máxima cuando n = m . Nótese que la estimación de máxima verosimilitud de n se produce en el extremo inferior de los valores posibles { m , m + 1, ...}, en lugar de en algún lugar en el "medio" del rango de valores posibles, lo que daría lugar a un sesgo menor). El valor esperado del número m del billete sorteado, y por tanto el valor esperado de , es ( n + 1)/2. Como resultado, con un tamaño de muestra de 1, el estimador de máxima verosimilitud para n subestimará sistemáticamente n en ( n − 1)/2. ${\widehat {n}}$ ${\widehat {n}}$

Distribución discreta, espacio de parámetros finitos

Supongamos que se desea determinar qué tan sesgada es una moneda injusta . Llamemos p a la probabilidad de que salga cara . El objetivo entonces es determinar p .

Supongamos que la moneda se lanza 80 veces: es decir, la muestra podría ser algo como x ₁ = H, x ₂ = T, ..., x ₈₀ = T, y se observa el recuento del número de caras "H".

La probabilidad de que salga cruz es 1 − p (por lo que aquí p es θ arriba). Supongamos que el resultado es 49 caras y 31 cruces , y supongamos que la moneda fue sacada de una caja que contiene tres monedas: una que da cara con probabilidad p = 1 ⁄ 3 , una que da cara con probabilidad p = 1 ⁄ 2 y otra que da cara con probabilidad p = 2 ⁄ 3 . Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Usando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos que se observaron. Al usar la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80, un número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la función de verosimilitud (definida a continuación) toma uno de tres valores:

{\begin{aligned}\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{3}})^{49}(1-{\tfrac {1}{3}})^{31}\approx 0.000,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{2}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{2}})^{49}(1-{\tfrac {1}{2}})^{31}\approx 0.012,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {2}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {2}{3}})^{49}(1-{\tfrac {2}{3}})^{31}\approx 0.054~.\end{aligned}}

La probabilidad se maximiza cuando $p$ = 2 ⁄ 3 , por lo que esta es la estimación de máxima probabilidad para $p$ .

Distribución discreta, espacio de parámetros continuo

Ahora supongamos que sólo había una moneda pero su $p$ podría haber sido cualquier valor 0 ≤ $p$ ≤ 1 . La función de probabilidad a maximizar es

L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31}~,

y la maximización es sobre todos los valores posibles 0 ≤ $p$ ≤ 1 .

Función de verosimilitud para el valor de proporción de un proceso binomial ( $n$ = 10)

Una forma de maximizar esta función es diferenciando con respecto a $p$ y estableciendo en cero:

{\begin{aligned}0&={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)~,\\[8pt]0&=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&=p^{48}(1-p)^{30}\left[49-80p\right]~.\end{aligned}}

Este es un producto de tres términos. El primer término es 0 cuando $p$ = 0. El segundo es 0 cuando $p$ = 1. El tercero es cero cuando $p$ = 49 ⁄ 80. La solución que maximiza la probabilidad es claramente $p$ = 49 ⁄ 80 (ya que $p$ = 0 y $p$ = 1 dan como resultado una probabilidad de 0). Por lo tanto, el estimador de máxima verosimilitud para $p$ es 49 ⁄ 80 .

Este resultado se puede generalizar fácilmente sustituyendo una letra como $s$ en lugar de 49 para representar el número observado de "éxitos" de nuestros ensayos de Bernoulli , y una letra como $n$ en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce $s$ ⁄ $n$ , que es el estimador de máxima verosimilitud para cualquier secuencia de $n$ ensayos de Bernoulli que resulte en $s$ "éxitos".

Distribución continua, espacio de parámetros continuo

Para la distribución normal que tiene función de densidad de probabilidad ${\mathcal {N}}(\mu ,\sigma ^{2})$

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),

La función de densidad de probabilidad correspondiente para una muestra de $n variables aleatorias normales$ independientes distribuidas de forma idéntica (la probabilidad) es

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right).

Esta familia de distribuciones tiene dos parámetros: $θ = (μ, σ)$ ; por lo que maximizamos la verosimilitud, , sobre ambos parámetros simultáneamente o, si es posible, individualmente. ${\mathcal {L}}(\mu ,\sigma ^{2})=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})$

Dado que la función logarítmica es una función continua estrictamente creciente en el rango de probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (la log-verosimilitud en sí no es necesariamente estrictamente creciente). La log-verosimilitud se puede escribir de la siguiente manera:

\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}

(Nota: la verosimilitud logarítmica está estrechamente relacionada con la entropía de la información y la información de Fisher ).

Ahora calculamos las derivadas de esta log-verosimilitud de la siguiente manera.

{\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=0-{\frac {\;-2n({\bar {x}}-\mu )\;}{2\sigma ^{2}}}.\end{aligned}}

donde es la media de la muestra . Esto se resuelve mediante ${\bar {x}}$

{\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}{\frac {\,x_{i}\,}{n}}.

Este es en efecto el máximo de la función, ya que es el único punto de inflexión en $μ$ y la segunda derivada es estrictamente menor que cero. Su valor esperado es igual al parámetro $μ$ de la distribución dada,

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\mu }}\;{\bigr ]}=\mu ,\,

lo que significa que el estimador de máxima verosimilitud es imparcial. ${\widehat {\mu }}$

De manera similar diferenciamos la log-verosimilitud con respecto a $σ$ y la igualamos a cero:

{\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}.\end{aligned}}

Lo cual se resuelve mediante

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}.

Insertando la estimación que obtenemos $\mu ={\widehat {\mu }}$

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.

Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de media cero ( error estadístico ) . Expresando la estimación en estas variables se obtiene $\delta _{i}\equiv \mu -x_{i}$

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).

Simplificando la expresión anterior, utilizando los hechos de que y , nos permite obtener $\operatorname {\mathbb {E} } {\bigl [}\;\delta _{i}\;{\bigr ]}=0$ $\operatorname {E} {\bigl [}\;\delta _{i}^{2}\;{\bigr ]}=\sigma ^{2}$

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\sigma }}^{2}\;{\bigr ]}={\frac {\,n-1\,}{n}}\sigma ^{2}.

Esto significa que el estimador está sesgado para . También se puede demostrar que está sesgado para , pero que tanto como son consistentes. ${\widehat {\sigma }}^{2}$ $\sigma ^{2}$ ${\widehat {\sigma }}$ $\sigma$ ${\widehat {\sigma }}^{2}$ ${\widehat {\sigma }}$

Formalmente decimos que el estimador de máxima verosimilitud para es $\theta =(\mu ,\sigma ^{2})$

{\widehat {\theta \,}}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).

En este caso, los MLE podrían obtenerse individualmente. En general, esto puede no ser así y los MLE tendrían que obtenerse simultáneamente.

La verosimilitud logarítmica normal en su máximo adopta una forma particularmente simple:

\log {\Bigl (}{\mathcal {L}}({\widehat {\mu }},{\widehat {\sigma }}){\Bigr )}={\frac {\,-n\;\;}{2}}{\bigl (}\,\log(2\pi {\widehat {\sigma }}^{2})+1\,{\bigr )}

Se puede demostrar que esta máxima verosimilitud logarítmica es la misma para mínimos cuadrados más generales , incluso para mínimos cuadrados no lineales . Esto se utiliza a menudo para determinar intervalos de confianza aproximados basados en la verosimilitud y regiones de confianza , que generalmente son más precisos que los que utilizan la normalidad asintótica analizada anteriormente.

Variables no independientes

Puede darse el caso de que las variables estén correlacionadas, es decir, no sean independientes. Dos variables aleatorias y son independientes solo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir $y_{1}$ $y_{2}$

f(y_{1},y_{2})=f(y_{1})f(y_{2})\,

Supongamos que se construye un vector gaussiano de orden n a partir de variables aleatorias , donde cada variable tiene medias dadas por . Además, sea la matriz de covarianza denotada por . La función de densidad de probabilidad conjunta de estas n variables aleatorias sigue entonces una distribución normal multivariada dada por: $(y_{1},\ldots ,y_{n})$ $(\mu _{1},\ldots ,\mu _{n})$ ${\mathit {\Sigma }}$

f(y_{1},\ldots ,y_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {\det({\mathit {\Sigma }})}}}}\exp \left(-{\frac {1}{2}}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]{\mathit {\Sigma }}^{-1}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]^{\mathrm {T} }\right)

En el caso bivariado , la función de densidad de probabilidad conjunta viene dada por:

f(y_{1},y_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(y_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}-{\frac {2\rho (y_{1}-\mu _{1})(y_{2}-\mu _{2})}{\sigma _{1}\sigma _{2}}}+{\frac {(y_{2}-\mu _{2})^{2}}{\sigma _{2}^{2}}}\right)\right]

En este y otros casos donde existe una función de densidad conjunta, la función de verosimilitud se define como anteriormente, en la sección " principios ", utilizando esta densidad.

Ejemplo

$X_{1},\ X_{2},\ldots ,\ X_{m}$ son los recuentos en celdas/casillas de 1 a m; cada casilla tiene una probabilidad diferente (piense en que las casillas son más grandes o más pequeñas) y fijamos la cantidad de bolas que caen en : . La probabilidad de cada casilla es , con una restricción: . Este es un caso en el que las s no son independientes, la probabilidad conjunta de un vector se llama multinomial y tiene la forma: $n$ $x_{1}+x_{2}+\cdots +x_{m}=n$ $p_{i}$ $p_{1}+p_{2}+\cdots +p_{m}=1$ $X_{i}$ $x_{1},\ x_{2},\ldots ,x_{m}$

f(x_{1},x_{2},\ldots ,x_{m}\mid p_{1},p_{2},\ldots ,p_{m})={\frac {n!}{\prod x_{i}!}}\prod p_{i}^{x_{i}}={\binom {n}{x_{1},x_{2},\ldots ,x_{m}}}p_{1}^{x_{1}}p_{2}^{x_{2}}\cdots p_{m}^{x_{m}}

Cada casilla tomada por separado contra todas las demás casillas es un binomio y este es una extensión del mismo.

La probabilidad logarítmica de esto es:

\ell (p_{1},p_{2},\ldots ,p_{m})=\log n!-\sum _{i=1}^{m}\log x_{i}!+\sum _{i=1}^{m}x_{i}\log p_{i}

Hay que tener en cuenta la restricción y utilizar los multiplicadores de Lagrange:

L(p_{1},p_{2},\ldots ,p_{m},\lambda )=\ell (p_{1},p_{2},\ldots ,p_{m})+\lambda \left(1-\sum _{i=1}^{m}p_{i}\right)

Al plantear que todas las derivadas son 0, se obtiene la estimación más natural

{\hat {p}}_{i}={\frac {x_{i}}{n}}

Maximizar la verosimilitud logarítmica, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que usar procedimientos iterativos.

Procedimientos iterativos

Salvo casos especiales, las ecuaciones de probabilidad

{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}=0

no se pueden resolver explícitamente para un estimador . En cambio, deben resolverse iterativamente : a partir de una estimación inicial de (por ejemplo ), se busca obtener una secuencia convergente . Hay muchos métodos disponibles para este tipo de problema de optimización , ^[26]^[27] pero los más utilizados son algoritmos basados en una fórmula de actualización de la forma ${\widehat {\theta }}={\widehat {\theta }}(\mathbf {y} )$ $\theta$ ${\widehat {\theta }}_{1}$ $\left\{{\widehat {\theta }}_{r}\right\}$

{\widehat {\theta }}_{r+1}={\widehat {\theta }}_{r}+\eta _{r}\mathbf {d} _{r}\left({\widehat {\theta }}\right)

donde el vector indica la dirección de descenso del "paso" r ésimo, y el escalar captura la "longitud del paso", ^[28]^[29] también conocida como tasa de aprendizaje . ^[30] $\mathbf {d} _{r}\left({\widehat {\theta }}\right)$ $\eta _{r}$

Descenso de gradientemétodo

(Nota: aquí se trata de un problema de maximización, por lo que el signo antes del gradiente está invertido)

\eta _{r}\in \mathbb {R} ^{+}

que sea lo suficientemente pequeño para la convergencia y

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=\nabla \ell \left({\widehat {\theta }}_{r};\mathbf {y} \right)

El método de descenso de gradiente requiere calcular el gradiente en la iteración r-ésima, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz hessiana. Por lo tanto, es computacionalmente más rápido que el método de Newton-Raphson.

Método de Newton-Raphson

\eta _{r}=1

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)\mathbf {s} _{r}\left({\widehat {\theta }}\right)

donde es la puntuación y es la inversa de la matriz hessiana de la función de log-verosimilitud, ambas evaluaron la iteración r . ^[31]^[32] Pero debido a que el cálculo de la matriz hessiana es computacionalmente costoso , se han propuesto numerosas alternativas. El popular algoritmo Berndt-Hall-Hall-Hausman aproxima la matriz hessiana con el producto externo del gradiente esperado, de modo que $\mathbf {s} _{r}({\widehat {\theta }})$ $\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)$

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\left[{\frac {1}{n}}\sum _{t=1}^{n}{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\left({\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\right)^{\mathsf {T}}\right]^{-1}\mathbf {s} _{r}\left({\widehat {\theta }}\right)

Métodos cuasi-newtonianos

Otros métodos cuasi-Newton utilizan actualizaciones secantes más elaboradas para dar una aproximación de la matriz hessiana.

Fórmula de Davidon-Fletcher-Powell

La fórmula DFP encuentra una solución que es simétrica, definida positiva y más cercana al valor aproximado actual de la derivada de segundo orden:

\mathbf {H} _{k+1}=\left(I-\gamma _{k}y_{k}s_{k}^{\mathsf {T}}\right)\mathbf {H} _{k}\left(I-\gamma _{k}s_{k}y_{k}^{\mathsf {T}}\right)+\gamma _{k}y_{k}y_{k}^{\mathsf {T}},

dónde

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

\gamma _{k}={\frac {1}{y_{k}^{T}s_{k}}},

s_{k}=x_{k+1}-x_{k}.

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno

BFGS también proporciona una solución que es simétrica y definida positiva:

B_{k+1}=B_{k}+{\frac {y_{k}y_{k}^{\mathsf {T}}}{y_{k}^{\mathsf {T}}s_{k}}}-{\frac {B_{k}s_{k}s_{k}^{\mathsf {T}}B_{k}^{\mathsf {T}}}{s_{k}^{\mathsf {T}}B_{k}s_{k}}}\ ,

dónde

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

s_{k}=x_{k+1}-x_{k}.

No se garantiza que el método BFGS converja a menos que la función tenga una expansión de Taylor cuadrática cercana a un óptimo. Sin embargo, BFGS puede tener un rendimiento aceptable incluso para casos de optimización no uniforme

Puntuación de Fisher

Otro método popular es reemplazar la matriz de información de Fisher por la matriz de Hessian , lo que nos da el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como los modelos lineales generalizados . ${\mathcal {I}}(\theta )=\operatorname {\mathbb {E} } \left[\mathbf {H} _{r}\left({\widehat {\theta }}\right)\right]$

Aunque son populares, los métodos cuasi-Newton pueden converger a un punto estacionario que no es necesariamente un máximo local o global, ^[33] sino más bien un mínimo local o un punto de silla . Por lo tanto, es importante evaluar la validez de la solución obtenida para las ecuaciones de verosimilitud, verificando que la hessiana, evaluada en la solución, sea definida negativa y bien condicionada . ^[34]

Historia

Entre los primeros usuarios del método de máxima verosimilitud se encuentran Carl Friedrich Gauss , Pierre-Simon Laplace , Thorvald N. Thiele y Francis Ysidro Edgeworth . ^[35]^[36] Sin embargo, fue Ronald Fisher , entre 1912 y 1922, quien creó por sí solo la versión moderna del método. ^[37]^[38]

La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una prueba publicada por Samuel S. Wilks en 1938, ahora llamada teorema de Wilks . ^[39] El teorema muestra que el error en el logaritmo de los valores de verosimilitud para estimaciones a partir de múltiples observaciones independientes se distribuye asintóticamente χ 2 , lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la prueba de Wilks depende del valor esperado de la matriz de información de Fisher , que es proporcionada por un teorema probado por Fisher. ^[40] Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, con su prueba más general publicada en 1962. ^[41]

Varios autores han proporcionado revisiones del desarrollo de la estimación de máxima verosimilitud. ^[42]^[43]^[44]^[45]^[46]^[47]^[48]^[49]

Véase también

Conceptos relacionados

Criterio de información de Akaike : un criterio para comparar modelos estadísticos, basado en MLE
Estimador de extremo : una clase más general de estimadores a la que pertenece MLE
Información de Fisher : matriz de información, su relación con la matriz de covarianza de las estimaciones de ML
Error cuadrático medio : una medida de lo "bueno" que es un estimador de un parámetro de distribución (ya sea el estimador de máxima verosimilitud o algún otro estimador)
RANSAC : un método para estimar parámetros de un modelo matemático dados datos que contienen valores atípicos
Teorema de Rao-Blackwell : produce un proceso para encontrar el mejor estimador imparcial posible (en el sentido de tener un error cuadrático medio mínimo ); el MLE suele ser un buen punto de partida para el proceso
Teorema de Wilks : proporciona un medio para estimar el tamaño y la forma de la región de estimaciones aproximadamente igualmente probables para los valores de los parámetros de la población, utilizando la información de una sola muestra, utilizando una distribución de chi-cuadrado.

Otros métodos de estimación

Método generalizado de momentos : métodos relacionados con la ecuación de verosimilitud en la estimación de máxima verosimilitud
Estimador M : un enfoque utilizado en estadísticas robustas
Estimador máximo a posteriori (MAP): para contrastar la forma de calcular estimadores cuando se postula conocimiento previo
Estimación del espaciado máximo : un método relacionado que es más robusto en muchas situaciones
Estimación de entropía máxima
Método de momentos (estadística) : otro método popular para encontrar parámetros de distribuciones.
Método de apoyo , una variación de la técnica de máxima verosimilitud
Estimación de la distancia mínima
Métodos de verosimilitud parcial para datos de panel
Estimador de máxima verosimilitud cuasi : un estimador de máxima verosimilitud que está mal especificado, pero que sigue siendo consistente
Máxima verosimilitud restringida : una variación que utiliza una función de verosimilitud calculada a partir de un conjunto de datos transformados

Referencias

^ Rossi, Richard J. (2018). Estadística matemática: una introducción a la inferencia basada en la verosimilitud . Nueva York: John Wiley & Sons. p. 227. ISBN 978-1-118-77104-4.
^ Hendry, David F .; Nielsen, Bent (2007). Modelado econométrico: un enfoque de verosimilitud . Princeton: Princeton University Press. ISBN 978-0-691-13128-3.
^ Chambers, Raymond L.; Steel, David G.; Wang, Suojin; Welsh, Alan (2012). Estimación de máxima verosimilitud para encuestas por muestreo . Boca Raton: CRC Press. ISBN 978-1-58488-632-7.
^ Ward, Michael Don ; Ahlquist, John S. (2018). Máxima verosimilitud para las ciencias sociales: estrategias para el análisis . Nueva York: Cambridge University Press. ISBN 978-1-107-18582-1.
^ Press, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). "Mínimos cuadrados como estimador de máxima verosimilitud". Recetas numéricas en FORTRAN: el arte de la computación científica (2.ª ed.). Cambridge: Cambridge University Press. págs. 651–655. ISBN 0-521-43064-X.
^ Myung, IJ (2003). "Tutorial sobre estimación de máxima verosimilitud". Revista de Psicología Matemática . 47 (1): 90–100. doi :10.1016/S0022-2496(02)00028-7.
^ Gourieroux, Christian; Monfort, Alain (1995). Modelos estadísticos y econométricos . Cambridge University Press. pág. 161. ISBN 0-521-40551-3.
^ Kane, Edward J. (1968). Estadísticas económicas y econometría . Nueva York, NY: Harper & Row. pág. 179.
^ Small, Christoper G.; Wang, Jinfang (2003). "Trabajar con raíces". Métodos numéricos para ecuaciones de estimación no lineales . Oxford University Press. págs. 74–124. ISBN 0-19-850688-0.
^ Kass, Robert E.; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica. Nueva York, NY: John Wiley & Sons. p. 14. ISBN 0-471-82668-5.
^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log() antes de la función de densidad de probabilidad conjunta cuando usamos MLE (estimación de máxima verosimilitud)?". Stack Exchange .
^ ab Silvey, SD (1975). Inferencia estadística. Londres, Reino Unido: Chapman and Hall. pág. 79. ISBN 0-412-13820-4.
^ Olive, David (2004). "¿El modelo de probabilidad máxima maximiza la probabilidad?" (PDF) . Southern Illinois University .
^ Schwallie, Daniel P. (1985). "Estimadores de covarianza de máxima verosimilitud definidos positivos". Economics Letters . 17 (1–2): 115–117. doi :10.1016/0165-1765(85)90139-9.
^ Magnus, Jan R. (2017). Introducción a la teoría de la econometría . Ámsterdam: VU University Press. pp. 64–65. ISBN 978-90-8659-766-6.
^ Pfanzagl (1994, pág. 206)
^ Por el teorema 2.5 en Newey, Whitney K.; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y prueba de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Handbook of Econometrics, vol. 4. Elsevier Science. págs. 2111–2245. ISBN 978-0-444-88766-5.
^ ab Por el teorema 3.3 en Newey, Whitney K.; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y prueba de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Handbook of Econometrics, vol. 4. Elsevier Science. págs. 2111–2245. ISBN 978-0-444-88766-5.
^ Zacks, Shelemyahu (1971). La teoría de la inferencia estadística . Nueva York: John Wiley & Sons. pág. 223. ISBN 0-471-98103-6.
^ Véase la fórmula 20 en Cox, David R. ; Snell, E. Joyce (1968). "Una definición general de residuos". Journal of the Royal Statistical Society, Serie B . 30 (2): 248–275. JSTOR 2984505.
^ Kano, Yutaka (1996). "La eficiencia de tercer orden implica una eficiencia de cuarto orden". Revista de la Sociedad Japonesa de Estadística . 26 : 101–117. doi : 10.14490/jjss1995.26.101 .
^ Christensen, Henrikt I. "Reconocimiento de patrones" (PDF) (conferencia). Teoría de la decisión bayesiana - CS 7616. Georgia Tech.
^ cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96), divergencia de Kullback–Leibler, URL (versión: 2017-11-18): https://stats.stackexchange.com/q/314472 (en el video de YouTube, mira los minutos 13 a 25)
^ Introducción a la inferencia estadística | Stanford (Clase 16 — MLE bajo especificación incorrecta del modelo)
^ Sycorax dice que hay que restablecer a Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), la relación entre maximizar la probabilidad y minimizar la entropía cruzada, URL (versión: 2019-11-06): https://stats.stackexchange.com/q/364237
^ Fletcher, R. (1987). Métodos prácticos de optimización (segunda edición). Nueva York, NY: John Wiley & Sons. ISBN 0-471-91547-5.
^ Nocedal, Jorge ; Wright, Stephen J. (2006). Optimización numérica (segunda edición). Nueva York, NY: Springer. ISBN 0-387-30303-0.
^ Daganzo, Carlos (1979). Probit multinomial: la teoría y su aplicación a la previsión de la demanda . Nueva York: Academic Press. pp. 61–78. ISBN 0-12-201150-3.
^ Gould, William; Pitblado, Jeffrey; Poi, Brian (2010). Estimación de máxima verosimilitud con Stata (cuarta edición). College Station: Stata Press. pp. 13–20. ISBN 978-1-59718-078-8.
^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística. Cambridge: MIT Press. pág. 247. ISBN 978-0-262-01802-9.
^ Amemiya, Takeshi (1985). Econometría avanzada. Cambridge: Harvard University Press. págs. 137-138. ISBN 0-674-00560-0.
^ Sargan, Denis (1988). "Métodos de optimización numérica". Apuntes de clase sobre teoría econométrica avanzada . Oxford: Basil Blackwell. pp. 161–169. ISBN 0-631-14956-2.
^ Véase el teorema 10.1 en Avriel, Mordecai (1976). Programación no lineal: análisis y métodos. Englewood Cliffs, NJ: Prentice-Hall. pp. 293–294. ISBN 978-0-486-43227-4.
^ Gill, Philip E.; Murray, Walter; Wright, Margaret H. (1981). Optimización práctica . Londres, Reino Unido: Academic Press. págs. 312-313. ISBN. 0-12-283950-1.
^ Edgeworth, Francis Y. (septiembre de 1908). "Sobre los errores probables de las constantes de frecuencia". Journal of the Royal Statistical Society . 71 (3): 499–512. doi :10.2307/2339293. JSTOR 2339293.
^ Edgeworth, Francis Y. (diciembre de 1908). "Sobre los errores probables de las constantes de frecuencia". Journal of the Royal Statistical Society . 71 (4): 651–678. doi :10.2307/2339378. JSTOR 2339378.
^ Pfanzagl, Johann (1994). Teoría estadística paramétrica . Walter de Gruyter . págs. 207-208. doi :10.1515/9783110889765. ISBN 978-3-11-013863-4.Señor 1291393 .
^ Hald, Anders (1999). "Sobre la historia de la máxima verosimilitud en relación con la probabilidad inversa y los mínimos cuadrados". Ciencia estadística . 14 (2): 214–222. ISSN 0883-4237.
^ Wilks, SS (1938). "La distribución de muestras grandes de la razón de verosimilitud para probar hipótesis compuestas". Anales de estadística matemática . 9 : 60–62. doi : 10.1214/aoms/1177732360 .
^ Owen, Art B. (2001). Probabilidad empírica . Londres, Reino Unido; Boca Raton, FL: Chapman & Hall; CRC Press. ISBN 978-1-58488-071-4.
^ Wilks, Samuel S. (1962). Estadística matemática . Nueva York, NY: John Wiley & Sons. ISBN 978-0-471-94650-2.
^ Savage, Leonard J. (1976). "Sobre la relectura de RA Fisher". Anales de Estadística . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.
^ Pratt, John W. (1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud". Anales de estadística . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.
^ Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, estadístico". Revista de la Royal Statistical Society, Serie A . 141 (3): 287–322. doi :10.2307/2344804. JSTOR 2344804.
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. ISBN 978-0-674-40340-6.
^ Stigler, Stephen M. (1999). Estadísticas sobre la mesa: la historia de los conceptos y métodos estadísticos . Harvard University Press. ISBN 978-0-674-83601-3.
^ Hald, Anders (1998). Una historia de la estadística matemática desde 1750 hasta 1930. Nueva York, NY: Wiley. ISBN 978-0-471-17912-2.
^ Hald, Anders (1999). "Sobre la historia de la máxima verosimilitud en relación con la probabilidad inversa y los mínimos cuadrados". Ciencia estadística . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
^ Aldrich, John (1997). "RA Fisher y la creación de la máxima verosimilitud 1912-1922". Ciencia estadística . 12 (3): 162-176. doi : 10.1214/ss/1030037906 . MR 1617519.

Lectura adicional

Cramer, JS (1986). Aplicaciones econométricas de los métodos de máxima verosimilitud. Nueva York, NY: Cambridge University Press. ISBN 0-521-25317-9.
Eliason, Scott R. (1993). Estimación de máxima verosimilitud: lógica y práctica . Newbury Park: Sage. ISBN 0-8039-4107-2.
King, Gary (1989). Metodología política unificadora: la teoría de la verosimilitud de la inferencia estadística . Cambridge University Press. ISBN 0-521-36697-6.
Le Cam, Lucien (1990). "Máxima verosimilitud: una introducción". ISI Review . 58 (2): 153–171. doi :10.2307/1403464. JSTOR 1403464.
Magnus, Jan R. (2017). "Máxima verosimilitud". Introducción a la teoría de la econometría . Ámsterdam, Países Bajos: VU University Press. pp. 53–68. ISBN 978-90-8659-766-6.
Millar, Russell B. (2011). Estimación e inferencia de máxima verosimilitud . Hoboken, NJ: Wiley. ISBN 978-0-470-09482-2.
Pickles, Andrew (1986). Introducción al análisis de verosimilitud . Norwich: WH Hutchins & Sons. ISBN 0-86094-190-6.
Severini, Thomas A. (2000). Métodos de verosimilitud en estadística . Nueva York, NY: Oxford University Press. ISBN 0-19-850650-3.
Ward, Michael D .; Ahlquist, John S. (2018). Máxima verosimilitud para las ciencias sociales: estrategias para el análisis . Cambridge University Press. ISBN 978-1-316-63682-4.

Enlaces externos

Tilevik, Andreas (2022). Máxima verosimilitud frente a mínimos cuadrados en regresión lineal (vídeo)
"Método de máxima verosimilitud", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Purcell, S. "Estimación de máxima verosimilitud".
Sargent, Thomas ; Stachurski, John. "Estimación de máxima verosimilitud". Economía cuantitativa con Python .
Toomet, Ott; Henningsen, Arne (19 de mayo de 2019). "maxLik: un paquete para estimación de máxima verosimilitud en R".
Lesser, Lawrence M. (2007). "Letra de la canción 'MLE'". Ciencias Matemáticas / Facultad de Ciencias. Universidad de Texas . El Paso, TX . Consultado el 6 de marzo de 2021 .