stringtranslate.com

Estimación de máxima verosimilitud

En estadística , la estimación de máxima verosimilitud ( MLE ) es un método para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Esto se logra maximizando una función de verosimilitud de modo que, según el modelo estadístico supuesto , los datos observados sean los más probables. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. [1] La lógica de máxima verosimilitud es intuitiva y flexible y, como tal, el método se ha convertido en un medio dominante de inferencia estadística . [2] [3] [4]

Si la función de verosimilitud es diferenciable , se puede aplicar la prueba de la derivada para encontrar máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud pueden resolverse analíticamente; por ejemplo, el estimador de mínimos cuadrados ordinarios para un modelo de regresión lineal maximiza la probabilidad cuando se supone que los errores aleatorios tienen distribuciones normales con la misma varianza. [5]

Desde la perspectiva de la inferencia bayesiana , MLE es generalmente equivalente a la estimación máxima a posteriori (MAP) con distribuciones previas uniformes (o una distribución previa normal con una desviación estándar infinita). En inferencia frecuentista , MLE es un caso especial de estimador extremo , siendo la función objetivo la probabilidad.

Principios

Modelamos un conjunto de observaciones como una muestra aleatoria a partir de una distribución de probabilidad conjunta desconocida que se expresa en términos de un conjunto de parámetros . El objetivo de la estimación de máxima verosimilitud es determinar los parámetros para los cuales los datos observados tienen la mayor probabilidad conjunta. Escribimos los parámetros que gobiernan la distribución conjunta como un vector para que esta distribución caiga dentro de una familia paramétrica donde se llama espacio de parámetros , un subconjunto de dimensión finita del espacio euclidiano . La evaluación de la densidad conjunta en la muestra de datos observada proporciona una función de valor real,

que se llama función de verosimilitud . Para variables aleatorias independientes e idénticamente distribuidas , será el producto de funciones de densidad univariadas :

El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud en el espacio de parámetros, [6] es decir

De manera intuitiva, esto selecciona los valores de los parámetros que hacen que los datos observados sean más probables. El valor específico que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. Además, si la función así definida es medible , entonces se denomina estimador de máxima verosimilitud . Generalmente es una función definida sobre el espacio muestral , es decir, tomando una muestra dada como argumento. Una condición suficiente, pero no necesaria, para su existencia es que la función de verosimilitud sea continua en un espacio de parámetros compacto . [7] Para una apertura, la función de probabilidad puede aumentar sin alcanzar nunca un valor supremo.

En la práctica, suele ser conveniente trabajar con el logaritmo natural de la función de verosimilitud, llamado log-verosimilitud :

Dado que el logaritmo es una función monótona , el máximo de ocurre en el mismo valor de que el máximo de [8] Si es derivable en las condiciones necesarias para que ocurra un máximo (o un mínimo) son

conocidas como ecuaciones de probabilidad. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente pero, en general, no se conoce ni está disponible ninguna solución de forma cerrada para el problema de maximización, y un MLE solo se puede encontrar mediante optimización numérica . Otro problema es que en muestras finitas pueden existir múltiples raíces para las ecuaciones de probabilidad. [9] Si la raíz identificada de las ecuaciones de probabilidad es realmente un máximo (local) depende de si la matriz de derivadas parciales y parciales cruzadas de segundo orden, la llamada matriz de Hesse

es semidefinido negativo en , ya que esto indica concavidad local . Convenientemente, las distribuciones de probabilidad más comunes (en particular la familia exponencial ) son logarítmicamente cóncavas . [10] [11]

Espacio de parámetros restringido

Si bien el dominio de la función de verosimilitud (el espacio de parámetros ) es generalmente un subconjunto de dimensión finita del espacio euclidiano , a veces es necesario incorporar restricciones adicionales al proceso de estimación. El espacio de parámetros se puede expresar como

¿ Dónde se asigna una función con valores vectoriales? Estimar el parámetro verdadero que pertenece a entonces, como cuestión práctica, significa encontrar el máximo de la función de verosimilitud sujeta a la restricción.

Teóricamente, el enfoque más natural para este problema de optimización restringida es el método de sustitución, es decir, "completar" las restricciones de un conjunto de tal manera que sea una función uno a uno de sí mismo y repararmetrizar la función de verosimilitud. estableciendo [12] Debido a la equivarianza del estimador de máxima verosimilitud, las propiedades del MLE se aplican también a las estimaciones restringidas. [13] Por ejemplo, en una distribución normal multivariada la matriz de covarianza debe ser definida positiva ; esta restricción se puede imponer reemplazando donde es una matriz triangular superior real y es su transpuesta . [14]

En la práctica, las restricciones generalmente se imponen utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a ecuaciones de verosimilitud restringidas.

y

donde es un vector columna de multiplicadores de Lagrange y es la matriz jacobiana k × r de derivadas parciales. [12] Naturalmente, si las restricciones no son vinculantes al máximo, los multiplicadores de Lagrange deberían ser cero. [15] Esto a su vez permite realizar una prueba estadística de la "validez" de la restricción, conocida como prueba del multiplicador de Lagrange .

Estimación no paramétrica de máxima verosimilitud

La estimación no paramétrica de máxima verosimilitud se puede realizar utilizando la verosimilitud empírica .

Propiedades

Un estimador de máxima verosimilitud es un estimador extremo obtenido maximizando, en función de θ , la función objetivo . Si los datos son independientes y están distribuidos idénticamente , entonces tenemos

siendo este el análogo muestral de la probabilidad logarítmica esperada , donde esta expectativa se toma con respecto a la densidad real.

Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración alrededor del verdadero valor del parámetro. [16] Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de propiedades limitantes atractivas : a medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:

Consistencia

Bajo las condiciones que se describen a continuación, el estimador de máxima verosimilitud es consistente . La coherencia significa que si los datos fueron generados por y tenemos un número suficientemente grande de observaciones n , entonces es posible encontrar el valor de θ 0 con precisión arbitraria. En términos matemáticos, esto significa que cuando n tiende a infinito, el estimador converge en probabilidad a su valor verdadero:

En condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente ):

En aplicaciones prácticas, los datos nunca son generados por . Más bien, es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en estadística que todos los modelos están equivocados . Por tanto, la verdadera coherencia no se produce en las aplicaciones prácticas. Sin embargo, a menudo se considera que la coherencia es una propiedad deseable para un estimador.

Para establecer coherencia, las siguientes condiciones son suficientes. [17]

  1. Identificación del modelo:

    En otras palabras, diferentes valores de parámetros θ corresponden a diferentes distribuciones dentro del modelo. Si esta condición no se cumpliera, habría algún valor θ 1 tal que θ 0 y θ 1 generen una distribución idéntica de los datos observables. Entonces no seríamos capaces de distinguir entre estos dos parámetros ni siquiera con una cantidad infinita de datos; estos parámetros habrían sido observacionalmente equivalentes .

    La condición de identificación es absolutamente necesaria para que el estimador ML sea consistente. Cuando se cumple esta condición, la función de verosimilitud límite ( θ |·) tiene un máximo global único en θ 0 .
  2. Compacidad: el espacio de parámetros Θ del modelo es compacto .

    La condición de identificación establece que el logaritmo de verosimilitud tiene un máximo global único. La compacidad implica que la probabilidad no puede acercarse arbitrariamente al valor máximo en algún otro punto (como se demuestra, por ejemplo, en la imagen de la derecha).

    La compacidad es sólo una condición suficiente y no una condición necesaria. La compacidad puede ser reemplazada por algunas otras condiciones, tales como:

    • tanto la concavidad de la función de probabilidad logarítmica como la compacidad de algunos conjuntos de nivel superior (no vacíos) de la función de verosimilitud logarítmica, o
    • existencia de una vecindad compacta N de θ 0 tal que fuera de N la función de probabilidad logarítmica sea menor que el máximo en al menos algún ε > 0 .
  3. Continuidad: la función ln f ( x  |  θ ) es continua en θ para casi todos los valores de x :
    La continuidad aquí se puede reemplazar con una condición ligeramente más débil de semicontinuidad superior .
  4. Dominancia: existe D ( x ) integrable respecto de la distribución f ( x  |  θ 0 ) tal que
    Por la ley uniforme de los números grandes , la condición de dominancia junto con la continuidad establecen la convergencia uniforme en la probabilidad de la probabilidad logarítmica:

La condición de dominancia se puede emplear en el caso de observaciones iid . En el caso no iid, la convergencia uniforme en probabilidad se puede verificar mostrando que la secuencia es estocásticamente equicontinua . Si se quiere demostrar que el estimador ML converge casi con seguridad a θ 0 , entonces es casi seguro que se debe imponer una condición más fuerte de convergencia uniforme:

Además, si (como se asumió anteriormente) los datos fueron generados por , entonces, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Específicamente, [18]

donde I es la matriz de información de Fisher .

Invariancia funcional

El estimador de máxima verosimilitud selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consta de varios componentes, entonces definimos sus estimadores de máxima verosimilitud separados, como el componente correspondiente del MLE del parámetro completo. De acuerdo con esto, si es el MLE para y si hay alguna transformación de , entonces el MLE para es por definición [19]

Maximiza la llamada probabilidad del perfil :

El MLE también es equivariante con respecto a determinadas transformaciones de los datos. Si donde es uno a uno y no depende de los parámetros a estimar, entonces las funciones de densidad satisfacen

y por tanto las funciones de verosimilitud para y difieren sólo por un factor que no depende de los parámetros del modelo.

Por ejemplo, los parámetros MLE de la distribución log-normal son los mismos que los de la distribución normal ajustada al logaritmo de los datos.

Eficiencia

Como se asumió anteriormente, si los datos se generaron para entonces bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Es n -consistente y asintóticamente eficiente, lo que significa que alcanza el límite de Cramér-Rao . Específicamente, [18] 

¿Dónde está la matriz de información de Fisher ?

En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden1/norte .

Eficiencia de segundo orden después de la corrección por sesgo

Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que θ mle tiene un sesgo de orden 1n . Este sesgo es igual a (por componentes) [20]

donde (con superíndices) denota el ( j,k )-ésimo componente de la matriz de información de Fisher inversa , y

Usando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:

Este estimador es insesgado hasta los términos del pedido.1/norte, y se denomina estimador de máxima verosimilitud corregido por sesgo .

Este estimador con corrección de sesgo es eficiente de segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores con corrección de sesgo de segundo orden, hasta los términos del orden1/norte 2 . Es posible continuar con este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente de tercer orden. [21]

Relación con la inferencia bayesiana

Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme de los parámetros . De hecho, la estimación máxima a posteriori es el parámetro θ que maximiza la probabilidad de θ dados los datos, dado por el teorema de Bayes:

donde está la distribución previa para el parámetro θ y donde está la probabilidad de que los datos promedien todos los parámetros. Dado que el denominador es independiente de θ , el estimador bayesiano se obtiene maximizando con respecto a θ . Si asumimos además que la distribución anterior es uniforme, el estimador bayesiano se obtiene maximizando la función de verosimilitud . Así, el estimador bayesiano coincide con el estimador de máxima verosimilitud para una distribución previa uniforme .

Aplicación de la estimación de máxima verosimilitud en la teoría de la decisión de Bayes

En muchas aplicaciones prácticas del aprendizaje automático , la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.

La teoría de la decisión bayesiana trata de diseñar un clasificador que minimice el riesgo total esperado, especialmente, cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución. [22]

Por lo tanto, la regla de decisión de Bayes se establece como

"decide si decide lo contrario "

donde están las predicciones de diferentes clases. Desde una perspectiva de minimizar el error, también se puede afirmar como

dónde

si decidimos y si decidimos

Aplicando el teorema de Bayes

,

y si asumimos además la función de pérdida cero o uno, que es la misma pérdida para todos los errores, la regla de Decisión de Bayes se puede reformular como:

donde está la predicción y es la probabilidad previa .

Relación con la minimización de la divergencia y la entropía cruzada de Kullback-Leibler

Encontrar que maximiza la probabilidad es asintóticamente equivalente a encontrar el que define una distribución de probabilidad ( ) que tiene una distancia mínima, en términos de divergencia Kullback-Leibler , a la distribución de probabilidad real a partir de la cual se generaron nuestros datos (es decir, generados por ). [23] En un mundo ideal, P y Q son iguales (y lo único que se desconoce es qué define a P), pero incluso si no lo son y el modelo que utilizamos está mal especificado, aún así el MLE nos dará el modelo "más cercano". distribución (dentro de la restricción de un modelo Q que depende de ) a la distribución real . [24]

Ejemplos

Distribución uniforme discreta

Considere un caso en el que se colocan n boletos numerados del 1 al n en una caja y se selecciona uno al azar ( ver distribución uniforme ); por lo tanto, el tamaño de la muestra es 1. Si se desconoce n , entonces el estimador de máxima verosimilitud de n es el número m en el billete extraído. (La probabilidad es 0 para n  <  m , 1n para n  ≥  m , y esto es mayor cuando n  =  m . Tenga en cuenta que la estimación de máxima verosimilitud de n ocurre en el extremo inferior de los valores posibles { mm  + 1, ...}, en lugar de en algún lugar en el "medio" del rango de valores posibles, lo que daría como resultado un menor sesgo). El valor esperado del número m en el billete extraído y, por lo tanto, el valor esperado de , es ( n  + 1)/2. Como resultado, con un tamaño de muestra de 1, el estimador de máxima verosimilitud para n subestimará sistemáticamente n en ( n  − 1)/2.

Distribución discreta, espacio de parámetros finito.

Supongamos que uno desea determinar qué tan sesgada está una moneda injusta . Llame p a la probabilidad de lanzar una ' cara ' . El objetivo entonces es determinar p .

Supongamos que se lanza la moneda 80 veces: es decir, la muestra podría ser algo así como x 1  = H, x 2  = T, ..., x 80 = T, y se observa  el recuento del número de caras "H".

La probabilidad de lanzar cruz es 1 −  p (por lo que aquí p es θ arriba). Supongamos que el resultado es 49 caras y 31  cruces , y supongamos que la moneda se tomó de una caja que contiene tres monedas: una que da cara con probabilidad p  =  13 , otra que da cara con probabilidad p  =  12 y otra que da cara con probabilidad p  =  23 . Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Utilizando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos observados. Al utilizar la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80 y un número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la función de probabilidad (definida a continuación) toma uno de tres valores:

La probabilidad se maximiza cuando p  =  23 , por lo que esta es la estimación de máxima verosimilitud para  p .

Distribución discreta, espacio de parámetros continuo.

Ahora supongamos que solo hubiera una moneda pero su p podría haber tenido cualquier valor 0 ≤ p ≤ 1. La función de probabilidad a maximizar es

y la maximización es sobre todos los valores posibles 0 ≤ p ≤ 1 .

Función de verosimilitud para el valor de proporción de un proceso binomial ( n  = 10)

Una forma de maximizar esta función es derivando con respecto a p y estableciendo en cero:

Este es un producto de tres términos. El primer término es 0 cuando p  = 0. El segundo es 0 cuando p  = 1. El tercero es cero cuando p  =  4980 . La solución que maximiza la probabilidad es claramente p  =  4980 (ya que p  = 0 y p  = 1 dan como resultado una probabilidad de 0). Por tanto, el estimador de máxima verosimilitud para p es 4980 .

Este resultado se generaliza fácilmente sustituyendo una letra como s en lugar de 49 para representar el número observado de "éxitos" de nuestros ensayos de Bernoulli , y una letra como n en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce sn, que es el estimador de máxima verosimilitud para cualquier secuencia de n ensayos de Bernoulli que resulten en s 'éxitos'.

Distribución continua, espacio de parámetros continuo.

Para la distribución normal que tiene función de densidad de probabilidad.

la función de densidad de probabilidad correspondiente para una muestra de n variables aleatorias normales independientes distribuidas idénticamente (la probabilidad) es

Esta familia de distribuciones tiene dos parámetros: θ  = ( μσ ) ; por lo que maximizamos la probabilidad, sobre ambos parámetros simultáneamente o, si es posible, individualmente.

Dado que la función logaritmo en sí es una función continua estrictamente creciente en el rango de probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (la probabilidad logarítmica en sí no necesariamente aumenta estrictamente). La probabilidad logarítmica se puede escribir de la siguiente manera:

(Nota: la probabilidad logarítmica está estrechamente relacionada con la entropía de la información y la información de Fisher ).

Ahora calculamos las derivadas de esta probabilidad logarítmica de la siguiente manera.

¿Dónde está la media muestral ? Esto se soluciona mediante

De hecho, este es el máximo de la función, ya que es el único punto de inflexión en μ y la segunda derivada es estrictamente menor que cero. Su valor esperado es igual al parámetro μ de la distribución dada,

lo que significa que el estimador de máxima verosimilitud es insesgado.

De manera similar diferenciamos la probabilidad logarítmica con respecto a σ y la igualamos a cero:

que se resuelve por

Introduciendo la estimación obtenemos

Para calcular su valor esperado es conveniente reescribir la expresión en términos de variables aleatorias de media cero ( error estadístico ) . Expresar la estimación en estas variables produce

Simplificando la expresión anterior, utilizando los hechos que y , nos permite obtener

Esto significa que el estimador está sesgado para . También se puede demostrar que está sesgado a favor de , pero que ambos y son consistentes.

Formalmente decimos que el estimador de máxima verosimilitud para es

En este caso los MLE podrían obtenerse individualmente. En general, este puede no ser el caso y los MLE tendrían que obtenerse simultáneamente.

La probabilidad logarítmica normal en su máximo adopta una forma particularmente simple:

Se puede demostrar que esta máxima probabilidad logarítmica es la misma para mínimos cuadrados más generales , incluso para mínimos cuadrados no lineales . Esto se utiliza a menudo para determinar intervalos de confianza aproximados y regiones de confianza basados ​​en la probabilidad , que generalmente son más precisos que los que utilizan la normalidad asintótica analizada anteriormente.

Variables no independientes

Puede darse el caso de que las variables estén correlacionadas, es decir, no independientes. Dos variables aleatorias y son independientes sólo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir

Supongamos que uno construye un vector gaussiano de orden n a partir de variables aleatorias , donde cada variable tiene medias dadas por . Además, denotemos la matriz de covarianza por . La función de densidad de probabilidad conjunta de estas n variables aleatorias sigue una distribución normal multivariada dada por:

En el caso bivariado , la función de densidad de probabilidad conjunta viene dada por:

En este y otros casos donde existe una función de densidad conjunta, la función de probabilidad se define como arriba, en la sección " principios ", utilizando esta densidad.

Ejemplo

son recuentos en celdas/casillas 1 hasta m; cada caja tiene una probabilidad diferente (piense en que las cajas son más grandes o más pequeñas) y fijamos el número de bolas que caen en : . La probabilidad de cada casilla es , con una restricción: . Este es un caso en el que los s no son independientes, la probabilidad conjunta de un vector se llama multinomial y tiene la forma:

Cada casilla tomada por separado frente a todas las demás casillas es un binomio y esta es una extensión del mismo.

La probabilidad logarítmica de esto es:

Hay que tener en cuenta la restricción y utilizar los multiplicadores de Lagrange:

Al plantear que todas las derivadas son 0, se obtiene la estimación más natural

Maximizar la probabilidad logarítmica, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que utilizar procedimientos iterativos.

Procedimientos iterativos

Excepto en casos especiales, las ecuaciones de probabilidad

no se puede resolver explícitamente para un estimador . En cambio, deben resolverse de forma iterativa : a partir de una suposición inicial de (digamos ), se busca obtener una secuencia convergente . Hay muchos métodos disponibles para este tipo de problema de optimización , [26] [27] pero los más comúnmente utilizados son algoritmos basados ​​en una fórmula de actualización de la forma

donde el vector indica la dirección de descenso del r -ésimo "paso" y el escalar captura la "longitud del paso", [28] [29] también conocida como tasa de aprendizaje . [30]

Método de descenso de gradiente

(Nota: aquí se trata de un problema de maximización, por lo que se invierte el signo antes del gradiente)

que sea lo suficientemente pequeño para la convergencia y

El método de descenso de gradiente requiere calcular el gradiente en la iteración r, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz de Hesse. Por tanto, es computacionalmente más rápido que el método de Newton-Raphson.

Método de Newton-Raphson

y

donde es la puntuación y es la inversa de la matriz hessiana de la función de probabilidad logarítmica, ambas evaluaron la iteración r- ésima. [31] [32] Pero debido a que el cálculo de la matriz de Hesse es computacionalmente costoso , se han propuesto numerosas alternativas. El popular algoritmo Berndt-Hall-Hall-Hausman se aproxima al hessiano con el producto exterior del gradiente esperado, de modo que

Métodos cuasi-Newton

Otros métodos cuasi-Newton utilizan actualizaciones secantes más elaboradas para dar una aproximación de la matriz de Hesse.

Fórmula de Davidon-Fletcher-Powell

La fórmula DFP encuentra una solución que es simétrica, definida positiva y más cercana al valor aproximado actual de la derivada de segundo orden:

dónde

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno

BFGS también da una solución que es simétrica y definida positiva:

dónde

No se garantiza que el método BFGS converja a menos que la función tenga una expansión de Taylor cuadrática cerca de un óptimo. Sin embargo, BFGS puede tener un rendimiento aceptable incluso para instancias de optimización no fluidas.

puntuación de Fisher

Otro método popular es reemplazar el Hessian con la matriz de información de Fisher , dándonos el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como los modelos lineales generalizados .

Aunque son populares, los métodos cuasi-Newton pueden converger a un punto estacionario que no es necesariamente un máximo local o global, [33] sino más bien un mínimo local o un punto de silla . Por lo tanto, es importante evaluar la validez de la solución obtenida de las ecuaciones de verosimilitud, verificando que el hessiano, evaluado en la solución, sea definido negativo y esté bien condicionado . [34]

Historia

Ronald Fisher en 1913

Los primeros usuarios de máxima verosimilitud fueron Carl Friedrich Gauss , Pierre-Simon Laplace , Thorvald N. Thiele y Francis Ysidro Edgeworth . [35] [36] Sin embargo, su uso generalizado aumentó entre 1912 y 1922 cuando Ronald Fisher recomendó, popularizó ampliamente y analizó cuidadosamente la estimación de máxima verosimilitud (con intentos infructuosos de pruebas ). [37]

La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una prueba publicada por Samuel S. Wilks en 1938, ahora llamada teorema de Wilks . [38] El teorema muestra que el error en el logaritmo de los valores de probabilidad para estimaciones de múltiples observaciones independientes tiene una distribución asintótica χ  2 , lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la demostración de Wilks depende del valor esperado de la matriz de información de Fisher , que viene proporcionada por un teorema demostrado por Fisher. [39] Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, y su demostración más general se publicó en 1962. [40]

Varios autores han proporcionado reseñas del desarrollo de la estimación de máxima verosimilitud. [41] [42] [43] [44] [45] [46] [47] [48]

Ver también

Conceptos relacionados

Otros métodos de estimación

Referencias

  1. ^ Rossi, Richard J. (2018). Estadística matemática: una introducción a la inferencia basada en la probabilidad . Nueva York: John Wiley & Sons. pag. 227.ISBN​ 978-1-118-77104-4.
  2. ^ Hendry, David F .; Nielsen, doblado (2007). Modelado econométrico: un enfoque de probabilidad . Princeton: Prensa de la Universidad de Princeton. ISBN 978-0-691-13128-3.
  3. ^ Cámaras, Raymond L.; Acero, David G.; Wang, Suojin; Galés, Alan (2012). Estimación de máxima verosimilitud para encuestas por muestreo . Boca Ratón: CRC Press. ISBN 978-1-58488-632-7.
  4. ^ Sala, Michael Don ; Ahlquist, John S. (2018). Máxima verosimilitud para las ciencias sociales: estrategias de análisis . Nueva York: Cambridge University Press. ISBN 978-1-107-18582-1.
  5. ^ Prensa, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). "Mínimos cuadrados como estimador de máxima verosimilitud". Recetas numéricas en FORTRAN: el arte de la informática científica (2ª ed.). Cambridge: Prensa de la Universidad de Cambridge. págs. 651–655. ISBN 0-521-43064-X.
  6. ^ Myung, IJ (2003). "Tutorial sobre Estimación de máxima verosimilitud". Revista de Psicología Matemática . 47 (1): 90-100. doi :10.1016/S0022-2496(02)00028-7.
  7. ^ Gourieroux, cristiano; Monfort, Alain (1995). Modelos Estadísticos y Econométricos . Prensa de la Universidad de Cambridge. pag. 161.ISBN 0-521-40551-3.
  8. ^ Kane, Edward J. (1968). Estadística Económica y Econometría . Nueva York, Nueva York: Harper & Row. pag. 179.
  9. ^ Pequeño, Christopher G.; Wang, Jinfang (2003). "Trabajando con raíces". Métodos numéricos para ecuaciones de estimación no lineales . Prensa de la Universidad de Oxford. págs. 74-124. ISBN 0-19-850688-0.
  10. ^ Kass, Robert E.; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica. Nueva York, Nueva York: John Wiley & Sons. pag. 14.ISBN 0-471-82668-5.
  11. ^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log() antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?". Intercambio de pila .
  12. ^ ab Silvey, SD (1975). Inferencia estadística. Londres, Reino Unido: Chapman y Hall. pag. 79.ISBN 0-412-13820-4.
  13. ^ Oliva, David (2004). "¿El MLE maximiza la probabilidad?" (PDF) . Universidad del Sur de Illinois .
  14. ^ Schwallie, Daniel P. (1985). "Estimadores de covarianza positivos definidos de máxima verosimilitud". Cartas de Economía . 17 (1–2): 115–117. doi :10.1016/0165-1765(85)90139-9.
  15. ^ Magnus, enero R. (2017). Introducción a la Teoría de la Econometría . Ámsterdam: VU University Press. págs. 64–65. ISBN 978-90-8659-766-6.
  16. ^ Pfanzagl (1994, pág.206)
  17. ^ Por el teorema 2.5 en Newey, Whitney K.; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y prueba de hipótesis". En inglés, Robert; McFadden, Dan (eds.). Manual de econometría, vol.4 . Ciencia Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.
  18. ^ ab Por el teorema 3.3 en Newey, Whitney K.; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y prueba de hipótesis". En inglés, Robert; McFadden, Dan (eds.). Manual de econometría, vol.4 . Ciencia Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.
  19. ^ Zacks, Shelemyahu (1971). La teoría de la inferencia estadística . Nueva York: John Wiley & Sons. pag. 223.ISBN 0-471-98103-6.
  20. ^ Véase la fórmula 20 en Cox, David R .; Snell, E. Joyce (1968). "Una definición general de residuos". Revista de la Royal Statistical Society, Serie B. 30 (2): 248–275. JSTOR  2984505.
  21. ^ Kano, Yutaka (1996). "La eficiencia de tercer orden implica eficiencia de cuarto orden". Revista de la Sociedad de Estadística de Japón . 26 : 101-117. doi : 10.14490/jjss1995.26.101 .
  22. ^ Christensen, Henrikt I. "Reconocimiento de patrones" (PDF) (conferencia). Teoría de la decisión bayesiana - CS 7616. Georgia Tech.
  23. ^ cmmplx96 (https://stats.stackexchange.com/users/177679/cmmplx96), Divergencia Kullback-Leibler, URL (versión: 2017-11-18): https://stats.stackexchange.com/q/314472 ( en el video de youtube, mira los minutos 13 al 25)
  24. ^ Introducción a la inferencia estadística | Stanford (Conferencia 16 - MLE bajo especificación errónea del modelo)
  25. ^ Sycorax dice Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), la relación entre maximizar la probabilidad y minimizar la entropía cruzada, URL (versión: 2019-11- 06): https://stats.stackexchange.com/q/364237
  26. ^ Fletcher, R. (1987). Métodos prácticos de optimización (Segunda ed.). Nueva York, Nueva York: John Wiley & Sons. ISBN 0-471-91547-5.
  27. ^ Nocedal, Jorge ; Wright, Stephen J. (2006). Optimización numérica (Segunda ed.). Nueva York, Nueva York: Springer. ISBN 0-387-30303-0.
  28. ^ Daganzo, Carlos (1979). Probit multinomial: la teoría y su aplicación a la previsión de la demanda . Nueva York: Academic Press. págs. 61–78. ISBN 0-12-201150-3.
  29. ^ Gould, William; Pitblado, Jeffrey; Poi, Brian (2010). Estimación de máxima verosimilitud con Stata (Cuarta ed.). Estación universitaria: Stata Press. págs. 13-20. ISBN 978-1-59718-078-8.
  30. ^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística. Cambridge: Prensa del MIT. pag. 247.ISBN 978-0-262-01802-9.
  31. ^ Amemiya, Takeshi (1985). Econometría avanzada. Cambridge: Prensa de la Universidad de Harvard. págs. 137-138. ISBN 0-674-00560-0.
  32. ^ Sargan, Denis (1988). "Métodos de optimización numérica". Apuntes de conferencias sobre teoría econométrica avanzada . Oxford: Albahaca Blackwell. págs. 161-169. ISBN 0-631-14956-2.
  33. ^ Véase el teorema 10.1 en Avriel, Mordecai (1976). Programación no lineal: análisis y métodos. Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 293–294. ISBN 978-0-486-43227-4.
  34. ^ Gill, Philip E.; Murray, Walter; Wright, Margaret H. (1981). Optimización práctica . Londres, Reino Unido: Academic Press. págs. 312–313. ISBN 0-12-283950-1.
  35. ^ Edgeworth, Francis Y. (septiembre de 1908). "Sobre los probables errores de las constantes de frecuencia". Revista de la Real Sociedad de Estadística . 71 (3): 499–512. doi :10.2307/2339293. JSTOR  2339293.
  36. ^ Edgeworth, Francis Y. (diciembre de 1908). "Sobre los probables errores de las constantes de frecuencia". Revista de la Real Sociedad de Estadística . 71 (4): 651–678. doi :10.2307/2339378. JSTOR  2339378.
  37. ^ Pfanzagl, Johann (1994). Teoría estadística paramétrica . Walter de Gruyter . págs. 207-208. doi :10.1515/9783110889765. ISBN 978-3-11-013863-4. SEÑOR  1291393.
  38. ^ Wilks, SS (1938). "La distribución de muestra grande del índice de verosimilitud para probar hipótesis compuestas". Anales de estadística matemática . 9 : 60–62. doi : 10.1214/aoms/1177732360 .
  39. ^ Owen, Arte B. (2001). Probabilidad empírica . Londres, Reino Unido; Boca Ratón, FL: Chapman & Hall; Prensa CRC. ISBN 978-1-58488-071-4.
  40. ^ Wilks, Samuel S. (1962). Estadística Matemática . Nueva York, Nueva York: John Wiley & Sons. ISBN 978-0-471-94650-2.
  41. ^ Salvaje, Leonard J. (1976). "Sobre la relectura de RA Fisher". Los anales de la estadística . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR  2958221.
  42. ^ Pratt, John W. (1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud". Los anales de la estadística . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR  2958222.
  43. ^ Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, estadístico". Revista de la Royal Statistical Society, Serie A. 141 (3): 287–322. doi :10.2307/2344804. JSTOR  2344804.
  44. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. ISBN 978-0-674-40340-6.
  45. ^ Stigler, Stephen M. (1999). Estadísticas sobre la mesa: la historia de los conceptos y métodos estadísticos . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.
  46. ^ Hald, Anders (1998). Una historia de la estadística matemática de 1750 a 1930 . Nueva York, Nueva York: Wiley. ISBN 978-0-471-17912-2.
  47. ^ Hald, Anders (1999). "Sobre la historia de la máxima verosimilitud en relación con la probabilidad inversa y mínimos cuadrados". Ciencia estadística . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR  2676741.
  48. ^ Aldrich, John (1997). "RA Fisher y la creación de la máxima verosimilitud 1912-1922". Ciencia estadística . 12 (3): 162-176. doi : 10.1214/ss/1030037906 . SEÑOR  1617519.

Otras lecturas

enlaces externos