stringtranslate.com

función de probabilidad

La función de verosimilitud (a menudo llamada simplemente verosimilitud ) es la masa de probabilidad conjunta (o densidad de probabilidad ) de los datos observados vistos como una función de los parámetros de un modelo estadístico . [1] [2] [3] Intuitivamente, la función de verosimilitud es la probabilidad de observar datos asumiendo que es el parámetro real.

En la estimación de máxima verosimilitud , el arg max (sobre el parámetro ) de la función de verosimilitud sirve como estimación puntual para , mientras que la información de Fisher (a menudo aproximada mediante la matriz de Hesse de probabilidad) indica la precisión de la estimación .

Por el contrario, en la estadística bayesiana , las estimaciones de los parámetros se derivan de lo contrario de la probabilidad, la llamada probabilidad posterior , que se calcula mediante la regla de Bayes . [4]

Definición

La función de probabilidad, parametrizada por un parámetro (posiblemente multivariado) , generalmente se define de manera diferente para distribuciones de probabilidad discretas y continuas (a continuación se analiza una definición más general). Dada una densidad de probabilidad o función de masa

donde es una realización de la variable aleatoria , la función de verosimilitud es

En otras palabras, cuando se ve como una función de fijo , es una función de densidad de probabilidad, y cuando se ve como una función de fijo , es una función de probabilidad. En el paradigma frecuentista , la notación a menudo se evita y en su lugar se utiliza o para indicar que se considera una cantidad fija desconocida en lugar de una variable aleatoria condicionada.

La función de verosimilitud no especifica la probabilidad de que sea verdad, dada la muestra observada . Tal interpretación es un error común, con consecuencias potencialmente desastrosas (ver falacia del fiscal ).

Distribución de probabilidad discreta

Sea una variable aleatoria discreta con función de masa de probabilidad dependiendo de un parámetro . Entonces la función

considerada como una función de , es la función de verosimilitud , dado el resultado de la variable aleatoria . A veces, la probabilidad del "valor de para el valor del parámetro " se escribe como P ( X = x | θ ) o P ( X = x ; θ ) . La verosimilitud es la probabilidad de que se observe un resultado particular cuando el valor verdadero del parámetro es equivalente a la masa de probabilidad de ; no es una densidad de probabilidad sobre el parámetro . La probabilidad, no debe confundirse con , que es la probabilidad posterior de dados los datos .  

Sin ningún evento (sin datos), la probabilidad es 1; [ cita necesaria ] cualquier evento no trivial tendrá una probabilidad menor.

Ejemplo

Figura 1. Función de verosimilitud ( ) para la probabilidad de que una moneda caiga cara arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HH.
Figura 2. La función de verosimilitud ( ) para la probabilidad de que una moneda caiga cara arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HHT.

Considere un modelo estadístico simple de un lanzamiento de moneda: un único parámetro que expresa la "imparcialidad" de la moneda. El parámetro es la probabilidad de que una moneda caiga cara ("H") cuando se lanza. puede tomar cualquier valor dentro del rango de 0,0 a 1,0. Por una moneda perfectamente justa .

Imagínese lanzar dos veces una moneda justa y observar dos caras en dos lanzamientos ("HH"). Suponiendo que cada lanzamiento sucesivo de moneda es iid , entonces la probabilidad de observar HH es

De manera equivalente, la probabilidad de observar el supuesto "HH" es

Esto no es lo mismo que decir eso , una conclusión a la que sólo se podría llegar mediante el teorema de Bayes dado el conocimiento sobre las probabilidades marginales y .

Ahora supongamos que la moneda no es una moneda justa, sino que . Entonces la probabilidad de que salgan dos caras en dos lanzamientos es

Por eso

De manera más general, para cada valor de , podemos calcular la probabilidad correspondiente. El resultado de dichos cálculos se muestra en la Figura 1. La integral de más de [0, 1] es 1/3; las probabilidades no necesitan integrarse o sumar uno en el espacio de parámetros.

Distribución de probabilidad continua

Sea una variable aleatoria que sigue una distribución de probabilidad absolutamente continua con función de densidad (una función de ) que depende de un parámetro . Entonces la función

considerada como una función de , es la función de verosimilitud (de , dado el resultado ). Nuevamente, no es una función de densidad o masa de probabilidad , a pesar de ser una función de dada la observación .

Relación entre las funciones de verosimilitud y densidad de probabilidad

El uso de la densidad de probabilidad al especificar la función de verosimilitud anterior se justifica de la siguiente manera. Dada una observación , la probabilidad para el intervalo , donde es una constante, viene dada por . Observa eso

donde está la función de densidad de probabilidad, se deduce que

El primer teorema fundamental del cálculo establece que

Entonces

Por lo tanto,

En general

En la teoría de la probabilidad de la teoría de la medida , la función de densidad se define como la derivada de Radón-Nikodym de la distribución de probabilidad relativa a una medida dominante común. [5] La función de verosimilitud es esta densidad interpretada como una función del parámetro, en lugar de la variable aleatoria. [6] Por lo tanto, podemos construir una función de verosimilitud para cualquier distribución, ya sea discreta, continua, mixta o de otro tipo. (Las probabilidades son comparables, por ejemplo, para la estimación de parámetros, sólo si son derivados del radón-Nikodym con respecto a la misma medida dominante.)

La discusión anterior sobre la probabilidad de variables aleatorias discretas utiliza la medida de conteo , según la cual la densidad de probabilidad de cualquier resultado es igual a la probabilidad de ese resultado.

Probabilidades de distribuciones mixtas continuas-discretas

Lo anterior se puede ampliar de una manera sencilla para permitir la consideración de distribuciones que contienen componentes tanto discretos como continuos. Supongamos que la distribución consta de un número de masas de probabilidad discretas y una densidad , donde la suma de todas las sumadas a la integral de es siempre uno. Suponiendo que es posible distinguir una observación correspondiente a una de las masas de probabilidad discretas de una que corresponde al componente de densidad, la función de probabilidad para una observación del componente continuo se puede tratar de la manera mostrada anteriormente. Para una observación del componente discreto, la función de verosimilitud para una observación del componente discreto es simplemente

El hecho de que la función de verosimilitud pueda definirse de una manera que incluya contribuciones que no son conmensurables (la densidad y la masa de probabilidad) surge de la forma en que se define la función de verosimilitud hasta una constante de proporcionalidad, donde esta "constante" Puede cambiar con la observación , pero no con el parámetro .

Condiciones de regularidad

En el contexto de la estimación de parámetros, generalmente se supone que la función de verosimilitud obedece ciertas condiciones, conocidas como condiciones de regularidad. Estas condiciones se asumen en varias pruebas que involucran funciones de probabilidad y deben verificarse en cada aplicación particular. Para la estimación de máxima verosimilitud, la existencia de un máximo global de la función de verosimilitud es de suma importancia. Según el teorema del valor extremo , basta que la función de verosimilitud sea continua en un espacio de parámetros compacto para que exista el estimador de máxima verosimilitud. [7] Si bien el supuesto de continuidad generalmente se cumple, el supuesto de compacidad sobre el espacio de parámetros a menudo no se cumple, ya que los límites de los valores verdaderos de los parámetros pueden ser desconocidos. En ese caso, la concavidad de la función de verosimilitud juega un papel clave.

Más específicamente, si la función de probabilidad es dos veces continuamente diferenciable en el espacio de parámetros k -dimensional que se supone que es un subconjunto abierto y conectado de , existe un máximo único si la matriz de segundos parciales

definida negativalímite
la teoría Morse[8]teorema del paso de montaña[9]

En las pruebas de consistencia y normalidad asintótica del estimador de máxima verosimilitud, se hacen supuestos adicionales sobre las densidades de probabilidad que forman la base de una función de verosimilitud particular. Estas condiciones fueron establecidas por primera vez por Chanda. [10] En particular, para casi todos , y para todos

expansión de Taylor
la diferenciación bajo el signo integralmatriz de información
positivo definidopuntuación[11]

Las condiciones anteriores son suficientes, pero no necesarias. Es decir, un modelo que no cumpla estas condiciones de regularidad puede tener o no un estimador de máxima verosimilitud de las propiedades mencionadas anteriormente. Además, en el caso de observaciones distribuidas de forma no independiente o no idéntica, es posible que sea necesario asumir propiedades adicionales.

En la estadística bayesiana, se imponen condiciones de regularidad casi idénticas a la función de verosimilitud para probar la normalidad asintótica de la probabilidad posterior , [12] [13] y, por tanto, para justificar una aproximación de Laplace de la probabilidad posterior en muestras grandes. [14]

Razón de verosimilitud y probabilidad relativa

Índice de probabilidad

Una razón de verosimilitud es la relación entre dos probabilidades específicas cualesquiera, que frecuentemente se escribe como:

El índice de verosimilitud es fundamental para las estadísticas verosimilistas : la ley de la verosimilitud establece que el grado en que los datos (considerados como evidencia) respaldan el valor de un parámetro frente a otro se mide mediante el índice de verosimilitud.

En la inferencia frecuentista , la razón de verosimilitud es la base de una estadística de prueba , la llamada prueba de razón de verosimilitud . Según el lema de Neyman-Pearson , esta es la prueba más potente para comparar dos hipótesis simples en un nivel de significancia determinado . Muchas otras pruebas pueden verse como pruebas de razón de verosimilitud o aproximaciones de las mismas. [15] La distribución asintótica del índice de verosimilitud, considerado como un estadístico de prueba, viene dada por el teorema de Wilks .

La razón de verosimilitud también es de importancia central en la inferencia bayesiana , donde se la conoce como factor de Bayes y se utiliza en la regla de Bayes . Expresada en términos de probabilidades , la regla de Bayes establece que las probabilidades posteriores de dos alternativas y , dado un evento , son las probabilidades anteriores , multiplicadas por la razón de probabilidad. Como ecuación:

El índice de probabilidad no se utiliza directamente en las estadísticas basadas en AIC. En cambio, lo que se utiliza es la probabilidad relativa de los modelos (ver más abajo).

En la medicina basada en evidencia , los índices de probabilidad se utilizan en las pruebas de diagnóstico para evaluar el valor de realizar una prueba de diagnóstico .

Función de verosimilitud relativa

Dado que el valor real de la función de verosimilitud depende de la muestra, suele ser conveniente trabajar con una medida estandarizada. Supongamos que la estimación de máxima verosimilitud para el parámetro θ es . Se pueden encontrar plausibilidades relativas de otros valores de θ comparando las probabilidades de esos otros valores con la probabilidad de . La probabilidad relativa de θ se define como [16] [17] [18] [19] [20]

Región de probabilidad

Una región de probabilidad es el conjunto de todos los valores de θ cuya probabilidad relativa es mayor o igual a un umbral determinado. En términos de porcentajes, una región de probabilidad de p % para θ se define como [16] [18] [21]

Si θ es un parámetro real único, una región de probabilidad de p % generalmente comprenderá un intervalo de valores reales. Si la región comprende un intervalo, entonces se llama intervalo de verosimilitud . [16] [18] [22]

Los intervalos de probabilidad, y más generalmente las regiones de probabilidad, se utilizan para la estimación de intervalos dentro de las estadísticas verosimilistas: son similares a los intervalos de confianza en las estadísticas frecuentistas y a los intervalos de credibilidad en las estadísticas bayesianas. Los intervalos de probabilidad se interpretan directamente en términos de probabilidad relativa, no en términos de probabilidad de cobertura (frequentismo) o probabilidad posterior (bayesianismo).

Dado un modelo, los intervalos de probabilidad se pueden comparar con los intervalos de confianza. Si θ es un parámetro real único, entonces, bajo ciertas condiciones, un intervalo de probabilidad del 14,65% (aproximadamente 1:7 de probabilidad) para θ será lo mismo que un intervalo de confianza del 95% (probabilidad de cobertura 19/20). [16] [21] En una formulación ligeramente diferente adecuada al uso de log-verosimilitudes (ver teorema de Wilks ), el estadístico de prueba es el doble de la diferencia en log-verosimilitudes y la distribución de probabilidad del estadístico de prueba es aproximadamente una chi- distribución al cuadrado con grados de libertad (gl) iguales a la diferencia en gl entre los dos modelos (por lo tanto, el intervalo de probabilidad e −2 es el mismo que el intervalo de confianza de 0,954; asumiendo que la diferencia en gl es 1). [21] [22]

Probabilidades que eliminan parámetros molestos

En muchos casos, la probabilidad es función de más de un parámetro, pero el interés se centra en la estimación de sólo uno, o como máximo de algunos de ellos, considerándose los demás parámetros molestos . Se han desarrollado varios enfoques alternativos para eliminar estos parámetros molestos, de modo que una probabilidad pueda escribirse como una función únicamente del parámetro (o parámetros) de interés: los enfoques principales son las probabilidades de perfil, condicionales y marginales. [23] [24] Estos enfoques también son útiles cuando es necesario reducir una superficie de probabilidad de alta dimensión a uno o dos parámetros de interés para permitir un gráfico .

Probabilidad del perfil

Es posible reducir las dimensiones concentrando la función de probabilidad para un subconjunto de parámetros expresando los parámetros molestos como funciones de los parámetros de interés y reemplazándolos en la función de probabilidad. [25] [26] En general, para una función de probabilidad que depende del vector de parámetros en el que se puede dividir y donde se puede determinar explícitamente una correspondencia, la concentración reduce la carga computacional del problema de maximización original. [27]

Por ejemplo, en una regresión lineal con errores distribuidos normalmente, el vector de coeficientes podría dividirse en (y, en consecuencia, la matriz de diseño ). Maximizar con respecto a produce una función de valor óptimo . Utilizando este resultado, el estimador de máxima verosimilitud puede derivarse como

matriz de proyecciónteorema de Frisch-Waugh-Lovell

Dado que gráficamente el procedimiento de concentración equivale a cortar la superficie de probabilidad a lo largo de la cresta de valores del parámetro molesto que maximiza la función de probabilidad, creando un perfil isométrico de la función de probabilidad para un determinado , el resultado de este procedimiento también se conoce como perfil. probabilidad . [28] [29] Además de graficarse, la probabilidad del perfil también se puede utilizar para calcular intervalos de confianza que a menudo tienen mejores propiedades para muestras pequeñas que aquellos basados ​​en errores estándar asintóticos calculados a partir de la probabilidad total. [30] [31]

probabilidad condicional

A veces es posible encontrar una estadística suficiente para los parámetros molestos y el condicionamiento de esta estadística da como resultado una probabilidad que no depende de los parámetros molestos. [32]

Un ejemplo ocurre en las tablas de 2 × 2, donde el condicionamiento de los cuatro totales marginales conduce a una probabilidad condicional basada en la distribución hipergeométrica no central . Esta forma de condicionamiento es también la base de la prueba exacta de Fisher .

probabilidad marginal

A veces podemos eliminar los parámetros molestos considerando una probabilidad basada solo en una parte de la información de los datos, por ejemplo, utilizando el conjunto de rangos en lugar de los valores numéricos. Otro ejemplo ocurre en los modelos lineales mixtos , donde considerar una probabilidad para los residuales solo después de ajustar los efectos fijos conduce a una estimación de máxima verosimilitud residual de los componentes de la varianza.

probabilidad parcial

Una verosimilitud parcial es una adaptación de la verosimilitud total de modo que sólo una parte de los parámetros (los parámetros de interés) ocurren en ella. [33] Es un componente clave del modelo de riesgos proporcionales : al utilizar una restricción en la función de riesgo, la probabilidad no contiene la forma del peligro a lo largo del tiempo.

Productos de probabilidades

La probabilidad, dados dos o más eventos independientes , es el producto de las probabilidades de cada uno de los eventos individuales:

Esto es particularmente importante cuando los eventos provienen de variables aleatorias independientes e idénticamente distribuidas , como observaciones independientes o muestreo con reemplazo . En tal situación, la función de probabilidad factoriza un producto de funciones de probabilidad individuales.

El producto vacío tiene el valor 1, que corresponde a que la probabilidad, dado que no hay ningún evento, es 1: antes de cualquier dato, la probabilidad es siempre 1. Esto es similar a un a priori uniforme en las estadísticas bayesianas, pero en las estadísticas verosimilistas no es una probabilidad inadecuada . anterior porque las probabilidades no están integradas.

Logística de probabilidad

La función de probabilidad logarítmica es el logaritmo de la función de probabilidad, a menudo denotada por una l minúscula o , para contrastar con la L mayúscula o para la probabilidad. Debido a que los logaritmos son funciones estrictamente crecientes , maximizar la probabilidad equivale a maximizar la probabilidad logarítmica. Pero para fines prácticos es más conveniente trabajar con la función de probabilidad logarítmica en la estimación de máxima verosimilitud , en particular porque las distribuciones de probabilidad más comunes , en particular la familia exponencial , son sólo logarítmicamente cóncavas , [34] [35] y la concavidad del objetivo La función juega un papel clave en la maximización .

Dada la independencia de cada evento, la probabilidad logarítmica general de intersección es igual a la suma de las probabilidades logarítmicas de los eventos individuales. Esto es análogo al hecho de que la probabilidad logarítmica general es la suma de la probabilidad logarítmica de los eventos individuales. Además de la conveniencia matemática de esto, el proceso de suma de log-verosimilitud tiene una interpretación intuitiva, a menudo expresada como "apoyo" de los datos. Cuando los parámetros se estiman utilizando la probabilidad logarítmica para la estimación de máxima verosimilitud , cada punto de datos se utiliza añadiéndolo a la probabilidad logarítmica total. Como los datos pueden verse como una evidencia que respalda los parámetros estimados, este proceso puede interpretarse como "el respaldo de la evidencia independiente se suma", y la probabilidad logarítmica es el "peso de la evidencia". Al interpretar la probabilidad logarítmica negativa como contenido de información o sorpresa , el soporte (logaritmo de probabilidad) de un modelo, dado un evento, es el negativo de la sorpresa del evento, dado el modelo: un modelo está respaldado por un evento en la medida en que que el evento no es sorprendente, dado el modelo.

Un logaritmo de una razón de verosimilitud es igual a la diferencia de log-verosimilitudes:

Así como la probabilidad, sin ningún evento, es 1, la probabilidad logarítmica, sin ningún evento, es 0, lo que corresponde al valor de la suma vacía: sin ningún dato, no hay soporte para ningún modelo.

Grafico

La gráfica del logaritmo de verosimilitud se llama curva de soporte (en el caso univariante ). [36] En el caso multivariado, el concepto se generaliza en una superficie de apoyo sobre el espacio de parámetros . Tiene una relación con el soporte de una distribución , pero es distinto de él .

El término fue acuñado por AWF Edwards [36] en el contexto de la prueba de hipótesis estadística , es decir, si los datos "apoyan" una hipótesis (o valor de parámetro) que se está probando más que cualquier otro.

La función de probabilidad logarítmica que se está trazando se utiliza en el cálculo de la puntuación (el gradiente de la probabilidad logarítmica) y la información de Fisher (la curvatura de la probabilidad logarítmica). Esto, el gráfico tiene una interpretación directa en el contexto de la estimación de máxima verosimilitud y las pruebas de razón de verosimilitud .

Ecuaciones de probabilidad

Si la función logarítmica de verosimilitud es suave , su gradiente con respecto al parámetro, conocido como puntuación y escrito , existe y permite la aplicación del cálculo diferencial . La forma básica de maximizar una función diferenciable es encontrar los puntos estacionarios (los puntos donde la derivada es cero); Dado que la derivada de una suma es solo la suma de las derivadas, pero la derivada de un producto requiere la regla del producto , es más fácil calcular los puntos estacionarios de la probabilidad logarítmica de eventos independientes que para la probabilidad de eventos independientes.

Las ecuaciones definidas por el punto estacionario de la función de puntuación sirven como ecuaciones de estimación para el estimador de máxima verosimilitud.

función inversaespacio euclidiano dteorema de la función inversabien definidovecindad abiertacasi con seguridad[37]el teorema de Rolle[38] [39]

La segunda derivada evaluada en , conocida como información de Fisher , determina la curvatura de la superficie de probabilidad [40] y, por lo tanto, indica la precisión de la estimación. [41]

Familias exponenciales

La probabilidad logarítmica también es particularmente útil para familias exponenciales de distribuciones, que incluyen muchas de las distribuciones de probabilidad paramétricas comunes . La función de distribución de probabilidad (y, por tanto, la función de probabilidad) para familias exponenciales contiene productos de factores que implican exponenciación . El logaritmo de dicha función es una suma de productos, nuevamente más fácil de diferenciar que la función original.

Una familia exponencial es aquella cuya función de densidad de probabilidad tiene la forma (para algunas funciones, escribir para el producto interno ):

Cada uno de estos términos tiene una interpretación, [a] pero simplemente cambiando de probabilidad a verosimilitud y tomando logaritmos se obtiene la suma:

Los y cada uno corresponden a un cambio de coordenadas , por lo que en estas coordenadas, la probabilidad logarítmica de una familia exponencial viene dada por la fórmula simple:

En palabras, la probabilidad logarítmica de una familia exponencial es el producto interno del parámetro natural y el estadístico suficiente , menos el factor de normalización ( función de partición logarítmica ) . Así, por ejemplo, la estimación de máxima verosimilitud se puede calcular tomando derivadas del estadístico suficiente T y la función de partición logarítmica A.

Ejemplo: la distribución gamma

La distribución gamma es una familia exponencial con dos parámetros, y . La función de probabilidad es

Encontrar la estimación de máxima verosimilitud para un único valor observado parece bastante desalentador. Es mucho más sencillo trabajar con su logaritmo:

Para maximizar la probabilidad logarítmica, primero tomamos la derivada parcial con respecto a :

Si hay varias observaciones independientes , entonces la log-verosimilitud conjunta será la suma de las log-verosimilitudes individuales, y la derivada de esta suma será una suma de las derivadas de cada log-verosimilitud individual:

Para completar el procedimiento de maximización de la probabilidad logarítmica conjunta, la ecuación se establece en cero y se resuelve para :

Aquí denota la estimación de máxima verosimilitud y es la media muestral de las observaciones.

Antecedentes e interpretación

Comentarios históricos

El término "probabilidad" se ha utilizado en inglés desde al menos finales del inglés medio . [42] Su uso formal para referirse a una función específica en estadística matemática fue propuesto por Ronald Fisher , [43] en dos artículos de investigación publicados en 1921 [44] y 1922. [45] El artículo de 1921 introdujo lo que hoy se llama " intervalo de probabilidad"; el artículo de 1922 introdujo el término " método de máxima verosimilitud ". Citando a Fisher:

[E]n 1922 propuse el término 'verosimilitud', en vista de que, con respecto a [el parámetro], no es una probabilidad y no obedece a las leyes de la probabilidad, mientras que al mismo tiempo guarda con el problema de la elección racional entre los valores posibles de [el parámetro] una relación similar a la que guarda la probabilidad con el problema de predecir acontecimientos en los juegos de azar. . . . Sin embargo, mientras que en relación con el juicio psicológico la verosimilitud tiene cierta semejanza con la probabilidad, los dos conceptos son totalmente distintos. . . " [46]

El concepto de probabilidad no debe confundirse con la probabilidad mencionada por Sir Ronald Fisher.

Hago hincapié en esto porque, a pesar del énfasis que siempre he puesto en la diferencia entre probabilidad y probabilidad, todavía hay una tendencia a tratar la probabilidad como si fuera una especie de probabilidad. El primer resultado es, pues, que existen dos medidas diferentes de creencia racional apropiadas para casos diferentes. Conociendo la población podemos expresar nuestro conocimiento incompleto o expectativa de la muestra en términos de probabilidad; conociendo la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de probabilidad. [47]

La invención de Fisher de la probabilidad estadística fue una reacción contra una forma anterior de razonamiento llamada probabilidad inversa . [48] ​​Su uso del término "probabilidad" fijó el significado del término dentro de la estadística matemática.

AWF Edwards (1972) estableció la base axiomática para el uso del índice de verosimilitud como medida del apoyo relativo de una hipótesis frente a otra. La función de soporte es entonces el logaritmo natural de la función de verosimilitud. Ambos términos se utilizan en filogenética , pero no fueron adoptados en un tratamiento general del tema de la evidencia estadística. [49]

Interpretaciones bajo diferentes fundamentos.

Entre los estadísticos no hay consenso sobre cuál debería ser la base de la estadística . Hay cuatro paradigmas principales que se han propuesto para la fundación: frecuentismo , bayesianismo , verosimilismo y basado en AIC . [50] Para cada uno de los fundamentos propuestos, la interpretación de la probabilidad es diferente. Las cuatro interpretaciones se describen en las subsecciones siguientes.

Interpretación frecuentista

Interpretación bayesiana

En la inferencia bayesiana , aunque se puede hablar de la probabilidad de cualquier proposición o variable aleatoria dada otra variable aleatoria: por ejemplo, la probabilidad de un valor de parámetro o de un modelo estadístico (ver probabilidad marginal ), dados datos específicos u otra evidencia, [51 ] [52] [53] [54] la función de probabilidad sigue siendo la misma entidad, con las interpretaciones adicionales de (i) una densidad condicional de los datos dado el parámetro (ya que el parámetro es entonces una variable aleatoria) y (ii) una Medida o cantidad de información que aportan los datos sobre el valor del parámetro o incluso el modelo. [51] [52] [53] [54] [55] Debido a la introducción de una estructura de probabilidad en el espacio de parámetros o en la colección de modelos, es posible que un valor de parámetro o un modelo estadístico tenga un valor de probabilidad grande para datos dados y, sin embargo, tienen una probabilidad baja , o viceversa. [53] [55] Este suele ser el caso en contextos médicos. [56] Siguiendo la regla de Bayes , la probabilidad cuando se ve como una densidad condicional puede multiplicarse por la densidad de probabilidad anterior del parámetro y luego normalizarse, para dar una densidad de probabilidad posterior . [51] [52] [53] [54] [55] De manera más general, la probabilidad de que una cantidad desconocida sea dada otra cantidad desconocida es proporcional a la probabilidad de que sea dada . [51] [52] [53] [54] [55]

Interpretación verosimilista

En la estadística frecuentista, la función de verosimilitud es en sí misma una estadística que resume una única muestra de una población, cuyo valor calculado depende de la elección de varios parámetros θ 1 ... θ p , donde p es el recuento de parámetros en algunos ya seleccionados modelo estadístico . El valor de la probabilidad sirve como figura de mérito para la elección utilizada para los parámetros, y el conjunto de parámetros con máxima verosimilitud es la mejor opción, dados los datos disponibles.

El cálculo específico de la verosimilitud es la probabilidad de que se asigne la muestra observada, suponiendo que el modelo elegido y los valores de los diversos parámetros θ dan una aproximación precisa de la distribución de frecuencia de la población de la que se extrajo la muestra observada. Heurísticamente, tiene sentido que una buena elección de parámetros sean aquellos que hacen que la muestra realmente observada tenga la máxima probabilidad post hoc posible de haber sucedido. El teorema de Wilks cuantifica la regla heurística mostrando que la diferencia en el logaritmo de la probabilidad generada por los valores de los parámetros de la estimación y el logaritmo de la probabilidad generada por los valores de los parámetros "verdaderos" (pero desconocidos) de la población tiene una distribución asintótica χ 2 .

La estimación de máxima verosimilitud de cada muestra independiente es una estimación separada del conjunto de parámetros "verdaderos" que describe la población muestreada. Las estimaciones sucesivas de muchas muestras independientes se agruparán junto con el conjunto "verdadero" de valores de parámetros de la población ocultos en algún lugar entre ellas. La diferencia en los logaritmos de la máxima verosimilitud y las probabilidades de los conjuntos de parámetros adyacentes se puede utilizar para dibujar una región de confianza en un gráfico cuyas coordenadas son los parámetros θ 1 ... θ p . La región rodea la estimación de máxima verosimilitud, y todos los puntos (conjuntos de parámetros) dentro de esa región difieren como máximo en logaritmo de verosimilitud en algún valor fijo. La distribución χ 2 dada por el teorema de Wilks convierte las diferencias de probabilidad logarítmica de la región en la "confianza" de que el conjunto de parámetros "verdadero" de la población se encuentra dentro. El arte de elegir la diferencia logarítmica de verosimilitud fija consiste en hacer que la confianza sea aceptablemente alta y al mismo tiempo mantener la región aceptablemente pequeña (rango estrecho de estimaciones).

A medida que se observan más datos, en lugar de usarse para hacer estimaciones independientes, se pueden combinar con las muestras anteriores para formar una única muestra combinada, y esa muestra grande se puede usar para una nueva estimación de máxima verosimilitud. A medida que aumenta el tamaño de la muestra combinada, el tamaño de la región de probabilidad con la misma confianza se reduce. Al final, o el tamaño de la región de confianza es casi de un solo punto o se ha muestreado a toda la población; en ambos casos, el conjunto de parámetros estimado es esencialmente el mismo que el conjunto de parámetros de la población.

Interpretación basada en AIC

Bajo el paradigma AIC , la probabilidad se interpreta dentro del contexto de la teoría de la información . [57] [58] [59]

Ver también

Notas

Referencias

  1. ^ Casella, George; Berger, Roger L. (2002). Inferencia estadística (2ª ed.). Duxbury. pag. 290.ISBN​ 0-534-24312-6.
  2. ^ Wakefield, Jon (2013). Métodos de regresión frecuentista y bayesiana (1ª ed.). Saltador. pag. 36.ISBN 978-1-4419-0925-1.
  3. ^ Lehmann, Erich L.; Casella, George (1998). Teoría de la estimación puntual (2ª ed.). Saltador. pag. 444.ISBN 0-387-98502-6.
  4. ^ Zellner, Arnold (1971). Introducción a la inferencia bayesiana en econometría . Nueva York: Wiley. págs. 13-14. ISBN 0-471-98165-6.
  5. ^ Billingsley, Patricio (1995). Probabilidad y medida (Tercera ed.). John Wiley e hijos . págs. 422–423.
  6. ^ Shao, junio (2003). Estadística Matemática (2ª ed.). Saltador. §4.4.1.
  7. ^ Gouriéroux, cristiano ; Monfort, Alain (1995). Estadística y Modelos Econométricos. Nueva York: Cambridge University Press. pag. 161.ISBN 0-521-40551-3.
  8. ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George PH (1981). "Sobre la existencia y unicidad de la estimación de máxima verosimilitud de un parámetro con valor vectorial en muestras de tamaño fijo". Anales de Estadística . 9 (4): 758–767. doi : 10.1214/aos/1176345516 . JSTOR  2240844.
  9. ^ Mascarenhas, WF (2011). "Un lema de paso de montaña y sus implicaciones con respecto a la singularidad de los minimizadores restringidos". Optimización . 60 (8–9): 1121–1159. doi :10.1080/02331934.2010.527973. S2CID  15896597.
  10. ^ Chanda, KC (1954). "Una nota sobre la consistencia y los máximos de las raíces de las ecuaciones de probabilidad". Biometrika . 41 (1–2): 56–61. doi :10.2307/2333005. JSTOR  2333005.
  11. ^ Greenberg, Eduardo; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura . Nueva York, Nueva York: John Wiley & Sons. págs. 24 y 25. ISBN 0-471-09077-8.
  12. ^ Heyde, CC; Johnstone, IM (1979). "Sobre la normalidad posterior asintótica para procesos estocásticos". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 41 (2): 184–189. doi :10.1111/j.2517-6161.1979.tb01071.x.
  13. ^ Chen, Chan-Fu (1985). "Sobre la normalidad asintótica de las funciones limitantes de densidad con implicaciones bayesianas". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 47 (3): 540–546. doi :10.1111/j.2517-6161.1985.tb01384.x.
  14. ^ Kass, Robert E.; Tierney, Lucas; Kadane, José B. (1990). "La validez de las expansiones posteriores basadas en el método de Laplace". En Geisser, S.; Hodges, JS; Prensa, SJ; Zellner, A. (eds.). Métodos bayesianos y de verosimilitud en estadística y econometría . Elsevier. págs. 473–488. ISBN 0-444-88376-2.
  15. ^ Autobús, A. (1982). "Las pruebas del multiplicador de la relación de verosimilitud, Wald y Lagrange: una nota expositiva". El estadístico estadounidense . 36 (3a): 153-157. doi :10.1080/00031305.1982.10482817.
  16. ^ abcd Kalbfleisch, JG (1985), Probabilidad e inferencia estadística , Springer(§9.3).
  17. ^ Azzalini, A. (1996), Inferencia estadística: basada en la probabilidad, Chapman & Hall , ISBN 9780412606502(§1.4.2).
  18. ^ abc Sprott, DA (2000), Inferencia estadística en la ciencia , Springer (capítulo 2).
  19. ^ Davison, AC (2008), Modelos estadísticos , Cambridge University Press (§4.1.2).
  20. ^ Retenido, L.; Sabanés Bové, DS (2014), Inferencia estadística aplicada: probabilidad y Bayes , Springer(§2.1).
  21. ^ abc Rossi, RJ (2018), Estadística matemática , Wiley , p. 267.
  22. ^ ab Hudson, DJ (1971), "Estimación de intervalos a partir de la función de probabilidad", Revista de la Royal Statistical Society, Serie B , 33 (2): 256–262.
  23. ^ Pawitan, Yudi (2001). Con toda probabilidad: modelado estadístico e inferencia utilizando la probabilidad . Prensa de la Universidad de Oxford .
  24. ^ Wen Hsiang Wei. "Modelo lineal generalizado - notas del curso". Taichung, Taiwán: Universidad de Tunghai . págs. Capítulo 5 . Consultado el 1 de octubre de 2017 .
  25. ^ Amemiya, Takeshi (1985). "Función de probabilidad concentrada". Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 125-127. ISBN 978-0-674-00560-0.
  26. ^ Davidson, Russell; MacKinnon, James G. (1993). "Concentrando la función de verosimilitud logarítmica". Estimación e Inferencia en Econometría . Nueva York: Oxford University Press. págs. 267–269. ISBN 978-0-19-506011-9.
  27. ^ Gourieroux, cristiano; Monfort, Alain (1995). "Función de probabilidad concentrada". Estadística y Modelos Econométricos . Nueva York: Cambridge University Press. págs. 170-175. ISBN 978-0-521-40551-5.
  28. ^ Encurtidos, Andrew (1985). Introducción al análisis de probabilidad. Norwich: WH Hutchins & Sons. págs. 21-24. ISBN 0-86094-190-6.
  29. ^ Bolker, Benjamín M. (2008). Modelos y datos ecológicos en R. Princeton University Press. págs. 187–189. ISBN 978-0-691-12522-0.
  30. ^ Aitkin, Murray (1982). "Inferencia de probabilidad directa". GLIM 82: Actas de la Conferencia Internacional sobre Modelos Lineales Generalizados . Saltador. págs. 76–86. ISBN 0-387-90777-7.
  31. ^ Venzón, DJ; Moolgavkar, SH (1988). "Un método para calcular intervalos de confianza basados ​​en la probabilidad de perfiles". Revista de la Real Sociedad de Estadística . Serie C (Estadística Aplicada). 37 (1): 87–94. doi :10.2307/2347496. JSTOR  2347496.
  32. ^ Kalbfleisch, JD; Sprott, DA (1973). "Probabilidades marginales y condicionales". Sankhyā: La revista india de estadística . Serie A. 35 (3): 311–328. JSTOR  25049882.
  33. ^ Cox, DR (1975). "Probabilidad parcial". Biometrika . 62 (2): 269–276. doi :10.1093/biomet/62.2.269. SEÑOR  0400509.
  34. ^ Kass, Robert E.; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica. Nueva York: John Wiley & Sons. pag. 14.ISBN 0-471-82668-5.
  35. ^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log() antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?". Intercambio de pila .
  36. ^ ab Edwards, AWF (1992) [1972]. Probabilidad . Prensa de la Universidad Johns Hopkins . ISBN 0-8018-4443-6.
  37. ^ Foutz, Robert V. (1977). "Sobre la solución única y consistente de las ecuaciones de verosimilitud". Revista de la Asociación Estadounidense de Estadística . 72 (357): 147-148. doi :10.1080/01621459.1977.10479926.
  38. ^ Tarone, Robert E.; Gruenhage, Gary (1975). "Una nota sobre la unicidad de las raíces de las ecuaciones de probabilidad para parámetros con valores vectoriales". Revista de la Asociación Estadounidense de Estadística . 70 (352): 903–904. doi :10.1080/01621459.1975.10480321.
  39. ^ Rai, Kamta; Van Ryzin, John (1982). "Una nota sobre una versión multivariada del teorema de Rolle y la unicidad de las raíces de máxima verosimilitud". Comunicaciones en Estadística . Teoría y Métodos. 11 (13): 1505-1510. doi :10.1080/03610928208828325.
  40. ^ Rao, B. Raja (1960). "Una fórmula para la curvatura de la superficie de probabilidad de una muestra extraída de una distribución que admite estadísticas suficientes". Biometrika . 47 (1–2): 203–207. doi :10.1093/biomet/47.1-2.203.
  41. ^ Sala, Michael D.; Ahlquist, John S. (2018). Máxima verosimilitud para las ciencias sociales: estrategias de análisis . Prensa de la Universidad de Cambridge . págs. 25-27.
  42. ^ "probabilidad", Diccionario de inglés Oxford más corto (2007).
  43. ^ Hald, A. (1999). "Sobre la historia de la máxima verosimilitud en relación con la probabilidad inversa y mínimos cuadrados". Ciencia estadística . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR  2676741.
  44. ^ Pescador, RA (1921). "Sobre el "error probable" de un coeficiente de correlación deducido de una muestra pequeña". Metron . 1 : 3–32.
  45. ^ Pescador, RA (1922). "Sobre los fundamentos matemáticos de la estadística teórica". Transacciones filosóficas de la Royal Society A. 222 (594–604): 309–368. Código Bib : 1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM  48.1280.02. JSTOR  91208.
  46. ^ Klemens, Ben (2008). Modelado con datos: herramientas y técnicas para la informática científica . Prensa de la Universidad de Princeton . pag. 329.
  47. ^ Pescador, Ronald (1930). "Probabilidad inversa". Actas matemáticas de la Sociedad Filosófica de Cambridge . 26 (4): 528–535. Código Bib : 1930PCPS...26..528F. doi :10.1017/S0305004100016297.
  48. ^ Fienberg, Stephen E (1997). "Introducción a RA Fisher sobre probabilidad inversa y verosimilitud". Ciencia estadística . 12 (3): 161. doi : 10.1214/ss/1030037905 .
  49. ^ Royall, R. (1997). Evidencia estadística . Chapman y salón .
  50. ^ Bandyopadhyay, PD; Forster, Sr., eds. (2011). Filosofía de la Estadística . Editorial de Holanda Septentrional .
  51. ^ abcd IJ Good: probabilidad y ponderación de la evidencia (Griffin 1950), §6.1
  52. ^ abcd H. Jeffreys: Teoría de la probabilidad (3.ª ed., Oxford University Press 1983), §1.22
  53. ^ abcde ET Jaynes: Teoría de la probabilidad: la lógica de la ciencia (Cambridge University Press 2003), §4.1
  54. ^ abcd DV Lindley: Introducción a la probabilidad y la estadística desde un punto de vista bayesiano. Parte 1: Probabilidad (Cambridge University Press 1980), §1.6
  55. ^ abcd A. Gelman, JB Carlin, HS Stern, DB Dunson, A. Vehtari, DB Rubin: análisis de datos bayesianos (3.ª ed., Chapman & Hall/CRC 2014), §1.3
  56. ^ Medias, HC; Higgins, MC; Owens, DK (2013), Toma de decisiones médicas (2ª ed.), Wiley, capítulos 3–4, doi :10.1002/9781118341544, ISBN 9781118341544
  57. ^ Akaike, H. (1985). "Predicción y entropía". En Atkinson, CA; Fienberg, SE (eds.). Una celebración de las estadísticas . Saltador. págs. 1–24.
  58. ^ Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986). Estadísticas de criterios de información de Akaike . D. Reidel . Parte I.
  59. ^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque práctico de teoría de la información (2ª ed.). Springer-Verlag . cap. 7.

Otras lecturas

enlaces externos