Una función de verosimilitud (a menudo llamada simplemente probabilidad ) mide qué tan bien un modelo estadístico explica los datos observados calculando la probabilidad de ver esos datos bajo diferentes valores de parámetros del modelo. Se construye a partir de la distribución de probabilidad conjunta de la variable aleatoria que (presumiblemente) generó las observaciones. [1] [2] [3] Cuando se evalúa en los puntos de datos reales, se convierte en una función únicamente de los parámetros del modelo.
En la estimación de máxima verosimilitud , el argumento que maximiza la función de verosimilitud sirve como estimación puntual del parámetro desconocido, mientras que la información de Fisher (a menudo aproximada por la matriz hessiana de verosimilitud en el máximo) da una indicación de la precisión de la estimación .
Por el contrario, en la estadística bayesiana , la estimación de interés es el inverso de la probabilidad, la llamada probabilidad posterior del parámetro dados los datos observados, que se calcula mediante la regla de Bayes . [4]
La función de verosimilitud, parametrizada por un parámetro (posiblemente multivariado) , suele definirse de forma diferente para distribuciones de probabilidad discretas y continuas (más adelante se analiza una definición más general). Dada una densidad de probabilidad o función de masa
donde es una realización de la variable aleatoria , la función de verosimilitud a menudo se escribe
En otras palabras, cuando se considera como una función de con fijo, es una función de densidad de probabilidad, y cuando se considera como una función de con fijo, es una función de verosimilitud. En el paradigma frecuentista , la notación se evita a menudo y en su lugar se utilizan o para indicar que se considera como una cantidad desconocida fija en lugar de como una variable aleatoria que está condicionada.
La función de verosimilitud no especifica la probabilidad de que sea verdad, dada la muestra observada . Tal interpretación es un error común, con consecuencias potencialmente desastrosas (véase la falacia del fiscal ).
Sea una variable aleatoria discreta con función de masa de probabilidad que depende de un parámetro . Entonces la función
considerada como una función de , es la función de verosimilitud , dado el resultado de la variable aleatoria . A veces la probabilidad del "valor de para el valor del parámetro " se escribe como P ( X = x | θ ) o P ( X = x ; θ ) . La verosimilitud es la probabilidad de que se observe un resultado particular cuando el valor verdadero del parámetro es , equivalente a la masa de probabilidad en ; no es una densidad de probabilidad sobre el parámetro . La verosimilitud, , no debe confundirse con , que es la probabilidad posterior de dados los datos .
Consideremos un modelo estadístico simple de un lanzamiento de moneda: un único parámetro que expresa la "imparcialidad" de la moneda. El parámetro es la probabilidad de que una moneda caiga cara arriba ("H") al lanzarla. puede tomar cualquier valor dentro del rango de 0,0 a 1,0. Para una moneda perfectamente justa , .
Imagine que lanza una moneda dos veces y observa dos caras en dos lanzamientos ("HH"). Suponiendo que cada lanzamiento sucesivo de moneda es iid , entonces la probabilidad de observar HH es
De manera equivalente, la probabilidad de observar "HH" asumiendo es
Esto no es lo mismo que decir que , una conclusión a la que sólo se podría llegar a través del teorema de Bayes dado el conocimiento sobre las probabilidades marginales y .
Ahora supongamos que la moneda no es una moneda justa, sino que . Entonces la probabilidad de que salgan dos caras en dos lanzamientos es
Por eso
En términos más generales, para cada valor de , podemos calcular la probabilidad correspondiente. El resultado de dichos cálculos se muestra en la Figura 1. La integral de sobre [0, 1] es 1/3; las probabilidades no necesitan integrarse o sumar uno sobre el espacio de parámetros.
Sea una variable aleatoria que sigue una distribución de probabilidad absolutamente continua con función de densidad (una función de ) que depende de un parámetro . Entonces la función
considerada como una función de , es la función de probabilidad (de , dado el resultado ). Nuevamente, no es una función de densidad de probabilidad o de masa sobre , a pesar de ser una función de dada la observación .
El uso de la densidad de probabilidad para especificar la función de probabilidad anterior se justifica de la siguiente manera. Dada una observación , la probabilidad para el intervalo , donde es una constante, está dada por . Observe que, dado que es positivo y constante. Debido a que
donde es la función de densidad de probabilidad, se deduce que
El primer teorema fundamental del cálculo establece que
Entonces
Por lo tanto, maximizar la densidad de probabilidad en equivale a maximizar la probabilidad de la observación específica .
En la teoría de la probabilidad basada en la medida , la función de densidad se define como la derivada de Radon-Nikodym de la distribución de probabilidad relativa a una medida dominante común. [5] La función de verosimilitud es esta densidad interpretada como una función del parámetro, en lugar de la variable aleatoria. [6] Por lo tanto, podemos construir una función de verosimilitud para cualquier distribución, ya sea discreta, continua, una mezcla o de otro tipo. (Las verosimilitudes son comparables, por ejemplo, para la estimación de parámetros, solo si son derivadas de Radon-Nikodym con respecto a la misma medida dominante).
La discusión anterior sobre la probabilidad de variables aleatorias discretas utiliza la medida de conteo , bajo la cual la densidad de probabilidad en cualquier resultado es igual a la probabilidad de ese resultado.
Lo anterior se puede ampliar de una manera sencilla para permitir la consideración de distribuciones que contienen componentes tanto discretos como continuos. Supongamos que la distribución consta de un número de masas de probabilidad discretas y una densidad , donde la suma de todas las s sumadas a la integral de es siempre uno. Suponiendo que es posible distinguir una observación correspondiente a una de las masas de probabilidad discretas de una que corresponde al componente de densidad, la función de verosimilitud para una observación del componente continuo se puede tratar de la manera mostrada anteriormente. Para una observación del componente discreto, la función de verosimilitud para una observación del componente discreto es simplemente donde es el índice de la masa de probabilidad discreta correspondiente a la observación , porque maximizar la masa de probabilidad (o probabilidad) en equivale a maximizar la verosimilitud de la observación específica.
El hecho de que la función de verosimilitud pueda definirse de manera que incluya contribuciones que no son conmensurables (la densidad y la masa de probabilidad) surge de la forma en que se define la función de verosimilitud hasta una constante de proporcionalidad, donde esta "constante" puede cambiar con la observación , pero no con el parámetro .
En el contexto de la estimación de parámetros, se suele suponer que la función de verosimilitud obedece a ciertas condiciones, conocidas como condiciones de regularidad. Estas condiciones se suponen en varias pruebas que involucran funciones de verosimilitud y deben verificarse en cada aplicación particular. Para la estimación de máxima verosimilitud, la existencia de un máximo global de la función de verosimilitud es de suma importancia. Según el teorema del valor extremo , basta con que la función de verosimilitud sea continua en un espacio de parámetros compacto para que exista el estimador de máxima verosimilitud. [7] Si bien el supuesto de continuidad suele cumplirse, el supuesto de compacidad sobre el espacio de parámetros a menudo no lo es, ya que los límites de los valores verdaderos de los parámetros pueden ser desconocidos. En ese caso, la concavidad de la función de verosimilitud juega un papel clave.
Más específicamente, si la función de verosimilitud es dos veces continuamente diferenciable en el espacio de parámetros de dimensión k que se supone que es un subconjunto abierto y conexo de existe un máximo único si la matriz de segundos parciales es definida negativa para cada en el que el gradiente se desvanece, y si la función de verosimilitud se acerca a una constante en el límite del espacio de parámetros, es decir, que puede incluir los puntos en el infinito si es ilimitado. Mäkeläinen y coautores prueban este resultado usando la teoría de Morse mientras apelan informalmente a una propiedad del paso de montaña. [8] Mascarenhas reafirma su prueba usando el teorema del paso de montaña . [9]
En las pruebas de consistencia y normalidad asintótica del estimador de máxima verosimilitud, se hacen suposiciones adicionales sobre las densidades de probabilidad que forman la base de una función de verosimilitud particular. Estas condiciones fueron establecidas por primera vez por Chanda. [10] En particular, para casi todos , y para todos existen para todos con el fin de asegurar la existencia de una expansión de Taylor . En segundo lugar, para casi todos y para cada debe ser que donde es tal que Esta acotación de las derivadas es necesaria para permitir la diferenciación bajo el signo integral . Y por último, se supone que la matriz de información , es definida positiva y es finita. Esto asegura que la puntuación tiene una varianza finita. [11]
Las condiciones anteriores son suficientes, pero no necesarias. Es decir, un modelo que no cumpla con estas condiciones de regularidad puede tener o no un estimador de máxima verosimilitud de las propiedades mencionadas anteriormente. Además, en el caso de observaciones que no se distribuyen de manera independiente o idéntica, puede ser necesario suponer propiedades adicionales.
En la estadística bayesiana, se imponen condiciones de regularidad casi idénticas a la función de verosimilitud para demostrar la normalidad asintótica de la probabilidad posterior , [12] [13] y, por lo tanto, para justificar una aproximación de Laplace de la posterior en muestras grandes. [14]
Una razón de verosimilitud es el cociente entre dos probabilidades especificadas, frecuentemente escrita como:
La razón de verosimilitud es fundamental para las estadísticas verosímiles : la ley de verosimilitud establece que el grado en el que los datos (considerados como evidencia) respaldan un valor de parámetro frente a otro se mide mediante la razón de verosimilitud.
En la inferencia frecuentista , la razón de verosimilitud es la base de un estadístico de prueba , la llamada prueba de razón de verosimilitud . Según el lema de Neyman-Pearson , esta es la prueba más poderosa para comparar dos hipótesis simples en un nivel de significación dado . Muchas otras pruebas pueden considerarse pruebas de razón de verosimilitud o aproximaciones de las mismas. [15] La distribución asintótica de la razón de verosimilitud logarítmica, considerada como un estadístico de prueba, viene dada por el teorema de Wilks .
La razón de verosimilitud también es de importancia central en la inferencia bayesiana , donde se la conoce como el factor de Bayes y se utiliza en la regla de Bayes . Expresada en términos de probabilidades , la regla de Bayes establece que las probabilidades posteriores de dos alternativas, y , dado un evento , son las probabilidades anteriores , multiplicadas por la razón de verosimilitud. Como ecuación:
La razón de verosimilitud no se utiliza directamente en las estadísticas basadas en AIC, sino que se utiliza la verosimilitud relativa de los modelos (véase más adelante).
En la medicina basada en la evidencia , los cocientes de verosimilitud se utilizan en pruebas diagnósticas para evaluar el valor de realizar una prueba diagnóstica .
Dado que el valor real de la función de verosimilitud depende de la muestra, a menudo es conveniente trabajar con una medida estandarizada. Supongamos que la estimación de máxima verosimilitud para el parámetro θ es . Las plausibilidades relativas de otros valores de θ se pueden encontrar comparando las verosimilitudes de esos otros valores con la verosimilitud de . La verosimilitud relativa de θ se define como [16] [17] [ 18] [19] [20] Por lo tanto, la verosimilitud relativa es la razón de verosimilitud (discutida anteriormente) con el denominador fijo . Esto corresponde a estandarizar la verosimilitud para tener un máximo de 1.
Una región de probabilidad es el conjunto de todos los valores de θ cuya probabilidad relativa es mayor o igual a un umbral determinado. En términos de porcentajes, una región de probabilidad p % para θ se define como [16] [18] [21]
Si θ es un único parámetro real, una región de probabilidad p % normalmente comprenderá un intervalo de valores reales. Si la región comprende un intervalo, se denomina intervalo de probabilidad . [16] [18] [22]
Los intervalos de verosimilitud, y más generalmente las regiones de verosimilitud, se utilizan para la estimación de intervalos en las estadísticas verosímiles: son similares a los intervalos de confianza en las estadísticas frecuentistas y a los intervalos creíbles en las estadísticas bayesianas. Los intervalos de verosimilitud se interpretan directamente en términos de verosimilitud relativa, no en términos de probabilidad de cobertura (frecuentismo) o probabilidad posterior (bayesianismo).
Dado un modelo, los intervalos de verosimilitud pueden compararse con los intervalos de confianza. Si θ es un único parámetro real, entonces, bajo ciertas condiciones, un intervalo de verosimilitud del 14,65 % (verosimilitud de aproximadamente 1:7) para θ será el mismo que un intervalo de confianza del 95 % (probabilidad de cobertura de 19/20). [16] [21] En una formulación ligeramente diferente, adecuada para el uso de verosimilitudes logarítmicas (véase el teorema de Wilks ), la estadística de prueba es el doble de la diferencia en verosimilitudes logarítmicas y la distribución de probabilidad de la estadística de prueba es aproximadamente una distribución de chi-cuadrado con grados de libertad (gl) iguales a la diferencia en gl entre los dos modelos (por lo tanto, el intervalo de verosimilitud e −2 es el mismo que el intervalo de confianza de 0,954; suponiendo que la diferencia en gl es 1). [21] [22]
En muchos casos, la probabilidad es una función de más de un parámetro, pero el interés se centra en la estimación de solo uno, o como máximo algunos de ellos, y los demás se consideran parámetros molestos . Se han desarrollado varios enfoques alternativos para eliminar dichos parámetros molestos, de modo que una probabilidad se pueda escribir como una función solo del parámetro (o parámetros) de interés: los enfoques principales son las probabilidades de perfil, condicionales y marginales. [23] [24] Estos enfoques también son útiles cuando una superficie de probabilidad de alta dimensión necesita reducirse a uno o dos parámetros de interés para permitir un gráfico .
Es posible reducir las dimensiones concentrando la función de verosimilitud para un subconjunto de parámetros expresando los parámetros molestos como funciones de los parámetros de interés y reemplazándolos en la función de verosimilitud. [25] [26] En general, para una función de verosimilitud que depende del vector de parámetros que se puede dividir en , y donde se puede determinar una correspondencia explícitamente, la concentración reduce la carga computacional del problema de maximización original. [27]
Por ejemplo, en una regresión lineal con errores distribuidos normalmente, , el vector de coeficientes podría dividirse en (y, en consecuencia, la matriz de diseño ). Maximizar con respecto a produce una función de valor óptimo . Usando este resultado, el estimador de máxima verosimilitud para puede derivarse como donde es la matriz de proyección de . Este resultado se conoce como el teorema de Frisch–Waugh–Lovell .
Dado que gráficamente el procedimiento de concentración es equivalente a cortar la superficie de probabilidad a lo largo de la cresta de valores del parámetro de molestia que maximiza la función de probabilidad, creando un perfil isométrico de la función de probabilidad para un determinado , el resultado de este procedimiento también se conoce como perfil de probabilidad . [28] [29] Además de ser graficado, el perfil de probabilidad también se puede utilizar para calcular intervalos de confianza que a menudo tienen mejores propiedades de muestra pequeña que aquellos basados en errores estándar asintóticos calculados a partir de la probabilidad total. [30] [31]
A veces es posible encontrar una estadística suficiente para los parámetros de molestia, y el condicionamiento de esta estadística da como resultado una probabilidad que no depende de los parámetros de molestia. [32]
Un ejemplo se da en las tablas 2×2, donde el condicionamiento de los cuatro totales marginales conduce a una probabilidad condicional basada en la distribución hipergeométrica no central . Esta forma de condicionamiento también es la base de la prueba exacta de Fisher .
En ocasiones, podemos eliminar los parámetros molestos considerando una probabilidad basada únicamente en una parte de la información de los datos, por ejemplo, utilizando el conjunto de rangos en lugar de los valores numéricos. Otro ejemplo se da en los modelos lineales mixtos , donde considerar una probabilidad para los residuos solo después de ajustar los efectos fijos conduce a una estimación de máxima verosimilitud residual de los componentes de la varianza.
Una probabilidad parcial es una adaptación de la probabilidad total de modo que solo una parte de los parámetros (los parámetros de interés) ocurren en ella. [33] Es un componente clave del modelo de riesgos proporcionales : al utilizar una restricción en la función de riesgo, la probabilidad no contiene la forma del riesgo a lo largo del tiempo.
La probabilidad, dados dos o más eventos independientes , es el producto de las probabilidades de cada uno de los eventos individuales: Esto se desprende de la definición de independencia en probabilidad: las probabilidades de que ocurran dos eventos independientes, dado un modelo, son el producto de las probabilidades.
Esto es particularmente importante cuando los eventos provienen de variables aleatorias independientes e idénticamente distribuidas , como observaciones independientes o muestreo con reemplazo . En tal situación, la función de probabilidad se convierte en un producto de funciones de probabilidad individuales.
El producto vacío tiene valor 1, que corresponde a la probabilidad, dado ningún evento, de ser 1: antes de cualquier dato, la probabilidad es siempre 1. Esto es similar a una previa uniforme en las estadísticas bayesianas, pero en las estadísticas verosímiles esto no es una previa impropia porque las probabilidades no están integradas.
La función de log-verosimilitud es el logaritmo de la función de verosimilitud, a menudo denotada por una l minúscula o , para contrastar con la L mayúscula o para la verosimilitud. Debido a que los logaritmos son funciones estrictamente crecientes , maximizar la verosimilitud es equivalente a maximizar la log-verosimilitud. Pero para fines prácticos es más conveniente trabajar con la función de log-verosimilitud en la estimación de máxima verosimilitud , en particular porque la mayoría de las distribuciones de probabilidad comunes —notablemente la familia exponencial— son solo logarítmicamente cóncavas , [34] [35] y la concavidad de la función objetivo juega un papel clave en la maximización .
Dada la independencia de cada evento, la probabilidad logarítmica general de la intersección es igual a la suma de las probabilidades logarítmicas de los eventos individuales. Esto es análogo al hecho de que la probabilidad logarítmica general es la suma de las probabilidades logarítmicas de los eventos individuales. Además de la conveniencia matemática que esto implica, el proceso de suma de la probabilidad logarítmica tiene una interpretación intuitiva, que a menudo se expresa como "apoyo" de los datos. Cuando los parámetros se estiman utilizando la probabilidad logarítmica para la estimación de máxima verosimilitud , cada punto de datos se utiliza al sumarse a la probabilidad logarítmica total. Como los datos pueden verse como una evidencia que respalda los parámetros estimados, este proceso puede interpretarse como "el respaldo de la evidencia independiente se suma", y la probabilidad logarítmica es el "peso de la evidencia". Al interpretar la probabilidad logarítmica negativa como contenido de información o sorpresa , el soporte (verosimilitud logarítmica) de un modelo, dado un evento, es el negativo de la sorpresa del evento, dado el modelo: un modelo es respaldado por un evento en la medida en que el evento no sea sorprendente, dado el modelo.
El logaritmo de una razón de verosimilitud es igual a la diferencia de las verosimilitudes:
Así como la probabilidad, dado que no ocurre ningún evento, es 1, la verosimilitud logarítmica, dado que no ocurre ningún evento, es 0, que corresponde al valor de la suma vacía: sin ningún dato, no hay respaldo para ningún modelo.
El gráfico de la verosimilitud logarítmica se denomina curva de soporte (en el caso univariado ). [36] En el caso multivariado, el concepto se generaliza en una superficie de soporte sobre el espacio de parámetros . Tiene una relación con el soporte de una distribución , pero es distinto de este .
El término fue acuñado por AWF Edwards [36] en el contexto de las pruebas de hipótesis estadísticas , es decir, si los datos "apoyan" o no una hipótesis (o valor de parámetro) que se está probando más que cualquier otro.
La función de log-verosimilitud que se representa se utiliza en el cálculo de la puntuación (el gradiente de log-verosimilitud) y la información de Fisher (la curvatura de log-verosimilitud). Por lo tanto, el gráfico tiene una interpretación directa en el contexto de la estimación de máxima verosimilitud y las pruebas de razón de verosimilitud .
Si la función de log-verosimilitud es suave , su gradiente con respecto al parámetro, conocido como puntuación y escrito , existe y permite la aplicación del cálculo diferencial . La forma básica de maximizar una función diferenciable es encontrar los puntos estacionarios (los puntos donde la derivada es cero); dado que la derivada de una suma es solo la suma de las derivadas, pero la derivada de un producto requiere la regla del producto , es más fácil calcular los puntos estacionarios de la log-verosimilitud de eventos independientes que para la verosimilitud de eventos independientes.
Las ecuaciones definidas por el punto estacionario de la función de puntuación sirven como ecuaciones de estimación para el estimador de máxima verosimilitud. En ese sentido, el estimador de máxima verosimilitud está definido implícitamente por el valor en de la función inversa , donde es el espacio euclidiano d -dimensional , y es el espacio de parámetros. Utilizando el teorema de la función inversa , se puede demostrar que está bien definido en un entorno abierto alrededor de con probabilidad que tiende a uno, y es una estimación consistente de . Como consecuencia, existe una secuencia tal que asintóticamente casi con seguridad , y . [37] Se puede establecer un resultado similar utilizando el teorema de Rolle . [38] [39]
La segunda derivada evaluada en , conocida como información de Fisher , determina la curvatura de la superficie de verosimilitud, [40] y por lo tanto indica la precisión de la estimación. [41]
La verosimilitud logarítmica también es particularmente útil para familias exponenciales de distribuciones, que incluyen muchas de las distribuciones de probabilidad paramétricas comunes . La función de distribución de probabilidad (y, por lo tanto, la función de verosimilitud) para familias exponenciales contiene productos de factores que involucran exponenciación . El logaritmo de dicha función es una suma de productos, nuevamente más fácil de diferenciar que la función original.
Una familia exponencial es aquella cuya función de densidad de probabilidad tiene la forma (para algunas funciones, escribiendo para el producto interno ):
Cada uno de estos términos tiene una interpretación, [a] pero simplemente cambiando de probabilidad a verosimilitud y tomando logaritmos obtenemos la suma:
Los y corresponden cada uno a un cambio de coordenadas , por lo que en estas coordenadas, la verosimilitud logarítmica de una familia exponencial viene dada por la sencilla fórmula:
En palabras, la verosimilitud logarítmica de una familia exponencial es el producto interno del parámetro natural y la estadística suficiente , menos el factor de normalización ( función de partición logarítmica ) . Así, por ejemplo, la estimación de máxima verosimilitud se puede calcular tomando derivadas de la estadística suficiente T y la función de partición logarítmica A .
La distribución gamma es una familia exponencial con dos parámetros, y . La función de verosimilitud es
Encontrar la estimación de máxima verosimilitud de un único valor observado parece bastante desalentador. Su logaritmo es mucho más sencillo de manejar:
Para maximizar la verosimilitud logarítmica, primero tomamos la derivada parcial con respecto a :
Si hay varias observaciones independientes , entonces la log-verosimilitud conjunta será la suma de las log-verosimilitudes individuales, y la derivada de esta suma será la suma de las derivadas de cada log-verosimilitud individual:
Para completar el procedimiento de maximización de la log-verosimilitud conjunta, la ecuación se establece en cero y se resuelve para :
Aquí denota la estimación de máxima verosimilitud y es la media muestral de las observaciones.
El término "verosimilitud" se ha utilizado en inglés al menos desde finales del inglés medio . [42] Su uso formal para referirse a una función específica en estadística matemática fue propuesto por Ronald Fisher , [43] en dos artículos de investigación publicados en 1921 [44] y 1922. [45] El artículo de 1921 introdujo lo que hoy se llama un "intervalo de verosimilitud"; el artículo de 1922 introdujo el término " método de máxima verosimilitud ". Citando a Fisher:
[E]n 1922, propuse el término "probabilidad", en vista del hecho de que, con respecto al parámetro, no es una probabilidad y no obedece a las leyes de probabilidad, mientras que al mismo tiempo tiene con el problema de la elección racional entre los valores posibles del parámetro una relación similar a la que tiene la probabilidad con el problema de predecir eventos en juegos de azar... Mientras que, sin embargo, en relación con el juicio psicológico, la probabilidad tiene cierta semejanza con la probabilidad, los dos conceptos son completamente distintos... [46]
El concepto de probabilidad no debe confundirse con el de probabilidad mencionado por Sir Ronald Fisher.
Subrayo esto porque, a pesar del énfasis que siempre he puesto en la diferencia entre probabilidad y verosimilitud, todavía hay una tendencia a tratar la verosimilitud como si fuera una especie de probabilidad. El primer resultado es, pues, que hay dos medidas diferentes de creencia racional apropiadas para casos diferentes. Conociendo la población podemos expresar nuestro conocimiento incompleto de la muestra, o nuestra expectativa de ella, en términos de probabilidad; conociendo la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de verosimilitud. [47]
La invención de la probabilidad estadística por parte de Fisher fue una reacción contra una forma anterior de razonamiento llamada probabilidad inversa . [48] Su uso del término "probabilidad" fijó el significado del término dentro de las estadísticas matemáticas.
AWF Edwards (1972) estableció la base axiomática para el uso de la razón de verosimilitud logarítmica como medida del apoyo relativo de una hipótesis frente a otra. La función de apoyo es entonces el logaritmo natural de la función de verosimilitud. Ambos términos se utilizan en filogenética , pero no se adoptaron en un tratamiento general del tema de la evidencia estadística. [49]
Entre los estadísticos, no hay consenso sobre cuál debería ser el fundamento de la estadística . Se han propuesto cuatro paradigmas principales para el fundamento: frecuentismo , bayesianismo , verosimilitud y basado en AIC . [50] Para cada uno de los fundamentos propuestos, la interpretación de la verosimilitud es diferente. Las cuatro interpretaciones se describen en las subsecciones siguientes.
En la inferencia bayesiana , aunque se puede hablar de la probabilidad de cualquier proposición o variable aleatoria dada otra variable aleatoria: por ejemplo, la probabilidad de un valor de parámetro o de un modelo estadístico (ver probabilidad marginal ), dados datos específicos u otra evidencia, [51] [52] [53] [54] la función de probabilidad sigue siendo la misma entidad, con las interpretaciones adicionales de (i) una densidad condicional de los datos dado el parámetro (ya que el parámetro es entonces una variable aleatoria) y (ii) una medida o cantidad de información aportada por los datos sobre el valor del parámetro o incluso el modelo. [51] [52] [53] [54] [55] Debido a la introducción de una estructura de probabilidad en el espacio de parámetros o en la colección de modelos, es posible que un valor de parámetro o un modelo estadístico tenga un valor de probabilidad grande para datos dados, y sin embargo tenga una probabilidad baja , o viceversa. [53] [55] Este suele ser el caso en contextos médicos. [56] Siguiendo la regla de Bayes , la probabilidad cuando se considera como una densidad condicional se puede multiplicar por la densidad de probabilidad previa del parámetro y luego normalizar, para dar una densidad de probabilidad posterior . [51] [52] [53] [54] [55] De manera más general, la probabilidad de una cantidad desconocida dada otra cantidad desconocida es proporcional a la probabilidad de dada . [51] [52] [53] [54] [55]
En las estadísticas frecuentistas, la función de verosimilitud es en sí misma una estadística que resume una única muestra de una población, cuyo valor calculado depende de una elección de varios parámetros θ 1 ... θ p , donde p es el recuento de parámetros en algún modelo estadístico ya seleccionado . El valor de la verosimilitud sirve como cifra de mérito para la elección utilizada para los parámetros, y el conjunto de parámetros con máxima verosimilitud es la mejor opción, dados los datos disponibles.
El cálculo específico de la probabilidad es la probabilidad de que la muestra observada sea asignada, suponiendo que el modelo elegido y los valores de los diversos parámetros θ den una aproximación precisa de la distribución de frecuencia de la población de la que se extrajo la muestra observada. Heurísticamente, tiene sentido que una buena elección de parámetros sea aquella que haga que la muestra realmente observada tenga la máxima probabilidad post-hoc posible de haber sucedido. El teorema de Wilks cuantifica la regla heurística al mostrar que la diferencia en el logaritmo de la probabilidad generada por los valores de los parámetros de la estimación y el logaritmo de la probabilidad generada por los valores de los parámetros "verdaderos" (pero desconocidos) de la población se distribuye asintóticamente χ 2 .
La estimación de máxima verosimilitud de cada muestra independiente es una estimación separada del conjunto de parámetros "verdaderos" que describe la población muestreada. Las estimaciones sucesivas de muchas muestras independientes se agruparán con el conjunto "verdadero" de valores de parámetros de la población oculto en algún lugar entre ellas. La diferencia en los logaritmos de las verosimilitudes de la máxima verosimilitud y de los conjuntos de parámetros adyacentes se puede utilizar para dibujar una región de confianza en un gráfico cuyas coordenadas son los parámetros θ 1 ... θ p . La región rodea la estimación de máxima verosimilitud, y todos los puntos (conjuntos de parámetros) dentro de esa región difieren como máximo en log-verosimilitud por algún valor fijo. La distribución χ 2 dada por el teorema de Wilks convierte las diferencias de log-verosimilitud de la región en la "confianza" de que el conjunto de parámetros "verdaderos" de la población se encuentra dentro. El arte de elegir la diferencia fija de log-verosimilitud es hacer que la confianza sea aceptablemente alta mientras se mantiene la región aceptablemente pequeña (rango estrecho de estimaciones).
A medida que se observan más datos, en lugar de utilizarlos para realizar estimaciones independientes, se pueden combinar con las muestras anteriores para formar una única muestra combinada, y esa muestra grande se puede utilizar para una nueva estimación de máxima verosimilitud. A medida que aumenta el tamaño de la muestra combinada, el tamaño de la región de verosimilitud con la misma confianza se reduce. Finalmente, o bien el tamaño de la región de confianza es casi un único punto, o bien se ha muestreado toda la población; en ambos casos, el conjunto de parámetros estimado es esencialmente el mismo que el conjunto de parámetros de la población.
Bajo el paradigma AIC , la probabilidad se interpreta dentro del contexto de la teoría de la información . [57] [58] [59]