stringtranslate.com

Distribución multinomial

En teoría de la probabilidad , la distribución multinomial es una generalización de la distribución binomial . Por ejemplo, modela la probabilidad de conteos para cada lado de un dado de k caras lanzado n veces. Para n ensayos independientes , cada uno de los cuales conduce a un éxito para exactamente una de las k categorías, y cada categoría tiene una probabilidad de éxito fija dada, la distribución multinomial da la probabilidad de cualquier combinación particular de números de éxitos para las diversas categorías.

Cuando k es 2 y n es 1, la distribución multinomial es la distribución de Bernoulli . Cuando k es 2 y n es mayor que 1, es la distribución binomial . Cuando k es mayor que 2 y n es 1, es la distribución categórica . El término "multinoulli" se utiliza a veces para la distribución categórica para enfatizar esta relación de cuatro vías (por lo que n determina el sufijo y k el prefijo).

La distribución de Bernoulli modela el resultado de un único ensayo de Bernoulli . En otras palabras, modela si lanzar una moneda (posiblemente sesgada ) una vez dará como resultado un éxito (obtener una cara) o un fracaso (obtener una cruz). La distribución binomial generaliza esto al número de caras al realizar n lanzamientos independientes (ensayos de Bernoulli) de la misma moneda. La distribución multinomial modela el resultado de n experimentos, donde el resultado de cada ensayo tiene una distribución categórica , como lanzar un dado de k caras n veces.

Sea k un número finito fijo. Matemáticamente, tenemos k posibles resultados mutuamente excluyentes, con probabilidades correspondientes p 1 , ..., p k y n ensayos independientes. Dado que los k resultados son mutuamente excluyentes y uno debe ocurrir, tenemos p i  ≥ 0 para i  = 1, ...,  k y . Entonces, si las variables aleatorias X i indican el número de veces que se observa el resultado número i durante los n ensayos, el vector X  = ( X 1 , ...,  X k ) sigue una distribución multinomial con parámetros n y p , donde p  = ( p 1 , ...,  p k ). Si bien los ensayos son independientes, sus resultados X i son dependientes porque deben sumarse para dar n.

Definiciones

Función de masa de probabilidad

Supongamos que se hace un experimento en el que se extraen n bolas de k colores diferentes de una bolsa, reemplazando las bolas extraídas después de cada extracción. Las bolas del mismo color son equivalentes. Denotemos la variable que es el número de bolas extraídas del color i ( i = 1, ..., k ) como X i , y denotemos como p i la probabilidad de que una extracción dada sea del color i . La función de masa de probabilidad de esta distribución multinomial es:

para números enteros no negativos x 1 , ..., x k .

La función de masa de probabilidad se puede expresar utilizando la función gamma como:

Esta forma muestra su parecido con la distribución de Dirichlet , que es su conjugada previa .

Ejemplo

Supongamos que en una elección con tres candidatos en un país grande, el candidato A obtuvo el 20% de los votos, el candidato B obtuvo el 30% de los votos y el candidato C obtuvo el 50% de los votos. Si se seleccionan seis votantes al azar, ¿cuál es la probabilidad de que en la muestra haya exactamente un partidario del candidato A, dos del candidato B y tres del candidato C?

Nota: Dado que asumimos que la población votante es grande, es razonable y permisible pensar que las probabilidades no cambian una vez que se selecciona un votante para la muestra. Técnicamente hablando, se trata de un muestreo sin reemplazo, por lo que la distribución correcta es la distribución hipergeométrica multivariada , pero las distribuciones convergen a medida que la población crece en comparación con un tamaño de muestra fijo [1] .

Propiedades

Normalización

La distribución multinomial se normaliza según:

donde la suma es sobre todas las permutaciones de tales que .

Valor esperado y varianza

El número esperado de veces que se observó el resultado i en n ensayos es

La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida binomialmente y, por lo tanto, es

Las entradas fuera de la diagonal son las covarianzas :

para i , j distintos.

Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector multinomial requiere una disminución en otro componente.

Cuando estas expresiones se combinan en una matriz con i, j elementos, el resultado es una matriz de covarianza positiva-semidefinida k × k de rango k  − 1. En el caso especial donde k  =  n y donde los p i son todos iguales, la matriz de covarianza es la matriz de centrado .

Las entradas de la matriz de correlación correspondiente son

Tenga en cuenta que el número de ensayos n desaparece de esta expresión.

Cada uno de los k componentes tiene por separado una distribución binomial con parámetros n y p i , para el valor apropiado del subíndice i .

El soporte de la distribución multinomial es el conjunto

Su número de elementos es

Notación matricial

En notación matricial,

y

con p T = la transpuesta del vector fila del vector columna p .

Visualización

Como rebanadas del triángulo de Pascal generalizado

De la misma manera que se puede interpretar la distribución binomial como porciones unidimensionales (normalizadas) (1D) del triángulo de Pascal , también se puede interpretar la distribución multinomial como porciones bidimensionales (triangulares) de la pirámide de Pascal , o porciones 3D/4D/+ (en forma de pirámide) de análogos de dimensiones superiores del triángulo de Pascal. Esto revela una interpretación del rango de la distribución: "pirámides" equiláteras discretizadas en una dimensión arbitraria, es decir, un símplex con una cuadrícula. [ cita requerida ]

Como coeficientes polinómicos

De manera similar, tal como se puede interpretar la distribución binomial como los coeficientes polinomiales de cuando se expanden, se puede interpretar la distribución multinomial como los coeficientes de cuando se expanden, notando que solo los coeficientes deben sumar 1.

Teoría de las grandes desviaciones

Asintóticos

Por la fórmula de Stirling , en el límite de , tenemos donde las frecuencias relativas en los datos pueden interpretarse como probabilidades de la distribución empírica , y es la divergencia de Kullback–Leibler .

Esta fórmula se puede interpretar de la siguiente manera.

Consideremos , el espacio de todas las distribuciones posibles sobre las categorías . Es un símplex . Después de muestras independientes de la distribución categórica (que es como construimos la distribución multinomial), obtenemos una distribución empírica .

Según la fórmula asintótica, la probabilidad de que la distribución empírica se desvíe de la distribución real decae exponencialmente a una tasa . Cuantos más experimentos se realicen y cuanto más diferente sea de , menos probable será que se observe una distribución empírica de este tipo.

Si es un subconjunto cerrado de , entonces al dividirlo en partes y razonar sobre la tasa de crecimiento de en cada parte , obtenemos el teorema de Sanov , que establece que

Concentración en generalnorte

Debido a la desintegración exponencial, en general , casi toda la masa de probabilidad se concentra en un pequeño entorno de . En este pequeño entorno, podemos tomar el primer término distinto de cero en la expansión de Taylor de , para obtener Esto se parece a la distribución gaussiana, lo que sugiere el siguiente teorema:

Teorema. En el límite, converge en distribución a la distribución chi-cuadrado .

Si tomamos una muestra de la distribución multinomial y trazamos el mapa de calor de las muestras dentro del símplex bidimensional (aquí mostrado como un triángulo negro), observamos que cuando , la distribución converge a una gaussiana alrededor del punto , con los contornos convergiendo en forma de elipses, con radios convergiendo como . Mientras tanto, la separación entre los puntos discretos converge como , y por lo tanto la distribución multinomial discreta converge a una distribución gaussiana continua.
[Prueba]

El espacio de todas las distribuciones sobre categorías es un símplex : , y el conjunto de todas las distribuciones empíricas posibles después de los experimentos es un subconjunto del símplex: . Es decir, es la intersección entre y la red .

A medida que aumenta, la mayor parte de la masa de probabilidad se concentra en un subconjunto de cerca de , y la distribución de probabilidad cerca se aproxima bien por De esto, vemos que el subconjunto en el que se concentra la masa tiene un radio del orden de , pero los puntos del subconjunto están separados por una distancia del orden de , por lo que en general , los puntos se fusionan en un continuo. Para convertir esto de una distribución de probabilidad discreta a una densidad de probabilidad continua, necesitamos multiplicar por el volumen ocupado por cada punto de en . Sin embargo, por simetría, cada punto ocupa exactamente el mismo volumen (excepto un conjunto despreciable en el límite), por lo que obtenemos una densidad de probabilidad , donde es una constante.

Finalmente, como el símplex no es todo , sino sólo dentro de un plano -dimensional, obtenemos el resultado deseado.

Concentración condicional en generalnorte

El fenómeno de concentración anterior se puede generalizar fácilmente al caso en que se aplican restricciones lineales. Esta es la justificación teórica de la prueba de chi-cuadrado de Pearson .

Teorema. Dadas las frecuencias observadas en un conjunto de datos con puntos, imponemos restricciones lineales independientes (nótese que la primera restricción es simplemente el requisito de que las distribuciones empíricas sumen uno), de modo que las distribuciones empíricas satisfagan todas estas restricciones simultáneamente. Sea la proyección de la distribución previa sobre la subregión del símplex permitida por las restricciones lineales. En el límite, los recuentos muestreados de la distribución multinomial condicional a las restricciones lineales están regidos por que converge en distribución a la distribución chi-cuadrado .

[Prueba]

Una prueba análoga se aplica en este problema diofántico de ecuaciones lineales acopladas en variables de conteo , [2] pero esta vez es la intersección de con y hiperplanos, todos linealmente independientes, por lo que la densidad de probabilidad está restringida a un plano -dimensional. En particular, expandir la divergencia KL alrededor de su mínimo (la -proyección de sobre ) en el problema restringido asegura por el teorema de Pitágoras para -divergencia que cualquier término constante y lineal en los conteos se desvanece de la probabilidad condicional para muestrear multinacionalmente esos conteos.

Nótese que, por definición, cada uno de debe ser un número racional, mientras que puede elegirse entre cualquier número real en y no necesita satisfacer el sistema diofántico de ecuaciones. Solo asintóticamente como , las de pueden considerarse probabilidades sobre .

Más allá de las restricciones observadas empíricamente (como momentos o prevalencias), el teorema se puede generalizar:

Teorema.

En el caso de que todos sean iguales, el Teorema se reduce a la concentración de entropías alrededor de la Entropía Máxima. [3] [4]

Distribuciones relacionadas

En algunos campos, como el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales son sinónimos y es habitual hablar de una distribución multinomial cuando en realidad se hace referencia a una distribución categórica . Esto se debe a que a veces resulta conveniente expresar el resultado de una distribución categórica como un vector "1 de k" (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0) en lugar de como un número entero en el rango ; de esta forma, una distribución categórica es equivalente a una distribución multinomial en un único ensayo.

Inferencia estadística

Pruebas de equivalencia para distribuciones multinomiales

El objetivo de las pruebas de equivalencia es establecer la concordancia entre una distribución multinomial teórica y las frecuencias de conteo observadas. La distribución teórica puede ser una distribución multinomial completamente especificada o una familia paramétrica de distribuciones multinomiales.

Sea una distribución multinomial teórica y sea una distribución subyacente verdadera. Las distribuciones y se consideran equivalentes si para una distancia y un parámetro de tolerancia . El problema de prueba de equivalencia es versus . La distribución subyacente verdadera es desconocida. En cambio, se observan las frecuencias de conteo, donde es un tamaño de muestra. Una prueba de equivalencia utiliza para rechazar . Si puede rechazarse, entonces la equivalencia entre y se muestra en un nivel de significancia dado. La prueba de equivalencia para la distancia euclidiana se puede encontrar en el libro de texto de Wellek (2010). [5] La prueba de equivalencia para la distancia de variación total se desarrolla en Ostrovski (2017). [6] La prueba de equivalencia exacta para la distancia acumulativa específica se propone en Frey (2009). [7]

La distancia entre la distribución subyacente real y una familia de distribuciones multinomiales se define por . Entonces, el problema de prueba de equivalencia se da por y . La distancia se calcula generalmente mediante optimización numérica. Las pruebas para este caso se desarrollaron recientemente en Ostrovski (2018). [8]

Intervalos de confianza para la diferencia de dos proporciones

En el contexto de una distribución multinomial, la construcción de intervalos de confianza para la diferencia entre las proporciones de observaciones de dos eventos, , requiere la incorporación de la covarianza negativa entre los estimadores de la muestra y .

Parte de la literatura sobre el tema se centró en el caso de uso de datos binarios de pares emparejados, lo que requiere una atención cuidadosa al traducir las fórmulas al caso general de cualquier distribución multinomial. Las fórmulas de la sección actual se generalizarán, mientras que las fórmulas de la siguiente sección se centrarán en el caso de uso de datos binarios de pares emparejados.

El error estándar (EE) de Wald de la diferencia de proporción se puede estimar utilizando: [9] : 378  [10]

Para un intervalo de confianza aproximado , el margen de error puede incorporar el cuartil apropiado de la distribución normal estándar , de la siguiente manera:

[Prueba]

A medida que aumenta el tamaño de la muestra ( ), las proporciones de la muestra seguirán aproximadamente una distribución normal multivariante , gracias al teorema del límite central multidimensional (y también podría demostrarse utilizando el teorema de Cramér-Wold ). Por lo tanto, su diferencia también será aproximadamente normal. Además, estos estimadores son débilmente consistentes y al introducirlos en el estimador SE también lo hace débilmente consistente. Por lo tanto, gracias al teorema de Slutsky , la cantidad fundamental sigue aproximadamente la distribución normal estándar . Y a partir de eso, se deriva directamente el intervalo de confianza aproximado anterior .

El SE se puede construir utilizando el cálculo de la varianza de la diferencia de dos variables aleatorias :

Una modificación que incluye una corrección de continuidad aumenta el margen de error de la siguiente manera: [11] : 102–3 

Otra alternativa es confiar en un estimador bayesiano que utilice la distribución previa de Jeffreys , lo que lleva a utilizar una distribución de Dirichlet , con todos los parámetros iguales a 0,5, como distribución previa. La distribución posterior serán los cálculos anteriores, pero después de añadir 1/2 a cada uno de los k elementos, lo que lleva a un aumento general del tamaño de la muestra en . Esto se desarrolló originalmente para una distribución multinomial con cuatro eventos, y se conoce como wald+2 , para analizar datos de pares coincidentes (consulte la siguiente sección para obtener más detalles). [12]

Esto nos lleva al siguiente SE:

[Prueba]

Lo cual se puede introducir en la fórmula original de Wald de la siguiente manera:

Ocurrencia y aplicaciones

Intervalos de confianza para la diferencia en datos binarios de pares coincidentes (usando multinomiales conk=4)

En el caso de los datos binarios de pares emparejados, una tarea común es construir el intervalo de confianza de la diferencia de la proporción de los eventos emparejados. Por ejemplo, podríamos tener una prueba para alguna enfermedad y querer verificar los resultados de la misma para cierta población en dos puntos en el tiempo (1 y 2), para verificar si hubo un cambio en la proporción de los positivos para la enfermedad durante ese tiempo.

Estos escenarios se pueden representar mediante una tabla de contingencia de dos por dos con el número de elementos que tuvieron cada una de las combinaciones de eventos. Podemos utilizar f minúscula para las frecuencias de muestreo: , y F mayúscula para las frecuencias de población: . Estas cuatro combinaciones se podrían modelar como provenientes de una distribución multinomial (con cuatro resultados potenciales). Los tamaños de la muestra y la población pueden ser n y N respectivamente. Y en tal caso, existe un interés en construir un intervalo de confianza para la diferencia de proporciones a partir de los marginales de la siguiente tabla de contingencia (muestreada):

En este caso, comprobar la diferencia en las proporciones marginales significa que nos interesa utilizar las siguientes definiciones: , . Y la diferencia para la que queremos construir intervalos de confianza es:

Por lo tanto, un intervalo de confianza para las proporciones marginales positivas ( ) es lo mismo que construir un intervalo de confianza para la diferencia de las proporciones de la diagonal secundaria de la tabla de contingencia de dos por dos ( ).

El cálculo de un valor p para dicha diferencia se conoce como prueba de McNemar . Se puede construir un intervalo de confianza a partir de él utilizando los métodos descritos anteriormente para Intervalos de confianza para la diferencia de dos proporciones.

Los intervalos de confianza de Wald de la sección anterior se pueden aplicar a este contexto y aparecen en la literatura utilizando notaciones alternativas. En concreto, el EE que se presenta a menudo se basa en las frecuencias de la tabla de contingencia en lugar de las proporciones de la muestra. Por ejemplo, los intervalos de confianza de Wald, proporcionados anteriormente, se pueden escribir como: [11] : 102–3 

Investigaciones posteriores en la literatura han identificado varias deficiencias tanto en el método Wald como en el Wald con corrección de continuidad, y se han propuesto otros métodos para su aplicación práctica. [11]

Una de esas modificaciones incluye el Wald+2 de Agresti y Min (similar a algunos de sus otros trabajos [13] ) en el que a cada frecuencia de celda se le agregó un extra. [12] Esto conduce a los intervalos de confianza de Wald+2 . En una interpretación bayesiana, esto es como construir los estimadores tomando como previa una distribución de Dirichlet con todos los parámetros iguales a 0,5 (que es, de hecho, la previa de Jeffreys ). El +2 en el nombre wald+2 ahora puede tomarse para significar que en el contexto de una tabla de contingencia de dos por dos, que es una distribución multinomial con cuatro eventos posibles, entonces como agregamos 1/2 observación a cada uno de ellos, esto se traduce en una adición general de 2 observaciones (debido a la previa).

Esto conduce al siguiente SE modificado para el caso de datos de pares coincidentes:

Lo cual se puede introducir en la fórmula original de Wald de la siguiente manera:

Otras modificaciones incluyen el Wald ajustado de Bonett y Price y el puntaje de Newcombe .

Métodos computacionales

Generación de variables aleatorias

Primero, reordena los parámetros de manera que queden ordenados en orden descendente (esto es solo para acelerar el cálculo y no es estrictamente necesario). Ahora, para cada prueba, extrae una variable auxiliar X de una distribución uniforme (0, 1). El resultado resultante es el componente

{ X j = 1, X k = 0 para k  ≠  j } es una observación de la distribución multinomial con y n  = 1. Una suma de repeticiones independientes de este experimento es una observación de una distribución multinomial con n igual al número de dichas repeticiones.

Muestreo mediante muestras binomiales condicionales repetidas

Dados los parámetros y un total para la muestra tal que , es posible tomar muestras secuencialmente para el número en un estado arbitrario , dividiendo el espacio de estados en y no , condicionado a cualquier muestra previa ya tomada, repetidamente.

Algoritmo: Muestreo binomial condicional secuencial

S = n rho = 1 para i en [ 1 ,k-1 ] : si rho ! = 0 : X [ i ] ~ Binom ( S,p [ i ] /rho ) de lo contrario X [ i ] = 0 S = S - X [ i ] rho = rho - p [ i ]
X [ k ] = S                               

Heurísticamente, cada aplicación de la muestra binomial reduce el número disponible para muestrear y las probabilidades condicionales también se actualizan para garantizar la consistencia lógica. [14]

Implementaciones de software

Véase también

Lectura adicional

Referencias

  1. ^ "muestreo de distribución multinomial de probabilidad". Validación cruzada . Consultado el 28 de julio de 2022 .
  2. ^ Loukas, Orestis; Chung, Ho Ryun (2023). "Empirismo total: aprender de los datos". arXiv : 2311.08315 [math.ST].
  3. ^ Loukas, Orestis; Chung, Ho Ryun (abril de 2022). "Distribuciones categóricas de máxima entropía bajo restricciones marginales". arXiv : 2204.03406 .
  4. ^ Loukas, Orestis; Chung, Ho Ryun (junio de 2022). "Caracterización basada en entropía de restricciones de modelado". arXiv : 2206.14105 .
  5. ^ Wellek, Stefan (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman y Hall/CRC. ISBN 978-1439808184.
  6. ^ Ostrovski, Vladimir (mayo de 2017). "Prueba de equivalencia de distribuciones multinomiales". Statistics & Probability Letters . 124 : 77–82. doi :10.1016/j.spl.2017.01.004. S2CID  126293429.Enlace web oficial (requiere suscripción). Enlace web alternativo y gratuito.
  7. ^ Frey, Jesse (marzo de 2009). "Una prueba multinomial exacta para equivalencia". Revista Canadiense de Estadística . 37 : 47–59. doi :10.1002/cjs.10000. S2CID  122486567.Enlace web oficial (requiere suscripción).
  8. ^ Ostrovski, Vladimir (marzo de 2018). "Prueba de equivalencia de familias de distribuciones multinomiales con aplicación al modelo de independencia". Statistics & Probability Letters . 139 : 61–66. doi :10.1016/j.spl.2018.03.014. S2CID  126261081.Enlace web oficial (requiere suscripción). Enlace web alternativo y gratuito.
  9. ^ Fleiss, Joseph L.; Levin, Bruce; Paik, Myunghee Cho (2003). Métodos estadísticos para tasas y proporciones (3.ª ed.). Hoboken, Nueva Jersey: J. Wiley. pág. 760. ISBN 9780471526292.
  10. ^ Newcombe, RG (1998). "Estimación de intervalos para la diferencia entre proporciones independientes: comparación de once métodos". Estadística en Medicina . 17 (8): 873–890. doi :10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I. PMID  9595617.
  11. ^ abc "Intervalos de confianza para la diferencia entre dos proporciones correlacionadas" (PDF) . NCSS . Consultado el 22 de marzo de 2022 .
  12. ^ ab Agresti, Alan; Min, Yongyi (2005). "Intervalos de confianza simples y mejorados para comparar proporciones emparejadas" (PDF) . Estadísticas en Medicina . 24 (5): 729–740. doi :10.1002/sim.1781. PMID  15696504.
  13. ^ Agresti, A.; Caffo, B. (2000). "Intervalos de confianza simples y efectivos para proporciones y diferencias de proporciones resultan de sumar dos éxitos y dos fracasos". The American Statistician . 54 (4): 280–288. doi :10.1080/00031305.2000.10474560.
  14. ^ "11.5: La distribución multinomial". Statistics LibreTexts . 2020-05-05 . Consultado el 2023-09-13 .
  15. ^ "MultinomialCI - Intervalos de confianza para proporciones multinomiales". CRAN. 11 de mayo de 2021. Consultado el 23 de marzo de 2024 .