stringtranslate.com

Distribución de la mezcla

En probabilidad y estadística , una distribución mixta es la distribución de probabilidad de una variable aleatoria que se deriva de una colección de otras variables aleatorias de la siguiente manera: primero, una variable aleatoria se selecciona al azar de la colección de acuerdo con probabilidades de selección dadas, y luego se realiza el valor de la variable aleatoria seleccionada. Las variables aleatorias subyacentes pueden ser números reales aleatorios o pueden ser vectores aleatorios (cada uno con la misma dimensión), en cuyo caso la distribución mixta es una distribución multivariada .

En los casos en que cada una de las variables aleatorias subyacentes es continua , la variable de resultado también será continua y su función de densidad de probabilidad a veces se denomina densidad mixta . La función de distribución acumulativa (y la función de densidad de probabilidad, si existe) se puede expresar como una combinación convexa (es decir, una suma ponderada, con ponderaciones no negativas que suman 1) de otras funciones de distribución y funciones de densidad. Las distribuciones individuales que se combinan para formar la distribución de la mezcla se denominan componentes de la mezcla , y las probabilidades (o pesos) asociadas con cada componente se denominan pesos de la mezcla . El número de componentes en una distribución de mezcla a menudo se limita a ser finito, aunque en algunos casos los componentes pueden ser infinitos en número. Los casos más generales (es decir, un conjunto incontable de distribuciones de componentes), así como el caso contable, se tratan bajo el título de distribuciones compuestas .

Es necesario hacer una distinción entre una variable aleatoria cuya función de distribución o densidad es la suma de un conjunto de componentes (es decir, una distribución mixta) y una variable aleatoria cuyo valor es la suma de los valores de dos o más variables aleatorias subyacentes, en en cuyo caso la distribución viene dada por el operador de convolución . Por ejemplo, la suma de dos variables aleatorias distribuidas normalmente conjuntamente , cada una con medias diferentes, seguirá teniendo una distribución normal. Por otro lado, una densidad de mezcla creada como una mezcla de dos distribuciones normales con medias diferentes tendrá dos picos siempre que las dos medias estén lo suficientemente separadas, lo que demuestra que esta distribución es radicalmente diferente de una distribución normal.

Las distribuciones mixtas surgen en muchos contextos en la literatura y surgen naturalmente cuando una población estadística contiene dos o más subpoblaciones . A veces también se utilizan como medio para representar distribuciones no normales. El análisis de datos sobre modelos estadísticos que involucran distribuciones mixtas se analiza bajo el título de modelos mixtos , mientras que el presente artículo se concentra en propiedades probabilísticas y estadísticas simples de las distribuciones mixtas y cómo se relacionan con las propiedades de las distribuciones subyacentes.

Mezclas finitas y contables.

Densidad de una mezcla de tres distribuciones normales ( μ  = 5, 10, 15, σ  = 2) con pesos iguales. Cada componente se muestra como una densidad ponderada (cada uno se integra a 1/3)

Dado un conjunto finito de funciones de densidad de probabilidad p 1 ( x ), ..., p n ( x ), o funciones de distribución acumulativas correspondientes P 1 ( x ), ..., P n ( x ) y pesos w 1 ,. .., w n tal que w i ≥ 0 y Σ w i = 1, la distribución de la mezcla se puede representar escribiendo la densidad, f , o la función de distribución, F , como una suma (que en ambos casos es una función convexa combinación):

Este tipo de mezcla, al ser una suma finita, se denomina mezcla finita y, en las aplicaciones, una referencia sin reservas a una "densidad de la mezcla" suele significar una mezcla finita. El caso de un conjunto de componentes contablemente infinito se cubre formalmente permitiendo .

Mezclas incontables

Cuando el conjunto de distribuciones de componentes es incontable , el resultado suele denominarse distribución de probabilidad compuesta . La construcción de tales distribuciones tiene una similitud formal con la de las distribuciones de mezclas, con sumas infinitas o integrales reemplazando las sumas finitas utilizadas para mezclas finitas.

Considere una función de densidad de probabilidad p ( x ; a ) para una variable x , parametrizada por a . Es decir, para cada valor de a en algún conjunto A , p ( x ; a ) es una función de densidad de probabilidad con respecto a x . Dada una función de densidad de probabilidad w (lo que significa que w no es negativo y se integra a 1), la función

es nuevamente una función de densidad de probabilidad para x . Se puede escribir una integral similar para la función de distribución acumulativa. Tenga en cuenta que las fórmulas aquí se reducen al caso de una mezcla finita o infinita si se permite que la densidad w sea una función generalizada que representa la "derivada" de la función de distribución acumulativa de una distribución discreta .

Mezclas dentro de una familia paramétrica

Los componentes de la mezcla a menudo no son distribuciones de probabilidad arbitrarias, sino miembros de una familia paramétrica (como las distribuciones normales), con diferentes valores para un parámetro o parámetros. En tales casos, suponiendo que exista, la densidad se puede escribir en forma de suma como:

para un parámetro, o

para dos parámetros, y así sucesivamente.

Propiedades

Convexidad

Una combinación lineal general de funciones de densidad de probabilidad no es necesariamente una densidad de probabilidad, ya que puede ser negativa o puede integrarse a algo distinto de 1. Sin embargo, una combinación convexa de funciones de densidad de probabilidad preserva ambas propiedades (no negatividad e integración). a 1), y por lo tanto las densidades de mezcla son en sí mismas funciones de densidad de probabilidad.

Momentos

Sea X 1 , ..., X n variables aleatorias de las n distribuciones componentes, y sea X una variable aleatoria de la distribución mixta. Entonces, para cualquier función H (·) para la cual exista, y suponiendo que existan las densidades componentes p i ( x ),

El jésimo momento respecto de cero (es decir, elegir H ( x ) = x j ) es simplemente un promedio ponderado de los jésimo momentos de los componentes. Los momentos con respecto a la media H ( x ) = ( x − μ ) j implican una expansión binomial: [1]

donde μ i denota la media del i ésimo componente.

En el caso de una mezcla de distribuciones unidimensionales con pesos w i , medias μ i y varianzas σ i 2 , la media y la varianza totales serán:

Estas relaciones resaltan el potencial de las distribuciones mixtas para mostrar momentos no triviales de orden superior, como asimetría y curtosis ( colas gruesas ) y multimodalidad, incluso en ausencia de tales características dentro de los propios componentes. Marron y Wand (1992) dan una explicación ilustrativa de la flexibilidad de este marco. [2]

Modos

La cuestión de la multimodalidad es simple para algunos casos, como las mezclas de distribuciones exponenciales : todas esas mezclas son unimodales . [3] Sin embargo, para el caso de mezclas de distribuciones normales , es complejo. Ray y Lindsay [4] exploran las condiciones para el número de modas en una mezcla normal multivariada, ampliando trabajos anteriores sobre distribuciones univariadas [5] [6] y multivariadas [7] .

Aquí, el problema de la evaluación de los modos de una mezcla de n componentes en un espacio de dimensiones D se reduce a la identificación de puntos críticos (mínimos, máximos y puntos de silla locales) en una variedad denominada superficie de cresta, que es la imagen de la función de cresta

donde pertenece al estándar simplex de dimensiones : y corresponde a la covarianza y la media del i- ésimo componente. Ray y Lindsay [4] consideran el caso en el que al mostrar una correspondencia uno a uno de los modos de la mezcla y los de la función de elevación de la cresta , se pueden identificar los modos resolviendo con respecto a y determinando el valor .

Mediante herramientas gráficas se demuestra la potencial multimodalidad de mezclas con número de componentes ; en particular, se muestra que el número de modos puede exceder y que los modos pueden no coincidir con los medios componentes. Para dos componentes, desarrollan una herramienta gráfica de análisis resolviendo el diferencial antes mencionado con respecto al primer peso de mezcla (que también determina el segundo peso de mezcla a través de ) y expresando las soluciones como una función de modo que el número y la ubicación de los modos para un El valor dado de corresponde al número de intersecciones de la gráfica en la recta . Esto, a su vez, puede estar relacionado con el número de oscilaciones de la gráfica y, por lo tanto, con soluciones que conducen a una solución explícita para el caso de una mezcla de dos componentes con (a veces llamada mezcla homocedástica ) dada por

¿ Dónde está la distancia de Mahalanobis entre y ?

Dado que lo anterior es cuadrático, se deduce que en este caso hay como máximo dos modos independientemente de la dimensión o los pesos.

Para mezclas normales con general y , se conoce un límite inferior para el número máximo de modos posibles y, condicionado al supuesto de que el número máximo es finito, un límite superior. Para aquellas combinaciones de y para las que se conoce el número máximo, coincide con el límite inferior. [8]

Ejemplos

Dos distribuciones normales

Se pueden dar ejemplos simples mediante una combinación de dos distribuciones normales. (Consulte Distribución multimodal#Mezcla de dos distribuciones normales para obtener más detalles).

Dada una mezcla igual (50/50) de dos distribuciones normales con la misma desviación estándar y diferentes medias ( homocedástica ), la distribución general exhibirá una curtosis baja en relación con una única distribución normal: las medias de las subpoblaciones recaen sobre los hombros de las distribución general. Si están suficientemente separados, es decir, por el doble de la desviación estándar (común), forman una distribución bimodal ; de lo contrario, simplemente tiene un pico amplio. [9] La variación de la población general también será mayor que la variación de las dos subpoblaciones (debido a la dispersión por diferentes medios) y, por lo tanto, muestra una sobredispersión en relación con una distribución normal con variación fija, aunque no estará sobredispersada en relación con una distribución normal. distribución normal con variación igual a la variación de la población total.

Alternativamente, dadas dos subpoblaciones con la misma media y diferentes desviaciones estándar, la población general exhibirá una curtosis alta, con un pico más agudo y colas más pesadas (y, correspondientemente, hombros menos profundos) que una distribución única.

Una distribución normal y de Cauchy.

El siguiente ejemplo está adaptado de Hampel, [10] quien da crédito a John Tukey .

Considere la distribución de la mezcla definida por

F ( x ) = (1 − 10 −10 ) ( normal estándar ) + 10 −10 ( Cauchy estándar ) .

La media de las observaciones iid de F ( x ) se comporta "normalmente" excepto en el caso de muestras exorbitantemente grandes, aunque la media de F ( x ) ni siquiera existe.

Aplicaciones

Las densidades de mezcla son densidades complicadas expresables en términos de densidades más simples (los componentes de la mezcla) y se utilizan porque proporcionan un buen modelo para ciertos conjuntos de datos (donde diferentes subconjuntos de datos exhiben diferentes características y se pueden modelar mejor por separado) y porque pueden ser más manejables matemáticamente, porque los componentes individuales de la mezcla pueden estudiarse más fácilmente que la densidad general de la mezcla.

Las densidades de mezcla se pueden utilizar para modelar una población estadística con subpoblaciones , donde los componentes de la mezcla son las densidades de las subpoblaciones y los pesos son las proporciones de cada subpoblación en la población general.

Las densidades de las mezclas también se pueden utilizar para modelar errores experimentales o contaminación: se supone que la mayoría de las muestras miden el fenómeno deseado, y que algunas muestras tienen una distribución diferente y errónea.

Las estadísticas paramétricas que suponen que no hay error a menudo fallan en tales densidades de mezcla (por ejemplo, las estadísticas que suponen normalidad a menudo fallan desastrosamente incluso en presencia de unos pocos valores atípicos ) y en su lugar se utilizan estadísticas sólidas .

En el metanálisis de estudios separados, la heterogeneidad de los estudios hace que la distribución de los resultados sea una distribución mixta y conduce a una dispersión excesiva de los resultados en relación con el error previsto. Por ejemplo, en una encuesta estadística , el margen de error (determinado por el tamaño de la muestra) predice el error de muestreo y, por tanto, la dispersión de los resultados en encuestas repetidas. La presencia de heterogeneidad en los estudios (los estudios tienen diferentes sesgos de muestreo ) aumenta la dispersión en relación con el margen de error.

Ver también

Mezcla

Modelos jerárquicos

Notas

  1. ^ Frühwirth-Schnatter (2006, capítulo 1.2.4)
  2. ^ Marrón, JS; Varita, diputado (1992). "Error cuadrático integrado medio exacto". Los anales de la estadística . 20 (2): 712–736. doi : 10.1214/aos/1176348653 ., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Frühwirth-Schnatter (2006, capítulo 1)
  4. ^ ab Ray, R.; Lindsay, B. (2005), "La topografía de mezclas normales multivariadas", The Annals of Statistics , 33 (5): 2042–2065, arXiv : math/0602238 , doi :10.1214/009053605000000417
  5. ^ Robertson CA, Fryer JG (1969) Algunas propiedades descriptivas de mezclas normales. Skand Aktuarietískr 137–146
  6. ^ Behboodian, J (1970). "Sobre las modas de una mezcla de dos distribuciones normales". Tecnometría . 12 : 131-139. doi :10.2307/1267357. JSTOR  1267357.
  7. ^ Carreira-Perpiñán, MÁ; Williams, C (2003). Sobre los modos de una mezcla gaussiana (PDF) . Publicado como: Apuntes de conferencias sobre informática 2695. Springer-Verlag . págs. 625–640. doi :10.1007/3-540-44935-3_44. ISSN  0302-9743.
  8. ^ Amendola, C.; Engstrom, A.; Haase, C. (2020), "Número máximo de modos de mezclas gaussianas", Información e inferencia: una revista del IMA , 9 (3): 587–600, arXiv : 1702.05066 , doi : 10.1093/imaiai/iaz013
  9. ^ Chelín, Mark F.; Watkins, Ann E .; Watkins, William (2002). "¿La altura humana es bimodal?". El estadístico estadounidense . 56 (3): 223–229. doi :10.1198/00031300265.
  10. ^ Hampel, Frank (1998), "¿Son las estadísticas demasiado difíciles?", Canadian Journal of Statistics , 26 : 497–513, doi : 10.2307/3315772, hdl : 20.500.11850/145503

Referencias