En probabilidad y estadística , una distribución mixta es la distribución de probabilidad de una variable aleatoria que se deriva de una colección de otras variables aleatorias de la siguiente manera: primero, se selecciona una variable aleatoria al azar de la colección según las probabilidades de selección dadas y luego se obtiene el valor de la variable aleatoria seleccionada. Las variables aleatorias subyacentes pueden ser números reales aleatorios o pueden ser vectores aleatorios (cada uno con la misma dimensión), en cuyo caso la distribución mixta es una distribución multivariante .
En los casos en que cada una de las variables aleatorias subyacentes es continua , la variable de resultado también será continua y su función de densidad de probabilidad a veces se denomina densidad de mezcla . La función de distribución acumulativa (y la función de densidad de probabilidad si existe) se puede expresar como una combinación convexa (es decir, una suma ponderada, con pesos no negativos que suman 1) de otras funciones de distribución y funciones de densidad. Las distribuciones individuales que se combinan para formar la distribución de mezcla se denominan componentes de mezcla , y las probabilidades (o pesos) asociadas con cada componente se denominan pesos de mezcla . El número de componentes en una distribución de mezcla a menudo se limita a ser finito, aunque en algunos casos los componentes pueden ser infinitos en número contable. Los casos más generales (es decir, un conjunto incontable de distribuciones de componentes), así como el caso contable, se tratan bajo el título de distribuciones compuestas .
Es necesario distinguir entre una variable aleatoria cuya función de distribución o densidad es la suma de un conjunto de componentes (es decir, una distribución mixta) y una variable aleatoria cuyo valor es la suma de los valores de dos o más variables aleatorias subyacentes, en cuyo caso la distribución viene dada por el operador de convolución . A modo de ejemplo, la suma de dos variables aleatorias distribuidas de forma normal , cada una con medias diferentes, seguirá teniendo una distribución normal. Por otro lado, una densidad mixta creada como una mezcla de dos distribuciones normales con medias diferentes tendrá dos picos siempre que las dos medias estén lo suficientemente separadas, lo que demuestra que esta distribución es radicalmente diferente de una distribución normal.
Las distribuciones de mezcla surgen en muchos contextos en la literatura y surgen de manera natural cuando una población estadística contiene dos o más subpoblaciones . A veces también se utilizan como un medio para representar distribuciones no normales. El análisis de datos sobre modelos estadísticos que involucran distribuciones de mezcla se analiza bajo el título de modelos de mezcla , mientras que el presente artículo se concentra en propiedades probabilísticas y estadísticas simples de distribuciones de mezcla y cómo se relacionan con las propiedades de las distribuciones subyacentes.
Dado un conjunto finito de funciones de densidad de probabilidad p 1 ( x ), ..., p n ( x ), o funciones de distribución acumulativa correspondientes P 1 ( x ), ..., P n ( x ) y pesos w 1 , ..., w n tales que w i ≥ 0 y Σ w i = 1, la distribución de mezcla se puede representar escribiendo la densidad, f , o la función de distribución, F , como una suma (que en ambos casos es una combinación convexa):
Este tipo de mezcla, al ser una suma finita, se denomina mezcla finita y, en aplicaciones, una referencia no calificada a una "densidad de mezcla" suele significar una mezcla finita. El caso de un conjunto infinito numerable de componentes se cubre formalmente permitiendo .
Cuando el conjunto de distribuciones componentes es incontable , el resultado suele denominarse distribución de probabilidad compuesta . La construcción de dichas distribuciones tiene una similitud formal con la de las distribuciones de mezclas, en las que las sumas finitas utilizadas para las mezclas finitas se reemplazan por sumas infinitas o integrales.
Consideremos una función de densidad de probabilidad p ( x ; a ) para una variable x , parametrizada por a . Es decir, para cada valor de a en algún conjunto A , p ( x ; a ) es una función de densidad de probabilidad con respecto a x . Dada una función de densidad de probabilidad w (lo que significa que w es no negativo y se integra a 1), la función
es nuevamente una función de densidad de probabilidad para x . Se puede escribir una integral similar para la función de distribución acumulativa. Nótese que las fórmulas aquí se reducen al caso de una mezcla finita o infinita si se permite que la densidad w sea una función generalizada que represente la "derivada" de la función de distribución acumulativa de una distribución discreta .
Los componentes de la mezcla no suelen ser distribuciones de probabilidad arbitrarias, sino que son miembros de una familia paramétrica (como las distribuciones normales), con diferentes valores para uno o varios parámetros. En tales casos, suponiendo que exista, la densidad se puede escribir en forma de suma como:
para un parámetro, o
para dos parámetros, y así sucesivamente.
Una combinación lineal general de funciones de densidad de probabilidad no es necesariamente una densidad de probabilidad, ya que puede ser negativa o puede integrarse en algo distinto de 1. Sin embargo, una combinación convexa de funciones de densidad de probabilidad conserva ambas propiedades (no negatividad e integración en 1) y, por lo tanto, las densidades de mezcla son en sí mismas funciones de densidad de probabilidad.
Sea X 1 , ..., X n variables aleatorias de las distribuciones de n componentes, y sea X una variable aleatoria de la distribución de mezcla. Entonces, para cualquier función H (·) para la cual existe, y suponiendo que existen las densidades de componentes p i ( x ),
El momento j respecto de cero (es decir, elegir H ( x ) = x j ) es simplemente un promedio ponderado de los momentos j de los componentes. Los momentos respecto de la media H ( x ) = ( x − μ ) j implican una expansión binomial: [1]
donde μ i denota la media del i- ésimo componente.
En el caso de una mezcla de distribuciones unidimensionales con pesos w i , medias μ i y varianzas σ i 2 , la media y varianza totales serán:
Estas relaciones resaltan el potencial de las distribuciones de mezclas para mostrar momentos de orden superior no triviales, como asimetría y curtosis ( colas gruesas ) y multimodalidad, incluso en ausencia de tales características dentro de los propios componentes. Marron y Wand (1992) dan una explicación ilustrativa de la flexibilidad de este marco. [2]
La cuestión de la multimodalidad es simple para algunos casos, como las mezclas de distribuciones exponenciales : todas esas mezclas son unimodales . [3] Sin embargo, para el caso de mezclas de distribuciones normales , es compleja. Ray y Lindsay [4] exploran las condiciones para el número de modos en una mezcla normal multivariada, ampliando el trabajo anterior sobre distribuciones univariadas [5] [6] y multivariadas [7] .
Aquí, el problema de evaluación de los modos de una mezcla de n componentes en un espacio de dimensión D se reduce a la identificación de puntos críticos (mínimos locales, máximos y puntos de silla ) en una variedad denominada superficie de cresta , que es la imagen de la función de cresta.
donde pertenece al simplex estándar -dimensional : y corresponden a la covarianza y media del componente i ésimo . Ray y Lindsay [4] consideran el caso en el que se muestra una correspondencia biunívoca de los modos de la mezcla y los de la función de elevación de la cresta , por lo que se pueden identificar los modos resolviendo con respecto a y determinando el valor .
Utilizando herramientas gráficas, se demuestra la multimodalidad potencial de mezclas con número de componentes ; en particular, se muestra que el número de modas puede exceder y que las modas pueden no coincidir con las medias de los componentes. Para dos componentes, desarrollan una herramienta gráfica para el análisis resolviendo en cambio la diferencial antes mencionada con respecto al primer peso de mezcla (que también determina el segundo peso de mezcla a través de ) y expresando las soluciones como una función de modo que el número y la ubicación de las modas para un valor dado de corresponde al número de intersecciones del gráfico en la línea . Esto a su vez puede relacionarse con el número de oscilaciones del gráfico y, por lo tanto, con las soluciones de lo que conduce a una solución explícita para el caso de una mezcla de dos componentes con (a veces llamada mezcla homocedástica ) dada por
¿Dónde está la distancia de Mahalanobis entre y ?
Como lo anterior es cuadrático, se deduce que en este caso hay como máximo dos modos, independientemente de la dimensión o los pesos.
Para mezclas normales con y generales , se conoce un límite inferior para el número máximo de modos posibles y, condicionalmente asumiendo que el número máximo es finito, un límite superior. Para aquellas combinaciones de y para las que se conoce el número máximo, coincide con el límite inferior. [8]
Se pueden dar ejemplos sencillos de una mezcla de dos distribuciones normales. (Para más detalles, véase Distribución multimodal#Mezcla de dos distribuciones normales ).
Dada una mezcla igual (50/50) de dos distribuciones normales con la misma desviación estándar y medias diferentes ( homocedástica ), la distribución general exhibirá una curtosis baja en relación con una distribución normal única: las medias de las subpoblaciones recaen sobre los hombros de la distribución general. Si están suficientemente separadas, es decir, por el doble de la desviación estándar (común), forman una distribución bimodal ; de lo contrario, simplemente tiene un pico ancho. [9] La variación de la población general también será mayor que la variación de las dos subpoblaciones (debido a la dispersión de las medias diferentes) y, por lo tanto, exhibe sobredispersión en relación con una distribución normal con variación fija, aunque no estará sobredispersada en relación con una distribución normal con variación igual a la variación de la población general.
Como alternativa, dadas dos subpoblaciones con la misma media y diferentes desviaciones estándar, la población general exhibirá una curtosis alta, con un pico más pronunciado y colas más pesadas (y, en consecuencia, hombros menos profundos) que una distribución única.
El siguiente ejemplo es una adaptación de Hampel, [10] quien atribuye el mérito a John Tukey .
Consideremos la distribución de mezcla definida por
La media de las observaciones iid de F ( x ) se comporta "normalmente" excepto para muestras exorbitantemente grandes, aunque la media de F ( x ) ni siquiera existe.
Las densidades de mezcla son densidades complicadas expresables en términos de densidades más simples (los componentes de la mezcla), y se utilizan porque proporcionan un buen modelo para ciertos conjuntos de datos (donde diferentes subconjuntos de los datos exhiben características diferentes y pueden modelarse mejor por separado), y porque pueden ser matemáticamente más manejables, ya que los componentes individuales de la mezcla se pueden estudiar más fácilmente que la densidad general de la mezcla.
Las densidades de mezcla se pueden utilizar para modelar una población estadística con subpoblaciones , donde los componentes de la mezcla son las densidades de las subpoblaciones y los pesos son las proporciones de cada subpoblación en la población general.
Las densidades de mezcla también se pueden utilizar para modelar errores experimentales o contaminación: se supone que la mayoría de las muestras miden el fenómeno deseado, y algunas muestras tienen una distribución diferente y errónea.
Las estadísticas paramétricas que suponen que no hay error a menudo fallan en tales densidades de mezcla (por ejemplo, las estadísticas que suponen normalidad a menudo fallan desastrosamente en presencia de incluso unos pocos valores atípicos ) y en su lugar se utilizan estadísticas robustas .
En el metanálisis de estudios separados, la heterogeneidad de los estudios hace que la distribución de los resultados sea una distribución mixta y conduce a una sobredispersión de los resultados en relación con el error previsto. Por ejemplo, en una encuesta estadística , el margen de error (determinado por el tamaño de la muestra) predice el error de muestreo y, por lo tanto, la dispersión de los resultados en encuestas repetidas. La presencia de heterogeneidad en los estudios (los estudios tienen diferentes sesgos de muestreo ) aumenta la dispersión en relación con el margen de error.