stringtranslate.com

Modelo de mezcla

En estadística , un modelo de mezcla es un modelo probabilístico para representar la presencia de subpoblaciones dentro de una población general, sin requerir que un conjunto de datos observados identifique la subpoblación a la que pertenece una observación individual. Formalmente, un modelo de mezcla corresponde a la distribución de mezcla que representa la distribución de probabilidad de las observaciones en la población general. Sin embargo, mientras que los problemas asociados con las "distribuciones de mezcla" se relacionan con la derivación de las propiedades de la población general a partir de las de las subpoblaciones, los "modelos de mezcla" se utilizan para hacer inferencias estadísticas sobre las propiedades de las subpoblaciones dadas solo observaciones sobre la población agrupada, sin información de identidad de la subpoblación. Los modelos de mezcla se utilizan para la agrupación, bajo el nombre de agrupación basada en modelos , y también para la estimación de la densidad .

Los modelos de mezcla no deben confundirse con los modelos para datos compositivos , es decir, datos cuyos componentes están restringidos a sumar un valor constante (1, 100%, etc.). Sin embargo, los modelos compositivos pueden considerarse como modelos de mezcla, donde los miembros de la población se muestrean al azar. Por el contrario, los modelos de mezcla pueden considerarse como modelos compositivos, donde el tamaño total de la población lectora se ha normalizado a 1.

Estructura

Modelo general de mezcla

Un modelo de mezcla de dimensión finita típico es un modelo jerárquico que consta de los siguientes componentes:

Además, en un contexto bayesiano , los pesos y parámetros de la mezcla serán variables aleatorias y se colocarán distribuciones previas sobre las variables. En tal caso, los pesos se consideran típicamente como un vector aleatorio de dimensión K extraído de una distribución de Dirichlet (la distribución previa conjugada de la distribución categórica), y los parámetros se distribuirán de acuerdo con sus respectivas distribuciones previas conjugadas.

Matemáticamente, un modelo de mezcla paramétrica básica se puede describir de la siguiente manera:

En un entorno bayesiano, todos los parámetros están asociados con variables aleatorias, de la siguiente manera:

Esta caracterización utiliza F y H para describir distribuciones arbitrarias sobre observaciones y parámetros, respectivamente. Normalmente, H será la distribución previa conjugada de F. Las dos opciones más comunes de F son la gaussiana, también conocida como " normal " (para observaciones de valores reales) y la categórica (para observaciones discretas). Otras posibilidades comunes para la distribución de los componentes de la mezcla son:

Ejemplos específicos

Modelo de mezcla gaussiana

Modelo de mezcla gaussiana no bayesiana que utiliza notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K.

Un modelo típico de mezcla gaussiana no bayesiana se ve así:

Modelo de mezcla gaussiana bayesiana que utiliza notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K.

Una versión bayesiana de un modelo de mezcla gaussiana es la siguiente:

Animación del proceso de agrupamiento de datos unidimensionales utilizando un modelo de mezcla gaussiana bayesiana donde las distribuciones normales se extraen de un proceso de Dirichlet . Los histogramas de los clústeres se muestran en diferentes colores. Durante el proceso de estimación de parámetros, se crean nuevos clústeres y crecen a partir de los datos. La leyenda muestra los colores de los clústeres y la cantidad de puntos de datos asignados a cada clúster.

Modelo de mezcla gaussiana multivariante

Un modelo de mezcla gaussiana bayesiana se extiende comúnmente para ajustarse a un vector de parámetros desconocidos (indicados en negrita) o distribuciones normales multivariadas. En una distribución multivariada (es decir, una que modela un vector con N variables aleatorias) se puede modelar un vector de parámetros (como varias observaciones de una señal o parches dentro de una imagen) utilizando una distribución previa del modelo de mezcla gaussiana en el vector de estimaciones dadas por

donde el i -ésimo componente vectorial se caracteriza por distribuciones normales con pesos , medias y matrices de covarianza . Para incorporar este a priori en una estimación bayesiana, el a priori se multiplica por la distribución conocida de los datos condicionada a los parámetros a estimar. Con esta formulación, la distribución posterior es también un modelo de mezcla gaussiana de la forma

con nuevos parámetros y que se actualizan utilizando el algoritmo EM . [2] Aunque las actualizaciones de parámetros basadas en EM están bien establecidas, proporcionar las estimaciones iniciales para estos parámetros es actualmente un área de investigación activa. Tenga en cuenta que esta formulación produce una solución de forma cerrada para la distribución posterior completa. Las estimaciones de la variable aleatoria se pueden obtener a través de uno de varios estimadores, como la media o el máximo de la distribución posterior.

Estas distribuciones son útiles para suponer formas de parches de imágenes y grupos, por ejemplo. En el caso de la representación de imágenes, cada gaussiana puede inclinarse, expandirse y deformarse según las matrices de covarianza . Una distribución gaussiana del conjunto se ajusta a cada parche (generalmente de tamaño 8x8 píxeles) en la imagen. En particular, cualquier distribución de puntos alrededor de un grupo (ver k -medias ) puede ser precisa si se dan suficientes componentes gaussianos, pero apenas se necesitan más de K = 20 componentes para modelar con precisión una distribución de imágenes o un grupo de datos dados.

Modelo de mezcla categórica

Modelo de mezcla categórica no bayesiano que utiliza notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo para [V].

Un modelo de mezcla no bayesiano típico con observaciones categóricas se ve así:

Las variables aleatorias:


Modelo de mezcla categórica bayesiano que utiliza notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo para [V].

Un modelo de mezcla bayesiana típico con observaciones categóricas se ve así:

Las variables aleatorias:


Ejemplos

Un modelo financiero

La distribución normal se representa gráficamente utilizando diferentes medias y varianzas.

Los rendimientos financieros suelen comportarse de manera diferente en situaciones normales y en tiempos de crisis. Un modelo mixto [3] para los datos de rendimiento parece razonable. A veces, el modelo utilizado es un modelo de difusión por saltos o una mezcla de dos distribuciones normales. Véase Economía financiera § Desafíos y críticas y Gestión del riesgo financiero § Banca para más contexto.

Precios de la vivienda

Supongamos que observamos los precios de N casas diferentes. Diferentes tipos de casas en diferentes barrios tendrán precios muy diferentes, pero el precio de un tipo particular de casa en un barrio particular (por ejemplo, casa de tres habitaciones en un barrio moderadamente lujoso) tenderá a agruparse bastante cerca de la media. Un modelo posible de tales precios sería suponer que los precios están descritos con precisión por un modelo de mezcla con K componentes diferentes, cada uno distribuido como una distribución normal con media y varianza desconocidas, con cada componente especificando una combinación particular de tipo de casa/barrio. Ajustar este modelo a los precios observados, por ejemplo, utilizando el algoritmo de maximización de expectativas , tendería a agrupar los precios según el tipo de casa/barrio y revelaría la dispersión de precios en cada tipo/barrio. (Obsérvese que para valores como precios o ingresos que se garantiza que serán positivos y que tienden a crecer exponencialmente , una distribución log-normal podría ser en realidad un mejor modelo que una distribución normal).

Temas en un documento

Supongamos que un documento está compuesto por N palabras diferentes de un vocabulario total de tamaño V , donde cada palabra corresponde a uno de los K temas posibles. La distribución de dichas palabras podría modelarse como una mezcla de K distribuciones categóricas V -dimensionales diferentes . Un modelo de este tipo se denomina comúnmente modelo de temas . Tenga en cuenta que la maximización de expectativas aplicada a un modelo de este tipo normalmente no producirá resultados realistas, debido (entre otras cosas) al número excesivo de parámetros . Normalmente, se necesitan algunos tipos de suposiciones adicionales para obtener buenos resultados. Normalmente, se añaden dos tipos de componentes adicionales al modelo:

  1. Se coloca una distribución previa sobre los parámetros que describen las distribuciones de temas, utilizando una distribución de Dirichlet con un parámetro de concentración que se establece significativamente por debajo de 1, a fin de fomentar distribuciones dispersas (donde solo una pequeña cantidad de palabras tienen probabilidades significativamente distintas de cero).
  2. Se impone algún tipo de restricción adicional sobre las identidades temáticas de las palabras, para aprovechar la agrupación natural.

Reconocimiento de escritura a mano

El siguiente ejemplo se basa en un ejemplo de Christopher M. Bishop , Pattern Recognition and Machine Learning . [4]

Imaginemos que nos dan una imagen en blanco y negro N × N que sabemos que es un escaneo de un dígito escrito a mano entre 0 y 9, pero no sabemos qué dígito está escrito. Podemos crear un modelo de mezcla con diferentes componentes, donde cada componente es un vector de tamaño de distribuciones de Bernoulli (uno por píxel). Un modelo de este tipo se puede entrenar con el algoritmo de maximización de expectativas en un conjunto no etiquetado de dígitos escritos a mano, y agrupará de manera efectiva las imágenes de acuerdo con el dígito que se está escribiendo. El mismo modelo se podría utilizar entonces para reconocer el dígito de otra imagen simplemente manteniendo los parámetros constantes, calculando la probabilidad de la nueva imagen para cada dígito posible (un cálculo trivial) y devolviendo el dígito que generó la probabilidad más alta.

Evaluación de la precisión del proyectil (también conocido como error circular probable, CEP)

Los modelos de mezcla se aplican en el problema de dirigir múltiples proyectiles a un objetivo (como en aplicaciones de defensa aérea, terrestre o marítima), donde las características físicas y/o estadísticas de los proyectiles difieren dentro de los múltiples proyectiles. Un ejemplo podría ser disparos de múltiples tipos de municiones o disparos desde múltiples ubicaciones dirigidos a un objetivo. La combinación de tipos de proyectiles puede caracterizarse como un modelo de mezcla gaussiano. [5] Además, una medida bien conocida de precisión para un grupo de proyectiles es el error circular probable (CEP), que es el número R tal que, en promedio, la mitad del grupo de proyectiles cae dentro del círculo de radio R alrededor del punto objetivo. El modelo de mezcla se puede utilizar para determinar (o estimar) el valor R . El modelo de mezcla captura adecuadamente los diferentes tipos de proyectiles.

Aplicaciones directas e indirectas

El ejemplo financiero anterior es una aplicación directa del modelo de mezcla, una situación en la que suponemos que existe un mecanismo subyacente de modo que cada observación pertenece a una de varias fuentes o categorías diferentes. Sin embargo, este mecanismo subyacente puede ser observable o no. En esta forma de mezcla, cada una de las fuentes se describe mediante una función de densidad de probabilidad de componente, y su ponderación de mezcla es la probabilidad de que una observación provenga de este componente.

En una aplicación indirecta del modelo de mezcla no asumimos tal mecanismo. El modelo de mezcla se utiliza simplemente por sus flexibilidades matemáticas. Por ejemplo, una mezcla de dos distribuciones normales con diferentes medias puede dar como resultado una densidad con dos modas , que no se modela mediante distribuciones paramétricas estándar. Otro ejemplo lo da la posibilidad de que las distribuciones de mezcla modelen colas más gruesas que las gaussianas básicas, de modo que sean candidatas para modelar eventos más extremos. Cuando se combina con la consistencia dinámica, este enfoque se ha aplicado a la valoración de derivados financieros en presencia de la sonrisa de volatilidad en el contexto de modelos de volatilidad local . Esto define nuestra aplicación.

Mantenimiento predictivo

El agrupamiento basado en modelos de mezcla también se utiliza predominantemente para identificar el estado de la máquina en el mantenimiento predictivo . Los gráficos de densidad se utilizan para analizar la densidad de características de alta dimensión. Si se observan densidades de múltiples modelos, entonces se supone que un conjunto finito de densidades está formado por un conjunto finito de mezclas normales. Se utiliza un modelo de mezcla gaussiana multivariante para agrupar los datos de características en un número k de grupos donde k representa cada estado de la máquina. El estado de la máquina puede ser un estado normal, un estado de apagado o un estado defectuoso. [6] Cada grupo formado se puede diagnosticar utilizando técnicas como el análisis espectral. En los últimos años, esto también se ha utilizado ampliamente en otras áreas como la detección temprana de fallas. [7]

Segmentación de imágenes difusas

Un ejemplo de mezcla gaussiana en la segmentación de imágenes con histograma gris

En el procesamiento de imágenes y la visión artificial, los modelos tradicionales de segmentación de imágenes suelen asignar a cada píxel un único patrón exclusivo. En la segmentación difusa o suave, cualquier patrón puede tener cierta "propiedad" sobre cualquier píxel individual. Si los patrones son gaussianos, la segmentación difusa da como resultado naturalmente mezclas gaussianas. Combinados con otras herramientas analíticas o geométricas (por ejemplo, transiciones de fase sobre límites difusivos), estos modelos de mezcla regularizados espacialmente podrían dar lugar a métodos de segmentación más realistas y computacionalmente eficientes. [8]

Registro de conjunto de puntos

Los modelos de mezcla probabilísticos, como los modelos de mezcla gaussiana (GMM), se utilizan para resolver problemas de registro de conjuntos de puntos en los campos de procesamiento de imágenes y visión artificial. Para el registro de conjuntos de puntos por pares , un conjunto de puntos se considera como los centroides de los modelos de mezcla y el otro conjunto de puntos se considera como puntos de datos (observaciones). Los métodos de última generación son, por ejemplo, la deriva de puntos coherente (CPD) [9] y los modelos de mezcla de distribución t de Student (TMM). [10] El resultado de investigaciones recientes demuestra la superioridad de los modelos de mezcla híbridos [11] (por ejemplo, la combinación de la distribución t de Student y la distribución Watson/ distribución de Bingham para modelar posiciones espaciales y orientaciones de ejes por separado) en comparación con CPD y TMM, en términos de robustez inherente, precisión y capacidad discriminativa.

Identificabilidad

La identificabilidad se refiere a la existencia de una caracterización única para cualquiera de los modelos de la clase (familia) considerada. Los procedimientos de estimación pueden no estar bien definidos y la teoría asintótica puede no ser válida si un modelo no es identificable.

Ejemplo

Sea J la clase de todas las distribuciones binomiales con n = 2. Entonces, una mezcla de dos miembros de J tendría

y p 2 = 1 − p 0p 1 . Claramente, dados p 0 y p 1 , no es posible determinar el modelo de mezcla anterior de forma única, ya que hay tres parámetros ( π , θ 1 , θ 2 ) a determinar.

Definición

Consideremos una mezcla de distribuciones paramétricas de la misma clase. Sea

sea ​​la clase de todas las distribuciones componentes. Entonces la envoltura convexa K de J define la clase de todas las mezclas finitas de distribuciones en J :

Se dice que K es identificable si todos sus miembros son únicos, es decir, dados dos miembros p y p′ en K , que son mezclas de distribuciones k y distribuciones k′ respectivamente en J , tenemos p = p′ si y solo si, en primer lugar, k = k′ y en segundo lugar podemos reordenar las sumas tales que a i = a i y ƒ i = ƒ i para todo i .

Estimación de parámetros e identificación del sistema

Los modelos paramétricos de mezcla se utilizan a menudo cuando conocemos la distribución Y y podemos tomar muestras de X , pero nos gustaría determinar los valores a i y θ i . Estas situaciones pueden surgir en estudios en los que tomamos muestras de una población que está compuesta por varias subpoblaciones distintas.

Es común pensar en el modelado de mezclas de probabilidad como un problema de datos faltantes. Una forma de entender esto es suponer que los puntos de datos en consideración tienen "pertenencia" a una de las distribuciones que estamos usando para modelar los datos. Cuando comenzamos, esta pertenencia es desconocida o falta. La tarea de la estimación es idear parámetros apropiados para las funciones del modelo que elegimos, con la conexión con los puntos de datos representada como su pertenencia a las distribuciones del modelo individual.

Se han propuesto diversos enfoques para el problema de la descomposición de mezclas, muchos de los cuales se centran en métodos de máxima verosimilitud, como la maximización de expectativas (EM) o la estimación máxima a posteriori (MAP). En general, estos métodos consideran por separado las cuestiones de identificación del sistema y la estimación de parámetros; los métodos para determinar el número y la forma funcional de los componentes dentro de una mezcla se distinguen de los métodos para estimar los valores de los parámetros correspondientes. Algunas desviaciones notables son los métodos gráficos descritos en Tarter y Lock [12] y, más recientemente, las técnicas de longitud mínima de mensaje (MML), como las de Figueiredo y Jain [13] y, en cierta medida, las rutinas de análisis de patrones de coincidencia de momentos sugeridas por McWilliam y Loh (2009). [14]

Maximización de expectativas (EM)

La maximización de expectativas (EM) es aparentemente la técnica más popular utilizada para determinar los parámetros de una mezcla con un número dado a priori de componentes. Esta es una forma particular de implementar la estimación de máxima verosimilitud para este problema. La EM es particularmente atractiva para mezclas normales finitas donde son posibles expresiones de forma cerrada, como en el siguiente algoritmo iterativo de Dempster et al. (1977) [15]

con las probabilidades posteriores

De este modo, sobre la base de la estimación actual de los parámetros, se determina la probabilidad condicional de que una observación dada x ( t ) se genere a partir del estado s para cada t = 1, …, N  ; siendo N el tamaño de la muestra. A continuación, se actualizan los parámetros de modo que los nuevos pesos de los componentes correspondan a la probabilidad condicional promedio y la media y la covarianza de cada componente sean el promedio ponderado específico del componente de la media y la covarianza de toda la muestra.

Dempster [15] también demostró que cada iteración sucesiva de EM no reducirá la probabilidad, una propiedad que no comparten otras técnicas de maximización basadas en gradientes. Además, EM incorpora naturalmente restricciones en el vector de probabilidad y, para tamaños de muestra suficientemente grandes, la definitividad positiva de la covarianza itera. Esta es una ventaja clave ya que los métodos explícitamente restringidos incurren en costos computacionales adicionales para verificar y mantener valores apropiados. Teóricamente, EM es un algoritmo de primer orden y, como tal, converge lentamente a una solución de punto fijo. Redner y Walker (1984) [ cita completa requerida ] plantean este punto argumentando a favor de los métodos superlineales y de segundo orden de Newton y cuasi-Newton e informando una convergencia lenta en EM sobre la base de sus pruebas empíricas. Reconocen que la convergencia en probabilidad fue rápida incluso si la convergencia en los valores de los parámetros en sí no lo fue. Los méritos relativos de EM y otros algoritmos con respecto a la convergencia se han discutido en otra literatura. [16]

Otras objeciones comunes al uso de EM son que tiene una propensión a identificar de manera espuria máximos locales, así como a mostrar sensibilidad a los valores iniciales. [17] [18] Se pueden abordar estos problemas evaluando EM en varios puntos iniciales en el espacio de parámetros, pero esto es computacionalmente costoso y otros enfoques, como el método EM de recocido de Udea y Nakano (1998) (en el que los componentes iniciales se ven esencialmente obligados a superponerse, lo que proporciona una base menos heterogénea para las conjeturas iniciales), pueden ser preferibles.

Figueiredo y Jain [13] señalan que la convergencia a valores de parámetros "sin sentido" obtenidos en el límite (donde las condiciones de regularidad se rompen, por ejemplo, Ghosh y Sen (1985)) se observa con frecuencia cuando el número de componentes del modelo excede el óptimo/verdadero. Sobre esta base, sugieren un enfoque unificado para la estimación e identificación en el que se elige el n inicial para que exceda en gran medida el valor óptimo esperado. Su rutina de optimización se construye a través de un criterio de longitud mínima de mensaje (MML) que elimina efectivamente un componente candidato si no hay suficiente información para respaldarlo. De esta manera, es posible sistematizar las reducciones en n y considerar la estimación y la identificación de manera conjunta.

El paso de la expectativa

Con estimaciones iniciales de los parámetros de nuestro modelo de mezcla, se calcula la "pertenencia parcial" de cada punto de datos en cada distribución constituyente calculando los valores esperados para las variables de pertenencia de cada punto de datos. Es decir, para cada punto de datos x j y distribución Y i , el valor de pertenencia y i , j es:

El paso de maximización

Con los valores esperados en mano para la pertenencia al grupo, se vuelven a calcular las estimaciones del complemento para los parámetros de distribución.

Los coeficientes de mezcla a i son las medias de los valores de pertenencia sobre los N puntos de datos.

Los parámetros del modelo de componentes θ i también se calculan mediante la maximización de la expectativa utilizando puntos de datos x j que se han ponderado utilizando los valores de pertenencia. Por ejemplo, si θ es una media μ

Con nuevas estimaciones para a i y θ i , se repite el paso de expectativa para volver a calcular los nuevos valores de pertenencia. Se repite todo el procedimiento hasta que los parámetros del modelo convergen.

Cadena de Markov Monte Carlo

Como alternativa al algoritmo EM, los parámetros del modelo de mezcla se pueden deducir mediante un muestreo posterior, como lo indica el teorema de Bayes . Esto todavía se considera un problema de datos incompletos en el que la pertenencia de los puntos de datos es la información faltante. Se puede utilizar un procedimiento iterativo de dos pasos conocido como muestreo de Gibbs .

El ejemplo anterior de una mezcla de dos distribuciones gaussianas puede demostrar cómo funciona el método. Como antes, se realizan estimaciones iniciales de los parámetros para el modelo de mezcla. En lugar de calcular membresías parciales para cada distribución elemental, se extrae un valor de membresía para cada punto de datos de una distribución de Bernoulli (es decir, se asignará a la primera o a la segunda gaussiana). El parámetro de Bernoulli θ se determina para cada punto de datos sobre la base de una de las distribuciones constituyentes. [ vago ] Las extracciones de la distribución generan asociaciones de membresía para cada punto de datos. Luego, se pueden usar estimadores de complemento como en el paso M de EM para generar un nuevo conjunto de parámetros del modelo de mezcla, y se puede repetir el paso de extracción binomial.

Coincidencia de momentos

El método de coincidencia de momentos es una de las técnicas más antiguas para determinar los parámetros de la mezcla y se remonta al trabajo seminal de Karl Pearson de 1894. En este enfoque, los parámetros de la mezcla se determinan de manera que la distribución compuesta tenga momentos que coincidan con un valor dado. En muchos casos, la extracción de soluciones a las ecuaciones de momentos puede presentar problemas algebraicos o computacionales no triviales. Además, el análisis numérico de Day [19] ha indicado que dichos métodos pueden ser ineficientes en comparación con el EM. No obstante, ha habido un renovado interés en este método, por ejemplo, Craigmile y Titterington (1998) y Wang. [20]

McWilliam y Loh (2009) analizan la caracterización de una cópula de mezcla normal hipercuboide en sistemas de gran dimensión para los que la EM sería computacionalmente prohibitiva. Aquí se utiliza una rutina de análisis de patrones para generar dependencias de cola multivariadas consistentes con un conjunto de momentos univariados y (en cierto sentido) bivariados. Luego se evalúa el desempeño de este método utilizando datos de retorno logarítmico de equidad con estadísticas de prueba de Kolmogorov-Smirnov que sugieren un buen ajuste descriptivo.

Método espectral

Algunos problemas en la estimación de modelos mixtos se pueden resolver utilizando métodos espectrales . En particular, resulta útil si los puntos de datos x i son puntos en un espacio real de alta dimensión y se sabe que las distribuciones ocultas son log-cóncavas (como la distribución gaussiana o la distribución exponencial ).

Los métodos espectrales de aprendizaje de modelos mixtos se basan en el uso de la descomposición en valores singulares de una matriz que contiene puntos de datos. La idea es considerar los k vectores singulares superiores, donde k es el número de distribuciones que se van a aprender. La proyección de cada punto de datos a un subespacio lineal abarcado por esos vectores agrupa los puntos que se originan en la misma distribución muy cerca entre sí, mientras que los puntos de distribuciones diferentes se mantienen alejados.

Una característica distintiva del método espectral es que nos permite demostrar que si las distribuciones satisfacen ciertas condiciones de separación (por ejemplo, no demasiado cerca), entonces la mezcla estimada será muy cercana a la verdadera con alta probabilidad.

Métodos gráficos

Tarter y Lock [12] describen un enfoque gráfico para la identificación de mezclas en el que se aplica una función kernel a un gráfico de frecuencias empíricas para reducir la varianza intracomponente. De esta manera, se pueden identificar más fácilmente los componentes que tienen medias diferentes. Si bien este método λ no requiere conocimiento previo del número o la forma funcional de los componentes, su éxito depende de la elección de los parámetros kernel que, hasta cierto punto, incorporan implícitamente suposiciones sobre la estructura del componente.

Otros métodos

Algunos de ellos incluso pueden aprender mezclas de distribuciones de cola pesada , incluidas aquellas con varianza infinita (ver enlaces a artículos a continuación). En este contexto, los métodos basados ​​en EM no funcionarían, ya que el paso de expectativa divergiría debido a la presencia de valores atípicos .

Una simulación

Para simular una muestra de tamaño N que proviene de una mezcla de distribuciones F i , i = 1 a n , con probabilidades p i (suma =  p i  = 1):

  1. Genere N números aleatorios a partir de una distribución categórica de tamaño n y probabilidades p i para i = 1= a  n . Estos le indican de cuál de los F i provendrá cada uno de los N valores. Denote por m i la cantidad de números aleatorios asignados a la i ésima categoría.
  2. Para cada i , genere m i números aleatorios de la distribución F i .

Extensiones

En un entorno bayesiano , se pueden agregar niveles adicionales al modelo gráfico que define el modelo de mezcla. Por ejemplo, en el modelo de tema de asignación de Dirichlet latente común , las observaciones son conjuntos de palabras extraídas de D documentos diferentes y los K componentes de mezcla representan temas que se comparten entre documentos. Cada documento tiene un conjunto diferente de ponderaciones de mezcla, que especifican los temas que prevalecen en ese documento. Todos los conjuntos de ponderaciones de mezcla comparten hiperparámetros comunes .

Una extensión muy común es conectar las variables latentes que definen las identidades de los componentes de la mezcla en una cadena de Markov , en lugar de suponer que son variables aleatorias independientes distribuidas de manera idéntica . El modelo resultante se denomina modelo oculto de Markov y es uno de los modelos jerárquicos secuenciales más comunes. Se han desarrollado numerosas extensiones de los modelos ocultos de Markov; consulte el artículo resultante para obtener más información.

Historia

Las distribuciones de mezclas y el problema de la descomposición de mezclas, es decir, la identificación de sus componentes constituyentes y sus parámetros, se han citado en la literatura desde 1846 (Quetelet en McLachlan, [17] 2000), aunque se hace referencia común al trabajo de Karl Pearson (1894) [21] como el primer autor en abordar explícitamente el problema de la descomposición al caracterizar los atributos no normales de las proporciones de la longitud de la frente al cuerpo en las poblaciones de cangrejos de orilla hembras. La motivación para este trabajo fue proporcionada por el zoólogo Walter Frank Raphael Weldon , quien había especulado en 1893 (en Tarter y Lock [12] ) que la asimetría en el histograma de estas proporciones podría indicar divergencia evolutiva. El enfoque de Pearson fue ajustar una mezcla univariante de dos normales a los datos eligiendo los cinco parámetros de la mezcla de modo que los momentos empíricos coincidieran con los del modelo.

Si bien su trabajo logró identificar dos subpoblaciones potencialmente distintas y demostrar la flexibilidad de las mezclas como herramienta de comparación de momentos, la formulación requirió la solución de un polinomio de noveno grado (nónico) que en ese momento planteó un desafío computacional significativo.

Los trabajos posteriores se centraron en abordar estos problemas, pero no fue hasta la llegada de la computadora moderna y la popularización de las técnicas de parametrización de máxima verosimilitud (MLE) que la investigación realmente despegó. [22] Desde entonces, ha habido una vasta cantidad de investigaciones sobre el tema que abarcan áreas como la investigación pesquera , la agricultura , la botánica , la economía , la medicina , la genética , la psicología , la paleontología , la electroforesis , las finanzas , la geología y la zoología . [23]

Véase también

Mezcla

Modelos jerárquicos

Detección de valores atípicos

Referencias

  1. ^ Chatzis, Sotirios P.; Kosmopoulos, Dimitrios I.; Varvarigou, Theodora A. (2008). "Modelado y clasificación de señales utilizando un modelo de espacio latente robusto basado en distribuciones t". IEEE Transactions on Signal Processing . 56 (3): 949–963. Bibcode :2008ITSP...56..949C. doi :10.1109/TSP.2007.907912. S2CID  15583243.
  2. ^ Yu, Guoshen (2012). "Resolución de problemas inversos con estimadores lineales por partes: de modelos de mezcla gaussiana a dispersión estructurada". IEEE Transactions on Image Processing . 21 (5): 2481–2499. arXiv : 1006.3056 . Bibcode :2012ITIP...21.2481G. doi :10.1109/tip.2011.2176743. PMID  22180506. S2CID  479845.
  3. ^ Dinov, ID. "Tutorial de maximización de expectativas y modelado de mezclas". Biblioteca Digital de California , Recurso computacional de estadística en línea, artículo EM_MM, http://repositories.cdlib.org/socr/EM_MM, 9 de diciembre de 2008
  4. ^ Bishop, Christopher (2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0-387-31073-2.
  5. ^ Spall, JC y Maryak, JL (1992). "Un estimador bayesiano factible de cuantiles para precisión de proyectiles a partir de datos no iid". Journal of the American Statistical Association , vol. 87 (419), págs. 676–681. JSTOR  2290205
  6. ^ Amruthnath, Nagdev; Gupta, Tarun (2 de febrero de 2018). Predicción de clases de fallas en aprendizaje no supervisado utilizando un enfoque de agrupamiento basado en modelos. Inédito. doi :10.13140/rg.2.2.22085.14563.
  7. ^ Amruthnath, Nagdev; Gupta, Tarun (1 de febrero de 2018). Un estudio de investigación sobre algoritmos de aprendizaje automático no supervisados ​​para la detección de fallas en el mantenimiento predictivo. Inédito. doi :10.13140/rg.2.2.28822.24648.
  8. ^ Shen, Jianhong (Jackie) (2006). "Un modelo estocástico-variacional para la segmentación suave de Mumford-Shah". Revista internacional de imágenes biomédicas . 2006 : 2–16. Código Bibliográfico :2006IJBI.200649515H. doi : 10.1155/IJBI/2006/92329 . PMC 2324060 . PMID  23165059. 
  9. ^ Myronenko, Andriy; Song, Xubo (2010). "Registro de conjuntos de puntos: deriva de puntos coherente". IEEE Trans. Pattern Anal. Mach. Intell . 32 (12): 2262–2275. arXiv : 0905.2635 . doi :10.1109/TPAMI.2010.46. PMID  20975122. S2CID  10809031.
  10. ^ Ravikumar, Nishant; Gooya, Ali; Cimen, Serkan; Frangi, Alexjandro; Taylor, Zeike (2018). "Registro de similitud de conjuntos de puntos por grupo utilizando el modelo de mezcla t de Student para modelos de forma estadística". Med. Image Anal . 44 : 156–176. doi : 10.1016/j.media.2017.11.012 . PMID  29248842.
  11. ^ Bayer, Siming; Ravikumar, Nishant; Strumia, Maddalena; Tong, Xiaoguang; Gao, Ying; Ostermeier, Martin; Fahrig, Rebecca; Maier, Andreas (2018). "Compensación intraoperatoria del desplazamiento cerebral utilizando un modelo de mezcla híbrido". Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2018 . Granada, España: Springer, Cham. pp. 116–124. doi :10.1007/978-3-030-00937-3_14.
  12. ^ abc Tarter, Michael E. (1993), Estimación de curva libre del modelo , Chapman y Hall
  13. ^ ab Figueiredo, MAT; Jain, AK (marzo de 2002). "Aprendizaje no supervisado de modelos de mezcla finita". IEEE Transactions on Pattern Analysis and Machine Intelligence . 24 (3): 381–396. CiteSeerX 10.1.1.362.9811 . doi :10.1109/34.990138. 
  14. ^ McWilliam, N.; Loh, K. (2008), Incorporación de dependencias de cola multidimensionales en la valoración de derivados crediticios (documento de trabajo)[1]
  15. ^ ab Dempster, AP; Laird, NM; Rubin, DB (1977). "Máxima verosimilitud a partir de datos incompletos mediante el algoritmo EM". Revista de la Royal Statistical Society, Serie B . 39 (1): 1–38. CiteSeerX 10.1.1.163.7580 . JSTOR  2984875. 
  16. ^ Xu, L.; Jordan, MI (enero de 1996). "Sobre las propiedades de convergencia del algoritmo EM para mezclas gaussianas". Neural Computation . 8 (1): 129–151. doi :10.1162/neco.1996.8.1.129. hdl : 10338.dmlcz/135225 . S2CID  207714252.
  17. ^ ab McLachlan, GJ (2000), Modelos de mezcla finita , Wiley
  18. ^ Botev, ZI; Kroese, DP (2004). "Optimización de verosimilitud global mediante el método de entropía cruzada, con una aplicación a modelos de mezcla". Actas de la Conferencia de simulación de invierno de 2004, 2004. Vol. 1. págs. 517–523. CiteSeerX 10.1.1.331.2319 . doi :10.1109/WSC.2004.1371358. ISBN .  978-0-7803-8786-7.S2CID6880171  .​
  19. ^ Day, NE (1969). "Estimación de los componentes de una mezcla de distribuciones normales". Biometrika . 56 (3): 463–474. doi :10.2307/2334652. JSTOR  2334652.
  20. ^ Wang, J. (2001), "Generación de cambios diarios en variables de mercado utilizando una mezcla multivariada de distribuciones normales", Actas de la 33.ª Conferencia de invierno sobre simulación : 283-289
  21. ^ Améndola, Carlos; et al. (2015). "Variedades de momento de mezclas gaussianas". Journal of Algebraic Statistics . 7 . arXiv : 1510.04654 . Bibcode :2015arXiv151004654A. doi :10.18409/jas.v7i1.42. S2CID  88515304.
  22. ^ McLachlan, GJ; Basford, KE (1988), "Modelos de mezcla: inferencia y aplicaciones a la agrupación", Estadística: libros de texto y monografías , Bibcode :1988mmia.book.....M
  23. ^ Titterington, Smith y Makov 1985

Lectura adicional

Libros sobre modelos de mezcla

Aplicación de modelos de mezcla gaussiana

  1. Reynolds, DA; Rose, RC (enero de 1995). "Identificación robusta de hablantes independiente del texto utilizando modelos de hablantes de mezcla gaussiana". IEEE Transactions on Speech and Audio Processing . 3 (1): 72–83. doi :10.1109/89.365379. S2CID  7319345.
  2. Permuter, H.; Francos, J.; Jermyn, IH (2003). Modelos de mezcla gaussiana de textura y color para la recuperación de bases de datos de imágenes . IEEE International Conference on Acoustics, Speech, and Signal Processing , 2003. Actas (ICASSP '03). doi :10.1109/ICASSP.2003.1199538.
    • Permuter, Haim; Francos, Joseph; Jermyn, Ian (2006). "Un estudio de modelos de mezcla gaussianos de características de color y textura para la clasificación y segmentación de imágenes" (PDF) . Reconocimiento de patrones . 39 (4): 695–706. Bibcode :2006PatRe..39..695P. doi :10.1016/j.patcog.2005.10.028. S2CID  8530776.
  3. Lemke, Wolfgang (2005). Modelado y estimación de la estructura de términos en un marco de espacio de estados . Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damiano ; Mercurio, Fabio (2001). Difusiones desplazadas y de mezcla para modelos de sonrisa analíticamente manejables . Finanzas matemáticas – Congreso Bachelier 2000. Actas. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (junio de 2002). "Dinámica de mezclas lognormales y calibración para sonrisas de volatilidad del mercado". Revista Internacional de Finanzas Teóricas y Aplicadas . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi :10.1142/S0219024902001511.
  6. Spall, JC; Maryak, JL (1992). "Un estimador bayesiano factible de cuantiles para precisión de proyectiles a partir de datos no iid". Revista de la Asociación Estadounidense de Estadística . 87 (419): 676–681. doi :10.1080/01621459.1992.10475269. JSTOR  2290205.
  7. Alexander, Carol (diciembre de 2004). "Difusión de mezcla normal con volatilidad incierta: modelado de efectos de sonrisa a corto y largo plazo" (PDF) . Journal of Banking & Finance . 28 (12): 2957–80. doi :10.1016/j.jbankfin.2003.10.017.
  8. Stylianou, Yannis; Pantazis, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, Francois; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Atanasio (2005). Verificación biométrica multimodal basada en GMM (PDF) .
  9. Chen, J.; Adebomi, O.E.; Olusayo, OS; Kulesza, W. (2010). Evaluación del enfoque de densidad de hipótesis de probabilidad de mezcla gaussiana para el seguimiento de múltiples objetivos . IEEE International Conference on Imaging Systems and Techniques, 2010. doi :10.1109/IST.2010.5548541.{{cite conference}}: CS1 maint: numeric names: authors list (link)

Enlaces externos