Análisis de componentes independientes

En el procesamiento de señales , el análisis de componentes independientes ( ICA ) es un método computacional para separar una señal multivariable en subcomponentes aditivos. Esto se hace asumiendo que, como máximo, un subcomponente es gaussiano y que los subcomponentes son estadísticamente independientes entre sí. ^[1] El ICA fue inventado por Jeanny Hérault y Christian Jutten en 1985. ^[2] El ICA es un caso especial de separación ciega de fuentes . Un ejemplo común de aplicación del ICA es el " problema de la fiesta de cócteles " de escuchar el discurso de una persona en una habitación ruidosa. ^[3]

Introducción

ICA sobre cuatro vídeos mezclados aleatoriamente. ^[4] Fila superior: los vídeos originales. Fila central: cuatro mezclas aleatorias utilizadas como entrada para el algoritmo. Fila inferior: los vídeos reconstruidos.

El análisis de componentes independientes intenta descomponer una señal multivariable en señales independientes no gaussianas. Por ejemplo, el sonido suele ser una señal compuesta por la suma numérica, en cada instante t, de señales de varias fuentes. La pregunta entonces es si es posible separar estas fuentes contribuyentes de la señal total observada. Cuando el supuesto de independencia estadística es correcto, la separación ICA ciega de una señal mixta da muy buenos resultados. ^[5] También se utiliza para señales que no se supone que se generen mediante la mezcla con fines de análisis.

Una aplicación sencilla del ICA es el " problema de la fiesta de cócteles ", en el que las señales de voz subyacentes se separan de una muestra de datos que consiste en personas hablando simultáneamente en una habitación. Normalmente, el problema se simplifica suponiendo que no hay retrasos de tiempo ni ecos. Tenga en cuenta que una señal filtrada y retrasada es una copia de un componente dependiente y, por lo tanto, no se viola el supuesto de independencia estadística.

Los pesos de mezcla para construir las señales observadas a partir de los componentes se pueden colocar en una matriz. Un aspecto importante a tener en cuenta es que si hay fuentes presentes, se necesitan al menos observaciones (por ejemplo, micrófonos si la señal observada es de audio) para recuperar las señales originales. Cuando hay un número igual de observaciones y señales de fuente, la matriz de mezcla es cuadrada ( ). Se han investigado otros casos de subdeterminación ( ) y sobredeterminación ( ). ${\textstyle M}$ ${\textstyle N}$ ${\textstyle M\times N}$ ${\textstyle N}$ ${\textstyle N}$ ${\textstyle M=N}$ ${\textstyle M<N}$ ${\textstyle M>N}$

El éxito de la separación ICA de señales mixtas depende de dos supuestos y tres efectos de la mezcla de señales de origen. Dos supuestos:

Las señales de origen son independientes entre sí.
Los valores de cada señal de fuente tienen distribuciones no gaussianas.

Tres efectos de mezclar señales de fuente:

Independencia: según el supuesto 1, las señales de origen son independientes; sin embargo, sus mezclas de señales no lo son. Esto se debe a que las mezclas de señales comparten las mismas señales de origen.
Normalidad: según el Teorema del Límite Central , la distribución de una suma de variables aleatorias independientes con varianza finita tiende a una distribución gaussiana.
En términos generales, una suma de dos variables aleatorias independientes suele tener una distribución más próxima a la gaussiana que cualquiera de las dos variables originales. Aquí consideramos el valor de cada señal como la variable aleatoria.
Complejidad: La complejidad temporal de cualquier mezcla de señales es mayor que la de su señal fuente constituyente más simple.

Estos principios contribuyen al establecimiento básico del ICA. Si las señales extraídas de un conjunto de mezclas son independientes y tienen distribuciones no gaussianas o tienen baja complejidad, entonces deben ser señales fuente. ^[6]^[7]

Definición de independencia de componentes

El ICA encuentra los componentes independientes (también llamados factores, variables latentes o fuentes) maximizando la independencia estadística de los componentes estimados. Podemos elegir una de las muchas formas de definir un indicador de independencia, y esta elección rige la forma del algoritmo ICA. Las dos definiciones más amplias de independencia para el ICA son

Minimización de la información mutua
Maximización de la no-gaussianidad

La familia de algoritmos ICA de minimización de información mutua (MMI) utiliza medidas como la divergencia de Kullback-Leibler y la entropía máxima . La familia de algoritmos ICA de no gaussianidad, motivada por el teorema del límite central , utiliza curtosis y negentropía . ^[8]

Los algoritmos típicos para ICA utilizan el centrado (restar la media para crear una señal de media cero), el blanqueamiento (normalmente con la descomposición en valores propios ) y la reducción de dimensionalidad como pasos de preprocesamiento para simplificar y reducir la complejidad del problema para el algoritmo iterativo real. El blanqueamiento y la reducción de dimensión se pueden lograr con el análisis de componentes principales o la descomposición en valores singulares . El blanqueamiento garantiza que todas las dimensiones se traten por igual a priori antes de ejecutar el algoritmo. Los algoritmos conocidos para ICA incluyen infomax , FastICA , JADE y el análisis de componentes independiente del núcleo , entre otros. En general, ICA no puede identificar el número real de señales de origen, un ordenamiento único y correcto de las señales de origen ni la escala adecuada (incluido el signo) de las señales de origen.

La ICA es importante para la separación ciega de señales y tiene muchas aplicaciones prácticas. Está estrechamente relacionada con (o incluso es un caso especial de) la búsqueda de un código factorial de los datos, es decir, una nueva representación con valores vectoriales de cada vector de datos de modo que se codifique de forma única mediante el vector de código resultante (codificación sin pérdidas), pero los componentes del código son estadísticamente independientes.

Definiciones matemáticas

El análisis de componentes independientes lineales se puede dividir en casos sin ruido y con ruido, donde el ICA sin ruido es un caso especial del ICA con ruido. El ICA no lineal debe considerarse un caso aparte.

Definición general

Los datos están representados por el vector aleatorio observado y los componentes ocultos como el vector aleatorio. La tarea es transformar los datos observados usando una transformación estática lineal en un vector de componentes máximamente independientes medidos por alguna función de independencia. ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}.$ ${\boldsymbol {x}},$ ${\boldsymbol {W}}$ ${\boldsymbol {s}}={\boldsymbol {W}}{\boldsymbol {x}},$ ${\boldsymbol {s}}$ $F(s_{1},\ldots ,s_{n})$

Modelo generativo

ICA lineal sin ruido

Los componentes del vector aleatorio observado se generan como una suma de los componentes independientes , : $x_{i}$ ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ $s_{k}$ $k=1,\ldots ,n$

$x_{i}=a_{i,1}s_{1}+\cdots +a_{i,k}s_{k}+\cdots +a_{i,n}s_{n}$

ponderado por los pesos de mezcla . $a_{i,k}$

El mismo modelo generativo se puede escribir en forma vectorial como , donde el vector aleatorio observado está representado por los vectores base . Los vectores base forman las columnas de la matriz de mezcla y la fórmula generativa se puede escribir como , donde . ${\boldsymbol {x}}=\sum _{k=1}^{n}s_{k}{\boldsymbol {a}}_{k}$ ${\boldsymbol {x}}$ ${\boldsymbol {a}}_{k}=({\boldsymbol {a}}_{1,k},\ldots ,{\boldsymbol {a}}_{m,k})^{T}$ ${\boldsymbol {a}}_{k}$ ${\boldsymbol {A}}=({\boldsymbol {a}}_{1},\ldots ,{\boldsymbol {a}}_{n})$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$

Dado el modelo y las realizaciones (muestras) del vector aleatorio , la tarea consiste en estimar tanto la matriz de mezcla como las fuentes . Esto se hace calculando de forma adaptativa los vectores y estableciendo una función de costo que maximice la no gaussianidad de los cálculos o minimice la información mutua. En algunos casos, el conocimiento a priori de las distribuciones de probabilidad de las fuentes se puede utilizar en la función de costo. ${\boldsymbol {x}}_{1},\ldots ,{\boldsymbol {x}}_{N}$ ${\boldsymbol {x}}$ ${\boldsymbol {A}}$ ${\boldsymbol {s}}$ ${\boldsymbol {w}}$ $s_{k}={\boldsymbol {w}}^{T}{\boldsymbol {x}}$

Las fuentes originales se pueden recuperar multiplicando las señales observadas por la inversa de la matriz de mezcla , también conocida como matriz de desmezcla. Aquí se supone que la matriz de mezcla es cuadrada ( ). Si el número de vectores base es mayor que la dimensionalidad de los vectores observados, , la tarea está sobrecompletada pero aún es solucionable con la pseudoinversa . ${\boldsymbol {s}}$ ${\boldsymbol {x}}$ ${\boldsymbol {W}}={\boldsymbol {A}}^{-1}$ $n=m$ $n>m$

ICA lineal ruidoso

Con el supuesto adicional de ruido gaussiano no correlacionado y de media cero , el modelo ICA toma la forma . $n\sim N(0,\operatorname {diag} (\Sigma ))$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}+n$

ICA no lineal

La mezcla de las fuentes no necesita ser lineal. Si se utiliza una función de mezcla no lineal con parámetros, el modelo ICA no lineal es . $f(\cdot |\theta )$ $\theta$ $x=f(s|\theta )+n$

Identificabilidad

Los componentes independientes son identificables hasta una permutación y escalamiento de las fuentes. ^[9] Esta identificabilidad requiere que:

Como máximo una de las fuentes es gaussiana, $s_{k}$
El número de mezclas observadas, , debe ser al menos tan grande como el número de componentes estimados : . Es equivalente a decir que la matriz de mezcla debe ser de rango completo para que exista su inversa. $m$ $n$ $m\geq n$ ${\boldsymbol {A}}$

ICA binaria

Una variante especial de ICA es el ICA binario, en el que tanto las fuentes de señal como los monitores están en formato binario y las observaciones de los monitores son mezclas disyuntivas de fuentes binarias independientes. Se ha demostrado que el problema tiene aplicaciones en muchos ámbitos, incluidos el diagnóstico médico , la asignación de múltiples clústeres, la tomografía de red y la gestión de recursos de Internet.

Sea el conjunto de variables binarias de los monitores y el conjunto de variables binarias de las fuentes. Las conexiones fuente-monitor están representadas por la matriz de mezcla (desconocida) , donde indica que la señal de la fuente i -ésima puede ser observada por el monitor j -ésimo. El sistema funciona de la siguiente manera: en cualquier momento, si una fuente está activa ( ) y está conectada al monitor ( ), entonces el monitor observará alguna actividad ( ). Formalmente tenemos: ${x_{1},x_{2},\ldots ,x_{m}}$ $m$ ${y_{1},y_{2},\ldots ,y_{n}}$ $n$ ${\textstyle {\boldsymbol {G}}}$ $g_{ij}=1$ $i$ $y_{i}=1$ $j$ $g_{ij}=1$ $j$ $x_{j}=1$

x_{i}=\bigvee _{j=1}^{n}(g_{ij}\wedge y_{j}),i=1,2,\ldots ,m,

donde es un AND booleano y es un OR booleano. El ruido no se modela explícitamente, sino que se puede tratar como fuentes independientes. $\wedge$ $\vee$

El problema anterior se puede resolver heurísticamente ^[10] suponiendo que las variables son continuas y ejecutando FastICA en datos de observación binarios para obtener la matriz de mezcla (valores reales) y luego aplicar técnicas de números redondeados para obtener los valores binarios. Se ha demostrado que este enfoque produce un resultado altamente inexacto. ^[^{cita requerida}^] ${\textstyle {\boldsymbol {G}}}$ ${\textstyle {\boldsymbol {G}}}$

Otro método consiste en utilizar programación dinámica : dividir recursivamente la matriz de observación en sus submatrices y ejecutar el algoritmo de inferencia sobre estas submatrices. La observación clave que conduce a este algoritmo es la submatriz de donde corresponde a la matriz de observación imparcial de los componentes ocultos que no tienen conexión con el -ésimo monitor. Los resultados experimentales de ^[11] muestran que este enfoque es preciso bajo niveles de ruido moderados. ${\textstyle {\boldsymbol {X}}}$ ${\textstyle {\boldsymbol {X}}^{0}}$ ${\textstyle {\boldsymbol {X}}}$ ${\textstyle x_{ij}=0,\forall j}$ $i$

El marco ICA binario generalizado ^[12] introduce una formulación de problema más amplia que no requiere ningún conocimiento sobre el modelo generativo. En otras palabras, este método intenta descomponer una fuente en sus componentes independientes (tanto como sea posible y sin perder ninguna información) sin ninguna suposición previa sobre la forma en que se generó. Aunque este problema parece bastante complejo, se puede resolver con precisión con un algoritmo de árbol de búsqueda de ramificación y acotación o con un límite superior estricto con una sola multiplicación de una matriz por un vector.

Métodos para la separación ciega de fuentes

Persecución de proyecciones

Las mezclas de señales tienden a tener funciones de densidad de probabilidad gaussianas, y las señales fuente tienden a tener funciones de densidad de probabilidad no gaussianas. Cada señal fuente se puede extraer de un conjunto de mezclas de señales tomando el producto interno de un vector de ponderación y aquellas mezclas de señales donde este producto interno proporciona una proyección ortogonal de las mezclas de señales. El desafío restante es encontrar dicho vector de ponderación. Un tipo de método para hacerlo es la búsqueda de proyección . ^[13]^[14]

La búsqueda de proyecciones busca una proyección a la vez de modo que la señal extraída sea lo menos gaussiana posible. Esto contrasta con la ICA, que normalmente extrae M señales simultáneamente de M mezclas de señales, lo que requiere estimar una matriz de desmezcla M × M. Una ventaja práctica de la búsqueda de proyecciones sobre la ICA es que se pueden extraer menos de M señales si es necesario, donde cada señal fuente se extrae de M mezclas de señales utilizando un vector de ponderación de M elementos.

Podemos utilizar la curtosis para recuperar la señal de múltiples fuentes encontrando los vectores de peso correctos con el uso de la búsqueda de proyección.

La curtosis de la función de densidad de probabilidad de una señal, para una muestra finita, se calcula como

K={\frac {\operatorname {E} [(\mathbf {y} -\mathbf {\overline {y}} )^{4}]}{(\operatorname {E} [(\mathbf {y} -\mathbf {\overline {y}} )^{2}])^{2}}}-3

donde es la media de la muestra de , las señales extraídas. La constante 3 garantiza que las señales gaussianas tengan curtosis cero, las señales supergaussianas tengan curtosis positiva y las señales subgaussianas tengan curtosis negativa. El denominador es la varianza de , y garantiza que la curtosis medida tenga en cuenta la varianza de la señal. El objetivo de la búsqueda de proyecciones es maximizar la curtosis y hacer que la señal extraída sea lo más anormal posible. $\mathbf {\overline {y}}$ $\mathbf {y}$ $\mathbf {y}$

Si utilizamos la curtosis como medida de la no normalidad, podemos examinar cómo varía la curtosis de una señal extraída de un conjunto de mezclas M a medida que el vector de peso gira alrededor del origen. Dado nuestro supuesto de que cada señal de origen es supergaussiana, esperaríamos: $\mathbf {y} =\mathbf {w} ^{T}\mathbf {x}$ $\mathbf {x} =(x_{1},x_{2},\ldots ,x_{M})^{T}$ $\mathbf {w}$ $\mathbf {s}$

la curtosis de la señal extraída será máxima precisamente cuando . $\mathbf {y}$ $\mathbf {y} =\mathbf {s}$
la curtosis de la señal extraída es máxima cuando es ortogonal a los ejes proyectados o , porque sabemos que el vector de peso óptimo debe ser ortogonal a un eje transformado o . $\mathbf {y}$ $\mathbf {w}$ $S_{1}$ $S_{2}$ $S_{1}$ $S_{2}$

Para señales de mezcla de múltiples fuentes, podemos utilizar la curtosis y la ortogonalización de Gram-Schmidt (GSO) para recuperar las señales. Dadas M mezclas de señales en un espacio M -dimensional, GSO proyecta estos puntos de datos en un espacio ( M-1 )-dimensional utilizando el vector de peso. Podemos garantizar la independencia de las señales extraídas con el uso de GSO.

Para encontrar el valor correcto de , podemos utilizar el método de descenso de gradiente . En primer lugar, blanqueamos los datos y los transformamos en una nueva mezcla , que tiene una varianza unitaria y . Este proceso se puede lograr aplicando la descomposición en valores singulares a , $\mathbf {w}$ $\mathbf {x}$ $\mathbf {z}$ $\mathbf {z} =(z_{1},z_{2},\ldots ,z_{M})^{T}$ $\mathbf {x}$

\mathbf {x} =\mathbf {U} \mathbf {D} \mathbf {V} ^{T}

Reescalando cada vector , y sea . La señal extraída por un vector ponderado es . Si el vector ponderado w tiene longitud unitaria, entonces la varianza de y también es 1, es decir . La curtosis puede escribirse así: $U_{i}=U_{i}/\operatorname {E} (U_{i}^{2})$ $\mathbf {z} =\mathbf {U}$ $\mathbf {w}$ $\mathbf {y} =\mathbf {w} ^{T}\mathbf {z}$ $\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{2}]=1$

K={\frac {\operatorname {E} [\mathbf {y} ^{4}]}{(\operatorname {E} [\mathbf {y} ^{2}])^{2}}}-3=\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{4}]-3.

El proceso de actualización es: $\mathbf {w}$

\mathbf {w} _{new}=\mathbf {w} _{old}-\eta \operatorname {E} [\mathbf {z} (\mathbf {w} _{old}^{T}\mathbf {z} )^{3}].

donde es una constante pequeña para garantizar que converge a la solución óptima. Después de cada actualización, normalizamos , y establecemos , y repetimos el proceso de actualización hasta la convergencia. También podemos usar otro algoritmo para actualizar el vector de peso . $\eta$ $\mathbf {w}$ $\mathbf {w} _{new}={\frac {\mathbf {w} _{new}}{|\mathbf {w} _{new}|}}$ $\mathbf {w} _{old}=\mathbf {w} _{new}$ $\mathbf {w}$

Otro enfoque es el uso de negentropía ^[8]^[15] en lugar de curtosis. El uso de negentropía es un método más robusto que la curtosis, ya que la curtosis es muy sensible a los valores atípicos. Los métodos de negentropía se basan en una propiedad importante de la distribución gaussiana: una variable gaussiana tiene la mayor entropía entre todas las variables aleatorias continuas de varianza igual. Esta es también la razón por la que queremos encontrar la mayor cantidad de variables no gaussianas. Se puede encontrar una prueba sencilla en Entropía diferencial .

J(x)=S(y)-S(x)\,

y es una variable aleatoria gaussiana de la misma matriz de covarianza que x

S(x)=-\int p_{x}(u)\log p_{x}(u)du

Una aproximación para la negentropía es

J(x)={\frac {1}{12}}(E(x^{3}))^{2}+{\frac {1}{48}}(kurt(x))^{2}

Se puede encontrar una prueba en los artículos originales de Comon; ^[16]^[8] ha sido reproducida en el libro Independent Component Analysis de Aapo Hyvärinen, Juha Karhunen y Erkki Oja ^[17]. Esta aproximación también sufre del mismo problema que la curtosis (sensibilidad a los valores atípicos). Se han desarrollado otros enfoques. ^[18]

J(y)=k_{1}(E(G_{1}(y)))^{2}+k_{2}(E(G_{2}(y))-E(G_{2}(v))^{2}

Una elección de y son $G_{1}$ $G_{2}$

G_{1}={\frac {1}{a_{1}}}\log(\cosh(a_{1}u))

G_{2}=-\exp(-{\frac {u^{2}}{2}})

Basado en infomax

Infomax ICA ^[19] es esencialmente una versión multivariada y paralela de búsqueda de proyección. Mientras que la búsqueda de proyección extrae una serie de señales una a la vez de un conjunto de M mezclas de señales, ICA extrae M señales en paralelo. Esto tiende a hacer que ICA sea más robusto que la búsqueda de proyección. ^[20]

El método de búsqueda de proyecciones utiliza la ortogonalización de Gram-Schmidt para garantizar la independencia de la señal extraída, mientras que ICA utiliza la estimación infomax y de máxima verosimilitud para garantizar la independencia de la señal extraída. La no normalidad de la señal extraída se logra asignando un modelo apropiado, o anterior, para la señal.

El proceso de ICA basado en infomax en resumen es: dado un conjunto de mezclas de señales y un conjunto de funciones de distribución acumulativa (cdfs) de modelos independientes idénticos , buscamos la matriz de desmezcla que maximiza la entropía conjunta de las señales , donde son las señales extraídas por . Dado el óptimo , las señales tienen máxima entropía y, por lo tanto, son independientes, lo que garantiza que las señales extraídas también sean independientes. es una función invertible y es el modelo de señal. Tenga en cuenta que si la función de densidad de probabilidad del modelo de señal de origen coincide con la función de densidad de probabilidad de la señal extraída , entonces maximizar la entropía conjunta de también maximiza la cantidad de información mutua entre y . Por esta razón, el uso de la entropía para extraer señales independientes se conoce como infomax . $\mathbf {x}$ $g$ $\mathbf {W}$ $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Wx}$ $\mathbf {W}$ $\mathbf {W}$ $\mathbf {Y}$ $\mathbf {y} =g^{-1}(\mathbf {Y} )$ $g$ $p_{s}$ $p_{\mathbf {y} }$ $Y$ $\mathbf {x}$ $\mathbf {Y}$

Considere la entropía de la variable vectorial , donde es el conjunto de señales extraídas por la matriz de desmezcla . Para un conjunto finito de valores muestreados de una distribución con función de densidad de probabilidad , la entropía de se puede estimar como: $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Wx}$ $\mathbf {W}$ $p_{\mathbf {y} }$ $\mathbf {Y}$

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {Y} }(\mathbf {Y} ^{t})

Se puede demostrar que la función de densidad de probabilidad conjunta está relacionada con la función de densidad de probabilidad conjunta de las señales extraídas mediante la forma multivariada: $p_{\mathbf {Y} }$ $p_{\mathbf {y} }$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}|}}

donde es la matriz jacobiana . Tenemos , y es la densidad de probabilidad asumida para las señales de origen , por lo tanto, $\mathbf {J} ={\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}$ $|\mathbf {J} |=g'(\mathbf {y} )$ $g'$ $g'=p_{s}$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}|}}={\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

por lo tanto,

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

Sabemos que cuando , tiene una distribución uniforme y se maximiza. Ya que $p_{\mathbf {y} }=p_{s}$ $p_{\mathbf {Y} }$ $H({\mathbf {Y} })$

p_{\mathbf {y} }(\mathbf {y} )={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}|}}={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|\mathbf {W} |}}

donde es el valor absoluto del determinante de la matriz de desmezcla . Por lo tanto, $|\mathbf {W} |$ $\mathbf {W}$

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {x} }(\mathbf {x} ^{t})}{|\mathbf {W} |p_{\mathbf {s} }(\mathbf {y} ^{t})}}

entonces,

H(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |+H(\mathbf {x} )

ya que , y maximizar no afecta a , entonces podemos maximizar la función $H(\mathbf {x} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {x} }(\mathbf {x} ^{t})$ $\mathbf {W}$ $H_{\mathbf {x} }$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |

para lograr la independencia de la señal extraída.

Si hay M funciones de densidad de probabilidad marginales del modelo, las funciones de densidad de probabilidad conjuntas son independientes y utilizan la función de densidad de probabilidad del modelo supergaussiano común para las señales de origen , entonces tenemos $p_{\mathbf {s} }$ $p_{\mathbf {s} }=(1-\tanh(\mathbf {s} )^{2})$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{i=1}^{M}\sum _{t=1}^{N}\ln(1-\tanh(\mathbf {w} _{i}^{\mathsf {T}}\mathbf {x} ^{t})^{2})+\ln |\mathbf {W} |

En suma, dada una mezcla de señales observadas , el conjunto correspondiente de señales extraídas y el modelo de señal fuente , podemos encontrar la matriz de desmezcla óptima y hacer que las señales extraídas sean independientes y no gaussianas. Al igual que en la situación de búsqueda de proyección, podemos utilizar el método de descenso de gradiente para encontrar la solución óptima de la matriz de desmezcla. $\mathbf {x}$ $\mathbf {y}$ $p_{\mathbf {s} }=g'$ $\mathbf {W}$

Basado en estimación de máxima verosimilitud

La estimación de máxima verosimilitud (MLE) es una herramienta estadística estándar para encontrar valores de parámetros (por ejemplo, la matriz de desmezcla) que proporcionan el mejor ajuste de algunos datos (por ejemplo, las señales extraídas) a un modelo dado (por ejemplo, la función de densidad de probabilidad conjunta (pdf) asumidade las señales de origen).^[20] $\mathbf {W}$ $y$ $p_{s}$

El "modelo" de ML incluye una especificación de una función de densidad de probabilidad (PDF), que en este caso es la función de densidad de probabilidad de las señales de origen desconocidas . Al utilizar ML ICA , el objetivo es encontrar una matriz de desmezcla que produzca señales extraídas con una función de densidad de probabilidad conjunta lo más similar posible a la función de densidad de probabilidad conjunta de las señales de origen desconocidas . $p_{s}$ $s$ $y=\mathbf {W} x$ $p_{s}$ $s$

Por lo tanto, la MLE se basa en el supuesto de que si la función de probabilidad del modelo y los parámetros del modelo son correctos, se debería obtener una alta probabilidad de los datos que realmente se observaron. Por el contrario, si está lejos de los valores correctos de los parámetros, se esperaría una baja probabilidad de los datos observados. $p_{s}$ $\mathbf {A}$ $x$ $\mathbf {A}$

Usando MLE , llamamos a la probabilidad de los datos observados para un conjunto dado de valores de parámetros del modelo (por ejemplo, una función de densidad de probabilidad y una matriz ) la probabilidad de los valores de los parámetros del modelo dados los datos observados. $p_{s}$ $\mathbf {A}$

Definimos una función de verosimilitud de : $\mathbf {L(W)}$ $\mathbf {W}$

$\mathbf {L(W)} =p_{s}(\mathbf {W} x)|\det \mathbf {W} |.$

Esto es igual a la densidad de probabilidad en , ya que . $x$ $s=\mathbf {W} x$

Por lo tanto, si queremos encontrar una que tenga más probabilidades de haber generado las mezclas observadas a partir de las señales de fuente desconocidas con función de densidad de probabilidad, entonces solo necesitamos encontrar aquella que maximice la probabilidad . La matriz de desmezcla que maximiza la ecuación se conoce como la MLE de la matriz de desmezcla óptima. $\mathbf {W}$ $x$ $s$ $p_{s}$ $\mathbf {W}$ $\mathbf {L(W)}$

Es una práctica común utilizar el logaritmo de verosimilitud , porque es más fácil de evaluar. Como el logaritmo es una función monótona, la función que maximiza la función también maximiza su logaritmo . Esto nos permite tomar el logaritmo de la ecuación anterior, que produce la función de logaritmo de verosimilitud $\mathbf {W}$ $\mathbf {L(W)}$ $\ln \mathbf {L(W)}$

$\ln \mathbf {L(W)} =\sum _{i}\sum _{t}\ln p_{s}(w_{i}^{T}x_{t})+N\ln |\det \mathbf {W} |$

Si sustituimos un modelo de curtosis de uso común pdf por las señales de origen , entonces tenemos $p_{s}=(1-\tanh(s)^{2})$

$\ln \mathbf {L(W)} ={1 \over N}\sum _{i}^{M}\sum _{t}^{N}\ln(1-\tanh(w_{i}^{T}x_{t})^{2})+\ln |\det \mathbf {W} |$

Esta matriz que maximiza esta función es la estimación de máxima verosimilitud . $\mathbf {W}$

Historia y antecedentes

El marco general temprano para el análisis de componentes independientes fue introducido por Jeanny Hérault y Bernard Ans en 1984, ^[21] desarrollado por Christian Jutten en 1985 y 1986, ^[2]^[22]^[23] y refinado por Pierre Comon en 1991, ^[16] y popularizado en su artículo de 1994. ^[8] En 1995, Tony Bell y Terry Sejnowski introdujeron un algoritmo ICA rápido y eficiente basado en infomax , un principio introducido por Ralph Linsker en 1987. Un vínculo interesante entre los enfoques ML e Infomax se puede encontrar en. ^[24] Un tutorial bastante completo sobre el enfoque ML ha sido publicado por JF.Cardoso en 1998. ^[25]

Existen muchos algoritmos disponibles en la literatura que realizan ICA. Uno de los más utilizados, incluso en aplicaciones industriales, es el algoritmo FastICA, desarrollado por Hyvärinen y Oja ^[26] , que utiliza la negentropía como función de coste, propuesta ya 7 años antes por Pierre Comon en este contexto. ^[8] Otros ejemplos están más bien relacionados con la separación ciega de fuentes , donde se utiliza un enfoque más general. Por ejemplo, se puede descartar el supuesto de independencia y separar señales mutuamente correlacionadas, es decir, señales estadísticamente "dependientes". Sepp Hochreiter y Jürgen Schmidhuber mostraron cómo obtener ICA no lineal o separación de fuentes como un subproducto de la regularización (1999). ^[27] Su método no requiere conocimiento a priori sobre el número de fuentes independientes.

Aplicaciones

El ICA se puede ampliar para analizar señales no físicas. Por ejemplo, se ha aplicado el ICA para descubrir temas de discusión en una bolsa de archivos de listas de noticias.

A continuación se enumeran algunas aplicaciones de la ICA: ^[6]

Imágenes ópticas de neuronas ^[28]
Clasificación de picos neuronales ^[29]
reconocimiento facial ^[30]
Modelado de los campos receptivos de las neuronas visuales primarias ^[31]
Predicción de los precios del mercado de valores ^[32]
Comunicaciones por telefonía móvil ^[33]
Detección de la madurez de los tomates mediante el uso del color ^[34]
eliminar artefactos, como parpadeos, de los datos del EEG . ^[35]
Predicción de la toma de decisiones mediante EEG ^[36]
Análisis de los cambios en la expresión genética a lo largo del tiempo en experimentos de secuenciación de ARN de células individuales . ^[37]
estudios de la red en estado de reposo del cerebro. ^[38]
astronomía y cosmología ^[39]
Finanzas ^[40]

Disponibilidad

El ICA se puede aplicar a través del siguiente software:

Procedimiento SAS ICA
Paquete R ICA
Implementación de Python de scikit-learn sklearn.decomposition.FastICA
Implementación en C++ de mlpack de RADICAL (el algoritmo ICA directo, preciso y robusto (RADICAL). [1]

Véase también

Notas

^ "Análisis de componentes independientes: una demostración".
^ ab Ans, B., Hérault, J. y Jutten, C. (1985). Arquitecturas neuromimétiques adaptativas: Detección de primitivas. Cognitiva 85 (Vol. 2, págs. 593-597). París: CESTA.
^ Hyvärinen, Aapo (2013). "Análisis de componentes independientes: avances recientes". Philosophical Transactions: Mathematical, Physical and Engineering Sciences . 371 (1984): 20110534. Bibcode :2012RSPTA.37110534H. doi : 10.1098 /rsta.2011.0534. ISSN 1364-503X. JSTOR 41739975. PMC 3538438. PMID 23277597.
^ Isomura, Takuya; Toyoizumi, Taro (2016). "Una regla de aprendizaje local para el análisis de componentes independientes". Scientific Reports . 6 : 28073. Bibcode :2016NatSR...628073I. doi :10.1038/srep28073. PMC 4914970 . PMID 27323661.
^ Comon, P.; Jutten C., (2010): Manual de separación de fuentes ciegas, análisis de componentes independientes y aplicaciones. Academic Press, Oxford, Reino Unido. ISBN 978-0-12-374726-6
^ ab Stone, James V. (2004). Análisis de componentes independientes: una introducción didáctica . Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-69315-8.
^ Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (1ª ed.). Nueva York: John Wiley & Sons. ISBN 978-0-471-22131-9.
^ abcde Pierre Comon (1994) Análisis de componentes independientes: ¿un nuevo concepto? http://www.ece.ucsb.edu/wcsl/courses/ECE594/594C_F10Madhow/comon94.pdf
^ Teorema 11, Comon, Pierre. "Análisis de componentes independientes, ¿un nuevo concepto?". Procesamiento de señales 36.3 (1994): 287-314.
^ Johan Himbergand Aapo Hyvärinen, Análisis de componentes independientes para datos binarios: un estudio experimental , Proc. Int. Taller sobre análisis de componentes independientes y separación ciega de señales (ICA2001), San Diego, California, 2001.
^ Huy Nguyen y Rong Zheng, Análisis de componentes binarios independientes con o sin mezclas , IEEE Transactions on Signal Processing, vol. 59, número 7. (julio de 2011), págs. 3168–3181.
^ Painsky, Amichai; Rosset, Saharon; Feder, Meir (2014). "Análisis de componentes independientes binarios generalizados". Simposio internacional IEEE sobre teoría de la información de 2014. págs. 1326-1330. doi :10.1109/ISIT.2014.6875048. ISBN . 978-1-4799-5186-4.S2CID18579555 .
^ James V. Stone (2004); "Análisis de componentes independientes: una introducción didáctica", The MIT Press, Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1
^ Kruskal, JB. 1969; "Hacia un método práctico que ayude a descubrir la estructura de un conjunto de observaciones al encontrar la transformación de línea que optimiza un nuevo "índice de condensación", páginas 427-440 de: Milton, RC y Nelder, JA (eds), Cálculo estadístico; Nueva York, Academic Press
^ Hyvärinen, Aapo; Erkki Oja (2000). "Análisis de componentes independientes: algoritmos y aplicaciones". Redes Neuronales . 4-5. 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003 . doi :10.1016/s0893-6080(00)00026-5. PMID 10946390. S2CID 11959218.
^ ab P. Comon, Independent Component Analysis, Workshop on Higher-Order Statistics, julio de 1991, republicado en JL. Lacoume, editor, Higher Order Statistics, pp. 29-38. Elsevier, Amsterdam, Londres, 1992. Enlace HAL
^ Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (Reimpresión ed.). Nueva York, Nueva York: Wiley. ISBN 978-0-471-40540-5.
^ Hyvärinen, Aapo (1998). "Nuevas aproximaciones de la entropía diferencial para el análisis de componentes independientes y la búsqueda de proyecciones". Avances en sistemas de procesamiento de información neuronal . 10 : 273–279.
^ Bell, AJ; Sejnowski, TJ (1995). "Un enfoque de maximización de la información para la separación y la deconvolución ciegas", Neural Computation, 7, 1129-1159
^ de James V. Stone (2004). "Análisis de componentes independientes: una introducción didáctica", The MIT Press, Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1
^ Hérault, J.; Respuesta, B. (1984). "Réseau de neurones à synapses modificables: Décodage de mensajes sensoriales compuestos por aprendizaje no supervisado y permanente". Cuentas Rendus de la Academia de Ciencias, Serie III . 299 : 525–528.
^ Hérault, J., Jutten, C. y Ans, B. (1985). Detección de grandezas primitivas en un mensaje compuesto por una arquitectura de cálculo neuromimétique en aprendizaje no supervisado. Actas del décimo taller Traitement du signal et ses apps (Vol. 2, págs. 1017-1022). Niza (Francia): GRETSI.
^ Hérault, J., y Jutten, C. (1986). Procesamiento de señales adaptativo en el espacio o el tiempo mediante modelos de redes neuronales. Conferencia de pasantes sobre redes neuronales para computación (pp. 206-211). Snowbird (Utah, EE. UU.).
^ JF.Cardoso, "Infomax y máxima verosimilitud para la separación de fuentes", IEEE Sig. Proc. Letters, 1997, 4(4):112-114.
^ JF.Cardoso, "Separación de señales ciegas: principios estadísticos", Proc. del IEEE, 1998, 90(8):2009-2025.
^ Hyvärinen, A.; Oja, E. (1 de junio de 2000). "Análisis de componentes independientes: algoritmos y aplicaciones" (PDF) . Redes neuronales . 13 (4): 411–430. doi :10.1016/S0893-6080(00)00026-5. ISSN 0893-6080. PMID 10946390. S2CID 11959218.
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1999). "Extracción de características mediante LOCOCODE" (PDF) . Neural Computation . 11 (3): 679–714. doi :10.1162/089976699300016629. ISSN 0899-7667. PMID 10085426. S2CID 1642107 . Consultado el 24 de febrero de 2018 .
^ Brown, GD; Yamada, S; Sejnowski, TJ (2001). "Análisis de componentes independientes en el cóctel neuronal". Tendencias en neurociencias . 24 (1): 54–63. doi :10.1016/s0166-2236(00)01683-0. PMID 11163888. S2CID 511254.
^ Lewicki, MS (1998). "Revisión de métodos para la clasificación de picos: detección y clasificación de potenciales de acción neuronales". Red: Computación en sistemas neuronales . 9 (4): 53–78. doi :10.1088/0954-898X_9_4_001. S2CID 10290908.
^ Barlett, MS (2001). Análisis de imágenes faciales mediante aprendizaje no supervisado . Boston: Kluwer International Series on Engineering and Computer Science.
^ Bell, AJ; Sejnowski, TJ (1997). "Los componentes independientes de las escenas naturales son filtros de borde". Vision Research . 37 (23): 3327–3338. doi :10.1016/s0042-6989(97)00121-1. PMC 2882863 . PMID 9425547.
^ Back, AD; Weigend, AS (1997). "Una primera aplicación del análisis de componentes independientes para extraer la estructura de los retornos de las acciones". Revista Internacional de Sistemas Neuronales . 8 (4): 473–484. doi :10.1142/s0129065797000458. PMID 9730022. S2CID 872703.
^ Hyvarinen, A, Karhunen, J y Oja, E (2001a). Análisis de componentes independientes . Nueva York: John Wiley and Sons.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Polder, G; van der Heijen, FWAM (2003). "Estimación de la distribución de compuestos en imágenes espectrales de tomates mediante análisis de componentes independientes". Sociedad Austriaca de Computación : 57–64.
^ Delorme, A; Sejnowski, T; Makeig, S (2007). "Detección mejorada de artefactos en datos de EEG utilizando estadísticas de orden superior y análisis de componentes independientes". NeuroImage . 34 (4): 1443–1449. doi :10.1016/j.neuroimage.2006.11.004. PMC 2895624 . PMID 17188898.
^ Douglas, P (2013). "Decodificación de un solo ensayo de la toma de decisiones basada en creencias a partir de datos de EEG y fMRI utilizando características de componentes independientes". Frontiers in Human Neuroscience . 7 : 392. doi : 10.3389/fnhum.2013.00392 . PMC 3728485 . PMID 23914164.
^ Trapnell, C; Cacchiarelli, D; Grimsby, J (2014). "La dinámica y los reguladores de las decisiones sobre el destino celular se revelan mediante el ordenamiento pseudotemporal de células individuales". Nature Biotechnology . 32 (4): 381–386. doi :10.1038/nbt.2859. PMC 4122333 . PMID 24658644.
^ Kiviniemi, Vesa J.; Kantola, Juha-Heikki; Jauhiainen, Jukka; Hyvärinen, Aapo; Tervonen, Osmo (2003). "Análisis de componentes independientes de fuentes de señales de resonancia magnética funcional no deterministas". NeuroImagen . 19 (2): 253–260. doi :10.1016/S1053-8119(03)00097-1. PMID 12814576. S2CID 17110486.
^ Wang, Jingying; Xu, Haiguang; Gu, Junhua; An, Tao; Cui, Haijuan; Li, Jianxun; Zhang, Zhongli; Zheng, Qian; Wu, Xiang-Ping (1 de noviembre de 2010). "¿Cómo identificar y separar cúmulos de galaxias brillantes del cielo de radio de baja frecuencia?". La revista astrofísica . 723 (1): 620–633. arXiv : 1008.3391 . Código Bib : 2010ApJ...723..620W. doi : 10.1088/0004-637X/723/1/620 . ISSN 0004-637X.
^ Moraux, Franck; Villa, Christophe (2003). "La dinámica de la estructura temporal de las tasas de interés: un análisis de componentes independientes". Enfoques conexionistas en economía y ciencias de la gestión . Avances en la ciencia de la gestión computacional. Vol. 6. págs. 215–232. doi :10.1007/978-1-4757-3722-6_11. ISBN 978-1-4757-3722-6.

Referencias

Comon, Pierre (1994): "Análisis de componentes independientes: ¿un nuevo concepto?", Signal Processing , 36(3):287–314 (El artículo original que describe el concepto de ICA)
Hyvarinen, A.; Karhunen, J.; Oja, E. (2001): Análisis de componentes independientes , Nueva York: Wiley, ISBN 978-0-471-40540-5 (Capítulo introductorio)
Hyvärinen, A.; Oja, E. (2000): "Análisis de componentes independientes: algoritmos y aplicaciones", Neural Networks , 13(4-5):411-430. (Introducción técnica pero pedagógica).
Comon, P.; Jutten C., (2010): Manual de separación de fuentes ciegas, análisis de componentes independientes y aplicaciones. Academic Press, Oxford, Reino Unido. ISBN 978-0-12-374726-6
Lee, T.-W. (1998): Análisis de componentes independientes: teoría y aplicaciones , Boston, Mass: Kluwer Academic Publishers, ISBN 0-7923-8261-7
Acharyya, Ranjan (2008): Un nuevo enfoque para la separación ciega de fuentes convolucionales: separación basada en wavelets utilizando la función de contracción ISBN 3-639-07797-0 ISBN 978-3639077971 (este libro se centra en el aprendizaje no supervisado con separación ciega de fuentes)

Enlaces externos

¿Qué es el análisis de componentes independientes? por Aapo Hyvärinen
Análisis de componentes independientes: un tutorial de Aapo Hyvärinen
Un tutorial sobre análisis de componentes independientes
FastICA como paquete para Matlab, en lenguaje R, C++
Cajas de herramientas ICALAB para Matlab, desarrolladas en RIKEN
El kit de herramientas de análisis de señales de alto rendimiento proporciona implementaciones en C++ de FastICA e Infomax
Caja de herramientas de ICA Herramientas de Matlab para ICA con Bell-Sejnowski, Molgedey-Schuster y campo medio ICA. Desarrollado en DTU.
Demostración del problema de la fiesta de cócteles Archivado el 13 de marzo de 2010 en Wayback Machine.
EEGLAB Toolbox ICA de EEG para Matlab, desarrollado en UCSD.
FMRLAB Toolbox ICA de fMRI para Matlab, desarrollado en UCSD
MELODIC, parte de la biblioteca de software FMRIB .
Discusión sobre el uso de ICA en un contexto de representación de formas biomédicas
Algoritmo FastICA, CuBICA, JADE y TDSEP para Python y más...
Caja de herramientas de ICA para grupos y Caja de herramientas de ICA para fusiones
Tutorial: Uso de ICA para limpiar señales de EEG