stringtranslate.com

Valor singular de descomposición

Ilustración de la descomposición en valores singulares UΣV de una matriz M real de 2 × 2 .
  • Arriba: La acción de M , indicada por su efecto sobre el disco unitario D y los dos vectores unitarios canónicos e 1 y e 2 .
  • Izquierda: La acción de V , una rotación, sobre D , e 1 y e 2 .
  • Abajo: La acción de Σ , una escala por los valores singulares σ 1 horizontalmente y σ 2 verticalmente.
  • Derecha: La acción de U , otra rotación.

En álgebra lineal , la descomposición en valores singulares ( SVD ) es una factorización de una matriz real o compleja en una rotación, seguida de un cambio de escala seguido de otra rotación. Generaliza la descomposición propia de una matriz normal cuadrada con una base propia ortonormal a cualquier matriz. Está relacionado con la descomposición polar .

Específicamente, la descomposición en valores singulares de una matriz compleja es una factorización de la forma donde es una matriz unitaria compleja , es una matriz diagonal rectangular con números reales no negativos en la diagonal, es una matriz unitaria compleja y es la transpuesta conjugada de . Esta descomposición siempre existe para cualquier matriz compleja. Si es real, entonces se puede garantizar que y son matrices ortogonales reales; en tales contextos, la SVD a menudo se denota

Las entradas diagonales de están determinadas únicamente por y se conocen como valores singulares de . El número de valores singulares distintos de cero es igual al rango de . Las columnas de y las columnas de se denominan vectores singulares izquierdos y vectores singulares derechos de , respectivamente. Forman dos conjuntos de bases ortonormales y si se ordenan de modo que los valores singulares con valor cero estén todos en las columnas (o filas) con el número más alto, la descomposición del valor singular se puede escribir como

donde esta el rango de

El SVD no es único, sin embargo siempre es posible elegir la descomposición de modo que los valores singulares estén en orden descendente. En este caso, (pero no y ) está determinado únicamente por

El término a veces se refiere al SVD compacto , una descomposición similar en la que es una diagonal cuadrada de tamaño donde está el rango de y tiene solo valores singulares distintos de cero. En esta variante, es una matriz semiunitaria y es una matriz semiunitaria , tal que

Las aplicaciones matemáticas del SVD incluyen calcular la pseudoinversa , la aproximación matricial y determinar el rango, el rango y el espacio nulo de una matriz. El SVD también es extremadamente útil en todas las áreas de la ciencia, la ingeniería y la estadística , como el procesamiento de señales , el ajuste de datos por mínimos cuadrados y el control de procesos .

Interpretaciones intuitivas

Ilustración animada del SVD de una matriz de corte real M en 2D . En primer lugar, vemos el disco unitario en azul junto con los dos vectores unitarios canónicos . Luego vemos las acciones de M , que distorsiona el disco hasta formar una elipse . El SVD descompone M en tres transformaciones simples: una rotación inicial V , un escalamiento a lo largo de los ejes de coordenadas y una rotación final U . Las longitudes σ 1 y σ 2 de los semiejes de la elipse son los valores singulares de M , es decir Σ 1,1 y Σ 2,2 .
Visualización de las multiplicaciones de matrices en descomposición en valores singulares.

Rotación, escalado de coordenadas y reflexión.

En el caso especial de que sea una matriz cuadrada real , las matrices y también se pueden elegir para que sean matrices reales. En ese caso, "unitario" es lo mismo que " ortogonal ". Luego, interpretando tanto las matrices unitarias como la matriz diagonal, aquí se resume como una transformación lineal del espacio las matrices y representan rotaciones o reflexión del espacio, mientras que representa el escalamiento de cada coordenada por el factor Así se descompone la descomposición SVD cualquier transformación lineal en una composición de tres transformaciones geométricas : una rotación o reflexión ( ), seguida de un escalamiento coordenada por coordenada ( ), seguida de otra rotación o reflexión ( ).

En particular, si tiene un determinante positivo, entonces y puede elegirse para que sean ambas rotaciones con reflexiones o ambas rotaciones sin reflexiones. [ cita necesaria ] Si el determinante es negativo, exactamente uno de ellos tendrá un reflejo. Si el determinante es cero, cada uno puede elegirse independientemente como de cualquier tipo.

Si la matriz es real pero no cuadrada, es decir, se puede interpretar como una transformación lineal de a Entonces y se puede elegir que sean rotaciones/reflexiones de y respectivamente; y además de escalar las primeras coordenadas, también extiende el vector con ceros, es decir, elimina las coordenadas finales, para convertirlo en

Valores singulares como semiejes de una elipse o elipsoide

Como se muestra en la figura, los valores singulares se pueden interpretar como la magnitud de los semiejes de una elipse en 2D. Este concepto se puede generalizar al espacio euclidiano bidimensional , considerando los valores singulares de cualquier matriz cuadrada como la magnitud del semieje de un elipsoide bidimensional . De manera similar, los valores singulares de cualquier matriz pueden verse como la magnitud del semieje de un elipsoide de dimensiones en un espacio de dimensiones, por ejemplo, como una elipse en un plano 2D (inclinado) en un espacio 3D. Los valores singulares codifican la magnitud del semieje, mientras que los vectores singulares codifican la dirección. Consulte a continuación para obtener más detalles.

Las columnas de U y V son bases ortonormales.

Dado que y son unitarios, las columnas de cada uno de ellos forman un conjunto de vectores ortonormales , que pueden considerarse como vectores base . La matriz asigna el vector base al vector unitario estirado. Según la definición de matriz unitaria, lo mismo es cierto para sus transpuestas conjugadas , excepto que se pierde la interpretación geométrica de los valores singulares a medida que se estiran. En resumen, las columnas de y son bases ortonormales . Cuando es una matriz hermitiana positiva-semidefinida y ambas son iguales a la matriz unitaria utilizada para diagonalizar. Sin embargo, cuando no es semidefinida positiva y hermitiana pero aún es diagonalizable , su descomposición propia y su descomposición en valores singulares son distintas.

Significado geométrico

Como y son unitarios, sabemos que las columnas de producen una base ortonormal de y las columnas de producen una base ortonormal de (con respecto a los productos escalares estándar en estos espacios).

La transformación lineal

tiene una descripción particularmente simple con respecto a estas bases ortonormales: tenemos

¿Dónde está la -ésima entrada diagonal de y para?

El contenido geométrico del teorema SVD se puede resumir de la siguiente manera: para cada aplicación lineal se pueden encontrar bases ortonormales de y tales que mapeen el -ésimo vector de base de con un múltiplo no negativo del -ésimo vector de base de y envíe el los vectores de base sobrantes a cero. Por lo tanto , con respecto a estas bases, el mapa está representado por una matriz diagonal con entradas diagonales reales no negativas.

Para obtener una idea más visual de los valores singulares y la factorización SVD, al menos cuando se trabaja en espacios vectoriales reales, considere la esfera de radio uno en El mapa lineal asigna esta esfera a un elipsoide en Los valores singulares distintos de cero son simplemente las longitudes de la semiejes de este elipsoide. Especialmente cuando todos los valores singulares son distintos y distintos de cero, el SVD del mapa lineal se puede analizar fácilmente como una sucesión de tres movimientos consecutivos: considere el elipsoide y específicamente sus ejes; luego considere las direcciones enviadas por estos ejes. Estas direcciones resultan ser mutuamente ortogonales. Aplique primero una isometría enviando estas direcciones a los ejes de coordenadas de En un segundo movimiento, aplique un endomorfismo diagonalizado a lo largo de los ejes de coordenadas y estirándose o contrayéndose en cada dirección, utilizando las longitudes de los semiejes de como coeficientes de estiramiento. Luego, la composición envía la unidad-esfera a un elipsoide isométrico para Para definir el tercer y último movimiento, aplique una isometría a este elipsoide para obtener Como se puede comprobar fácilmente, la composición coincide con

Ejemplo

Considere la matriz

Una descomposición en valores singulares de esta matriz viene dada por

La matriz de escala es cero fuera de la diagonal (cursiva gris) y un elemento de la diagonal es cero (negrita roja, negrita azul claro en modo oscuro). Además, debido a que las matrices y son unitarias , al multiplicarlas por sus respectivas transpuestas conjugadas se obtienen matrices identidad , como se muestra a continuación. En este caso, debido a que y tienen valores reales, cada una es una matriz ortogonal .

Esta descomposición particular del valor singular no es única. Eligiendo tal que

También es una descomposición válida en valores singulares.

SVD y descomposición espectral.

Valores singulares, vectores singulares y su relación con el SVD

Un número real no negativo es un valor singular si y sólo si existen vectores de longitud unitaria en y en tales que

Los vectores y se denominan vectores singular izquierdo y singular derecho respectivamente .

En cualquier descomposición de valores singulares

las entradas diagonales de son iguales a los valores singulares de Las primeras columnas de y son, respectivamente, vectores singulares izquierdo y derecho para los valores singulares correspondientes. En consecuencia, el teorema anterior implica que:

Un valor singular para el cual podemos encontrar dos vectores singulares izquierdo (o derecho) que sean linealmente independientes se llama degenerado . Si y son dos vectores singulares por la izquierda que corresponden al valor singular σ, entonces cualquier combinación lineal normalizada de los dos vectores también es un vector singular por la izquierda correspondiente al valor singular σ. Una afirmación similar es cierta para los vectores singulares derechos. El número de vectores singulares izquierdo y derecho independientes coincide, y estos vectores singulares aparecen en las mismas columnas y corresponden a elementos diagonales de todos con el mismo valor.

Como excepción, los vectores singulares izquierdo y derecho de valor singular 0 comprenden todos los vectores unitarios en el cokernel y el kernel , respectivamente, de los cuales, según el teorema de rango-nulidad, no pueden tener la misma dimensión si Incluso si todos los valores singulares son distintos de cero, si entonces el cokernel no es trivial, en cuyo caso se rellena con vectores ortogonales del cokernel. Por el contrario, si entonces se rellena con vectores ortogonales del núcleo. Sin embargo, si el valor singular de existe, las columnas adicionales de o ya aparecen como vectores singulares izquierdo o derecho.

Los valores singulares no degenerados siempre tienen vectores singulares izquierdo y derecho únicos, hasta la multiplicación por un factor de fase unitaria (para el caso real hasta un signo). En consecuencia, si todos los valores singulares de una matriz cuadrada son no degenerados y distintos de cero, entonces su descomposición en valores singulares es única, hasta la multiplicación de una columna de por un factor de fase unitaria y la multiplicación simultánea de la columna correspondiente de por el mismo factor de fase unitaria. En general, el SVD es único hasta transformaciones unitarias arbitrarias aplicadas uniformemente a los vectores columna de ambos y que abarcan los subespacios de cada valor singular, y hasta transformaciones unitarias arbitrarias en vectores de y que abarcan el núcleo y el cokernel, respectivamente, de

Relación con la descomposición de valores propios

La descomposición en valores singulares es muy general en el sentido de que se puede aplicar a cualquier matriz, mientras que la descomposición en valores propios solo se puede aplicar a matrices cuadradas diagonalizables . Sin embargo, las dos descomposiciones están relacionadas.

Si tiene SVD se mantienen las dos relaciones siguientes:

Los lados derechos de estas relaciones describen las descomposiciones de valores propios de los lados izquierdos. Como consecuencia:

En el caso especial de ser una matriz normal y, por tanto, también cuadrada, el teorema espectral garantiza que se puede diagonalizar unitariamente utilizando una base de vectores propios y, por tanto, descomponerse como para alguna matriz unitaria y matriz diagonal con elementos complejos a lo largo de la diagonal. Cuando es semidefinido positivo , serán números reales no negativos, por lo que la descomposición también es una descomposición en valor singular. De lo contrario, se puede reformular como un SVD moviendo la fase de cada uno a su correspondiente o La conexión natural del SVD con matrices no normales se realiza a través del teorema de descomposición polar : donde es semidefinido positivo y normal, y es unitario.

Por lo tanto, a excepción de las matrices semidefinidas positivas, la descomposición de valores propios y la SVD de mientras están relacionadas difieren: la descomposición de valores propios es donde no es necesariamente unitaria y no es necesariamente semidefinida positiva, mientras que la SVD es donde es diagonal y semidefinida positiva. definida, y y son matrices unitarias que no están necesariamente relacionadas excepto a través de la matriz. Si bien solo las matrices cuadradas no defectuosas tienen una descomposición de valores propios, cualquier matriz tiene un SVD.

Aplicaciones de la SVD

Pseudoinverso

La descomposición en valores singulares se puede utilizar para calcular la pseudoinversa de una matriz. La pseudoinversa de la matriz con descomposición en valores singulares es,

donde está el pseudoinverso de , que se forma reemplazando cada entrada diagonal distinta de cero por su recíproco y transponiendo la matriz resultante. La pseudoinversa es una forma de resolver problemas de mínimos cuadrados lineales .

Resolver ecuaciones lineales homogéneas.

Un conjunto de ecuaciones lineales homogéneas se puede escribir como para una matriz y un vector. Se conoce una situación típica y se debe determinar un valor distinto de cero que satisfaga la ecuación. Tal pertenece al espacio nulo de y a veces se le llama vector nulo (derecho) de . El vector se puede caracterizar como un vector singular derecho correspondiente a un valor singular de que es cero. Esta observación significa que si es una matriz cuadrada y no tiene un valor singular evanescente, la ecuación no tiene una solución distinta de cero . También significa que si hay varios valores singulares que desaparecen, cualquier combinación lineal de los correspondientes vectores singulares derechos es una solución válida. De manera análoga a la definición de un vector nulo (derecho), un vector nulo izquierdo de

Minimización de mínimos cuadrados totales

Un problema de mínimos cuadrados totales busca el vector que minimice la norma 2 de un vector bajo la restricción. La solución resulta ser el vector singular derecho de correspondiente al valor singular más pequeño.

Rango, espacio nulo y rango

Otra aplicación del SVD es que proporciona una representación explícita del rango y el espacio nulo de una matriz. Los vectores singulares derechos correspondientes a valores singulares fugaces de abarcan el espacio nulo de y los vectores singulares izquierdos correspondientes al singular distinto de cero. valores de abarcan el rango de Por ejemplo, en el ejemplo anterior, el espacio nulo está abarcado por la última fila de y el rango está abarcado por las tres primeras columnas de

Como consecuencia, el rango de es igual al número de valores singulares distintos de cero, que es el mismo que el número de elementos diagonales distintos de cero en . En álgebra lineal numérica, los valores singulares se pueden utilizar para determinar el rango efectivo de una matriz, ya que el error de redondeo puede conducir a valores singulares pequeños pero distintos de cero en una matriz con rango deficiente. Se supone que los valores singulares más allá de una brecha significativa son numéricamente equivalentes a cero.

Aproximación matricial de bajo rango

Algunas aplicaciones prácticas necesitan resolver el problema de aproximar una matriz con otra matriz , llamada truncada, que tiene un rango específico . En el caso de que la aproximación se base en minimizar la norma de Frobenius de la diferencia entre y bajo la restricción, resulta que la solución está dada por el SVD de a saber

donde es la misma matriz excepto que contiene solo los valores singulares más grandes (los otros valores singulares se reemplazan por cero). Esto se conoce como teorema de Eckart-Young , como lo demostraron esos dos autores en 1936 (aunque más tarde se descubrió que lo conocían autores anteriores; véase Stewart 1993).

Modelos separables

Se puede considerar que el SVD descompone una matriz en una suma ordenada y ponderada de matrices separables. Por separable, queremos decir que una matriz se puede escribir como un producto externo de dos vectores o, en coordenadas. Específicamente, la matriz se puede descomponer como,

Aquí y están las -ésimas columnas de las matrices SVD correspondientes, son los valores singulares ordenados y cada uno es separable. El SVD se puede utilizar para encontrar la descomposición de un filtro de procesamiento de imágenes en filtros horizontales y verticales separables. Tenga en cuenta que el número distinto de cero es exactamente el rango de la matriz. [ cita necesaria ] Los modelos separables a menudo surgen en sistemas biológicos, y la factorización SVD es útil para analizar dichos sistemas. Por ejemplo, los campos receptivos de algunas células simples del área visual V1 pueden describirse bien [1] mediante un filtro de Gabor en el dominio espacial multiplicado por una función de modulación en el dominio del tiempo. Por lo tanto, dado un filtro lineal evaluado mediante, por ejemplo, correlación inversa , se pueden reorganizar las dos dimensiones espaciales en una dimensión, produciendo así un filtro bidimensional (espacio, tiempo) que se puede descomponer mediante SVD. La primera columna de en la factorización SVD es entonces un Gabor, mientras que la primera columna de representa la modulación del tiempo (o viceversa). Entonces se puede definir un índice de separabilidad

que es la fracción de la potencia en la matriz M que corresponde a la primera matriz separable en la descomposición. [2]

Matriz ortogonal más cercana

Es posible utilizar el SVD de una matriz cuadrada para determinar la matriz ortogonal más cercana a La cercanía del ajuste se mide mediante la norma de Frobenius La solución es el producto [3] Esto intuitivamente tiene sentido porque una matriz ortogonal tendría la descomposición donde es la matriz identidad, de modo que si entonces el producto equivale a reemplazar los valores singulares por unos. De manera equivalente, la solución es la matriz unitaria de la descomposición polar en cualquier orden de estiramiento y rotación, como se describió anteriormente.

Un problema similar, con interesantes aplicaciones en el análisis de formas , es el problema de Procrustes ortogonal , que consiste en encontrar una matriz ortogonal que se acerque más a Específicamente,

donde denota la norma de Frobenius.

Este problema equivale a encontrar la matriz ortogonal más cercana a una matriz dada .

El algoritmo de Kabsch

El algoritmo de Kabsch (llamado problema de Wahba en otros campos) utiliza SVD para calcular la rotación óptima (con respecto a la minimización de mínimos cuadrados) que alineará un conjunto de puntos con un conjunto de puntos correspondiente. Se utiliza, entre otras aplicaciones, para comparar las estructuras de las moléculas.

Procesamiento de la señal

La SVD y la pseudoinversa se han aplicado con éxito al procesamiento de señales , [4] al procesamiento de imágenes [5] y a big data (por ejemplo, en el procesamiento de señales genómicas). [6] [7] [8] [9]

Astrodinámica

En astrodinámica , el SVD y sus variantes se utilizan como una opción para determinar direcciones de maniobra adecuadas para el diseño de trayectorias de transferencia [10] y el mantenimiento de estaciones orbitales . [11]

Otros ejemplos

El SVD también se aplica ampliamente al estudio de problemas lineales inversos y es útil en el análisis de métodos de regularización como el de Tikhonov . Es muy utilizado en estadística, donde se relaciona con el análisis de componentes principales y con el análisis de correspondencias , y en el procesamiento de señales y el reconocimiento de patrones . También se utiliza en análisis modal de solo salida, donde las formas de modo sin escala se pueden determinar a partir de vectores singulares. Otro uso más es la indexación semántica latente en el procesamiento de textos en lenguaje natural.

En el cálculo numérico general que involucra sistemas lineales o linealizados, existe una constante universal que caracteriza la regularidad o singularidad de un problema, que es el "número de condición" del sistema . A menudo controla la tasa de error o la tasa de convergencia de un esquema computacional determinado en dichos sistemas. [12] [13]

La SVD también desempeña un papel crucial en el campo de la información cuántica , en una forma a menudo denominada descomposición de Schmidt . A través de él, los estados de dos sistemas cuánticos se descomponen naturalmente, proporcionando una condición necesaria y suficiente para que se entrelacen : si el rango de la matriz es mayor que uno.

Una aplicación de SVD a matrices bastante grandes es la predicción numérica del tiempo , donde los métodos de Lanczos se utilizan para estimar las pocas perturbaciones de crecimiento más rápido lineal en la predicción numérica del tiempo central durante un período de tiempo inicial determinado; es decir, los vectores singulares correspondientes a los valores singulares más grandes del propagador linealizado para el clima global durante ese intervalo de tiempo. Los vectores singulares de salida en este caso son sistemas meteorológicos completos. Luego, estas perturbaciones se analizan a través del modelo no lineal completo para generar un pronóstico conjunto , que da una idea de parte de la incertidumbre que debería permitirse en torno a la predicción central actual.

SVD también se ha aplicado al modelado de orden reducido. El objetivo del modelado de orden reducido es reducir el número de grados de libertad en un sistema complejo que se va a modelar. SVD se combinó con funciones de base radial para interpolar soluciones a problemas de flujo inestable tridimensionales. [14]

Curiosamente, SVD se ha utilizado para mejorar el modelado de formas de ondas gravitacionales mediante el interferómetro de ondas gravitacionales aLIGO. [15] SVD puede ayudar a aumentar la precisión y la velocidad de la generación de formas de onda para respaldar las búsquedas de ondas gravitacionales y actualizar dos modelos de formas de onda diferentes.

La descomposición de valores singulares se utiliza en los sistemas de recomendación para predecir las calificaciones de los artículos de las personas. [16] Se han desarrollado algoritmos distribuidos con el fin de calcular el SVD en grupos de máquinas de productos básicos. [17]

Se ha aplicado SVD de bajo rango para la detección de puntos críticos a partir de datos espaciotemporales con aplicación a la detección de brotes de enfermedades . [18] También se ha aplicado una combinación de SVD y SVD de orden superior para la detección de eventos en tiempo real a partir de flujos de datos complejos (datos multivariados con dimensiones de espacio y tiempo) en la vigilancia de enfermedades . [19]

Prueba de existencia

Un valor propio de una matriz se caracteriza por la relación algebraica. Cuando es hermitiana , también está disponible una caracterización variacional. Sea una matriz simétrica real . Definir

Según el teorema del valor extremo , esta función continua alcanza un máximo en algún momento cuando se restringe a la esfera unitaria. Según el teorema de los multiplicadores de Lagrange , necesariamente satisface

para algún número real El símbolo nabla, , es el operador del (diferenciación con respecto a ). Usando la simetría de obtenemos

Por lo tanto, también es un vector propio de longitud unitaria de Para cada vector propio de longitud unitaria de su valor propio, también es el valor propio más grande de El mismo cálculo realizado en el complemento ortogonal de da el siguiente valor propio más grande y así sucesivamente. El complejo caso hermitiano es similar; hay una función de valor real de variables reales.

Los valores singulares son similares en que pueden describirse algebraicamente o a partir de principios variacionales. Aunque, a diferencia del caso de valores propios, ya no se requiere la hermiticidad o simetría de .

Esta sección presenta estos dos argumentos a favor de la existencia de la descomposición en valores singulares.

Basado en el teorema espectral

Sea una matriz compleja. Dado que es semidefinida positiva y hermitiana, según el teorema espectral , existe una matriz unitaria tal que

donde es diagonal y definida positiva, de dimensión , con el número de valores propios distintos de cero de (que se puede demostrar que verifica ). Tenga en cuenta que aquí, por definición, se trata de una matriz cuya -ésima columna es el -ésimo vector propio de , correspondiente al valor propio . Además, la -ésima columna de , para , es un vector propio de con valor propio . Esto se puede expresar escribiendo como , donde las columnas de y por lo tanto contienen los vectores propios de correspondientes a valores propios distintos de cero y cero, respectivamente. Usando esta reescritura de , la ecuación se convierte en:

Esto implica que

Además, la segunda ecuación implica . [20] Finalmente, la unicidad de se traduce, en términos de y , en las siguientes condiciones:

donde los subíndices de las matrices identidad se utilizan para señalar que son de diferentes dimensiones.

Definamos ahora

Entonces,

ya que esto también puede verse como una consecuencia inmediata del hecho de que . Esto es equivalente a la observación de que si es el conjunto de vectores propios de correspondiente a valores propios que no desaparecen , entonces es un conjunto de vectores ortogonales y es un conjunto (generalmente no completo) de vectores ortonormales . Esto coincide con el formalismo matricial utilizado anteriormente que denota con la matriz cuyas columnas son , con la matriz cuyas columnas son los vectores propios de con valor propio que desaparece y la matriz cuyas columnas son los vectores .

Vemos que este es casi el resultado deseado, excepto que y en general no son unitarios, ya que podrían no ser cuadrados. Sin embargo, sí sabemos que el número de filas de no es menor que el número de columnas, ya que las dimensiones de no son mayores que y . Además, desde

las columnas son ortonormales y se pueden extender a una base ortonormal. Esto significa que podemos elegir uno que sea unitario.

Porque ya tenemos que hacerlo unitario. Ahora, define

donde se agregan o eliminan filas de cero adicionales para que el número de filas de cero sea igual al número de columnas de y, por lo tanto, las dimensiones generales de igual a . Entonces

cual es el resultado deseado:

Observe que el argumento podría comenzar con una diagonalización en lugar de (Esto muestra directamente que tienen los mismos valores propios distintos de cero).

Basado en caracterización variacional.

Los valores singulares también se pueden caracterizar como los máximos considerados en función de y sobre subespacios particulares. Los vectores singulares son los valores de y donde se alcanzan estos máximos.

Denotemos una matriz con entradas reales. Sea la unidad -esfera en y defina

Considere la función restringida a Dado que ambos y son conjuntos compactos , su producto también es compacto. Además, puesto que es continuo, alcanza un valor más grande para al menos un par de vectores en y en. Este valor más grande se denota y los vectores correspondientes se denotan y Dado que el valor más grande debe ser no negativo. Si fuera negativo, cambiar el signo de o lo haría positivo y, por tanto, más grande.

Declaración. y son vectores singulares izquierdo y derecho de con su correspondiente valor singular

Prueba. De manera similar al caso de los valores propios, se supone que los dos vectores satisfacen la ecuación multiplicadora de Lagrange:

Después de un poco de álgebra, esto se convierte en

Multiplicando la primera ecuación de izquierda por y la segunda ecuación de izquierda por y teniendo en cuenta da

Al conectar esto al par de ecuaciones anteriores, tenemos

Esto prueba la afirmación.

Se pueden encontrar más vectores singulares y valores singulares maximizando sobre los normalizados y que son ortogonales a y respectivamente.

El paso de real a complejo es similar al caso de valores propios.

Calculando la SVD

Algoritmo de Jacobi unilateral

El algoritmo de Jacobi unilateral es un algoritmo iterativo, [21] donde una matriz se transforma iterativamente en una matriz con columnas ortogonales. La iteración elemental se da como una rotación de Jacobi ,

donde el ángulo de la matriz de rotación de Jacobi se elige de manera que después de la rotación las columnas con números se vuelvan ortogonales. Los índices se barren cíclicamente, donde es el número de columnas.

Una vez que el algoritmo ha convergido, la descomposición del valor singular se recupera de la siguiente manera: la matriz es la acumulación de matrices de rotación de Jacobi, la matriz se obtiene normalizando las columnas de la matriz transformada y los valores singulares se dan como las normas de las columnas. de la matriz transformada .

Algoritmo de Jacobi de dos caras

El algoritmo SVD de Jacobi de dos caras, una generalización del algoritmo de valores propios de Jacobi , es un algoritmo iterativo en el que una matriz cuadrada se transforma iterativamente en una matriz diagonal. Si la matriz no es cuadrada, primero se realiza la descomposición QR y luego se aplica el algoritmo a la matriz. La iteración elemental pone a cero un par de elementos fuera de la diagonal aplicando primero una rotación de Givens para simetrizar el par de elementos y luego aplicando una transformación de Jacobi para ponerlos a cero.

donde está la matriz de rotación de Givens con el ángulo elegido de manera que el par dado de elementos fuera de la diagonal se vuelven iguales después de la rotación, y dónde está la matriz de transformación de Jacobi que pone a cero estos elementos fuera de la diagonal. Las iteraciones se desarrollan exactamente como en el algoritmo de valores propios de Jacobi: mediante barridos cíclicos sobre todos los elementos fuera de la diagonal.

Una vez que el algoritmo ha convergido, la matriz diagonal resultante contiene los valores singulares. Las matrices y se acumulan de la siguiente manera: , .

Enfoque numérico

La descomposición del valor singular se puede calcular utilizando las siguientes observaciones:

La SVD de una matriz normalmente se calcula mediante un procedimiento de dos pasos. En el primer paso, la matriz se reduce a una matriz bidiagonal . Esto requiere operaciones de orden de punto flotante (flop), suponiendo que El segundo paso es calcular el SVD de la matriz bidiagonal. Este paso sólo se puede realizar con un método iterativo (como con los algoritmos de valores propios ). Sin embargo, en la práctica basta con calcular el SVD con cierta precisión, como la máquina épsilon . Si esta precisión se considera constante, entonces el segundo paso requiere iteraciones, cada una de las cuales cuesta fracasos. Por tanto, el primer paso es más caro y el coste total es un fracaso (Trefethen y Bau III 1997, Conferencia 31).

El primer paso se puede realizar utilizando reflexiones de Householder para un costo de fracasos, asumiendo que solo se necesitan los valores singulares y no los vectores singulares. Si es mucho mayor que entonces, es ventajoso reducir primero la matriz a una matriz triangular con la descomposición QR y luego usar reflexiones de Householder para reducir aún más la matriz a la forma bidiagonal; el costo combinado es un fracaso (Trefethen y Bau III 1997, Conferencia 31).

El segundo paso se puede realizar mediante una variante del algoritmo QR para el cálculo de valores propios, que fue descrito por primera vez por Golub y Kahan (1965). La subrutina LAPACK DBDSQR [22] implementa este método iterativo, con algunas modificaciones para cubrir el caso donde los valores singulares son muy pequeños (Demmel & Kahan 1990). Junto con un primer paso que utiliza reflexiones de Householder y, si corresponde, descomposición QR, esto forma la rutina DGESVD [23] para el cálculo de la descomposición del valor singular.

El mismo algoritmo se implementa en la Biblioteca Científica GNU (GSL). El GSL también ofrece un método alternativo que utiliza una ortogonalización de Jacobi unilateral en el paso 2 (GSL Team 2007). Este método calcula el SVD de la matriz bidiagonal resolviendo una secuencia de problemas SVD, similar a cómo el algoritmo de valores propios de Jacobi resuelve una secuencia de métodos de valores propios (Golub & Van Loan 1996, §8.6.3). Otro método más para el paso 2 utiliza la idea de algoritmos de valores propios de divide y vencerás (Trefethen y Bau III 1997, Conferencia 31).

Existe una forma alternativa que no utiliza explícitamente la descomposición de valores propios. [24] Por lo general, el problema de valores singulares de una matriz se convierte en un problema de valores propios simétrico equivalente como o

Los enfoques que utilizan descomposiciones de valores propios se basan en el algoritmo QR , que está bien desarrollado para ser estable y rápido. Tenga en cuenta que los valores singulares son reales y que los vectores singulares derecho e izquierdo no son necesarios para formar transformaciones de similitud. Se puede alternar iterativamente entre la descomposición QR y la descomposición LQ para encontrar las matrices hermitianas diagonales reales . La descomposición QR da y la descomposición LQ de da. Por lo tanto, en cada iteración, actualizamos y repetimos las ortogonalizaciones. Finalmente, [ se necesita aclaración ] esta iteración entre la descomposición QR y la descomposición LQ produce matrices singulares unitarias izquierda y derecha. Este enfoque no puede acelerarse fácilmente, como puede hacerlo el algoritmo QR con cambios espectrales o deflación. Esto se debe a que el método de desplazamiento no se define fácilmente sin utilizar transformaciones de similitud. Sin embargo, este enfoque iterativo es muy sencillo de implementar, por lo que es una buena opción cuando la velocidad no importa. Este método también proporciona información sobre cómo las transformaciones puramente ortogonales/unitarias pueden obtener la SVD.

Resultado analítico del 2 × 2 SVD

Los valores singulares de una matriz se pueden encontrar analíticamente. Sea la matriz

donde están los números complejos que parametrizan la matriz, es la matriz identidad y denotan las matrices de Pauli . Entonces sus dos valores singulares están dados por

SVD reducidas

Visualización de variantes SVD reducidas. De arriba a abajo: 1: SVD completo, 2: SVD delgado (elimine las columnas de U que no corresponden a las filas de V * ), 3: SVD compacto (elimine los valores singulares que desaparecen y las columnas/filas correspondientes en U y V * ), 4 : SVD truncado (mantenga solo los valores t singulares más grandes y las columnas/filas correspondientes en U y V * )

En aplicaciones es bastante inusual que se requiera el SVD completo, incluida una descomposición unitaria completa del espacio nulo de la matriz. En cambio, suele ser suficiente (además de más rápido y más económico para el almacenamiento) calcular una versión reducida del SVD. Para una matriz de rango se puede distinguir lo siguiente :

SVD delgada

La SVD delgada, o de tamaño económico, de una matriz viene dada por [25]

donde las matrices y contienen solo las primeras columnas de y y contienen solo los primeros valores singulares de La matriz es, por lo tanto , diagonal, y es

El SVD delgado utiliza significativamente menos espacio y tiempo de cálculo si la primera etapa en su cálculo suele ser una descomposición QR , lo que puede hacer que el cálculo sea significativamente más rápido en este caso.

SVD compacto

El SVD compacto de una matriz viene dado por

Solo se calculan los vectores de columna de y los vectores de fila de correspondientes a los valores singulares distintos de cero . Los vectores restantes de y no se calculan. Esto es más rápido y económico que el SVD delgado si La matriz es , por tanto , diagonal y es

SVD truncada

En muchas aplicaciones, el número de valores singulares distintos de cero es grande, lo que hace que incluso el Compact SVD sea poco práctico de calcular. En tales casos, es posible que sea necesario truncar los valores singulares más pequeños para calcular solo valores singulares distintos de cero. La SVD truncada ya no es una descomposición exacta de la matriz original , sino que proporciona la aproximación óptima de una matriz de rango bajo mediante cualquier matriz de rango fijo.

donde la matriz es diagonal y es Solo se calculan los vectores de columna de y los vectores de fila de correspondientes a los valores singulares más grandes . Esto puede ser mucho más rápido y económico que el SVD compacto, pero requiere un conjunto de herramientas de resolución numérica completamente diferente.

En aplicaciones que requieren una aproximación a la inversa de Moore-Penrose de la matriz , son de interés los valores singulares más pequeños de , que son más difíciles de calcular en comparación con los más grandes.

La SVD truncada se emplea en la indexación semántica latente . [26]

Normas

Normas de Ky Fan

La suma de los valores singulares más grandes de es una norma matricial , la norma Ky Fan de [27]

La primera de las normas de Ky Fan, la norma Ky Fan 1, es la misma que la norma del operador de como operador lineal con respecto a las normas euclidianas de y . En otras palabras, la norma Ky Fan 1 es la norma del operador inducida. por el producto interno euclidiano estándar. Por esta razón, también se le llama operador 2-norma. Se puede verificar fácilmente la relación entre la norma Ky Fan 1 y los valores singulares. Es cierto en general, para un operador acotado en espacios de Hilbert (posiblemente de dimensión infinita)

Pero, en el caso de la matriz, es una matriz normal , también lo es el valor propio más grande de, es decir, el valor singular más grande de

La última de las normas de Ky Fan, la suma de todos los valores singulares, es la norma de traza (también conocida como "norma nuclear"), definida por (los valores propios de son los cuadrados de los valores singulares).

Norma de Hilbert-Schmidt

Los valores singulares están relacionados con otra norma sobre el espacio de operadores. Considere el producto interno de Hilbert-Schmidt en las matrices, definido por

Entonces la norma inducida es

Dado que la traza es invariante bajo equivalencia unitaria, esto muestra

¿ Dónde están los valores singulares de? Esto se llama norma de Frobenius , norma Schatten 2 o norma de Hilbert-Schmidt. El cálculo directo muestra que la norma de Frobenius coincide con:

Además, la norma de Frobenius y la norma de traza (la norma nuclear) son casos especiales de la norma de Schatten .

Variaciones y generalizaciones.

SVD invariante de escala

Los valores singulares de una matriz están definidos de forma única y son invariantes con respecto a las transformaciones unitarias izquierda y/o derecha de En otras palabras, los valores singulares de para matrices unitarias y son iguales a los valores singulares de Esta es una propiedad importante para aplicaciones en lo cual es necesario preservar las distancias euclidianas y la invariancia con respecto a las rotaciones.

El SVD invariante de escala, o SI-SVD, [28] es análogo al SVD convencional excepto que sus valores singulares determinados de forma única son invariantes con respecto a las transformaciones diagonales de. En otras palabras, los valores singulares de para matrices diagonales invertibles y son igual a los valores singulares de Esta es una propiedad importante para aplicaciones en las que se necesita invariancia en la elección de unidades en variables (por ejemplo, unidades métricas versus imperiales).

Operadores acotados en espacios de Hilbert

La factorización se puede extender a un operador acotado en un espacio de Hilbert separable. Es decir, para cualquier operador acotado existe una isometría parcial , un espacio de medida unitario y un mensurable no negativo tal que

¿Dónde está la multiplicación por en?

Esto se puede demostrar imitando el argumento algebraico lineal para el caso matricial anterior. es la única raíz cuadrada positiva de según lo dado por el cálculo funcional de Borel para operadores autoadjuntos . La razón por la que no tiene por qué ser unitario es que, a diferencia del caso de dimensión finita, dada una isometría con núcleo no trivial, no se puede encontrar un adecuado tal que

es un operador unitario.

En cuanto a las matrices, la factorización de valores singulares equivale a la descomposición polar de los operadores: simplemente podemos escribir

y observe que sigue siendo una isometría parcial mientras es positiva.

Valores singulares y operadores compactos.

La noción de valores singulares y vectores singulares izquierdo/derecho se puede extender al operador compacto en el espacio de Hilbert , ya que tienen un espectro discreto. Si es compacto, todo valor distinto de cero en su espectro es un valor propio. Además, un operador autoadjunto compacto puede diagonalizarse mediante sus vectores propios. Si es compacto, también lo es . Aplicando el resultado de la diagonalización, la imagen unitaria de su raíz cuadrada positiva tiene un conjunto de vectores propios ortonormales correspondientes a valores propios estrictamente positivos . Para cualquier en

donde la serie converge en la topología normal en Observe cómo esto se parece a la expresión del caso de dimensión finita. se llaman valores singulares de (resp. ) pueden considerarse los vectores singulares izquierdos (resp. singulares derechos) de

Los operadores compactos en un espacio de Hilbert son el cierre de operadores de rango finito en la topología de operador uniforme. La expresión de la serie anterior da una representación explícita de este tipo. Una consecuencia inmediata de esto es:

Teorema. es compacto si y sólo si es compacto.

Historia

La descomposición del valor singular fue desarrollada originalmente por geómetras diferenciales , que deseaban determinar si una forma bilineal real podría igualarse a otra mediante transformaciones ortogonales independientes de los dos espacios en los que actúa. Eugenio Beltrami y Camille Jordan descubrieron de forma independiente, en 1873 y 1874 respectivamente, que los valores singulares de las formas bilineales, representados como una matriz, forman un conjunto completo de invariantes para formas bilineales bajo sustituciones ortogonales. James Joseph Sylvester también llegó a la descomposición de valores singulares para matrices cuadradas reales en 1889, aparentemente independientemente de Beltrami y Jordan. Sylvester llamó a los valores singulares los multiplicadores canónicos de la matriz. El cuarto matemático que descubrió de forma independiente la descomposición de los valores singulares es Autonne en 1915, que llegó a ella mediante la descomposición polar . La primera prueba de la descomposición en valores singulares para matrices rectangulares y complejas parece ser la de Carl Eckart y Gale J. Young en 1936; [29] lo vieron como una generalización de la transformación del eje principal para matrices hermitianas .

En 1907, Erhard Schmidt definió un análogo de valores singulares para operadores integrales (que son compactos, bajo algunos supuestos técnicos débiles); parece que desconocía el trabajo paralelo sobre valores singulares de matrices finitas. Esta teoría fue desarrollada aún más por Émile Picard en 1910, quien es el primero en llamar a los números valores singulares (o en francés, valeurs singulières ).

Los métodos prácticos para calcular el SVD se remontan a Kogbetliantz en 1954-1955 y Hestenes en 1958, [30] y se parecen mucho al algoritmo de valores propios de Jacobi , que utiliza rotaciones planas o rotaciones de Givens . Sin embargo, estos fueron reemplazados por el método de Gene Golub y William Kahan publicado en 1965, [31] que utiliza transformaciones o reflexiones de Householder. En 1970, Golub y Christian Reinsch [32] publicaron una variante del algoritmo Golub/Kahan que sigue siendo el más utilizado en la actualidad.

Ver también

Notas

  1. ^ DeAngelis, GC; Ohzawa, I.; Freeman, RD (octubre de 1995). "Dinámica del campo receptivo en las vías visuales centrales". Tendencias Neurociencias . 18 (10): 451–8. doi :10.1016/0166-2236(95)94496-R. PMID  8545912. S2CID  12827601.
  2. ^ Depireux, DA; Simón, JZ; Klein, DJ; Shamma, SA (marzo de 2001). "Caracterización del campo de respuesta espectro-temporal con ondas dinámicas en la corteza auditiva primaria del hurón". J. Neurofisiol . 85 (3): 1220–34. doi :10.1152/junio.2001.85.3.1220. PMID  11247991.
  3. ^ La descomposición de valores singulares en ortogonalización simétrica (Lowdin) y compresión de datos
  4. ^ Sahidullah, Maryland; Kinnunen, Tomi (marzo de 2016). "Características de variabilidad espectral local para la verificación de locutores". Procesamiento de señales digitales . 50 : 1–11. doi :10.1016/j.dsp.2015.10.011.
  5. ^ Mademlis, Ioannis; Tefas, Anastasio; Pitas, Ioannis (2018). "Prominencia de fotogramas de vídeo regularizados basados ​​en SVD para resumen de vídeos de actividades no supervisadas". Conferencia internacional IEEE 2018 sobre acústica, habla y procesamiento de señales (ICASSP). IEEE. págs. 2691–2695. doi :10.1109/ICASSP.2018.8462274. ISBN 978-1-5386-4658-8. S2CID  52286352 . Consultado el 19 de enero de 2023 .
  6. ^ O. Alter, PO Brown y D. Botstein (septiembre de 2000). "Descomposición de valores singulares para el modelado y procesamiento de datos de expresión de todo el genoma". PNAS . 97 (18): 10101–10106. Código bibliográfico : 2000PNAS...9710101A. doi : 10.1073/pnas.97.18.10101 . PMC 27718 . PMID  10963673. 
  7. ^ O. Alterar; GH Golub (noviembre de 2004). "El análisis integrativo de datos a escala del genoma mediante el uso de proyección pseudoinversa predice una nueva correlación entre la replicación del ADN y la transcripción del ARN". PNAS . 101 (47): 16577–16582. Código bibliográfico : 2004PNAS..10116577A. doi : 10.1073/pnas.0406767101 . PMC 534520 . PMID  15545604. 
  8. ^ O. Alterar; GH Golub (agosto de 2006). "La descomposición de valores singulares de la distribución de longitudes de ARNm a escala del genoma revela asimetría en la ampliación de la banda de electroforesis en gel de ARN". PNAS . 103 (32): 11828–11833. Código bibliográfico : 2006PNAS..10311828A. doi : 10.1073/pnas.0604756103 . PMC 1524674 . PMID  16877539. 
  9. ^ Bertagnolli, Nuevo México; Drake, JA; Tennessee, JM; Alter, O. (noviembre de 2013). "SVD identifica funciones de distribución de longitud de transcripción a partir de datos de microarrays de ADN y revela fuerzas evolutivas que afectan globalmente el metabolismo de GBM". MÁS UNO . 8 (11): e78913. Código Bib : 2013PLoSO...878913B. doi : 10.1371/journal.pone.0078913 . PMC 3839928 . PMID  24282503. Resaltar. 
  10. ^ Muralidharan, Vivek; Howell, Kathleen (2023). "Direcciones de estiramiento en el espacio cislunar: Aplicaciones para diseño de salidas y transferencias". Astrodinámica . 7 (2): 153–178. Código Bib : 2023AsDyn...7..153M. doi :10.1007/s42064-022-0147-z. S2CID  252637213.
  11. ^ Muralidharan, Vivek; Howell, Kathleen (2022). "Aprovechando las direcciones de estiramiento para el mantenimiento de estaciones en órbitas de halo Tierra-Luna". Avances en la investigación espacial . 69 (1): 620–646. Código Bib : 2022AdSpR..69..620M. doi :10.1016/j.asr.2021.10.028. S2CID  239490016.
  12. ^ Edelman, Alan (1992). "Sobre la distribución de un número de condición escalado" (PDF) . Matemáticas. comp . 58 (197): 185-190. Código Bib : 1992MaCom..58..185E. doi : 10.1090/S0025-5718-1992-1106966-2 .
  13. ^ Shen, Jianhong (Jackie) (2001). "Sobre los valores singulares de las matrices aleatorias gaussianas". Álg. lineal. Aplica . 326 (1–3): 1–14. doi : 10.1016/S0024-3795(00)00322-0 .
  14. ^ Walton, S.; Hassan, O.; Morgan, K. (2013). "Modelado de orden reducido para flujo de fluido inestable utilizando descomposición ortogonal adecuada y funciones de base radial". Modelado Matemático Aplicado . 37 (20–21): 8930–8945. doi : 10.1016/j.apm.2013.04.025 .
  15. ^ Setyawati, Y.; Ohme, F.; Khan, S. (2019). "Mejora del modelo de forma de onda gravitacional mediante calibración dinámica". Revisión física D. 99 (2): 024010. arXiv : 1810.07060 . Código Bib : 2019PhRvD..99b4010S. doi : 10.1103/PhysRevD.99.024010. S2CID  118935941.
  16. ^ Sarwar, Badrul; Karypis, George; Konstan, Joseph A. y Riedl, John T. (2000). "Aplicación de la reducción de dimensionalidad en el sistema de recomendación: un estudio de caso" (PDF) . Universidad de Minnesota . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  17. ^ Bosagh Zadeh, Reza; Carlsson, Gunnar (2013). "Dimensión cuadrada de matriz independiente utilizando MapReduce" (PDF) . arXiv : 1304.1467 . Código Bib : 2013arXiv1304.1467B. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  18. ^ Hadi Fanaee Tork; João Gama (septiembre de 2014). "Método del espacio propio para la detección de puntos críticos espaciotemporales". Sistemas expertos . 32 (3): 454–464. arXiv : 1406.3506 . Código Bib : 2014arXiv1406.3506F. doi :10.1111/exsy.12088. S2CID  15476557.
  19. ^ Hadi Fanaee Tork; João Gama (mayo de 2015). "EigenEvent: un algoritmo para la detección de eventos a partir de flujos de datos complejos en vigilancia sindrómica". Análisis inteligente de datos . 19 (3): 597–616. arXiv : 1406.3496 . doi :10.3233/IDA-150734. S2CID  17966555.
  20. ^ Para ver esto, sólo tenemos que notarlo y recordarlo .
  21. ^ Rijk, PPM de (1989). "Un algoritmo de Jacobi unilateral para calcular la descomposición del valor singular en una computadora vectorial". SIAM J. Ciencias. Estadística. Computación . 10 : 359.
  22. ^ Netlib.org
  23. ^ Netlib.org
  24. ^ mathworks.co.kr/matlabcentral/fileexchange/12674-simple-svd
  25. ^ Demmel, James (2000). "Descomposiciones". Plantillas para la solución de problemas algebraicos de valores propios. Por Bai, Zhaojun; Demmel, James; Dongarra, Jack J.; Ruhe, Axel; van der Vorst, Henk A. Sociedad de Matemáticas Industriales y Aplicadas. doi :10.1137/1.9780898719581. ISBN 978-0-89871-471-5.
  26. ^ Chicco, D; Masseroli, M (2015). "Paquete de software para búsqueda de similitudes y predicción de anotaciones de genes y proteínas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID  26357324. S2CID  14714823.
  27. ^ Fan, Kentucky (1951). "Propiedades máximas y desigualdades para los valores propios de operadores completamente continuos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 37 (11): 760–766. Código bibliográfico : 1951PNAS...37..760F. doi : 10.1073/pnas.37.11.760 . PMC 1063464 . PMID  16578416. 
  28. ^ Uhlmann, Jeffrey (2018), Una matriz inversa generalizada que es consistente con respecto a las transformaciones diagonales (PDF) , Revista SIAM sobre análisis matricial, vol. 239, págs. 781–800, archivado desde el original (PDF) el 7 de marzo de 2019
  29. ^ Eckart, C .; Joven, G. (1936). "La aproximación de una matriz por otra de rango inferior". Psicometrika . 1 (3): 211–8. doi :10.1007/BF02288367. S2CID  10163399.
  30. ^ Hestenes, señor (1958). "Inversión de matrices por biortogonalización y resultados relacionados". Revista de la Sociedad de Matemáticas Industriales y Aplicadas . 6 (1): 51–90. doi :10.1137/0106005. JSTOR  2098862. SEÑOR  0092215.
  31. ^ (Golub y Kahan 1965)
  32. ^ Golub, GH ; Reinsch, C. (1970). "Descomposición de valores singulares y soluciones de mínimos cuadrados". Matemática numérica . 14 (5): 403–420. doi :10.1007/BF02163027. SEÑOR  1553974. S2CID  123532178.

Referencias

enlaces externos