Concepto matemático
En matemáticas, la aproximación de bajo rango se refiere al proceso de aproximar una matriz dada por una matriz de rango inferior. Más precisamente, es un problema de minimización , en el que la función de costo mide el ajuste entre una matriz dada (los datos) y una matriz de aproximación (la variable de optimización), sujeta a una restricción de que la matriz de aproximación tiene un rango reducido . El problema se utiliza para el modelado matemático y la compresión de datos . La restricción de rango está relacionada con una restricción en la complejidad de un modelo que se ajusta a los datos. En las aplicaciones, a menudo hay otras restricciones en la matriz de aproximación aparte de la restricción de rango, por ejemplo, la no negatividad y la estructura de Hankel .
La aproximación de bajo rango está estrechamente relacionada con numerosas otras técnicas, incluido el análisis de componentes principales , el análisis factorial , los mínimos cuadrados totales , el análisis semántico latente , la regresión ortogonal y la descomposición en modos dinámicos .
Definición
Dado
- especificación de estructura ,
- vector de parámetros de estructura ,
- norma , y
- rango deseado ,
Aplicaciones
Problema básico de aproximación de bajo rango
El problema no estructurado con ajuste medido por la norma de Frobenius , es decir,
tiene una solución analítica en términos de la descomposición en valores singulares de la matriz de datos. El resultado se conoce como lema de aproximación matricial o teorema de Eckart-Young-Mirsky . Este problema fue resuelto originalmente por Erhard Schmidt [1] en el contexto de dimensión infinita de operadores integrales (aunque sus métodos se generalizan fácilmente a operadores compactos arbitrarios en espacios de Hilbert) y luego redescubierto por C. Eckart y G. Young . [2] L. Mirsky generalizó el resultado a normas unitariamente invariantes arbitrarias. [3] Sea
sea la descomposición en valores singulares de , donde es la matriz diagonal rectangular con los valores singulares . Para un determinado , particione , , y de la siguiente manera:
donde es , es , y es . Entonces la matriz de rango, obtenida a partir de la descomposición en valores singulares truncados
es tal que
El minimizador es único si y sólo si .
Demostración del teorema de Eckart-Young-Mirsky (paranorma espectral)
Sea una matriz real (posiblemente rectangular) con . Supóngase que
es la descomposición en valores singulares de . Recuerde que y son matrices ortogonales , y es una matriz diagonal con entradas tales que .
Afirmamos que la mejor aproximación de rango a en la norma espectral, denotada por , viene dada por
donde y denotan la ésima columna de y , respectivamente.
En primer lugar, tenga en cuenta que tenemos
Por lo tanto, necesitamos demostrar que si donde y tienen columnas entonces .
Dado que tiene columnas, entonces debe haber una combinación lineal no trivial de las primeras columnas de , es decir,
de modo que . Sin pérdida de generalidad, podemos escalar de modo que o (equivalentemente) . Por lo tanto,
El resultado se obtiene tomando la raíz cuadrada de ambos lados de la desigualdad anterior.
Demostración del teorema de Eckart-Young-Mirsky (paraNorma de Frobenius)
Sea una matriz real (posiblemente rectangular) con . Supóngase que
es la descomposición en valor singular de .
Afirmamos que la mejor aproximación de rango a en la norma de Frobenius, denotada por , viene dada por
donde y denotan la ésima columna de y , respectivamente.
En primer lugar, tenga en cuenta que tenemos
Por lo tanto, necesitamos demostrar que si donde y tienen columnas entonces
Por la desigualdad triangular con la norma espectral, si entonces . Supóngase que y denotan respectivamente la aproximación de rango a y por el método SVD descrito anteriormente. Entonces, para cualquier
Desde , cuando y concluimos que para
Por lo tanto,
según sea necesario.
Problemas de aproximación de rango bajo ponderados
La norma de Frobenius pondera de manera uniforme todos los elementos del error de aproximación . El conocimiento previo sobre la distribución de los errores se puede tener en cuenta considerando el problema de aproximación ponderada de bajo rango.
donde vectoriza la matriz columna por columna y es una matriz de peso (semi)definido positivo dado.
El problema general de aproximación ponderada de bajo rango no admite una solución analítica en términos de la descomposición en valores singulares y se resuelve mediante métodos de optimización local, que no ofrecen ninguna garantía de que se encuentre una solución globalmente óptima.
En el caso de pesos no correlacionados, el problema de aproximación ponderada de rango bajo también se puede formular de esta manera: [4] [5] para una matriz no negativa y una matriz que queremos minimizar sobre matrices, , de rango como máximo .
Por entradayopagproblemas de aproximación de bajo rango
Sea . Para , el algoritmo se ejecuta más rápido en el tiempo. [6] [7] Una de las ideas importantes que se han utilizado se llama Oblivious Subspace Embedding (OSE), propuesta por primera vez por Sarlos. [8]
Para , se sabe que esta norma L1 de entrada por entrada es más robusta que la norma de Frobenius en presencia de valores atípicos y está indicada en modelos donde los supuestos gaussianos sobre el ruido pueden no aplicarse. Es natural buscar minimizar . [9] Para y , hay algunos algoritmos con garantías demostrables. [10] [11]
Problema de aproximación de rango bajo a la distancia
Sean y dos conjuntos de puntos en un espacio métrico arbitrario. Sea la matriz donde . Estas matrices de distancias se calculan comúnmente en paquetes de software y tienen aplicaciones para el aprendizaje de variedades de imágenes, reconocimiento de escritura a mano y desdoblamiento multidimensional. En un intento por reducir su tamaño de descripción, [12] [13] se puede estudiar la aproximación de bajo rango de dichas matrices.
Problema de aproximación de bajo rango distribuido/en streaming
Los problemas de aproximación de bajo rango en el entorno distribuido y de transmisión se han considerado en [14] .
Representaciones de imágenes y núcleos de las restricciones de rango
Usando las equivalencias
y
El problema de aproximación de rango bajo ponderado se vuelve equivalente a los problemas de optimización de parámetros.
y
donde es la matriz identidad de tamaño .
Algoritmo de proyecciones alternas
La representación en imagen de la restricción de rango sugiere un método de optimización de parámetros en el que la función de costo se minimiza alternativamente sobre una de las variables ( o ) con la otra fija. Aunque la minimización simultánea sobre ambas y es un problema de optimización biconvexa difícil , la minimización sobre una de las variables por sí sola es un problema de mínimos cuadrados lineales y se puede resolver de manera global y eficiente.
El algoritmo de optimización resultante (llamado proyecciones alternas) es convergente globalmente con una tasa de convergencia lineal hacia una solución localmente óptima del problema de aproximación de rango bajo ponderado. Se debe indicar el valor inicial del parámetro (o ). La iteración se detiene cuando se satisface una condición de convergencia definida por el usuario.
Implementación de Matlab del algoritmo de proyecciones alternas para aproximación ponderada de rango bajo:
función [dh, f] = wlra_ap ( d, w, p, tol, maxiter ) [ m , n ] = tamaño ( d ); r = tamaño ( p , 2 ); f = inf ; para i = 2 : maxiter % minimización sobre L bp = kron ( ojo ( n ), p ); vl = ( bp ' * w * bp ) \ bp ' * w * d (:); l = remodelar ( vl , r , n ); % minimización sobre P bl = kron ( l ' , ojo ( m )); vp = ( bl ' * w * bl ) \ bl ' * w * d (:); p = remodelar ( vp , m , r ); % comprobar condición de salida dh = p * l ; dd = d - dh ; f ( i ) = dd (:) ' * w * dd (:); si abs ( f ( i - 1 ) - f ( i )) < tol , break , fin finpara
Algoritmo de proyecciones variables
El algoritmo de proyecciones alternas aprovecha el hecho de que el problema de aproximación de rango bajo, parametrizado en forma de imagen, es bilineal en las variables o . La naturaleza bilineal del problema se utiliza de manera efectiva en un enfoque alternativo, llamado proyecciones variables. [15]
Consideremos nuevamente el problema de aproximación de rango bajo ponderado, parametrizado en forma de imagen. La minimización con respecto a la variable (un problema de mínimos cuadrados lineal) conduce a la expresión en forma cerrada del error de aproximación como una función de
Por lo tanto, el problema original es equivalente al problema de mínimos cuadrados no lineales de minimizar con respecto a . Para este propósito, se pueden utilizar métodos de optimización estándar, por ejemplo, el algoritmo de Levenberg-Marquardt .
Implementación de Matlab del algoritmo de proyecciones de variables para la aproximación ponderada de rango bajo:
función [dh, f] = wlra_varpro ( d, w, p, tol, maxiter ) prob = optimset (); prob . solver = 'lsqnonlin' ; prob . opciones = optimset ( 'MaxIter' , maxiter , 'TolFun' , tol ); prob . x0 = p ; prob . objetivo = @ ( p ) costo_diversión ( p , d , w ); [ p , f ] = lsqnonlin ( prob ); [ f , vl ] = costo_diversión ( p , d , w ); dh = p * remodelar ( vl , tamaño ( p , 2 ), tamaño ( d , 2 )); función [f, vl] = costo_diversión ( p, d, w ) bp = kron ( ojo ( tamaño ( d , 2 )), p ); vl = ( bp ' * w * bp ) \ bp ' * w * d (:); f = d (:) ' * w * ( d (:) - bp * vl );
El enfoque de proyecciones de variables también se puede aplicar a problemas de aproximación de bajo rango parametrizados en forma de núcleo. El método es eficaz cuando el número de variables eliminadas es mucho mayor que el número de variables de optimización que quedan en la etapa de minimización de mínimos cuadrados no lineales. Tales problemas ocurren en la identificación de sistemas, parametrizados en forma de núcleo, donde las variables eliminadas son la trayectoria de aproximación y las variables restantes son los parámetros del modelo. En el contexto de sistemas lineales invariantes en el tiempo , el paso de eliminación es equivalente al suavizado de Kalman .
Una variante: aproximación de rango bajo con restricción convexa
Por lo general, queremos que nuestra nueva solución no solo sea de bajo rango, sino que también satisfaga otras restricciones convexas debido a los requisitos de la aplicación. El problema que nos interesa sería el siguiente:
Este problema tiene muchas aplicaciones en el mundo real, incluida la recuperación de una buena solución a partir de una relajación inexacta (programación semidefinida). Si la restricción adicional es lineal, como si requiriéramos que todos los elementos sean no negativos, el problema se denomina aproximación de bajo rango estructurada. [16] La forma más general se denomina aproximación de bajo rango con restricción convexa.
Este problema es útil para resolver muchos problemas. Sin embargo, es un desafío debido a la combinación de las restricciones convexas y no convexas (de bajo rango). Se desarrollaron diferentes técnicas basadas en diferentes realizaciones de . Sin embargo, el método de dirección alternada de multiplicadores (ADMM) se puede aplicar para resolver el problema no convexo con función objetivo convexa, restricciones de rango y otras restricciones convexas, [17] y, por lo tanto, es adecuado para resolver nuestro problema anterior. Además, a diferencia de los problemas no convexos generales, ADMM garantizará la convergencia de una solución factible siempre que su variable dual converja en las iteraciones.
Véase también
Referencias
- ^ E. Schmidt, Zur Theorie der linearen und nichtlinearen Integralgleichungen, Matemáticas. Annalen 63 (1907), 433-476. doi :10.1007/BF01449770
- ^ C. Eckart, G. Young, La aproximación de una matriz por otra de rango inferior. Psychometrika, Volumen 1, 1936, Páginas 211–8. doi :10.1007/BF02288367
- ^ L. Mirsky, Funciones de calibre simétricas y normas unitariamente invariantes, QJ Math. 11 (1960), 50-59. doi :10.1093/qmath/11.1.50
- ^ Srebro, Nathan; Jaakkola, Tommi (2003). Aproximaciones ponderadas de rango bajo (PDF) . ICML'03.
- ^ Razenshteyn, Ilya; Song, Zhao; Woodruff, David P. (2016). Aproximaciones ponderadas de bajo rango con garantías demostrables. Actas del cuadragésimo octavo simposio anual de la ACM sobre teoría de la computación. STOC '16
- ^ Clarkson, Kenneth L.; Woodruff, David P. (2013). Aproximación y regresión de bajo rango en tiempo de escasez de entrada . STOC '13 Actas del cuadragésimo quinto simposio anual de la ACM sobre teoría de la computación. arXiv : 1207.6365 .
- ^ Nelson, Jelani; Nguyen, Huy L. (2013). OSNAP: Algoritmos de álgebra lineal numérica más rápidos mediante incrustaciones de subespacios más dispersos . FOCS '13. arXiv : 1211.1002 .
- ^ Sarlos, Tamas (2006). Algoritmos de aproximación mejorados para matrices grandes mediante proyecciones aleatorias . FOCS'06.
- ^ Song, Zhao; Woodruff, David P.; Zhong, Peilin (2017). Aproximación de rango bajo con error de norma L1 por entrada . STOC '17 Actas del cuadragésimo noveno simposio anual de la ACM sobre teoría de la computación. arXiv : 1611.00898 .
- ^ Bringmann, Karl; Kolev, Pavel; Woodruff, David P. (2017). Algoritmos de aproximación para aproximación de rango L0 bajo . NIPS'17. arXiv : 1710.11253 .
- ^ Chierichetti, Flavio; Gollapudi, Sreenivas; Kumar, Ravi; Lattanzi, Silvio; Panigrahy, Rina; Woodruff, David P. (2017). "Algoritmos para la aproximación de bajo rango de Lp" . ICML'17. arXiv : 1705.06730 .
- ^ Bakshi, Ainesh L.; Woodruff, David P. (2018). Aproximación sublineal de bajo rango temporal de matrices de distancia . NeurIPS. arXiv : 1809.06986 .
- ^ Indyk, Piotr; Vakilian, Ali; Wagner, Tal; Woodruff, David P. (2019). Aproximación de rango bajo óptima para la muestra de matrices de distancia . COLT.
- ^ Boutsidis, Christos; Woodruff, David P.; Zhong, Peilin (2016). Análisis óptimo de componentes principales en modelos distribuidos y de transmisión . STOC. arXiv : 1504.06729 .
- ^ G. Golub y V. Pereyra, Mínimos cuadrados no lineales separables: el método de proyección de variables y sus aplicaciones, Instituto de Física, Problemas inversos, Volumen 19, 2003, páginas 1-26.
- ^ Chu, Moody T.; Funderlic, Robert E.; Plemmons, Robert J. (2003). "Aproximación estructurada de bajo rango". Álgebra lineal y sus aplicaciones . 366 : 157–172. doi : 10.1016/S0024-3795(02)00505-0 .
- ^ "Un sistema general para la solución heurística de problemas convexos sobre conjuntos no convexos" (PDF) .
- MT Chu, RE Funderlic, RJ Plemmons, Aproximación estructurada de bajo rango, Álgebra lineal y sus aplicaciones, Volumen 366, 1 de junio de 2003, páginas 157–172 doi :10.1016/S0024-3795(02)00505-0
Enlaces externos
- Paquete C++ para aproximación estructurada de rango bajo