En el campo de la teoría del aprendizaje estadístico , la regularización matricial generaliza las nociones de regularización vectorial a los casos en los que el objeto que se va a aprender es una matriz. El propósito de la regularización es hacer cumplir las condiciones, por ejemplo, escasez o suavidad, que pueden producir funciones predictivas estables. Por ejemplo, en el marco vectorial más común, la regularización de Tikhonov optimiza sobre para encontrar un vector que sea una solución estable al problema de regresión. Cuando el sistema se describe mediante una matriz en lugar de un vector, este problema se puede escribir como donde la norma vectorial que impone una penalización de regularización en se ha extendido a una norma matricial en .
La regularización de matrices tiene aplicaciones en la terminación de matrices , la regresión multivariable y el aprendizaje multitarea . Las ideas de selección de características y grupos también se pueden extender a las matrices, y estas se pueden generalizar al caso no paramétrico del aprendizaje de múltiples núcleos .
Considere una matriz que se aprenderá a partir de un conjunto de ejemplos, , donde va de a , y va de a . Sea cada matriz de entrada , y sea de tamaño . Un modelo general para la salida puede plantearse como donde el producto interno es el producto interno de Frobenius . Para diferentes aplicaciones, las matrices tendrán diferentes formas, [1] pero para cada una de estas el problema de optimización a inferir puede escribirse como donde define el error empírico para un dado , y es una penalización de regularización de matriz. La función generalmente se elige para que sea convexa y a menudo se selecciona para imponer escasez (usando -normas) y/o suavidad (usando -normas). Finalmente, está en el espacio de matrices con producto interno de Frobenius .
En el problema de compleción de matrices , la matriz toma la forma donde y son la base canónica en y . En este caso, la función del producto interno de Frobenius es seleccionar elementos individuales de la matriz . Por lo tanto, la salida es una muestra de entradas de la matriz .
El problema de reconstrucción a partir de un pequeño conjunto de entradas muestreadas es posible solo bajo ciertas restricciones en la matriz, y estas restricciones pueden ser impuestas por una función de regularización. Por ejemplo, se podría suponer que es de bajo rango, en cuyo caso la penalización de regularización puede tomar la forma de una norma nuclear. [2] donde , con de a , son los valores singulares de .
Los modelos utilizados en la regresión multivariante están parametrizados por una matriz de coeficientes. En el producto interno de Frobenius anterior, cada matriz es tal que la salida del producto interno es el producto escalar de una fila de la entrada con una columna de la matriz de coeficientes. La forma familiar de estos modelos es
Muchas de las normas vectoriales utilizadas en la regresión de una sola variable se pueden extender al caso multivariante. Un ejemplo es la norma de Frobenius al cuadrado, que se puede considerar como una norma que actúa sobre las entradas o sobre los valores singulares de la matriz:
En el caso multivariado, el efecto de regularizar con la norma de Frobenius es el mismo que en el caso vectorial; los modelos muy complejos tendrán normas más grandes y, por lo tanto, serán más penalizados.
La configuración para el aprendizaje multitarea es casi la misma que la configuración para la regresión multivariante. La principal diferencia es que las variables de entrada también están indexadas por tarea (columnas de ). La representación con el producto interno de Frobenius es entonces
El papel de la regularización matricial en este contexto puede ser el mismo que en la regresión multivariante, pero las normas matriciales también se pueden utilizar para acoplar problemas de aprendizaje entre tareas. En particular, observe que para el problema de optimización las soluciones correspondientes a cada columna de están desacopladas. Es decir, se puede encontrar la misma solución resolviendo el problema conjunto o resolviendo un problema de regresión aislado para cada columna. Los problemas se pueden acoplar añadiendo una penalización de regularización adicional en la covarianza de soluciones donde modela la relación entre tareas. Este esquema se puede utilizar tanto para imponer la similitud de soluciones entre tareas como para aprender la estructura específica de la similitud de tareas alternando entre optimizaciones de y . [3] Cuando se sabe que la relación entre tareas se encuentra en un gráfico, la matriz laplaciana del gráfico se puede utilizar para acoplar los problemas de aprendizaje.
La regularización por filtrado espectral se ha utilizado para encontrar soluciones estables a problemas como los que se han analizado anteriormente, abordando inversiones de matrices mal planteadas (véase, por ejemplo, la función de filtro para la regularización de Tikhonov ). En muchos casos, la función de regularización actúa sobre la entrada (o núcleo) para garantizar una inversa acotada eliminando pequeños valores singulares, pero también puede ser útil tener normas espectrales que actúen sobre la matriz que se va a aprender.
Existen varias normas matriciales que actúan sobre los valores singulares de la matriz. Entre los ejemplos más utilizados se encuentran las p-normas de Schatten , con p = 1 o 2. Por ejemplo, la regularización de matrices con una 1-norma de Schatten, también llamada norma nuclear, se puede utilizar para imponer la escasez en el espectro de una matriz. Esto se ha utilizado en el contexto de la compleción de matrices cuando se cree que la matriz en cuestión tiene un rango restringido. [2] En este caso, el problema de optimización se convierte en:
La regularización espectral también se utiliza para aplicar una matriz de coeficientes de rango reducido en la regresión multivariante. [4] En este contexto, se puede encontrar una matriz de coeficientes de rango reducido manteniendo solo los valores singulares superiores, pero esto se puede ampliar para mantener cualquier conjunto reducido de valores singulares y vectores.
La optimización dispersa se ha convertido en el foco de interés de muchas investigaciones como una forma de encontrar soluciones que dependen de un pequeño número de variables (véase, por ejemplo, el método Lasso ). En principio, la escasez por entrada se puede imponer penalizando la norma por entrada de la matriz, pero la norma no es convexa. En la práctica, esto se puede implementar mediante la relajación convexa de la norma. Si bien la regularización por entrada con una norma encontrará soluciones con un pequeño número de elementos distintos de cero, la aplicación de una norma a diferentes grupos de variables puede imponer una estructura en la escasez de soluciones. [5]
El ejemplo más sencillo de escasez estructurada utiliza la norma con y :
Por ejemplo, la norma se utiliza en el aprendizaje multitarea para agrupar características en las distintas tareas, de modo que todos los elementos de una fila determinada de la matriz de coeficientes se puedan convertir en cero como grupo. [6] El efecto de agrupación se logra tomando la norma de cada fila y, a continuación, tomando la penalización total como la suma de estas normas por fila. Esta regularización da como resultado filas que tenderán a ser todas ceros o densas. El mismo tipo de regularización se puede utilizar para aplicar la escasez por columna tomando las normas de cada columna.
De manera más general, la norma se puede aplicar a grupos arbitrarios de variables: donde el índice abarca todos los grupos de variables e indica la cardinalidad del grupo .
Los algoritmos para resolver estos problemas de escasez de grupos extienden los métodos Lasso y Lasso de grupo más conocidos al permitir grupos superpuestos, por ejemplo, y se han implementado a través de búsqueda de coincidencias : [7] y métodos de gradiente proximal . [8] Al escribir el gradiente proximal con respecto a un coeficiente dado, , se puede ver que esta norma impone un umbral suave para todos los grupos [1] donde es la función indicadora para las normas de grupo .
Por lo tanto, el uso de normas permite aplicar una estructura sencilla en la escasez de una matriz, ya sea por filas, por columnas o en bloques arbitrarios. Al aplicar normas de grupo en bloques en una regresión multivariada o multitarea, por ejemplo, es posible encontrar grupos de variables de entrada y de salida, de modo que los subconjuntos definidos de variables de salida (columnas de la matriz ) dependan del mismo conjunto disperso de variables de entrada.
Las ideas de escasez estructurada y selección de características se pueden extender al caso no paramétrico de aprendizaje de múltiples núcleos . [9] Esto puede ser útil cuando hay múltiples tipos de datos de entrada (color y textura, por ejemplo) con diferentes núcleos apropiados para cada uno, o cuando se desconoce el núcleo apropiado. Si hay dos núcleos, por ejemplo, con mapas de características y que se encuentran en espacios de Hilbert de núcleos de reproducción correspondientes , entonces se puede crear un espacio más grande, , como la suma de dos espacios: suponiendo independencia lineal en y . En este caso, la -norma es nuevamente la suma de normas:
Por lo tanto, al elegir una función de regularización matricial como este tipo de norma, es posible encontrar una solución que sea dispersa en términos de qué núcleos se utilizan, pero densa en el coeficiente de cada núcleo utilizado. El aprendizaje de múltiples núcleos también se puede utilizar como una forma de selección de variables no lineales o como una técnica de agregación de modelos (por ejemplo, tomando la suma de normas al cuadrado y relajando las restricciones de dispersión). Por ejemplo, cada núcleo puede tomarse como el núcleo gaussiano con un ancho diferente.