stringtranslate.com

Regularización (matemáticas)

Las funciones verde y azul incurren en pérdida cero en los puntos de datos dados. Se puede inducir a un modelo aprendido a preferir la función verde, que puede generalizarse mejor a más puntos extraídos de la distribución desconocida subyacente, ajustando el peso del término de regularización.

En matemáticas , estadística , finanzas , [1] informática , particularmente en aprendizaje automático y problemas inversos , la regularización es un proceso que cambia la respuesta del resultado para que sea "más simple". A menudo se utiliza para obtener resultados en problemas mal planteados o para evitar el sobreajuste . [2]

Aunque los procedimientos de regularización se pueden dividir de muchas maneras, la siguiente descripción es particularmente útil:

En la regularización explícita, independientemente del problema o modelo, siempre hay un término de datos que corresponde a una probabilidad de la medición y un término de regularización que corresponde a un anterior. Al combinar ambos utilizando estadísticas bayesianas, se puede calcular un a posteriori que incluya ambas fuentes de información y, por lo tanto, estabilice el proceso de estimación. Al compensar ambos objetivos, uno elige ser más adictivo con los datos o imponer la generalización (para evitar el sobreajuste). Existe toda una rama de investigación que se ocupa de todas las regularizaciones posibles. En la práctica, normalmente se intenta una regularización específica y luego se calcula la densidad de probabilidad que corresponde a esa regularización para justificar la elección. También puede estar motivado físicamente por el sentido común o la intuición.

En el aprendizaje automático, el término de datos corresponde a los datos de entrenamiento y la regularización es la elección del modelo o modificaciones al algoritmo. Siempre se pretende reducir el error de generalización, es decir, la puntuación de error con el modelo entrenado en el conjunto de evaluación y no con los datos de entrenamiento. [3]

Uno de los primeros usos de la regularización es la regularización de Tikhonov , relacionada con el método de mínimos cuadrados.

Regularización en el aprendizaje automático

En el aprendizaje automático , un desafío clave es permitir que los modelos predigan con precisión resultados a partir de datos invisibles, no solo de datos de entrenamiento familiares. La regularización es crucial para abordar el sobreajuste (donde un modelo memoriza los detalles de los datos de entrenamiento pero no puede generalizarlos a nuevos datos) y el desajuste , donde el modelo es demasiado simple para capturar la complejidad de los datos de entrenamiento. Este concepto refleja enseñar a los estudiantes a aplicar conceptos aprendidos a nuevos problemas en lugar de simplemente recordar respuestas memorizadas. [4] El objetivo de la regularización es alentar a los modelos a aprender los patrones más amplios dentro de los datos en lugar de memorizarlos. Técnicas como Early Stopping , regularización L1 y L2 y Dropout están diseñadas para evitar el sobreajuste y el desajuste, mejorando así la capacidad del modelo para adaptarse y funcionar bien con nuevos datos, mejorando así la generalización del modelo. [4]

Parada temprana

Detiene el entrenamiento cuando el rendimiento de la validación se deteriora, lo que evita el sobreajuste al detenerse antes de que el modelo memorice los datos de entrenamiento. [4]

Regularización L1 y L2

Agrega términos de penalización a la función de costos para desalentar modelos complejos:

Abandonar

Ignora aleatoriamente un subconjunto de neuronas durante el entrenamiento, simulando el entrenamiento de múltiples arquitecturas de redes neuronales para mejorar la generalización. [4]

Clasificación

El aprendizaje empírico de clasificadores (a partir de un conjunto de datos finito) es siempre un problema indeterminado , porque intenta inferir una función de cualquier ejemplo dado .

Se agrega un término de regularización (o regularizador) a una función de pérdida :

donde hay una función de pérdida subyacente que describe el costo de predecir cuándo está la etiqueta , como la pérdida cuadrada o la pérdida de bisagra ; y es un parámetro que controla la importancia del término de regularización. Normalmente se elige para imponer una penalización a la complejidad de . Las nociones concretas de complejidad utilizadas incluyen restricciones de suavidad y límites en la norma del espacio vectorial . [5] [ página necesaria ]

Una justificación teórica para la regularización es que intenta imponer la navaja de Occam a la solución (como se muestra en la figura anterior, donde puede preferirse la función verde, la más simple). Desde un punto de vista bayesiano , muchas técnicas de regularización corresponden a imponer ciertas distribuciones previas a los parámetros del modelo. [6]

La regularización puede servir para múltiples propósitos, incluido el aprendizaje de modelos más simples, inducir que los modelos sean escasos e introducir una estructura de grupo [ aclaración necesaria ] en el problema de aprendizaje.

La misma idea surgió en muchos campos de la ciencia . Una forma simple de regularización aplicada a ecuaciones integrales ( regularización de Tikhonov ) es esencialmente un equilibrio entre ajustar los datos y reducir una norma de la solución. Más recientemente, se han vuelto populares los métodos de regularización no lineal, incluida la regularización de variación total .

Generalización

La regularización puede motivarse como una técnica para mejorar la generalización de un modelo aprendido.

El objetivo de este problema de aprendizaje es encontrar una función que se ajuste o prediga el resultado (etiqueta) que minimice el error esperado en todas las entradas y etiquetas posibles. El error esperado de una función es:

donde y son los dominios de los datos de entrada y sus etiquetas respectivamente.

Normalmente, en los problemas de aprendizaje, sólo está disponible un subconjunto de datos de entrada y etiquetas, medidos con algo de ruido. Por lo tanto, el error esperado no es mensurable y el mejor sustituto disponible es el error empírico sobre las muestras disponibles:

Sin límites a la complejidad del espacio funcional (formalmente, el espacio de Hilbert del núcleo reproductor ) disponible, se aprenderá un modelo que incurre en pérdida cero en el error empírico sustituto. Si las mediciones (por ejemplo, de ) se realizaron con ruido, este modelo puede sufrir un sobreajuste y mostrar un error esperado deficiente. La regularización introduce una penalización por explorar ciertas regiones del espacio funcional utilizado para construir el modelo, lo que puede mejorar la generalización.

Regularización de Tikhonov

Estas técnicas llevan el nombre de Andrey Nikolayevich Tikhonov , quien aplicó la regularización a ecuaciones integrales e hizo importantes contribuciones en muchas otras áreas.

Al aprender una función lineal , caracterizada por un vector desconocido tal que , se puede agregar la norma del vector a la expresión de pérdida para preferir soluciones con normas más pequeñas. La regularización de Tikhonov es una de las formas más comunes. También se conoce como regresión de crestas. Se expresa como:

,

donde representaría muestras utilizadas para el entrenamiento.

En el caso de una función general, la norma de la función en su espacio de Hilbert del núcleo reproductor es:

Como la norma es diferenciable , el aprendizaje puede avanzar mediante un descenso de gradiente .

Mínimos cuadrados regularizados por Tikhonov

El problema de aprendizaje con la función de pérdida de mínimos cuadrados y la regularización de Tikhonov se puede resolver analíticamente. Escrito en forma matricial, el óptimo es aquel para el cual el gradiente de la función de pérdida con respecto a es 0.

   ( condición de primer orden )

Al construir el problema de optimización, otros valores de dan valores mayores para la función de pérdida. Esto se puede verificar examinando la segunda derivada .

Durante el entrenamiento, este algoritmo lleva tiempo . Los términos corresponden a la inversión de matrices y al cálculo , respectivamente. Las pruebas llevan tiempo.

Parada anticipada

La parada anticipada puede verse como una regularización en el tiempo. Intuitivamente, un procedimiento de entrenamiento como el descenso de gradiente tiende a aprender funciones cada vez más complejas con iteraciones cada vez mayores. Al regularizar el tiempo, se puede controlar la complejidad del modelo, mejorando la generalización.

La parada anticipada se implementa utilizando un conjunto de datos para entrenamiento, un conjunto de datos estadísticamente independiente para validación y otro para pruebas. El modelo se entrena hasta que el rendimiento en el conjunto de validación ya no mejora y luego se aplica al conjunto de prueba.

Motivación teórica en mínimos cuadrados.

Considere la aproximación finita de la serie de Neumann para una matriz invertible A donde :

Esto se puede utilizar para aproximar la solución analítica de mínimos cuadrados no regularizados, si se introduce γ para garantizar que la norma sea menor que uno.

La solución exacta al problema de aprendizaje de mínimos cuadrados no regularizados minimiza el error empírico, pero puede fallar. Al limitar T , el único parámetro libre en el algoritmo anterior, el problema se regulariza en el tiempo, lo que puede mejorar su generalización.

El algoritmo anterior equivale a restringir el número de iteraciones de descenso de gradiente para el riesgo empírico.

con la actualización del descenso de gradiente:

El caso base es trivial. El caso inductivo se demuestra de la siguiente manera:

Regularizadores para escasez

Supongamos que se proporciona un diccionario con dimensión tal que una función en el espacio funcional puede expresarse como:

Una comparación entre la bola L1 y la bola L2 en dos dimensiones da una idea de cómo la regularización L1 logra la escasez.

Aplicar una restricción de escasez puede conducir a modelos más simples e interpretables. Esto es útil en muchas aplicaciones de la vida real, como la biología computacional . Un ejemplo es el desarrollo de una prueba predictiva simple para una enfermedad con el fin de minimizar el costo de realizar pruebas médicas y al mismo tiempo maximizar el poder predictivo.

Una restricción de escasez sensible es la norma , definida como el número de elementos distintos de cero en . Sin embargo, se ha demostrado que resolver un problema de aprendizaje regularizado es NP-difícil . [7]

La norma (ver también Normas ) se puede utilizar para aproximar la norma óptima mediante relajación convexa. Se puede demostrar que la norma induce escasez. En el caso de mínimos cuadrados, este problema se conoce como LASSO en estadística y búsqueda de bases en el procesamiento de señales.

Regularización neta elástica

En ocasiones, la regularización puede producir soluciones no únicas. En la figura se proporciona un ejemplo sencillo cuando el espacio de posibles soluciones se encuentra en una línea de 45 grados. Esto puede ser problemático para ciertas aplicaciones y se soluciona combinándolo con la regularización en la regularización de red elástica , que toma la siguiente forma:

La regularización neta elástica tiende a tener un efecto de agrupación, donde a las características de entrada correlacionadas se les asignan pesos iguales.

La regularización de red elástica se usa comúnmente en la práctica y se implementa en muchas bibliotecas de aprendizaje automático.

Métodos proximales

Si bien la norma no da como resultado un problema NP-difícil, la norma es convexa pero no es estrictamente diferenciable debido al problema en x = 0. Los métodos de subgradiente que se basan en la subderivada se pueden usar para resolver problemas de aprendizaje regularizados. Sin embargo, se puede lograr una convergencia más rápida mediante métodos proximales.

Para un problema que es convexo, continuo, diferenciable, con gradiente continuo de Lipschitz (como la función de pérdida de mínimos cuadrados) y es convexo, continuo y propio, entonces el método proximal para resolver el problema es el siguiente. Primero defina el operador proximal.

y luego iterar

El método proximal realiza iterativamente un descenso de gradiente y luego proyecta el resultado nuevamente en el espacio permitido por .

Cuando es el regularizador, el operador proximal es equivalente al operador de umbral suave,

Esto permite un cálculo eficiente.

Escasez de grupos sin superposiciones

Los grupos de características pueden regularizarse mediante una restricción de dispersión, que puede resultar útil para expresar cierto conocimiento previo en un problema de optimización.

En el caso de un modelo lineal con grupos conocidos que no se superponen, se puede definir un regularizador:

dónde

Esto puede verse como la inducción de un regularizador sobre la norma sobre los miembros de cada grupo seguido de una norma sobre los grupos.

Esto se puede resolver mediante el método proximal, donde el operador proximal es una función de umbral suave por bloques:

Dispersión de grupos con superposiciones

El algoritmo descrito para la dispersión de grupos sin superposiciones se puede aplicar al caso en que los grupos se superponen, en determinadas situaciones. Esto probablemente dará como resultado algunos grupos con todos los elementos cero y otros grupos con algunos elementos distintos de cero y algunos cero.

Si se desea preservar la estructura del grupo, se puede definir un nuevo regularizador:

Para cada , se define como el vector tal que la restricción de al grupo es igual y todas las demás entradas de son cero. El regularizador encuentra la desintegración óptima en partes. Puede verse como una duplicación de todos los elementos que existen en múltiples grupos. Los problemas de aprendizaje con este regularizador también se pueden resolver con el método proximal con una complicación. El operador proximal no se puede calcular en forma cerrada, pero se puede resolver efectivamente de forma iterativa, induciendo una iteración interna dentro de la iteración del método proximal.

Regularizadores para el aprendizaje semisupervisado

Cuando es más costoso recopilar etiquetas que ejemplos de entrada, el aprendizaje semisupervisado puede resultar útil. Los regularizadores han sido diseñados para guiar los algoritmos de aprendizaje para aprender modelos que respeten la estructura de muestras de entrenamiento no supervisadas. Si se proporciona una matriz de pesos simétrica, se puede definir un regularizador:

Si codifica el resultado de alguna métrica de distancia para puntos y , es deseable que . Este regularizador captura esta intuición y es equivalente a:

donde es la matriz laplaciana de la gráfica inducida por .

El problema de optimización se puede resolver analíticamente si la restricción se aplica a todas las muestras supervisadas. Por tanto , la parte etiquetada del vector es obvia. La parte no etiquetada se resuelve mediante:

Se puede tomar la pseudoinversa porque tiene el mismo rango que .

Regularizadores para el aprendizaje multitarea

En el caso del aprendizaje multitarea, los problemas se consideran simultáneamente y cada uno de ellos está relacionado de alguna manera. El objetivo es aprender funciones, idealmente tomando prestada fuerza de la relación de las tareas, que tengan poder predictivo. Esto equivale a aprender la matriz .

Regularizador escaso en columnas

Este regularizador define una norma L2 en cada columna y una norma L1 en todas las columnas. Se puede resolver mediante métodos proximales.

Regularización de normas nucleares

¿ Dónde están los valores propios en la descomposición en valores singulares de ?

Regularización con restricción de media

Este regularizador restringe las funciones aprendidas para cada tarea para que sean similares al promedio general de las funciones en todas las tareas. Esto es útil para expresar información previa que se espera que cada tarea comparta entre sí. Un ejemplo es la predicción de los niveles de hierro en sangre medidos en diferentes momentos del día, donde cada tarea representa a un individuo.

Regularización agrupada con restricción de media

donde hay un grupo de tareas.

Este regularizador es similar al regularizador de media restringida, pero en su lugar impone la similitud entre tareas dentro del mismo clúster. Esto puede capturar información previa más compleja. Esta técnica se ha utilizado para predecir las recomendaciones de Netflix . Un cluster correspondería a un grupo de personas que comparten preferencias similares.

Similitud basada en gráficos

De manera más general que lo anterior, la similitud entre tareas se puede definir mediante una función. El regularizador anima al modelo a aprender funciones similares para tareas similares.

para una matriz de similitud simétrica dada .

Otros usos de la regularización en estadística y aprendizaje automático

Los métodos de aprendizaje bayesianos utilizan una probabilidad previa que (generalmente) otorga una probabilidad más baja a modelos más complejos. Las técnicas de selección de modelos más conocidas incluyen el criterio de información de Akaike (AIC), la longitud mínima de descripción (MDL) y el criterio de información bayesiano (BIC). Los métodos alternativos para controlar el sobreajuste que no implican regularización incluyen la validación cruzada .

Ejemplos de aplicaciones de diferentes métodos de regularización al modelo lineal son:

Ver también

Notas

  1. ^ Kratsios, Anastasis (2020). "Aprendizaje profundo sin arbitraje en un marco HJM generalizado a través de datos de regularización de arbitraje". Riesgos. 8 (2): [1]. doi : 10.3390/riesgos8020040 . hdl : 20.500.11850/456375 . Los modelos de estructura de plazos pueden regularizarse para eliminar oportunidades de arbitraje [ sic ? ]. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  2. ^ Bühlmann, Peter; Van De Geer, Sara (2011). Estadísticas para datos de alta dimensión . Serie Springer en Estadística. pag. 9.doi : 10.1007 /978-3-642-20192-9. ISBN 978-3-642-20191-2. Si p > n, el estimador de mínimos cuadrados ordinarios no es único y sobreajustará en gran medida los datos. Por tanto, será necesaria una forma de regularización de la complejidad.
  3. ^ "Libro de aprendizaje profundo". www.deeplearningbook.org . Consultado el 29 de enero de 2021 .
  4. ^ abcde Guo, Jingru. "Notas de IA: regularización de redes neuronales". aprendizaje profundo.ai . Consultado el 4 de febrero de 2024 .
  5. ^ ab Obispo, Christopher M. (2007). Reconocimiento de patrones y aprendizaje automático (Corr. Printing. Ed.). Nueva York: Springer. ISBN 978-0-387-31073-2.
  6. ^ Para conocer la conexión entre la estimación máxima a posteriori y la regresión de crestas , consulte Weinberger, Kilian (11 de julio de 2018). "Regresión lineal/cresta". Conferencia sobre aprendizaje automático CS4780 13 . Cornell.
  7. ^ Natarajan, B. (1 de abril de 1995). "Soluciones aproximadas escasas para sistemas lineales". Revista SIAM de Computación . 24 (2): 227–234. doi :10.1137/S0097539792240406. ISSN  0097-5397. S2CID  2072045.
  8. ^ Duda, Richard O. (2004). Clasificación de patrones + manual de computadora: juego de tapa dura (2. ed.). Nueva York [ua]: Wiley. ISBN 978-0-471-70350-1.
  9. ^ Arthur E. Hoerl; Robert W. Kennard (1970). "Regresión de crestas: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi :10.2307/1267351. JSTOR  1267351.
  10. ^ Tibshirani, Robert (1996). «Regresión, contracción y selección mediante el lazo» ( PostScript ) . Revista de la Royal Statistical Society, Serie B. 58 (1): 267–288. SEÑOR  1379242 . Consultado el 19 de marzo de 2009 .
  11. ^ Li Wang, Michael D. Gordon y Ji Zhu (2006). "Regresión regularizada de desviaciones mínimas absolutas y un algoritmo eficiente para el ajuste de parámetros". Sexto Congreso Internacional sobre Minería de Datos . págs. 690–700. doi :10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
  12. ^ Candes, Emmanuel ; Tao, Terence (2007). "El selector de Dantzig: estimación estadística cuando p es mucho mayor que n ". Anales de Estadística . 35 (6): 2313–2351. arXiv : matemáticas/0506081 . doi :10.1214/009053606000001523. SEÑOR  2382644. S2CID  88524200.
  13. ^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su y Emmanuel J. Candes (2013). "Estimación estadística y pruebas mediante la norma L1 ordenada". arXiv : 1310.1969 [estad.ME].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

Referencias