stringtranslate.com

Aprendizaje multitarea

El aprendizaje multitarea (MTL) es un subcampo del aprendizaje automático en el que se resuelven múltiples tareas de aprendizaje al mismo tiempo, explotando al mismo tiempo los puntos en común y las diferencias entre las tareas. Esto puede dar como resultado una mayor eficiencia del aprendizaje y precisión de la predicción para los modelos de tareas específicas, en comparación con el entrenamiento de los modelos por separado. [1] [2] [3] Inherentemente, el aprendizaje multitarea es un problema de optimización multiobjetivo que tiene compensaciones entre diferentes tareas [4] . Las primeras versiones de MTL se denominaron "pistas". [5] [6]

En un artículo de 1997 ampliamente citado, Rich Caruana dio la siguiente caracterización:

El aprendizaje multitarea es un enfoque de transferencia inductiva que mejora la generalización mediante el uso de la información de dominio contenida en las señales de entrenamiento de tareas relacionadas como un sesgo inductivo . Lo hace aprendiendo tareas en paralelo mientras utiliza una representación compartida ; Lo que se aprende para cada tarea puede ayudar a aprender mejor otras tareas. [3]

En el contexto de la clasificación, MTL tiene como objetivo mejorar el desempeño de múltiples tareas de clasificación aprendiéndolas conjuntamente. Un ejemplo es un filtro de spam, que puede tratarse como tareas de clasificación distintas pero relacionadas entre diferentes usuarios. Para hacer esto más concreto, considere que diferentes personas tienen diferentes distribuciones de características que distinguen los correos electrónicos no deseados de los legítimos; por ejemplo, un hablante de inglés puede encontrar que todos los correos electrónicos en ruso son spam, no así para los hablantes de ruso. Sin embargo, existe una clara característica común en esta tarea de clasificación entre los usuarios; por ejemplo, una característica común podría ser el texto relacionado con la transferencia de dinero. Resolver el problema de clasificación de spam de cada usuario de forma conjunta a través de MTL puede permitir que las soluciones se informen entre sí y mejoren el rendimiento. [ cita requerida ] Otros ejemplos de configuraciones para MTL incluyen clasificación multiclase y clasificación multietiqueta . [7]

El aprendizaje multitarea funciona porque la regularización inducida al requerir que un algoritmo funcione bien en una tarea relacionada puede ser superior a la regularización que evita el sobreajuste al penalizar toda la complejidad de manera uniforme. Una situación en la que MTL puede resultar particularmente útil es si las tareas comparten importantes puntos en común y, por lo general, no se muestrean lo suficiente. [8] Sin embargo, como se analiza a continuación, MTL también ha demostrado ser beneficioso para aprender tareas no relacionadas. [8] [9]

Métodos

El desafío clave en el aprendizaje multitarea es cómo combinar señales de aprendizaje de múltiples tareas en un solo modelo. Esto puede depender en gran medida de qué tan bien concuerden o se contradigan las diferentes tareas entre sí. Hay varias maneras de abordar este desafío:

Agrupación y superposición de tareas

Dentro del paradigma MTL, la información se puede compartir entre algunas o todas las tareas. Dependiendo de la estructura de relación de las tareas, es posible que desee compartir información de forma selectiva entre las tareas. Por ejemplo, las tareas pueden estar agrupadas o existir en una jerarquía, o estar relacionadas según alguna métrica general. Supongamos, como se desarrolla más formalmente a continuación, que el vector de parámetros que modela cada tarea es una combinación lineal de alguna base subyacente. La similitud en términos de esta base puede indicar la relación de las tareas. Por ejemplo, con escasez , la superposición de coeficientes distintos de cero entre tareas indica puntos en común. Una agrupación de tareas corresponde entonces a aquellas tareas que se encuentran en un subespacio generado por algún subconjunto de elementos básicos, donde las tareas en diferentes grupos pueden estar separadas o superponerse arbitrariamente en términos de sus bases. [10] La relación con la tarea puede imponerse a priori o aprenderse de los datos. [7] [11] La relación jerárquica entre tareas también se puede explotar implícitamente sin asumir conocimiento a priori o relaciones de aprendizaje explícitamente. [8] [12] Por ejemplo, el aprendizaje explícito de la relevancia de la muestra en todas las tareas se puede realizar para garantizar la eficacia del aprendizaje conjunto en múltiples dominios. [8]

Explotar tareas no relacionadas

Se puede intentar aprender un grupo de tareas principales utilizando un grupo de tareas auxiliares, no relacionadas con las principales. En muchas aplicaciones, el aprendizaje conjunto de tareas no relacionadas que utilizan los mismos datos de entrada puede resultar beneficioso. La razón es que el conocimiento previo sobre la relación de las tareas puede conducir a representaciones más dispersas y más informativas para cada grupo de tareas, esencialmente eliminando idiosincrasias de la distribución de datos. Se han propuesto métodos novedosos que se basan en una metodología multitarea anterior al favorecer una representación compartida de baja dimensión dentro de cada grupo de tareas. El programador puede imponer una penalización a tareas de diferentes grupos, lo que fomenta que las dos representaciones sean ortogonales . Los experimentos con datos sintéticos y reales han indicado que la incorporación de tareas no relacionadas puede dar como resultado mejoras significativas con respecto a los métodos estándar de aprendizaje multitarea. [9]

Transferencia de conocimiento

Relacionado con el aprendizaje multitarea está el concepto de transferencia de conocimientos. Mientras que el aprendizaje multitarea tradicional implica que se desarrolla una representación compartida simultáneamente entre tareas, la transferencia de conocimiento implica una representación compartida secuencialmente. Los proyectos de aprendizaje automático a gran escala, como la red neuronal convolucional profunda GoogLeNet , [13] un clasificador de objetos basado en imágenes, pueden desarrollar representaciones robustas que pueden ser útiles para que los algoritmos avancen en tareas relacionadas. Por ejemplo, el modelo previamente entrenado se puede utilizar como extractor de características para realizar un procesamiento previo para otro algoritmo de aprendizaje. O el modelo previamente entrenado se puede utilizar para inicializar un modelo con una arquitectura similar que luego se ajusta para aprender una tarea de clasificación diferente. [14]

Múltiples tareas no estacionarias

Tradicionalmente, el aprendizaje multitarea y la transferencia de conocimientos se aplican a entornos de aprendizaje estacionarios. Su extensión a entornos no estacionarios se denomina aprendizaje adaptativo en línea grupal (GOAL). [15] Compartir información podría ser particularmente útil si los alumnos operan en entornos en constante cambio, porque un alumno podría beneficiarse de la experiencia previa de otro alumno para adaptarse rápidamente a su nuevo entorno. Este aprendizaje adaptativo grupal tiene numerosas aplicaciones, desde la predicción de series temporales financieras , pasando por sistemas de recomendación de contenido, hasta la comprensión visual para agentes autónomos adaptativos.

Optimización multitarea

Optimización de tareas múltiples : en algunos casos, el entrenamiento simultáneo de tareas aparentemente relacionadas puede dificultar el rendimiento en comparación con los modelos de tarea única. [16] Comúnmente, los modelos MTL emplean módulos de tareas específicas además de una representación de características conjunta obtenida utilizando un módulo compartido. Dado que esta representación conjunta debe capturar características útiles en todas las tareas, MTL puede obstaculizar el desempeño de tareas individuales si las diferentes tareas buscan una representación conflictiva, es decir, los gradientes de diferentes tareas apuntan a direcciones opuestas o difieren significativamente en magnitud. Este fenómeno se conoce comúnmente como transferencia negativa. Para mitigar este problema, se han propuesto varios métodos de optimización de MTL. Por lo general, los gradientes por tarea se combinan en una dirección de actualización conjunta mediante varios algoritmos o heurísticas de agregación. Estos métodos incluyen restar la proyección de gradientes en conflicto, [17] aplicar técnicas de la teoría de juegos, [18] y utilizar modelos bayesianos para obtener una distribución sobre gradientes. [19]

Matemáticas

Reproducción del espacio de Hilbert de funciones vectoriales (RKHSvv)

El problema MTL se puede plantear dentro del contexto de RKHSvv (un espacio de producto interno completo de funciones con valores vectoriales equipado con un núcleo de reproducción ). En particular, recientemente se ha centrado la atención en casos en los que la estructura de la tarea se puede identificar mediante un núcleo separable, que se describe a continuación. La presentación aquí deriva de Ciliberto et al., 2015. [7]

Conceptos de RKHSvv

Supongamos que el conjunto de datos de entrenamiento es , con , , donde t indexa la tarea y . Dejar . En esta configuración hay un espacio de entrada y salida consistente y la misma función de pérdida para cada tarea: . Esto da como resultado el problema de aprendizaje automático regularizado:

donde es un vector valorado que reproduce el espacio de Hilbert del núcleo con funciones que tienen componentes .

El núcleo reproductor para el espacio de funciones es una función matricial simétrica , tal que y se cumple la siguiente propiedad de reproducción:

El núcleo reproductivo da lugar a un teorema del representante que muestra que cualquier solución de la ecuación 1 tiene la forma:

Núcleos separables

La forma del núcleo Γ induce tanto la representación del espacio de características como estructura la salida entre tareas. Una simplificación natural es elegir un núcleo separable, que factorice núcleos separados en el espacio de entrada X y en las tareas . En este caso el núcleo que relaciona los componentes escalares y viene dado por . Para funciones con valores vectoriales podemos escribir , donde k es un núcleo de reproducción escalar y A es una matriz semidefinida positiva simétrica . De ahora en adelante denota .

Esta propiedad de factorización, la separabilidad, implica que la representación del espacio de características de entrada no varía según la tarea. Es decir, no hay interacción entre el núcleo de entrada y el núcleo de tareas. La estructura de tareas está representada únicamente por A . Los métodos para núcleos no separables Γ son un campo de investigación actual.

Para el caso separable, el teorema de representación se reduce a . La salida del modelo sobre los datos de entrenamiento es entonces KCA , donde K es la matriz del núcleo empírico con entradas y C es la matriz de filas .

Con el núcleo separable, la ecuación 1 se puede reescribir como

donde V es un promedio (ponderado) de L aplicado a nivel de entrada a Y y KCA . (El peso es cero si falta una observación).

Tenga en cuenta que el segundo término en P se puede derivar de la siguiente manera:

Estructura de tareas conocida

Representaciones de la estructura de tareas

Hay tres formas en gran medida equivalentes de representar la estructura de tareas: a través de un regularizador; a través de una métrica de salida y a través de un mapeo de salida.

Regularizador  :  con el núcleo separable, se puede mostrar (a continuación) que , donde es el elemento del pseudoinverso de , y es el RKHS basado en el núcleo escalar , y . Esta formulación muestra que controla el peso de la sanción asociada . (Nota que surge de .)

Prueba

Métrica de salida  :  el producto interno puede inducir una métrica de salida alternativa . Con la pérdida al cuadrado existe una equivalencia entre los núcleos separables bajo la métrica alternativa y bajo la métrica canónica.

Mapeo de salida  :  las salidas se pueden asignar a un espacio de dimensiones superiores para codificar estructuras complejas como árboles, gráficos y cadenas. Para mapas lineales L , con la elección adecuada del núcleo separable, se puede demostrar que .

Ejemplos de estructura de tareas

A través de la formulación del regularizador, se pueden representar fácilmente una variedad de estructuras de tareas.

Tareas de aprendizaje junto con su estructura.

El problema de aprendizaje P se puede generalizar para admitir la matriz de tareas de aprendizaje A de la siguiente manera:

La elección de debe diseñarse para aprender matrices A de un tipo determinado. Consulte "Casos especiales" a continuación.

Optimización deq

Restringiendo al caso de pérdidas convexas y sanciones coercitivas Ciliberto et al. han demostrado que aunque Q no es convexo conjuntamente en C y A, un problema relacionado es convexo conjuntamente.

Específicamente en el conjunto convexo , el problema equivalente

es convexo con el mismo valor mínimo. Y si es un minimizador de R entonces es un minimizador de Q.

R puede resolverse mediante un método de barrera en un conjunto cerrado introduciendo la siguiente perturbación:

La perturbación a través de la barrera obliga a que las funciones objetivo sean iguales a en el límite de .

S se puede resolver con un método de descenso de coordenadas en bloque, alternando en C y A. Esto da como resultado una secuencia de minimizadores en S que converge a la solución en R como y, por lo tanto , da la solución a Q.

Casos especiales

Penalizaciones espectrales : Dinnuzo et al [20] sugirieron establecer F como la norma de Frobenius. Optimizaron Q directamente utilizando el descenso de coordenadas de bloque, sin tener en cuenta las dificultades en el límite de.

Aprendizaje de tareas agrupadas : Jacob et al [21] sugirieron aprender A en un entorno donde las tareas T están organizadas en R grupos disjuntos. En este caso sea la matriz con . Configurando y , la matriz de tareas se puede parametrizar como una función de : , con términos que penalizan la varianza promedio, entre grupos y dentro de los grupos, respectivamente, de las predicciones de la tarea. M no es convexo, pero hay una relajación convexa . En esta formulación, .

Generalizaciones

Penalizaciones no convexas : las penalizaciones se pueden construir de modo que A esté obligado a ser un gráfico laplaciano o que A tenga una factorización de rango bajo. Sin embargo, estas penalizaciones no son convexas y el análisis del método de barrera propuesto por Ciliberto et al. no pasa en estos casos.

Núcleos no separables : los núcleos separables son limitados; en particular, no tienen en cuenta estructuras en el espacio de interacción entre los dominios de entrada y salida de forma conjunta. Se necesita trabajo futuro para desarrollar modelos para estos núcleos.

paquete de software

Un paquete de Matlab llamado Aprendizaje multitarea mediante regularización estructural (MALSAR) [22] implementa los siguientes algoritmos de aprendizaje multitarea: Aprendizaje multitarea regularizado por media, [23] [24] Aprendizaje multitarea con selección de funciones conjuntas, [ 25] Aprendizaje robusto de funciones multitarea, [26] Aprendizaje multitarea regularizado con normas de seguimiento, [27] Optimización estructural alterna, [28] [29] Aprendizaje disperso e incoherente de bajo rango, [30] Múltiples robustos de bajo rango -Aprendizaje de tareas, Aprendizaje multitarea agrupado, [31] [32] Aprendizaje multitarea con estructuras gráficas.

Ver también

Referencias

  1. ^ Baxter, J. (2000). Un modelo de aprendizaje sesgado inductivo" Journal of Artificial Intelligence Research 12:149--198, artículo en línea
  2. ^ Thrun, S. (1996). ¿Es más fácil aprender la enésima cosa que aprender la primera? En Avances en los sistemas de procesamiento de información neuronal 8, págs. 640-646. Prensa del MIT. Artículo en Citeseer
  3. ^ ab Caruana, R. (1997). "Aprendizaje multitarea" (PDF) . Aprendizaje automático . 28 : 41–75. doi : 10.1023/A:1007379606734 .
  4. ^ Aprendizaje multitarea como optimización de múltiples objetivos como parte de los avances en los sistemas de procesamiento de información neuronal 31 (NeurIPS 2018), https://proceedings.neurips.cc/paper/2018/hash/432aca3a1e345e339f35a30c8f65edce-Abstract.html
  5. ^ Suddarth, S., Kergosien, Y. (1990). Sugerencias de inyección de reglas como medio para mejorar el rendimiento de la red y el tiempo de aprendizaje. Taller EURASIP. Redes neuronales págs. 120-129. Apuntes de conferencias sobre informática. Saltador.
  6. ^ Abu Mostafa, YS (1990). "Aprender de las pistas en las redes neuronales". Revista de Complejidad . 6 (2): 192–198. doi : 10.1016/0885-064x(90)90006-y .
  7. ^ abcCiliberto , C. (2015). "Aprendizaje convexo de múltiples tareas y su estructura". arXiv : 1504.03101 [cs.LG].
  8. ^ abcd Hajiramezanali, E. & Dadaneh, SZ & Karbalayghareh, A. & Zhou, Z. & Qian, X. Aprendizaje bayesiano multidominio para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación. 32.a Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá. arXiv : 1810.09433
  9. ^ ab Romera-Paredes, B., Argyriou, A., Bianchi-Berthouze, N. y Pontil, M., (2012) Explotación de tareas no relacionadas en el aprendizaje multitarea. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
  10. ^ Kumar, A. y Daume III, H., (2012) Agrupación y superposición de tareas de aprendizaje en el aprendizaje multitarea. http://icml.cc/2012/papers/690.pdf
  11. ^ Jawanpuria, P. y Saketha Nath, J., (2012) Una formulación de aprendizaje de funciones convexas para el descubrimiento de estructuras de tareas latentes. http://icml.cc/2012/papers/90.pdf
  12. ^ Zweig, A. & Weinshall, D. Cascada de regularización jerárquica para el aprendizaje conjunto. Actas: de la 30ª Conferencia Internacional sobre Aprendizaje Automático (ICML), Atlanta GA, junio de 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
  13. ^ Szegedy, cristiano; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Caña, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vicente; Rabinovich, Andrés (2015). "Profundizando con las convoluciones". Conferencia IEEE 2015 sobre visión por computadora y reconocimiento de patrones (CVPR) . págs. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. S2CID  206592484.
  14. ^ Roig, Gemma. "Descripción general del aprendizaje profundo" (PDF) . Archivado desde el original (PDF) el 6 de marzo de 2016 . Consultado el 26 de agosto de 2019 .
  15. ^ Zweig, A. & Chechik, G. Aprendizaje adaptativo grupal en línea. Aprendizaje automático, DOI 10.1007/s10994-017-5661-5, agosto de 2017. http://rdcu.be/uFSv
  16. ^ Standley, Trevor; Zamir, Amir R.; Chen, amanecer; Guibas, Leónidas; Malik, Jitendra; Savarese, Silvio (13 de julio de 2020). "Aprender el frente de Pareto con hiperredes". Conferencia internacional sobre aprendizaje automático (ICML) : 9120–9132. arXiv : 1905.07553 .
  17. ^ Yu, Tianhe; Kumar, Saurabh; Gupta, Abhishek; Levine, Sergey; Hausman, Karol; Finlandés, Chelsea (2020). "Cirugía de gradiente para el aprendizaje multitarea" (PDF) . Avances en los sistemas de procesamiento de información neuronal . arXiv : 2001.06782 .
  18. ^ Navón, Aviv; Shamsian, Aviv; Achituve, Idán; Marón, Hageo; Kawaguchi, Kenji; Chechik, Gal; Fetaya, Ethan (2022). "Aprendizaje multitarea como juego de negociación". Conferencia internacional sobre aprendizaje automático : 16428–16446. arXiv : 2202.01017 .
  19. ^ Achituve, Idán; Diamante, Idit; Netzer, Arnón; Chechik, Gal; Fetaya, Ethan (2024). "Incertidumbre bayesiana para la agregación de gradientes en el aprendizaje multitarea". arXiv : 2402.04005 [cs.LG].
  20. ^ Dinuzzo, Francesco (2011). "Aprendizaje de núcleos de salida con descenso de coordenadas en bloque" (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . Archivado desde el original (PDF) el 8 de agosto de 2017.
  21. ^ Jacob, Laurent (2009). "Aprendizaje multitarea agrupado: una formulación convexa". Avances en los sistemas de procesamiento de información neuronal . arXiv : 0809.2085 . Código Bib : 2008arXiv0809.2085J.
  22. ^ Zhou, J., Chen, J. y Ye, J. MALSAR: Aprendizaje multitarea mediante regularización estructural. Universidad Estatal de Arizona, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR. manual en línea
  23. ^ Evgeniou, T. y Pontil, M. (2004). Aprendizaje multitarea regularizado. Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos (págs. 109-117).
  24. ^ Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Aprender múltiples tareas con métodos del kernel" (PDF) . Revista de investigación sobre aprendizaje automático . 6 : 615.
  25. ^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008a). "Aprendizaje de funciones convexas multitarea". Aprendizaje automático . 73 (3): 243–272. doi : 10.1007/s10994-007-5040-8 .
  26. ^ Chen, J., Zhou, J. y Ye, J. (2011). Integración de estructuras de bajo rango y con grupos dispersos para un aprendizaje multitarea sólido [ enlace muerto ] . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.
  27. ^ Ji, S. y Ye, J. (2009). Un método de gradiente acelerado para minimizar las normas de seguimiento. Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 457–464).
  28. ^ Ando, ​​R.; Zhang, T. (2005). "Un marco para aprender estructuras predictivas a partir de múltiples tareas y datos sin etiquetar" (PDF) . La revista de investigación sobre aprendizaje automático . 6 : 1817–1853.
  29. ^ Chen, J., Tang, L., Liu, J. y Ye, J. (2009). Una formulación convexa para aprender estructuras compartidas a partir de múltiples tareas. Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 137-144).
  30. ^ Chen, J., Liu, J. y Ye, J. (2010). Aprender patrones incoherentes, dispersos y de bajo rango a partir de múltiples tareas. Actas de la 16ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos (págs. 1179-1188).
  31. ^ Jacob, L., Bach, F. y Vert, J. (2008). Aprendizaje multitarea agrupado: una formulación convexa. Avances en los sistemas de procesamiento de información neuronal, 2008
  32. ^ Zhou, J., Chen, J. y Ye, J. (2011). Aprendizaje multitarea agrupado mediante optimización de estructuras alternas. Avances en los sistemas de procesamiento de información neuronal.

Enlaces externos

Software