Resolver múltiples tareas de aprendizaje automático al mismo tiempo
El aprendizaje multitarea (MTL) es un subcampo del aprendizaje automático en el que se resuelven múltiples tareas de aprendizaje al mismo tiempo, mientras se explotan los puntos en común y las diferencias entre las tareas. Esto puede dar como resultado una mayor eficiencia de aprendizaje y precisión de predicción para los modelos específicos de la tarea, en comparación con el entrenamiento de los modelos por separado. [1] [2] [3]
En esencia, el aprendizaje multitarea es un problema de optimización multiobjetivo que tiene compensaciones entre diferentes tareas. [4]
Las primeras versiones de MTL se llamaban "pistas". [5] [6]
En un artículo de 1997 ampliamente citado, Rich Caruana dio la siguiente caracterización:
El aprendizaje multitarea es un enfoque de transferencia inductiva que mejora la generalización mediante el uso de la información del dominio contenida en las señales de entrenamiento de tareas relacionadas como un sesgo inductivo . Esto se logra mediante el aprendizaje de tareas en paralelo mientras se utiliza una representación compartida ; lo que se aprende para cada tarea puede ayudar a que otras tareas se aprendan mejor. [3]
En el contexto de la clasificación, MTL tiene como objetivo mejorar el rendimiento de múltiples tareas de clasificación mediante su aprendizaje conjunto. Un ejemplo es un filtro de spam, que puede tratarse como tareas de clasificación distintas pero relacionadas entre diferentes usuarios. Para hacerlo más concreto, considere que diferentes personas tienen diferentes distribuciones de características que distinguen los correos electrónicos spam de los legítimos; por ejemplo, un hablante de inglés puede encontrar que todos los correos electrónicos en ruso son spam, no así para los hablantes de ruso. Sin embargo, existe una característica común definida en esta tarea de clasificación entre los usuarios; por ejemplo, una característica común podría ser el texto relacionado con la transferencia de dinero. Resolver el problema de clasificación de spam de cada usuario de manera conjunta a través de MTL puede permitir que las soluciones se informen entre sí y mejoren el rendimiento. [ cita requerida ] Otros ejemplos de configuraciones para MTL incluyen la clasificación multiclase y la clasificación multietiqueta . [7]
El aprendizaje multitarea funciona porque la regularización inducida al exigir que un algoritmo se desempeñe bien en una tarea relacionada puede ser superior a la regularización que evita el sobreajuste al penalizar toda la complejidad de manera uniforme. Una situación en la que el aprendizaje multitarea puede ser particularmente útil es si las tareas comparten puntos en común importantes y, en general, están ligeramente submuestreadas. [8] Sin embargo, como se analiza a continuación, también se ha demostrado que el aprendizaje multitarea es beneficioso para tareas no relacionadas. [8] [9]
Métodos
El desafío clave en el aprendizaje multitarea es cómo combinar las señales de aprendizaje de múltiples tareas en un único modelo. Esto puede depender en gran medida de qué tan bien concuerdan o se contradicen las distintas tareas. Hay varias formas de abordar este desafío:
Agrupación y superposición de tareas
Dentro del paradigma MTL, la información puede ser compartida entre algunas o todas las tareas. Dependiendo de la estructura de la relación de tareas, uno puede querer compartir información selectivamente entre las tareas. Por ejemplo, las tareas pueden estar agrupadas o existir en una jerarquía, o estar relacionadas de acuerdo a alguna métrica general. Supongamos, como se desarrolla más formalmente a continuación, que el vector de parámetros que modela cada tarea es una combinación lineal de alguna base subyacente. La similitud en términos de esta base puede indicar la relación de las tareas. Por ejemplo, con escasez , la superposición de coeficientes distintos de cero entre tareas indica una similitud. Una agrupación de tareas corresponde entonces a aquellas tareas que se encuentran en un subespacio generado por algún subconjunto de elementos de base, donde las tareas en diferentes grupos pueden ser disjuntas o superponerse arbitrariamente en términos de sus bases. [10] La relación de tareas puede ser impuesta a priori o aprendida a partir de los datos. [7] [11] La relación jerárquica de tareas también puede ser explotada implícitamente sin asumir conocimiento a priori o aprender relaciones explícitamente. [8] [12] Por ejemplo, el aprendizaje explícito de la relevancia de la muestra en las distintas tareas se puede realizar para garantizar la eficacia del aprendizaje conjunto en múltiples dominios. [8]
Explotación de tareas no relacionadas
Se puede intentar aprender un grupo de tareas principales utilizando un grupo de tareas auxiliares, no relacionadas con las principales. En muchas aplicaciones, el aprendizaje conjunto de tareas no relacionadas que utilizan los mismos datos de entrada puede ser beneficioso. La razón es que el conocimiento previo sobre la relación de las tareas puede conducir a representaciones más dispersas e informativas para cada agrupación de tareas, esencialmente al filtrar las idiosincrasias de la distribución de datos. Se han propuesto métodos novedosos que se basan en una metodología multitarea previa al favorecer una representación compartida de baja dimensión dentro de cada agrupación de tareas. El programador puede imponer una penalización en las tareas de diferentes grupos que aliente a las dos representaciones a ser ortogonales . Los experimentos con datos sintéticos y reales han indicado que la incorporación de tareas no relacionadas puede dar como resultado mejoras significativas con respecto a los métodos de aprendizaje multitarea estándar. [9]
Transferencia de conocimiento
El concepto de transferencia de conocimiento está relacionado con el aprendizaje multitarea. Mientras que el aprendizaje multitarea tradicional implica que se desarrolla una representación compartida de manera concurrente en todas las tareas, la transferencia de conocimiento implica una representación compartida de manera secuencial. Los proyectos de aprendizaje automático a gran escala, como la red neuronal convolucional profunda GoogLeNet [13] , un clasificador de objetos basado en imágenes, pueden desarrollar representaciones robustas que pueden ser útiles para que otros algoritmos aprendan tareas relacionadas. Por ejemplo, el modelo preentrenado se puede utilizar como un extractor de características para realizar el preprocesamiento para otro algoritmo de aprendizaje. O el modelo preentrenado se puede utilizar para inicializar un modelo con una arquitectura similar que luego se ajusta para aprender una tarea de clasificación diferente [14] .
Múltiples tareas no estacionarias
Tradicionalmente, el aprendizaje multitarea y la transferencia de conocimiento se aplican a entornos de aprendizaje estacionarios. Su extensión a entornos no estacionarios se denomina aprendizaje adaptativo grupal en línea (GOAL). [15] Compartir información podría ser particularmente útil si los estudiantes operan en entornos que cambian continuamente, porque un estudiante podría beneficiarse de la experiencia previa de otro estudiante para adaptarse rápidamente a su nuevo entorno. Este aprendizaje adaptativo grupal tiene numerosas aplicaciones, desde la predicción de series temporales financieras , pasando por sistemas de recomendación de contenido, hasta la comprensión visual para agentes autónomos adaptativos.
Optimización multitarea
Optimización multitarea : En algunos casos, el entrenamiento simultáneo de tareas aparentemente relacionadas puede obstaculizar el rendimiento en comparación con los modelos de tarea única. [16] Comúnmente, los modelos MTL emplean módulos específicos de la tarea sobre una representación de características conjunta obtenida utilizando un módulo compartido. Dado que esta representación conjunta debe capturar características útiles en todas las tareas, MTL puede obstaculizar el rendimiento de la tarea individual si las diferentes tareas buscan una representación conflictiva, es decir, los gradientes de diferentes tareas apuntan a direcciones opuestas o difieren significativamente en magnitud. Este fenómeno se conoce comúnmente como transferencia negativa. Para mitigar este problema, se han propuesto varios métodos de optimización MTL. Comúnmente, los gradientes por tarea se combinan en una dirección de actualización conjunta a través de varios algoritmos de agregación o heurísticas.
Matemáticas
Reproducción del espacio de Hilbert de funciones vectoriales (RKHSvv)
El problema MTL puede plantearse en el contexto de RKHSvv (un espacio de producto interno completo de funciones con valores vectoriales equipado con un núcleo de reproducción ). En particular, recientemente se ha prestado atención a los casos en los que la estructura de la tarea puede identificarse mediante un núcleo separable, que se describe a continuación. La presentación aquí se deriva de Ciliberto et al., 2015. [7]
Conceptos de RKHSvv
Supongamos que el conjunto de datos de entrenamiento es , con , , donde t indexa la tarea y . Sea . En esta configuración, hay un espacio de entrada y salida consistente y la misma función de pérdida para cada tarea: . Esto da como resultado el problema de aprendizaje automático regularizado:
donde es un espacio de Hilbert del núcleo reproductor con valores vectoriales y funciones que tienen componentes .
El núcleo reproductor para el espacio de funciones es una función matricial simétrica , tal que y se cumple la siguiente propiedad de reproducción:
El núcleo reproductor da lugar a un teorema del representante que muestra que cualquier solución a la ecuación 1 tiene la forma:
Granos separables
La forma del núcleo Γ induce tanto la representación del espacio de características como la estructura de la salida en las tareas. Una simplificación natural es elegir un núcleo separable, que factoriza en núcleos separados en el espacio de entrada X y en las tareas . En este caso, el núcleo que relaciona los componentes escalares y está dado por . Para funciones con valores vectoriales podemos escribir , donde k es un núcleo que reproduce escalar y A es una matriz semidefinida positiva simétrica . De aquí en adelante denotaremos .
Esta propiedad de factorización, la separabilidad, implica que la representación del espacio de características de entrada no varía según la tarea. Es decir, no hay interacción entre el núcleo de entrada y el núcleo de la tarea. La estructura en las tareas está representada únicamente por A . Los métodos para núcleos no separables Γ son un campo de investigación actual.
Para el caso separable, el teorema de representación se reduce a . La salida del modelo en los datos de entrenamiento es entonces KCA , donde K es la matriz de kernel empírica con entradas y C es la matriz de filas .
Con el núcleo separable, la ecuación 1 se puede reescribir como
donde V es un promedio (ponderado) de L aplicado entrada por entrada a Y y KCA . (El peso es cero si es una observación faltante).
Nótese que el segundo término en P se puede derivar de la siguiente manera:
Estructura de tareas conocida
Representaciones de la estructura de tareas
Hay tres formas en gran medida equivalentes de representar la estructura de una tarea: a través de un regularizador, a través de una métrica de salida y a través de un mapeo de salida.
Regularizador — Con el núcleo separable, se puede demostrar (abajo) que , donde es el elemento del pseudoinverso de , y es el RKHS basado en el núcleo escalar , y . Esta formulación muestra que controla el peso de la penalización asociada con . (Tenga en cuenta que surge de .)
Prueba
Métrica de salida : se puede inducir una métrica de salida alternativa en mediante el producto interno . Con la pérdida al cuadrado existe una equivalencia entre los núcleos separables bajo la métrica alternativa, y , bajo la métrica canónica.
Mapeo de salida : las salidas se pueden mapear a un espacio de dimensiones superiores para codificar estructuras complejas como árboles, gráficos y cadenas. Para los mapas lineales L , con la elección apropiada del núcleo separable, se puede demostrar que .
Ejemplos de estructura de tareas
Mediante la formulación del regularizador, se pueden representar fácilmente una variedad de estructuras de tareas.
- Dejar que (donde es la matriz de identidad T x T , y es la matriz T x T de unos) es equivalente a dejar que Γ controle la varianza de las tareas a partir de su media . Por ejemplo, se pueden tomar los niveles sanguíneos de algún biomarcador en T pacientes en puntos temporales durante el transcurso de un día y el interés puede estar en regularizar la varianza de las predicciones entre pacientes.
- Si , donde es equivalente a dejar que se controle la varianza medida con respecto a la media de un grupo: . (Aquí la cardinalidad del grupo r, y es la función indicadora). Por ejemplo, las personas de diferentes partidos políticos (grupos) podrían regularizarse juntas con respecto a la predicción de la calificación de favorabilidad de un político. Tenga en cuenta que esta penalización se reduce al primero cuando todas las tareas están en el mismo grupo.
- Sea , donde es el laplaciano para el grafo con matriz de adyacencia M que da similitudes de tareas por pares. Esto es equivalente a dar una penalización mayor a la distancia que separa las tareas t y s cuando son más similares (según el peso ,), es decir, regulariza .
- Todas las opciones anteriores de A también inducen el término de regularización adicional que penaliza la complejidad en f de manera más amplia.
Tareas de aprendizaje junto con su estructura
El problema de aprendizaje P se puede generalizar para admitir la matriz de tareas de aprendizaje A de la siguiente manera:
La elección de debe diseñarse para aprender matrices A de un tipo determinado. Consulte "Casos especiales" a continuación.
Optimización deQ
Restringiéndose al caso de pérdidas convexas y penalizaciones coercitivas , Ciliberto et al. han demostrado que aunque Q no es convexo conjuntamente en C y A, un problema relacionado es conjuntamente convexo.
Específicamente en el conjunto convexo , el problema equivalente
es convexo con el mismo valor mínimo. Y si es un minimizador para R entonces es un minimizador para Q .
R puede resolverse mediante un método de barrera en un conjunto cerrado introduciendo la siguiente perturbación:
La perturbación a través de la barrera obliga a que las funciones objetivo sean iguales a en el límite de .
S se puede resolver con un método de descenso de coordenadas de bloques, alternando en C y A. Esto da como resultado una secuencia de minimizadores en S que converge a la solución en R como , y por lo tanto da la solución a Q .
Casos especiales
Penalizaciones espectrales : Dinnuzo et al . [17] sugirieron establecer F como la norma de Frobenius. Optimizaron Q directamente utilizando el descenso de coordenadas de bloque, sin tener en cuenta las dificultades en el límite de.
Aprendizaje de tareas agrupadas : Jacob et al . [18] sugirió aprender A en el contexto en el que las tareas T se organizan en R grupos disjuntos. En este caso , sea la matriz con . En el contexto de , y , la matriz de tareas se puede parametrizar como una función de : , con términos que penalizan la media, la varianza entre grupos y la varianza dentro de los grupos respectivamente de las predicciones de la tarea. M no es convexa, pero hay una relajación convexa . En esta formulación, .
Generalizaciones
Penalizaciones no convexas : las penalizaciones se pueden construir de modo que A esté restringido a ser un laplaciano gráfico, o que A tenga una factorización de rango bajo. Sin embargo, estas penalizaciones no son convexas y el análisis del método de barrera propuesto por Ciliberto et al. no se lleva a cabo en estos casos.
Núcleos no separables : los núcleos separables son limitados, en particular no tienen en cuenta las estructuras en el espacio de interacción entre los dominios de entrada y salida de manera conjunta. Es necesario realizar más investigaciones para desarrollar modelos para estos núcleos.
Paquete de software
Un paquete de Matlab llamado Aprendizaje Multitarea vía Regularización Estructural (MALSAR) [19] implementa los siguientes algoritmos de aprendizaje multitarea: Aprendizaje Multitarea Regularizado por Media, [20] [21] Aprendizaje Multitarea con Selección de Características Conjunta, [22] Aprendizaje Robusto de Características Multitarea, [23] Aprendizaje Multitarea Regularizado por Traza-Norma, [24] Optimización Estructural Alterna, [25] [26] Aprendizaje Incoherente de Bajo Rango y Disperso, [27] Aprendizaje Robusto de Bajo Rango Multitarea, Aprendizaje Multitarea Agrupado, [28] [29] Aprendizaje Multitarea con Estructuras Gráficas.
Literatura
- Predicción de múltiples objetivos: una visión unificadora de los problemas y los métodos Willem Waegeman, Krzysztof Dembczynski, Eyke Huellermeier https://arxiv.org/abs/1809.02352v1
Véase también
Referencias
- ^ Baxter, J. (2000). Un modelo de aprendizaje de sesgo inductivo" Journal of Artificial Intelligence Research 12:149--198, artículo en línea
- ^ Thrun, S. (1996). ¿Es más fácil aprender la cosa n-ésima que aprender la primera? En Advances in Neural Information Processing Systems 8, pp. 640--646. MIT Press. Artículo en Citeseer
- ^ ab Caruana, R. (1997). "Aprendizaje multitarea" (PDF) . Aprendizaje automático . 28 : 41–75. doi : 10.1023/A:1007379606734 .
- ^ Aprendizaje multitarea como optimización multiobjetivo Parte de Avances en sistemas de procesamiento de información neuronal 31 (NeurIPS 2018), https://proceedings.neurips.cc/paper/2018/hash/432aca3a1e345e339f35a30c8f65edce-Abstract.html
- ^ Suddarth, S., Kergosien, Y. (1990). Sugerencias de inyección de reglas como un medio para mejorar el rendimiento de la red y el tiempo de aprendizaje. Taller EURASIP. Redes neuronales, págs. 120-129. Apuntes de clase en informática. Springer.
- ^ Abu-Mostafa, YS (1990). "Aprendizaje a partir de pistas en redes neuronales". Journal of Complexity . 6 (2): 192–198. doi : 10.1016/0885-064x(90)90006-y .
- ^ abc Ciliberto, C. (2015). "Aprendizaje convexo de múltiples tareas y su estructura". arXiv : 1504.03101 [cs.LG].
- ^ abcd Hajiramezanali, E. y Dadaneh, SZ y Karbalayghareh, A. y Zhou, Z. y Qian, X. Aprendizaje multidominio bayesiano para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación. 32.ª Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá. arXiv :1810.09433
- ^ ab Romera-Paredes, B., Argyriou, A., Bianchi-Berthouze, N., y Pontil, M., (2012) Explotación de tareas no relacionadas en el aprendizaje multitarea. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
- ^ Kumar, A., y Daume III, H., (2012) Agrupamiento de tareas de aprendizaje y superposición en el aprendizaje multitarea. http://icml.cc/2012/papers/690.pdf
- ^ Jawanpuria, P. y Saketha Nath, J. (2012) Una formulación de aprendizaje de características convexas para el descubrimiento de la estructura de tareas latentes. http://icml.cc/2012/papers/90.pdf
- ^ Zweig, A. y Weinshall, D. Cascada de regularización jerárquica para el aprendizaje conjunto. Actas de la 30.ª Conferencia internacional sobre aprendizaje automático (ICML), Atlanta, Georgia, junio de 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
- ^ Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Profundizando con las convoluciones". Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR) . pp. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN. 978-1-4673-6964-0.S2CID206592484 .
- ^ Roig, Gemma. «Deep Learning Overview» (PDF) . Archivado desde el original (PDF) el 2016-03-06 . Consultado el 2019-08-26 .
- ^ Zweig, A. y Chechik, G. Aprendizaje adaptativo grupal en línea. Aprendizaje automático, DOI 10.1007/s10994-017- 5661-5, agosto de 2017. http://rdcu.be/uFSv
- ^ Standley, Trevor; Zamir, Amir R.; Chen, Dawn; Guibas, Leonidas; Malik, Jitendra; Savarese, Silvio (13 de julio de 2020). "Aprendiendo el frente de Pareto con hiperredes". Conferencia internacional sobre aprendizaje automático (ICML) : 9120–9132. arXiv : 1905.07553 .
- ^ Dinuzzo, Francesco (2011). "Aprendizaje de núcleos de salida con descenso de coordenadas de bloque" (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . Archivado desde el original (PDF) el 8 de agosto de 2017.
- ^ Jacob, Laurent (2009). "Aprendizaje multitarea agrupado: una formulación convexa". Avances en sistemas de procesamiento de información neuronal . arXiv : 0809.2085 . Bibcode :2008arXiv0809.2085J.
- ^ Zhou, J., Chen, J. y Ye, J. MALSAR: aprendizaje multitarea mediante regularización estructural. Universidad Estatal de Arizona, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR. Manual en línea
- ^ Evgeniou, T., y Pontil, M. (2004). Aprendizaje multitarea regularizado. Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (pp. 109-117).
- ^ Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Aprendizaje de múltiples tareas con métodos de kernel" (PDF) . Journal of Machine Learning Research . 6 : 615.
- ^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008a). "Aprendizaje de características multitarea convexas". Aprendizaje automático . 73 (3): 243–272. doi : 10.1007/s10994-007-5040-8 .
- ^ Chen, J., Zhou, J. y Ye, J. (2011). Integración de estructuras de bajo rango y de grupos dispersos para un aprendizaje multitarea robusto [ vínculo muerto ] . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.
- ^ Ji, S. y Ye, J. (2009). Un método de gradiente acelerado para la minimización de la norma de trazas. Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático (pp. 457–464).
- ^ Ando, R.; Zhang, T. (2005). "Un marco para aprender estructuras predictivas a partir de múltiples tareas y datos no etiquetados" (PDF) . The Journal of Machine Learning Research . 6 : 1817–1853.
- ^ Chen, J., Tang, L., Liu, J. y Ye, J. (2009). Una formulación convexa para el aprendizaje de estructuras compartidas a partir de múltiples tareas. Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático (pp. 137-144).
- ^ Chen, J., Liu, J. y Ye, J. (2010). Aprendizaje de patrones incoherentes dispersos y de bajo rango a partir de múltiples tareas. Actas de la 16.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (pp. 1179–1188).
- ^ Jacob, L., Bach, F. y Vert, J. (2008). Aprendizaje multitarea agrupado: una formulación convexa. Avances en sistemas de procesamiento de información neuronal, 2008
- ^ Zhou, J., Chen, J. y Ye, J. (2011). Aprendizaje multitarea agrupado mediante optimización de estructura alternada. Avances en sistemas de procesamiento de información neuronal.
Enlaces externos
- El Grupo de Inteligencia de Bioseñales de la UIUC
- Departamento de Ciencias de la Computación de la Universidad de Washington en St. Louis
Software
- El paquete de aprendizaje multitarea mediante regularización estructural
- Kit de herramientas de aprendizaje multitarea en línea (OMT) Un kit de herramientas de aprendizaje multitarea en línea de propósito general basado en modelos de campo aleatorio condicional y entrenamiento de descenso de gradiente estocástico ( C# , .NET )