Aprendizaje activo (aprendizaje automático)

El aprendizaje activo es un caso especial de aprendizaje automático en el que un algoritmo de aprendizaje puede consultar de forma interactiva a un usuario humano (o alguna otra fuente de información) para etiquetar nuevos puntos de datos con los resultados deseados. El usuario humano debe poseer conocimientos/experiencia en el dominio del problema, incluida la capacidad de consultar/investigar fuentes autorizadas cuando sea necesario. ^[1]^[2]^[3] En la literatura estadística, a veces también se lo denomina diseño experimental óptimo . ^[4] La fuente de información también se denomina profesor u oráculo .

Existen situaciones en las que los datos no etiquetados son abundantes pero el etiquetado manual es costoso. En tal escenario, los algoritmos de aprendizaje pueden consultar activamente al usuario/profesor para obtener etiquetas. Este tipo de aprendizaje supervisado iterativo se denomina aprendizaje activo. Dado que el alumno elige los ejemplos, la cantidad de ejemplos para aprender un concepto a menudo puede ser mucho menor que la cantidad requerida en el aprendizaje supervisado normal. Con este enfoque, existe el riesgo de que el algoritmo se vea abrumado por ejemplos poco informativos. Los desarrollos recientes están dedicados al aprendizaje activo de múltiples etiquetas, ^[5] aprendizaje activo híbrido ^[6] y aprendizaje activo en un contexto de una sola pasada (en línea), ^[7] combinando conceptos del campo del aprendizaje automático (por ejemplo, conflicto e ignorancia) con políticas de aprendizaje adaptativo e incremental en el campo del aprendizaje automático en línea . El uso del aprendizaje activo permite un desarrollo más rápido de un algoritmo de aprendizaje automático, cuando las actualizaciones comparativas requerirían una computadora cuántica o supercomputadora. ^[8]

Los proyectos de aprendizaje activo a gran escala pueden beneficiarse de marcos de colaboración colectiva como Amazon Mechanical Turk , que incluyen a muchos humanos en el ciclo de aprendizaje activo .

Definiciones

Sea $T$ el conjunto total de todos los datos considerados. Por ejemplo, en un problema de ingeniería de proteínas, $T$ incluiría todas las proteínas que se sabe que tienen una determinada actividad interesante y todas las proteínas adicionales que se deseen analizar para determinar esa actividad.

Durante cada iteración, $i$ , $T$ se divide en tres subconjuntos

$\mathbf {T} _{K,i}$ :Puntos de datos donde se conoce la etiqueta .
$\mathbf {T} _{U,i}$ :Puntos de datos donde la etiqueta es desconocida .
$\mathbf {T} _{C,i}$ :Un subconjunto de $T U,i$ que se elige para ser etiquetado.

La mayor parte de la investigación actual en aprendizaje activo implica el mejor método para elegir los puntos de datos para $T C,i$ .

Escenarios

Muestreo basado en grupos : en este enfoque, que es el escenario más conocido, ^[9] el algoritmo de aprendizaje intenta evaluar todo el conjunto de datos antes de seleccionar puntos de datos (instancias) para etiquetar. A menudo, se entrena inicialmente en un subconjunto completamente etiquetado de los datos utilizando un método de aprendizaje automático como la regresión logística o SVM que produce probabilidades de pertenencia a la clase para instancias de datos individuales. Las instancias candidatas son aquellas para las que la predicción es más ambigua. Las instancias se extraen de todo el conjunto de datos y se les asigna un puntaje de confianza, una medida de qué tan bien el alumno "entiende" los datos. Luego, el sistema selecciona las instancias para las que tiene menos confianza y consulta al profesor para obtener las etiquetas.
El inconveniente teórico del muestreo basado en grupos es que requiere mucha memoria y, por lo tanto, su capacidad para manejar conjuntos de datos enormes es limitada, pero en la práctica, el factor limitante es que el profesor suele ser un experto humano (fatigable) al que se le debe pagar por su esfuerzo, en lugar de la memoria de la computadora.
Muestreo selectivo basado en flujos : aquí, cada instancia consecutiva sin etiquetar se examina una a la vez y la máquina evalúa la informatividad de cada elemento en relación con sus parámetros de consulta. El alumno decide por sí mismo si asignar una etiqueta o consultar al profesor para cada punto de datos. En contraste con el muestreo basado en grupos, la desventaja obvia de los métodos basados en flujos es que el algoritmo de aprendizaje no tiene suficiente información, al principio del proceso, para tomar una decisión acertada de asignar etiquetas o preguntar al profesor, y no aprovecha de manera tan eficiente la presencia de datos ya etiquetados. Por lo tanto, es probable que el profesor dedique más esfuerzo a proporcionar etiquetas que con el enfoque basado en grupos.
Síntesis de consulta de membresía : aquí es donde el alumno genera datos sintéticos a partir de una distribución natural subyacente. Por ejemplo, si el conjunto de datos son imágenes de humanos y animales, el alumno podría enviar una imagen recortada de una pierna al profesor y consultar si este apéndice pertenece a un animal o a un humano. Esto es particularmente útil si el conjunto de datos es pequeño. ^[10]
El desafío aquí, como con todos los esfuerzos de generación de datos sintéticos, es asegurar que los datos sintéticos sean consistentes en términos de cumplir con las restricciones de los datos reales. A medida que aumenta el número de variables/características en los datos de entrada y existen fuertes dependencias entre las variables, se vuelve cada vez más difícil generar datos sintéticos con suficiente fidelidad.
Por ejemplo, para crear un conjunto de datos sintéticos para valores de pruebas de laboratorio humanas, la suma de los diversos componentes de glóbulos blancos (WBC) en un diferencial de glóbulos blancos debe ser igual a 100, ya que los números de los componentes son realmente porcentajes. De manera similar, las enzimas Alanina Transaminasa (ALT) y Aspartato Transaminasa (AST) miden la función hepática (aunque la AST también es producida por otros tejidos, por ejemplo, pulmón, páncreas). Un punto de datos sintético con AST en el límite inferior del rango normal (8-33 Unidades/L) con una ALT varias veces por encima del rango normal (4-35 Unidades/L) en un paciente simulado con una enfermedad crónica sería fisiológicamente imposible.

Estrategias de consulta

Los algoritmos para determinar qué puntos de datos deben etiquetarse se pueden organizar en varias categorías diferentes, según su propósito: ^[1]

Exploración y explotación equilibradas : la elección de los ejemplos que se van a etiquetar se considera un dilema entre la exploración y la explotación sobre la representación del espacio de datos. Esta estrategia gestiona este compromiso modelando el problema de aprendizaje activo como un problema de bandido contextual. Por ejemplo, Bouneffouf et al. ^[11] proponen un algoritmo secuencial denominado muestreo activo de Thompson (ATS), que, en cada ronda, asigna una distribución de muestreo en el conjunto, toma una muestra de un punto de esta distribución y consulta al oráculo para obtener la etiqueta de este punto de muestra.
Cambio de modelo esperado : etiquete aquellos puntos que más cambiarían el modelo actual.
Reducción de error esperada : etiquete aquellos puntos que más reducirían el error de generalización del modelo .
Exploración de gradiente exponencial para aprendizaje activo : ^[12] En este artículo, el autor propone un algoritmo secuencial llamado gradiente exponencial (EG)-activo que puede mejorar cualquier algoritmo de aprendizaje activo mediante una exploración aleatoria óptima.
Muestreo aleatorio: se selecciona una muestra aleatoriamente. ^[13]
Muestreo de incertidumbre : etiqueta aquellos puntos para los cuales el modelo actual tiene menos certeza de cuál debería ser el resultado correcto.
- Muestreo de entropía: se utiliza la fórmula de entropía en cada muestra y la muestra con la entropía más alta se considera la menos segura. ^[13]
- Muestreo de margen: la muestra con la menor diferencia entre las dos probabilidades de clase más altas se considera la más incierta. ^[13]
- Muestreo menos confiable: la muestra con la menor probabilidad se considera la más incierta. ^[13]
Consulta por comité : se entrenan diversos modelos con los datos etiquetados actuales y se vota sobre el resultado para los datos no etiquetados; se etiquetan aquellos puntos en los que el "comité" está más en desacuerdo
Consultas desde subespacios o particiones diversos : ^[14] Cuando el modelo subyacente es un bosque de árboles, los nodos de hoja pueden representar particiones (superpuestas) del espacio de características original . Esto ofrece la posibilidad de seleccionar instancias de particiones no superpuestas o mínimamente superpuestas para etiquetarlas.
Reducción de la varianza : etiqueta aquellos puntos que minimizarían la varianza de salida, que es uno de los componentes del error.
Predicción conforme : predice que un nuevo punto de datos tendrá una etiqueta similar a los puntos de datos antiguos de alguna manera específica y el grado de similitud dentro de los ejemplos antiguos se utiliza para estimar la confianza en la predicción.^[15]
Desajuste primero recorrido más lejano : el criterio de selección principal es el desajuste de predicción entre el modelo actual y la predicción del vecino más cercano. Se centra en los puntos de datos predichos incorrectamente. El segundo criterio de selección es la distancia a los datos seleccionados previamente, el más lejano primero. Su objetivo es optimizar la diversidad de los datos seleccionados. ^[16]
Estrategias de etiquetado centradas en el usuario: el aprendizaje se logra aplicando reducción de dimensionalidad a gráficos y figuras como diagramas de dispersión. Luego se le pide al usuario que etiquete los datos compilados (categóricos, numéricos, puntajes de relevancia, relación entre dos instancias). ^[17]

Se ha estudiado una amplia variedad de algoritmos que caen en estas categorías. ^[1]^[4] Si bien las estrategias tradicionales de AL pueden lograr un rendimiento notable, a menudo es difícil predecir de antemano qué estrategia es la más adecuada en una situación particular. En los últimos años, los algoritmos de metaaprendizaje han ganado popularidad. Algunos de ellos se han propuesto para abordar el problema del aprendizaje de estrategias de AL en lugar de depender de estrategias diseñadas manualmente. Un punto de referencia que compare los "enfoques de metaaprendizaje para el aprendizaje activo" con el "aprendizaje activo tradicional basado en heurísticas" puede brindar intuiciones si el "aprendizaje del aprendizaje activo" está en una encrucijada ^[18].

Hiperplano marginal mínimo

Algunos algoritmos de aprendizaje activo se basan en máquinas de vectores de soporte (SVM) y aprovechan la estructura de las SVM para determinar qué puntos de datos se deben etiquetar. Estos métodos suelen calcular el margen , $W$ , de cada dato no etiquetado en $T U,i$ y tratan $a W$ como una distancia $n$ -dimensional desde ese dato hasta el hiperplano de separación.

Los métodos de hiperplano marginal mínimo suponen que los datos con el $W$ más pequeño son aquellos sobre los que el SVM tiene más incertidumbre y, por lo tanto, se deben colocar en $T C,i$ para etiquetarlos. Otros métodos similares, como el hiperplano marginal máximo, eligen los datos con el $W más grande. Los métodos de compensación eligen una combinación de los$ $W$ más pequeños y más grandes .

Véase también

Literatura

Mejorar la generalización con aprendizaje activo, David Cohn, Les Atlas y Richard Ladner, Machine Learning 15, 201–221 (1994). https://doi.org/10.1007/BF00993277
Balcan, Maria-Florina y Hanneke, Steve y Wortman, Jennifer (2008). La verdadera complejidad de la muestra del aprendizaje activo. 45-56. https://link.springer.com/article/10.1007/s10994-010-5174-y
Aprendizaje activo y optimización bayesiana : una perspectiva unificada para aprender con un objetivo, Francesco Di Fiore, Michela Nardelli, Laura Mainini, https://arxiv.org/abs/2303.01560v2
Aprender a aprender activamente: un enfoque de aprendizaje de refuerzo profundo, Meng Fang, Yuan Li, Trevor Cohn, https://arxiv.org/abs/1708.02383v1

Referencias

^ abc Settles, Burr (2010). "Active Learning Literature Survey" (PDF) . Informe técnico de ciencias de la computación 1648. Universidad de Wisconsin-Madison . Consultado el 18 de noviembre de 2014 .
^ Rubens, Neil; Elahi, Mehdi; Sugiyama, Masashi; Kaplan, Dain (2016). "Aprendizaje activo en sistemas de recomendación". En Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Manual de sistemas de recomendación (PDF) (2.ª ed.). Springer US. doi :10.1007/978-1-4899-7637-6. hdl :11311/1006123. ISBN 978-1-4899-7637-6.S2CID11569603 .
^ Das, Shubhomoy; Wong, Weng-Keen; Dietterich, Thomas; Fern, Alan; Emmott, Andrew (2016). "Incorporación de la retroalimentación de expertos en el descubrimiento activo de anomalías". En Bonchi, Francesco; Domingo-Ferrer, Josep; Baeza-Yates, Ricardo; Zhou, Zhi-Hua; Wu, Xindong (eds.). 16.ª Conferencia Internacional sobre Minería de Datos del IEEE. IEEE. págs. 853–858. doi :10.1109/ICDM.2016.0102. ISBN . 978-1-5090-5473-2.S2CID15285595 .
^ ab Olsson, Fredrik (abril de 2009). "Un estudio de la literatura sobre aprendizaje automático activo en el contexto del procesamiento del lenguaje natural". Informe técnico SICS T2009:06.
^ Yang, Bishan; Sun, Jian-Tao; Wang, Tengjiao; Chen, Zheng (2009). "Aprendizaje activo multietiqueta eficaz para la clasificación de textos" (PDF) . Actas de la 15.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos - KDD '09 . pág. 917. CiteSeerX 10.1.1.546.9358 . doi :10.1145/1557019.1557119. ISBN. 978-1-60558-495-9.S2CID 1979173 .
^ Lughofer, Edwin (febrero de 2012). "Aprendizaje activo híbrido para reducir el esfuerzo de anotación de los operadores en sistemas de clasificación". Reconocimiento de patrones . 45 (2): 884–896. Bibcode :2012PatRe..45..884L. doi :10.1016/j.patcog.2011.08.009.
^ Lughofer, Edwin (2012). "Aprendizaje activo de una sola pasada con conflicto e ignorancia". Sistemas en evolución . 3 (4): 251–271. doi :10.1007/s12530-012-9060-7. S2CID 43844282.
^ Novikov, Ivan (2021). "El paquete MLIP: potenciales tensoriales de momento con MPI y aprendizaje activo". Aprendizaje automático: ciencia y tecnología . 2 (2): 3, 4. arXiv : 2007.08555 . doi : 10.1088/2632-2153/abc9fe .
^ DataRobot. "Aprendizaje automático de aprendizaje activo: qué es y cómo funciona". Blog de DataRobot . DataRobot Inc. Consultado el 30 de enero de 2024 .
^ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (5 de enero de 2015). "Aprendizaje activo mediante síntesis de consultas y búsqueda del vecino más cercano" (PDF) . Neurocomputing . 147 : 426–434. doi :10.1016/j.neucom.2014.06.042. S2CID 3027214.
^ Bouneffouf, Djallel; Laroche, Romain; Urvoy, Tanguy; Féraud, Rafael; Allesiardo, Robin (2014). "Bandido contextual para el aprendizaje activo: Active Thompson". En Loo, CK; Sí, KS; Wong, KW; Teoh, A.; Huang, K. (eds.). Procesamiento de información neuronal (PDF) . Apuntes de conferencias sobre informática. vol. 8834, págs. 405–412. doi :10.1007/978-3-319-12637-1_51. ISBN 978-3-319-12636-4. S2CID 1701357. Identificación de HAL: hal-01069802.
^ Bouneffouf, Djallel (8 de enero de 2016). "Exponentiated Gradient Exploration for Active Learning". Computadoras . 5 (1): 1. arXiv : 1408.2196 . doi : 10.3390/computers5010001 . S2CID 14313852.
^ abcd Faria, Bruno; Perdigão, Dylan; Brás, Joana; Macedo, Luis (2022). "El papel conjunto del tamaño del lote y la estrategia de consulta en la predicción basada en el aprendizaje activo: un estudio de caso en el dominio del ataque cardíaco". En Goreti Marreiros; Bruno Martín; Ana Paiva; Bernardete Ribeiro; Alberto Sardinha (eds.). Avances en Inteligencia Artificial . 21.ª Conferencia EPIA sobre Inteligencia Artificial, EPIA 2022, Lisboa, Portugal, 31 de agosto al 2 de septiembre de 2022. Apuntes de conferencias sobre informática. vol. 13566. págs. 464–475. doi :10.1007/978-3-031-16474-3_38. ISBN 978-3-031-16473-6.
^ "shubhomoydas/ad_examples". GitHub . Consultado el 4 de diciembre de 2018 .
^ Makili, Lázaro Emílio; Sánchez, Jesús A. Vega; Dormido-Canto, Sebastián (01-10-2012). "Aprendizaje activo mediante predictores conformes: aplicación a la clasificación de imágenes". Ciencia y Tecnología de Fusión . 62 (2): 347–355. Código Bib : 2012FuST...62..347M. doi :10.13182/FST12-A14626. ISSN 1536-1055. S2CID 115384000.
^ Zhao, Shuyang; Heittola, Toni; Virtanen, Tuomas (2020). "Aprendizaje activo para la detección de eventos sonoros". Transacciones IEEE/ACM sobre procesamiento de audio, habla y lenguaje . arXiv : 2002.05033 .
^ Bernard, Jürgen; Zeppelzauer, Matías; Lehmann, Markus; Müller, Martín; Sedlmair, Michael (junio de 2018). "Hacia algoritmos de aprendizaje activo centrados en el usuario". Foro de gráficos por computadora . 37 (3): 121-132. doi :10.1111/cgf.13406. ISSN 0167-7055. S2CID 51875861.
^ Desreumaux, Louis; Lemaire, Vincent (2020). ¿Aprender el aprendizaje activo en la encrucijada? Evaluación y debate . Actas del taller sobre aprendizaje adaptativo interactivo celebrado conjuntamente con la Conferencia europea sobre aprendizaje automático y principios y práctica del descubrimiento de conocimientos en bases de datos ({ECML} {PKDD} 2020), Gante, Bélgica, 2020. S2CID 221794570.