Aprendizaje activo (aprendizaje automático)

El aprendizaje activo es un caso especial de aprendizaje automático en el que un algoritmo de aprendizaje puede consultar de forma interactiva a un usuario humano (o alguna otra fuente de información) para etiquetar nuevos puntos de datos con los resultados deseados. El usuario humano debe poseer conocimiento/experiencia en el dominio del problema, incluida la capacidad de consultar/investigar fuentes autorizadas cuando sea necesario. ^[1]^[2]^[3] En la literatura estadística, a veces también se le llama diseño experimental óptimo . ^[4] La fuente de información también se llama maestro u oráculo .

Hay situaciones en las que abundan los datos sin etiquetar pero el etiquetado manual es costoso. En tal escenario, los algoritmos de aprendizaje pueden consultar activamente al usuario/profesor en busca de etiquetas. Este tipo de aprendizaje supervisado iterativo se denomina aprendizaje activo. Dado que el alumno elige los ejemplos, la cantidad de ejemplos para aprender un concepto a menudo puede ser mucho menor que la cantidad requerida en el aprendizaje supervisado normal. Con este enfoque, existe el riesgo de que el algoritmo se vea abrumado por ejemplos poco informativos. Los desarrollos recientes están dedicados al aprendizaje activo de etiquetas múltiples, ^[5] al aprendizaje activo híbrido ^[6] y al aprendizaje activo en un contexto de un solo paso (en línea), ^[7] combinando conceptos del campo del aprendizaje automático (por ejemplo, conflicto y ignorancia) con políticas de aprendizaje incremental y adaptativo en el campo del aprendizaje automático en línea . El uso del aprendizaje activo permite un desarrollo más rápido de un algoritmo de aprendizaje automático, cuando las actualizaciones comparativas requerirían una supercomputadora o cuántica. ^[8]

Los proyectos de aprendizaje activo a gran escala pueden beneficiarse de marcos de crowdsourcing como Amazon Mechanical Turk, que incluyen a muchos humanos en el ciclo de aprendizaje activo .

Definiciones

Sea $T$ el conjunto total de todos los datos considerados. Por ejemplo, en un problema de ingeniería de proteínas, $T$ incluiría todas las proteínas que se sabe que tienen una determinada actividad interesante y todas las proteínas adicionales que uno podría querer probar para determinar esa actividad.

Durante cada iteración, $i$ , $T$ se divide en tres subconjuntos

$\mathbf {T} _{K,i}$ : Puntos de datos donde se conoce la etiqueta .
$\mathbf {T} _{U,i}$ : Puntos de datos cuya etiqueta se desconoce .
$\mathbf {T} _{C,i}$ : Un subconjunto de $T U,i$ que se elige para etiquetar.

La mayor parte de la investigación actual sobre aprendizaje activo involucra el mejor método para elegir los puntos de datos para $T C,i$ .

Escenarios

Muestreo basado en grupos : en este enfoque, que es el escenario más conocido, ^[9] el algoritmo de aprendizaje intenta evaluar todo el conjunto de datos antes de seleccionar puntos de datos (instancias) para etiquetar. A menudo, inicialmente se entrena en un subconjunto de datos completamente etiquetado utilizando un método de aprendizaje automático, como la regresión logística o SVM, que genera probabilidades de membresía de clase para instancias de datos individuales. Las instancias candidatas son aquellas cuya predicción es más ambigua. Las instancias se extraen de todo el conjunto de datos y se les asigna una puntuación de confianza, una medida de qué tan bien el alumno "comprende" los datos. Luego, el sistema selecciona las instancias en las que tiene menos confianza y consulta al profesor las etiquetas.
El inconveniente teórico del muestreo basado en grupos es que consume mucha memoria y, por lo tanto, su capacidad para manejar enormes conjuntos de datos es limitada, pero en la práctica, el factor limitante de la velocidad es que el profesor suele ser un experto humano (fatigable) que debe se les pague por su esfuerzo, en lugar de por la memoria de la computadora.
Muestreo selectivo basado en flujo : aquí, cada instancia consecutiva sin etiquetar se examina una a la vez y la máquina evalúa el contenido informativo de cada elemento en comparación con sus parámetros de consulta. El alumno decide por sí mismo si asigna una etiqueta o consulta al profesor para cada punto de datos. A diferencia del muestreo basado en grupos, el inconveniente obvio de los métodos basados en secuencias es que el algoritmo de aprendizaje no tiene suficiente información, en las primeras etapas del proceso, para tomar una decisión acertada entre asignar etiquetas o preguntar al maestro, y no aprovechar con la misma eficacia la presencia de datos ya etiquetados. Por lo tanto, es probable que el profesor dedique más esfuerzo a proporcionar etiquetas que con el enfoque basado en grupos.
Síntesis de consultas de membresía : aquí es donde el alumno genera datos sintéticos a partir de una distribución natural subyacente. Por ejemplo, si el conjunto de datos son fotografías de humanos y animales, el alumno podría enviar una imagen recortada de una pierna al maestro y preguntar si este apéndice pertenece a un animal o a un humano. Esto es particularmente útil si el conjunto de datos es pequeño. ^[10]
El desafío aquí, como con todos los esfuerzos de generación de datos sintéticos, es garantizar que los datos sintéticos sean consistentes en términos de cumplir con las limitaciones de los datos reales. A medida que aumenta el número de variables/características en los datos de entrada y existen fuertes dependencias entre las variables, se vuelve cada vez más difícil generar datos sintéticos con suficiente fidelidad.
Por ejemplo, para crear un conjunto de datos sintéticos para valores de pruebas de laboratorio en humanos, la suma de los diversos componentes de glóbulos blancos (WBC) en un diferencial de glóbulos blancos debe ser igual a 100, ya que los números de los componentes son en realidad porcentajes. De manera similar, las enzimas Alanina Transaminasa (ALT) y Aspartato Transaminasa (AST) miden la función hepática (aunque la AST también es producida por otros tejidos, por ejemplo, pulmón, páncreas). Un punto de datos sintético con AST en el límite inferior del rango normal (8- 33 Unidades/L) con un ALT varias veces por encima del rango normal (4-35 Unidades/L) en un paciente con una enfermedad crónica simulada sería fisiológicamente imposible.

Estrategias de consulta

Los algoritmos para determinar qué puntos de datos deben etiquetarse se pueden organizar en varias categorías diferentes, según su propósito: ^[1]

Equilibrar exploración y explotación : la elección de ejemplos a etiquetar se ve como un dilema entre la exploración y la explotación sobre la representación del espacio de datos. Esta estrategia gestiona este compromiso modelando el problema de aprendizaje activo como un problema de bandido contextual. Por ejemplo, Bouneffouf et al. ^[11] proponen un algoritmo secuencial llamado Active Thompson Sampling (ATS), que, en cada ronda, asigna una distribución de muestreo en el grupo, toma muestras de un punto de esta distribución y consulta al oráculo para obtener esta etiqueta de punto de muestra.
Cambio de modelo esperado : etiquete aquellos puntos que más cambiarían el modelo actual.
Reducción de error esperada : etiquete aquellos puntos que reducirían más el error de generalización del modelo .
Exploración de gradiente exponenciado para el aprendizaje activo : ^[12] En este artículo, el autor propone un algoritmo secuencial denominado gradiente exponenciado (EG)-activo que puede mejorar cualquier algoritmo de aprendizaje activo mediante una exploración aleatoria óptima.
Muestreo aleatorio: se selecciona una muestra al azar. ^[13]
Muestreo de incertidumbre : etiquete aquellos puntos para los cuales el modelo actual tiene menos certeza sobre cuál debería ser el resultado correcto.
- Muestreo de entropía: la fórmula de entropía se utiliza en cada muestra y la muestra con la entropía más alta se considera la menos segura. ^[13]
- Muestreo de margen: la muestra con la diferencia más pequeña entre las dos probabilidades de clase más altas se considera la más incierta. ^[13]
- Muestreo menos seguro: la muestra con la mejor probabilidad más pequeña se considera la más incierta. ^[13]
Consulta por comité : se entrena una variedad de modelos con los datos etiquetados actuales y se vota sobre el resultado de los datos no etiquetados; etiquetar aquellos puntos en los que el "comité" no está de acuerdo
Consulta desde diversos subespacios o particiones : ^[14] Cuando el modelo subyacente es un bosque de árboles, los nodos de hoja pueden representar particiones (superpuestas) del espacio de características original . Esto ofrece la posibilidad de seleccionar instancias de particiones que no se superpongan o que se superpongan mínimamente para etiquetarlas.
Reducción de la varianza : etiquete aquellos puntos que minimizarían la varianza de la producción, que es uno de los componentes del error.
Predicción conforme : predice que un nuevo punto de datos tendrá una etiqueta similar a los puntos de datos antiguos de alguna manera especificada y el grado de similitud dentro de los ejemplos antiguos se utiliza para estimar la confianza en la predicción.^[15]
Desajuste: primer recorrido más lejano : el criterio de selección principal es el desajuste de predicción entre el modelo actual y la predicción del vecino más cercano. Se centra en puntos de datos predichos erróneamente. El segundo criterio de selección es la distancia a los datos previamente seleccionados, primero el más lejano. Su objetivo es optimizar la diversidad de los datos seleccionados. ^[dieciséis]
Estrategias de etiquetado centradas en el usuario: el aprendizaje se logra aplicando reducción de dimensionalidad a gráficos y figuras como diagramas de dispersión. Luego se le pide al usuario que etiquete los datos compilados (categóricos, numéricos, puntuaciones de relevancia, relación entre dos instancias) ^.

Se ha estudiado una amplia variedad de algoritmos que caen dentro de estas categorías. ^[1]^[4] Si bien las estrategias tradicionales de AL pueden lograr un rendimiento notable, a menudo es difícil predecir de antemano qué estrategia es la más adecuada en una situación particular. En los últimos años, los algoritmos de metaaprendizaje han ido ganando popularidad. Algunos de ellos se han propuesto para abordar el problema de aprender estrategias de AL en lugar de depender de estrategias diseñadas manualmente. Un punto de referencia que compara los 'enfoques de metaaprendizaje para el aprendizaje activo' con el 'aprendizaje activo tradicional basado en heurísticas' puede dar intuiciones si el 'aprendizaje activo' se encuentra en la encrucijada ^[18]

Hiperplano marginal mínimo

Algunos algoritmos de aprendizaje activo se basan en máquinas de vectores de soporte (SVM) y explotan la estructura de la SVM para determinar qué puntos de datos etiquetar. Dichos métodos generalmente calculan el margen , $W$ , de cada dato sin etiquetar en $T U,i$ y tratan $W$ como una distancia $n$ -dimensional desde ese dato hasta el hiperplano de separación.

Los métodos de Hiperplano Marginal Mínimo suponen que los datos con la $W$ más pequeña son aquellos sobre los que el SVM tiene mayor incertidumbre y, por lo tanto, deben colocarse en $T C,i$ para ser etiquetados. Otros métodos similares, como el hiperplano marginal máximo, eligen datos con la $W$ más grande . Los métodos de compensación eligen una combinación de los $W$ más pequeños y más grandes .

Ver también

Literatura

Balcan, María-Florina & Hanneke, Steve & Wortman, Jennifer. (2008). La verdadera complejidad del aprendizaje activo. 45-56. https://link.springer.com/article/10.1007/s10994-010-5174-y
Aprendizaje activo y optimización bayesiana : una perspectiva unificada para aprender con un objetivo, Francesco Di Fiore, Michela Nardelli, Laura Mainini, https://arxiv.org/abs/2303.01560v2
Aprender a aprender de forma activa: un enfoque de aprendizaje por refuerzo profundo, Meng Fang, Yuan Li, Trevor Cohn, https://arxiv.org/abs/1708.02383v1

Referencias

^ abc se instala, Burr (2010). "Encuesta sobre literatura sobre aprendizaje activo" (PDF) . Informe técnico de ciencias de la computación 1648. Universidad de Wisconsin-Madison . Consultado el 18 de noviembre de 2014 .
^ Rubens, Neil; Elahi, Mehdi; Sugiyama, Masashi; Kaplan, Dain (2016). "Aprendizaje activo en sistemas de recomendación". En Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Manual de sistemas de recomendación (PDF) (2 ed.). Springer Estados Unidos. doi :10.1007/978-1-4899-7637-6. hdl :11311/1006123. ISBN 978-1-4899-7637-6. S2CID 11569603.
^ Das, Shubhomoy; Wong, Weng-Keen; Dietterich, Thomas; Helecho, Alan; Emmott, Andrés (2016). "Incorporación de comentarios de expertos en el descubrimiento de anomalías activas". En Bonchi, Francesco; Domingo-Ferrer, Josep; Baeza-Yates, Ricardo; Zhou, Zhi-Hua; Wu, Xindong (eds.). IEEE 16ª Conferencia Internacional sobre Minería de Datos . IEEE. págs. 853–858. doi :10.1109/ICDM.2016.0102. ISBN 978-1-5090-5473-2. S2CID 15285595.
^ ab Olsson, Fredrik (abril de 2009). "Un estudio de la literatura sobre el aprendizaje automático activo en el contexto del procesamiento del lenguaje natural". Informe técnico SICS T2009:06.
^ Yang, Bishan; Sun, Jian-Tao; Wang, Tengjiao; Chen, Zheng (2009). "Aprendizaje activo eficaz de múltiples etiquetas para la clasificación de textos" (PDF) . Actas de la 15ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos - KDD '09 . pag. 917. CiteSeerX 10.1.1.546.9358 . doi :10.1145/1557019.1557119. ISBN 978-1-60558-495-9. S2CID 1979173.
^ Lughofer, Edwin (febrero de 2012). "Aprendizaje activo híbrido para reducir el esfuerzo de anotación de los operadores en sistemas de clasificación". Reconocimiento de patrones . 45 (2): 884–896. Código Bib : 2012PatRe..45..884L. doi :10.1016/j.patcog.2011.08.009.
^ Lughofer, Edwin (2012). "Aprendizaje activo de un solo paso con conflicto e ignorancia". Sistemas en evolución . 3 (4): 251–271. doi :10.1007/s12530-012-9060-7. S2CID 43844282.
^ Novikov, Iván (2021). "El paquete MLIP: potenciales tensoriales de momento con MPI y aprendizaje activo". Publicación PIO . 2 (2): 3, 4. arXiv : 2007.08555 . doi : 10.1088/2632-2153/abc9fe – vía IOP science.
^ Robot de datos. "Aprendizaje automático de aprendizaje activo: qué es y cómo funciona". Blog de DataRobot . DataRobot Inc. Consultado el 30 de enero de 2024 .
^ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (5 de enero de 2015). "Aprendizaje activo mediante síntesis de consultas y búsqueda de vecino más cercano" (PDF) . Neurocomputación . 147 : 426–434. doi :10.1016/j.neucom.2014.06.042. S2CID 3027214.
^ Bouneffouf, Djallel; Laroche, Romain; Urvoy, Tanguy; Féraud, Rafael; Allesiardo, Robin (2014). "Bandido contextual para el aprendizaje activo: Active Thompson". En Loo, CK; Sí, KS; Wong, KW; Teoh, A.; Huang, K. (eds.). Procesamiento de información neuronal (PDF) . Apuntes de conferencias sobre informática. vol. 8834, págs. 405–412. doi :10.1007/978-3-319-12637-1_51. ISBN 978-3-319-12636-4. S2CID 1701357. Identificación de HAL: hal-01069802.
^ Bouneffouf, Djallel (8 de enero de 2016). "Exploración de gradientes exponenciales para el aprendizaje activo". Ordenadores . 5 (1): 1. arXiv : 1408.2196 . doi : 10.3390/computadoras5010001 . S2CID 14313852.
^ abcd Faria, Bruno; Perdigão, Dylan; Brás, Joana; Macedo, Luis (2022). "El papel conjunto del tamaño del lote y la estrategia de consulta en la predicción basada en el aprendizaje activo: un estudio de caso en el dominio del ataque cardíaco" . Apuntes de conferencias sobre informática. vol. 13566. págs. 464–475. doi :10.1007/978-3-031-16474-3_38. ISBN 978-3-031-16473-6. {{cite book}}: |journal=ignorado ( ayuda )
^ "shubhomoydas/ad_examples". GitHub . Consultado el 4 de diciembre de 2018 .
^ Makili, Lázaro Emílio; Sánchez, Jesús A. Vega; Dormido-Canto, Sebastián (01-10-2012). "Aprendizaje activo mediante predictores conformes: aplicación a la clasificación de imágenes". Ciencia y Tecnología de Fusión . 62 (2): 347–355. doi :10.13182/FST12-A14626. ISSN 1536-1055. S2CID 115384000.
^ Zhao, Shuyang; Heittola, Toni; Virtanen, Tuomas (2020). "Aprendizaje activo para la detección de eventos sonoros". Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . arXiv : 2002.05033 .
^ Bernard, Jürgen; Zeppelzauer, Matías; Lehmann, Markus; Müller, Martín; Sedlmair, Michael (junio de 2018). "Hacia algoritmos de aprendizaje activo centrados en el usuario". Foro de gráficos por computadora . 37 (3): 121-132. doi :10.1111/cgf.13406. ISSN 0167-7055. S2CID 51875861.
^ Desreumaux, Luis; Lemaire, Vicente (2020). "¿Aprendizaje activo en la encrucijada? Evaluación y discusión" (Actas del taller sobre aprendizaje adaptativo interactivo ubicado conjuntamente con la Conferencia europea sobre aprendizaje automático y principios y práctica del descubrimiento de conocimientos en bases de datos {(ECML} {PKDD} 2020), Gante , Bélgica, 2020). S2CID 221794570. {{cite journal}}: Citar diario requiere |journal=( ayuda )