Aprendizaje perezoso

En el aprendizaje automático , el aprendizaje diferido es un método de aprendizaje en el que la generalización de los datos de entrenamiento se retrasa, en teoría, hasta que se realiza una consulta al sistema, a diferencia del aprendizaje ansioso , donde el sistema intenta generalizar los datos de entrenamiento antes de recibir consultas. . ^[1]

La motivación principal para emplear el aprendizaje diferido, como en el algoritmo K-vecinos más cercanos , utilizado por los sistemas de recomendación en línea ("las personas que vieron/compraron/escucharon esta película/artículo/canción también ...") es que el conjunto de datos es Se actualiza continuamente con nuevas entradas (por ejemplo, nuevos artículos a la venta en Amazon, nuevas películas para ver en Netflix, nuevos clips en YouTube, nueva música en Spotify o Pandora). Debido a la actualización continua, los "datos de entrenamiento" quedarían obsoletos en un tiempo relativamente corto, especialmente en áreas como libros y películas, donde se publican o lanzan continuamente nuevos best-sellers o películas/música exitosas. Por tanto, no se puede hablar realmente de una "fase de formación".

Los clasificadores diferidos son más útiles para conjuntos de datos grandes que cambian continuamente y con pocos atributos que se consultan comúnmente. Específicamente, incluso si existe un gran conjunto de atributos (por ejemplo, los libros tienen un año de publicación, autor/es, editorial, título, edición, ISBN, precio de venta, etc.), las consultas de recomendación se basan en muchos menos atributos (por ejemplo, compra). o ver datos de co-ocurrencia y calificaciones de usuarios de artículos comprados/vistos. ^[2]

Ventajas

La principal ventaja que se obtiene al emplear un método de aprendizaje diferido es que la función objetivo se aproximará localmente, como en el algoritmo k-vecino más cercano . Debido a que la función objetivo se aproxima localmente para cada consulta al sistema, los sistemas de aprendizaje diferido pueden resolver simultáneamente múltiples problemas y abordar con éxito los cambios en el dominio del problema. Al mismo tiempo, pueden reutilizar muchos resultados teóricos y aplicados del modelado de regresión lineal (en particular, la estadística PRESS ) y el control. ^[3] Se dice que la ventaja de este sistema se logra si las predicciones que utilizan un único conjunto de entrenamiento solo se desarrollan para unos pocos objetos. ^[4] Esto se puede demostrar en el caso de la técnica k-NN, que se basa en instancias y la función solo se estima localmente. ^[5]^[6]

Desventajas

Las desventajas teóricas del aprendizaje diferido incluyen:

El gran requisito de espacio para almacenar todo el conjunto de datos de entrenamiento. En la práctica, esto no es un problema debido a los avances en el hardware y al número relativamente pequeño de atributos (por ejemplo, como frecuencia de coocurrencia) que deben almacenarse.
Los datos de entrenamiento particularmente ruidosos aumentan la base de casos innecesariamente, porque no se realiza ninguna abstracción durante la fase de entrenamiento. En la práctica, como se indicó anteriormente, el aprendizaje diferido se aplica a situaciones en las que cualquier aprendizaje realizado con antelación pronto queda obsoleto debido a cambios en los datos. Además, para los problemas para los cuales el aprendizaje perezoso es óptimo, en realidad no se producen datos "ruidosos": el comprador de un libro ha comprado otro libro o no.
Los métodos de aprendizaje perezosos suelen ser más lentos de evaluar. En la práctica, para bases de datos muy grandes con altas cargas de concurrencia, las consultas no se posponen hasta el momento real de la consulta, sino que se recalculan por adelantado periódicamente (por ejemplo, todas las noches, en anticipación de consultas futuras) y se almacenan las respuestas. De esta manera, la próxima vez que se hagan nuevas consultas sobre entradas existentes en la base de datos, las respuestas simplemente se buscarán rápidamente en lugar de tener que calcularse sobre la marcha, lo que casi con seguridad pondría de rodillas a un sistema multiusuario de alta concurrencia. .
Los datos de entrenamiento más grandes también implican un mayor costo. En particular, existe una cantidad fija de costo computacional, donde un procesador solo puede procesar una cantidad limitada de puntos de datos de entrenamiento. ^[7]

Existen técnicas estándar para mejorar la eficiencia del nuevo cálculo, de modo que una respuesta particular no se vuelva a calcular a menos que los datos que impactan esa respuesta hayan cambiado (por ejemplo, nuevos artículos, nuevas compras, nuevas vistas). En otras palabras, las respuestas almacenadas se actualizan de forma incremental.

Este enfoque, utilizado por grandes sitios de comercio electrónico o medios de comunicación, se ha utilizado durante mucho tiempo en el portal Entrez del Centro Nacional de Información Biotecnológica (NCBI) para precalcular similitudes entre los diferentes elementos de sus grandes conjuntos de datos: secuencias biológicas, proteínas tridimensionales estructuras, resúmenes de artículos publicados, etc. Debido a que las consultas de "buscar similares" se realizan con tanta frecuencia, el NCBI utiliza hardware altamente paralelo para realizar un recálculo nocturno. El recálculo se realiza solo para nuevas entradas en los conjuntos de datos entre sí y con entradas existentes: no es necesario volver a calcular la similitud entre dos entradas existentes.

Ejemplos de métodos de aprendizaje perezosos

K-vecinos más cercanos , que es un caso especial de aprendizaje basado en instancias.
Regresión local .
Reglas de Bayes ingenuas y perezosas , que se utilizan ampliamente en software comercial de detección de spam. En este caso, los spammers se vuelven cada vez más inteligentes y revisan sus estrategias de spam, por lo que las reglas de aprendizaje también deben actualizarse continuamente.

Referencias

^ Ajá, David (29 de junio de 2013). Aprendizaje perezoso (edición ilustrada). Springer Science & Business Media, 2013. p. 424.ISBN 978-9401720533. Consultado el 30 de septiembre de 2021 .
^ Tamrakar, Preeti; Roy, Siddharth Singha; Satapathy, Biswajit; Ibrahim, SP Syed (2019). Integración de clasificación asociativa de aprendizaje diferido con el algoritmo kNN. págs. 1–4. doi :10.1109/ViTECoN.2019.8899415. ISBN 978-1-5386-9353-7.
^ Bontempi, Gianluca; Birattari, Mauro; Bersini, Hugues (1 de enero de 1999). "Aprendizaje diferido para el diseño de control y modelado local". Revista Internacional de Control . 72 (7–8): 643–658. doi : 10.1080/002071799220830.
^ Sammut, Claude; Webb, Geoffrey I. (2011). Enciclopedia de aprendizaje automático . Nueva York: Springer Science & Business Media. pag. 572.ISBN 9780387307688.
^ Amigo, Saurabh (2 de noviembre de 2017). Aplicaciones de minería de datos. Un estudio comparativo para predecir el desempeño de los estudiantes . GRIN Verlag. ISBN 9783668561458.
^ Loncarevic, Zvezdan; Simón, Mihael; Ude, Ales; Gams, Andrej (2022). Combinando el aprendizaje por refuerzo y el aprendizaje diferido para un aprendizaje por transferencia más rápido en pocas oportunidades. págs. 285-290. doi :10.1109/Humanoides53995.2022.10000095. ISBN 979-8-3503-0979-9.
^ Ajá, David W. (2013). Aprendizaje perezoso . Berlín: Springer Science & Business Media. pag. 106.ISBN 9789401720533.

Otras lecturas

lazy: Aprendizaje diferido para regresión local, paquete R con manual de referencia
"El paquete de aprendizaje perezoso". Archivado desde el original el 16 de febrero de 2012.
Webb GI (2011) Aprendizaje perezoso. En: Sammut C., Webb GI (eds) Enciclopedia de aprendizaje automático. Springer, Boston, Massachusetts
David W. Aha: Aprendizaje perezoso. Editores académicos de Kluwer, Norwell 1997, ISBN 0-7923-4584-3.
Atkeson, Christopher G.; Moore, Andrew W.; Schaal, Stefan (1 de febrero de 1997). "Aprendizaje ponderado localmente para el control". Revisión de inteligencia artificial . 11 (1): 75-113. doi :10.1023/A:1006511328852. S2CID 3694612.
Bontempi, Birattari, Bersini, Hugues Bersini, Iridia: aprendizaje diferido para el diseño de control y modelado local. 1997.
Ajá, David W.; Kibler, Dennis; Albert, Marc K. (1 de enero de 1991). "Algoritmos de aprendizaje basados en instancias". Aprendizaje automático . 6 (1): 37–66. doi :10.1007/BF00153759.