Aprendizaje perezoso

(No debe confundirse con el régimen de aprendizaje perezoso, consulte Neural_tangent_kernel ).

En el aprendizaje automático , el aprendizaje perezoso es un método de aprendizaje en el que la generalización de los datos de entrenamiento se retrasa, en teoría, hasta que se realiza una consulta al sistema, a diferencia del aprendizaje ansioso , donde el sistema intenta generalizar los datos de entrenamiento antes de recibir consultas. ^[1]

La principal motivación para emplear el aprendizaje perezoso, como en el algoritmo de los K vecinos más cercanos , utilizado por los sistemas de recomendación en línea ("las personas que vieron/compraron/escucharon esta película/artículo/canción también...") es que el conjunto de datos se actualiza continuamente con nuevas entradas (por ejemplo, nuevos artículos a la venta en Amazon, nuevas películas para ver en Netflix, nuevos clips en YouTube, nueva música en Spotify o Pandora). Debido a la actualización continua, los "datos de entrenamiento" quedarían obsoletos en un tiempo relativamente corto, especialmente en áreas como libros y películas, donde se publican/lanzan continuamente nuevos best-sellers o películas/música de éxito. Por lo tanto, no se puede hablar realmente de una "fase de entrenamiento".

Los clasificadores perezosos son más útiles para conjuntos de datos grandes que cambian continuamente y que tienen pocos atributos que se consultan comúnmente. En concreto, incluso si existe un gran conjunto de atributos (por ejemplo, los libros tienen año de publicación, autor/es, editorial, título, edición, ISBN, precio de venta, etc.), las consultas de recomendación se basan en muchos menos atributos (por ejemplo, datos de coocurrencia de compras o visualizaciones y calificaciones de los usuarios de los artículos comprados o visualizados). ^[2]

Ventajas

La principal ventaja que se obtiene al emplear un método de aprendizaje perezoso es que la función objetivo se aproximará localmente, como en el algoritmo de k-vecino más cercano . Debido a que la función objetivo se aproxima localmente para cada consulta al sistema, los sistemas de aprendizaje perezoso pueden resolver simultáneamente múltiples problemas y lidiar con éxito con los cambios en el dominio del problema. Al mismo tiempo, pueden reutilizar muchos resultados teóricos y aplicados del modelado de regresión lineal (en particular, la estadística PRESS ) y el control. ^[3] Se dice que la ventaja de este sistema se logra si las predicciones que utilizan un solo conjunto de entrenamiento solo se desarrollan para unos pocos objetos. ^[4] Esto se puede demostrar en el caso de la técnica k-NN, que se basa en instancias y la función solo se estima localmente. ^[5]^[6]

Desventajas

Las desventajas teóricas del aprendizaje perezoso incluyen:

El gran espacio necesario para almacenar todo el conjunto de datos de entrenamiento. En la práctica, esto no es un problema debido a los avances en hardware y al número relativamente pequeño de atributos (por ejemplo, frecuencia de coocurrencia) que se deben almacenar.
Los datos de entrenamiento particularmente ruidosos aumentan la base de casos innecesariamente, porque no se realiza ninguna abstracción durante la fase de entrenamiento. En la práctica, como se indicó anteriormente, el aprendizaje diferido se aplica a situaciones en las que cualquier aprendizaje realizado con anticipación pronto se vuelve obsoleto debido a cambios en los datos. Además, para los problemas para los que el aprendizaje diferido es óptimo, los datos "ruidosos" en realidad no ocurren: el comprador de un libro ha comprado otro libro o no lo ha hecho.
Los métodos de aprendizaje perezoso suelen ser más lentos de evaluar. En la práctica, en el caso de bases de datos muy grandes con altas cargas de concurrencia, las consultas no se posponen hasta el momento de la consulta real, sino que se vuelven a calcular con antelación de forma periódica (por ejemplo, todas las noches, en previsión de futuras consultas) y se almacenan las respuestas. De esta forma, la próxima vez que se realicen nuevas consultas sobre entradas existentes en la base de datos, las respuestas simplemente se buscan rápidamente en lugar de tener que calcularlas sobre la marcha, lo que casi con toda seguridad haría fracasar un sistema multiusuario con alta concurrencia.
Los datos de entrenamiento más grandes también implican un mayor costo. En particular, existe un monto fijo de costo computacional, donde un procesador solo puede procesar una cantidad limitada de puntos de datos de entrenamiento. ^[7]

Existen técnicas estándar para mejorar la eficiencia del recálculo, de modo que una respuesta en particular no se vuelva a calcular a menos que los datos que afectan a esta respuesta hayan cambiado (por ejemplo, nuevos elementos, nuevas compras, nuevas vistas). En otras palabras, las respuestas almacenadas se actualizan de forma incremental.

Este enfoque, utilizado por grandes sitios de comercio electrónico o medios de comunicación, se ha utilizado durante mucho tiempo en el portal Entrez del Centro Nacional de Información Biotecnológica (NCBI) para calcular previamente las similitudes entre los diferentes elementos de sus grandes conjuntos de datos: secuencias biológicas, estructuras de proteínas en 3D, resúmenes de artículos publicados, etc. Debido a que las consultas de "encontrar similitudes" se realizan con tanta frecuencia, el NCBI utiliza hardware altamente paralelo para realizar el recálculo nocturno. El recálculo se realiza solo para las nuevas entradas en los conjuntos de datos entre sí y con las entradas existentes: no es necesario volver a calcular la similitud entre dos entradas existentes.

Ejemplos de métodos de aprendizaje perezoso

K vecinos más cercanos , que es un caso especial de aprendizaje basado en instancias.
Regresión local .
Reglas bayesianas ingenuas y perezosas , que se utilizan ampliamente en el software comercial de detección de spam. En este caso, los spammers se vuelven cada vez más inteligentes y revisan sus estrategias de envío de spam, por lo que las reglas de aprendizaje también deben actualizarse continuamente.

Referencias

^ Aha, David (29 de junio de 2013). Lazy Learning (edición ilustrada). Springer Science & Business Media, 2013. pág. 424. ISBN 978-9401720533. Recuperado el 30 de septiembre de 2021 .
^ Tamrakar, Preeti; Roy, Siddharth Singha; Satapathy, Biswajit; Ibrahim, SP Syed (2019). Integración de la clasificación asociativa de aprendizaje perezoso con el algoritmo kNN. págs. 1–4. doi :10.1109/ViTECoN.2019.8899415. ISBN 978-1-5386-9353-7.
^ Bontempi, Gianluca; Birattari, Mauro; Bersini, Hugues (1 de enero de 1999). "Aprendizaje perezoso para modelado local y diseño de control". Revista Internacional de Control . 72 (7–8): 643–658. doi :10.1080/002071799220830.
^ Sammut, Claude; Webb, Geoffrey I. (2011). Enciclopedia del aprendizaje automático . Nueva York: Springer Science & Business Media. pág. 572. ISBN 9780387307688.
^ Pal, Saurabh (2 de noviembre de 2017). Aplicaciones de minería de datos. Un estudio comparativo para predecir el rendimiento de los estudiantes . GRIN Verlag. ISBN 9783668561458.
^ Loncarevic, Zvezdan; Simonic, Mihael; Ude, Ales; Gams, Andrej (2022). Combinación de aprendizaje por refuerzo y aprendizaje perezoso para un aprendizaje por transferencia más rápido en pocos intentos. págs. 285–290. doi :10.1109/Humanoids53995.2022.10000095. ISBN 979-8-3503-0979-9.
^ Aha, David W. (2013). Aprendizaje perezoso . Berlín: Springer Science & Business Media. pág. 106. ISBN 9789401720533.

Lectura adicional

lazy: aprendizaje perezoso para regresión local, paquete R con manual de referencia
"El paquete de aprendizaje para perezosos". Archivado desde el original el 16 de febrero de 2012.
Webb GI (2011) Aprendizaje perezoso. En: Sammut C., Webb GI (eds) Enciclopedia del aprendizaje automático. Springer, Boston, MA
David W. Aha: Aprendizaje perezoso. Kluwer Academic Publishers, Norwell 1997, ISBN 0-7923-4584-3.
Atkeson, Christopher G.; Moore, Andrew W.; Schaal, Stefan (1 de febrero de 1997). "Aprendizaje ponderado localmente para el control". Revisión de inteligencia artificial . 11 (1): 75–113. doi :10.1023/A:1006511328852. S2CID 3694612.
Bontempi, Birattari, Bersini, Hugues Bersini, Iridia: aprendizaje diferido para el diseño de control y modelado local. 1997.
Aha, David W.; Kibler, Dennis; Albert, Marc K. (1 de enero de 1991). "Algoritmos de aprendizaje basados en instancias". Aprendizaje automático . 6 (1): 37–66. doi :10.1007/BF00153759.