Crawlee es una biblioteca de rastreo web y automatización de navegadores gratuita y de código abierto desarrollada por Apify. La versión original de TypeScript se lanzó por primera vez en 2022 y en 2024 se agregó una versión de Python .
La arquitectura de Crawlee está construida alrededor de rastreadores modulares responsables de extraer datos de sitios web [1] . La biblioteca sigue un enfoque de programación declarativa , donde los usuarios definen la lógica de rastreo a través de un conjunto estructurado de reglas. Crawlee utiliza colas para administrar las solicitudes; para cada solicitud, se ejecuta una función específica para extraer datos o realizar un procesamiento adicional [2] .
Crawlee admite tanto sesiones de navegador sin interfaz gráfica (a través de Playwright y otro software de automatización de navegador) como raspado basado en solicitudes HTTP simples.
También proporciona varias utilidades relacionadas con el raspado web, como un analizador de mapas de sitios [3] o un administrador de proxy HTTP automático .
Entre las menciones notables del uso de Crawlee en proyectos de rastreo web se incluyen GPT Crawler de Builder.io [4] y varios proyectos de IA generativa mantenidos por AWS Labs [5] .
La primera versión estable de TypeScript se lanzó en 2021 con el nombre de Apify SDK [6] . Esta versión ofrecía tanto el marco de rastreo de código abierto como la implementación de almacenamiento patentada para su uso en la plataforma Apify.
En 2022, se lanzó la versión v3.0.0 [7] , que cambió el nombre de la biblioteca a Crawlee. Esta actualización hizo que Crawlee fuera independiente de la plataforma Apify y trasladó la mayoría de las funciones específicas de Apify a un paquete separado (también llamado Apify SDK).
En 2024, se lanzó una versión beta de Crawlee para Python [8] .