stringtranslate.com

Borrador: Crawlee


Crawlee es una biblioteca de rastreo web y automatización de navegadores gratuita y de código abierto desarrollada por Apify. La versión original de TypeScript se lanzó por primera vez en 2022 y en 2024 se agregó una versión de Python .

La arquitectura de Crawlee está construida alrededor de rastreadores modulares responsables de extraer datos de sitios web [1] . La biblioteca sigue un enfoque de programación declarativa , donde los usuarios definen la lógica de rastreo a través de un conjunto estructurado de reglas. Crawlee utiliza colas para administrar las solicitudes; para cada solicitud, se ejecuta una función específica para extraer datos o realizar un procesamiento adicional [2] .

Crawlee admite tanto sesiones de navegador sin interfaz gráfica (a través de Playwright y otro software de automatización de navegador) como raspado basado en solicitudes HTTP simples.

También proporciona varias utilidades relacionadas con el raspado web, como un analizador de mapas de sitios [3] o un administrador de proxy HTTP automático .

Entre las menciones notables del uso de Crawlee en proyectos de rastreo web se incluyen GPT Crawler de Builder.io [4] y varios proyectos de IA generativa mantenidos por AWS Labs [5] .

Historia

La primera versión estable de TypeScript se lanzó en 2021 con el nombre de Apify SDK [6] . Esta versión ofrecía tanto el marco de rastreo de código abierto como la implementación de almacenamiento patentada para su uso en la plataforma Apify.

En 2022, se lanzó la versión v3.0.0 [7] , que cambió el nombre de la biblioteca a Crawlee. Esta actualización hizo que Crawlee fuera independiente de la plataforma Apify y trasladó la mayoría de las funciones específicas de Apify a un paquete separado (también llamado Apify SDK).

En 2024, se lanzó una versión beta de Crawlee para Python [8] .

Referencias

  1. ^ Koekemoer, Jakkie. "Web Scraping con Crawlee: tutorial paso a paso". Datos brillantes .
  2. ^ Nechytailo, Yelyzaveta. "Tutorial de Crawlee: web scraping sencillo y automatización del navegador". oxylabs.io .
  3. ^ "Versión v3.7.0 · apify/crawlee". GitHub . Consultado el 22 de septiembre de 2024 .
  4. ^ "BuilderIO/gpt-crawler: Rastrea un sitio para generar archivos de conocimiento y crear tu propio GPT personalizado a partir de una URL". GitHub . Consultado el 21 de septiembre de 2024 .
  5. ^ "awslabs/generative-ai-cdk-constructs: AWS Generative AI CDK Constructs son ejemplos de implementaciones de AWS CDK para patrones de IA generativa comunes". GitHub . Amazon Web Services - Labs. 20 de septiembre de 2024 . Consultado el 21 de septiembre de 2024 .
  6. ^ "Versión v1.0.0 · apify/crawlee". GitHub .
  7. ^ "Versión v3.0.0 · apify/crawlee". GitHub .
  8. ^ "Anunciamos Crawlee para Python: ahora puedes usar Python para crear rastreadores web confiables | Crawlee · Crea rastreadores confiables. Rápido". crawlee.dev . 5 de julio de 2024.