Ejercicio Apache

Apache Drill es un marco de software de código abierto que admite aplicaciones distribuidas con uso intensivo de datos para el análisis interactivo de conjuntos de datos a gran escala. Desarrollado principalmente con contribuciones de desarrolladores de MapR , ^[1]^[2] Drill está inspirado en el sistema Dremel de Google. ^[3] Drill es un proyecto de nivel superior de Apache. ^[4] Tom Shiran es el fundador del Proyecto Apache Drill. ^[5] Fue designado como un proyecto de nivel superior de la Apache Software Foundation en diciembre de 2016. ^[6]

Drill admite una variedad de bases de datos y sistemas de archivos NoSQL , incluidos Alluxio , HBase , MongoDB , MapR -DB, HDFS , MapR-FS , Amazon S3 , Azure Blob Storage , Google Cloud Storage , Swift , NAS y archivos locales. Una sola consulta puede unir datos de varios almacenes de datos.

El optimizador de Drill, que tiene en cuenta el almacén de datos, reestructura automáticamente un plan de consulta para aprovechar las capacidades de procesamiento internas del almacén de datos. Además, Drill admite la localidad de datos , si Drill y el almacén de datos están en los mismos nodos. ^[7]

Características

Un objetivo de diseño explícitamente establecido es que Drill pueda escalar a 10.000 servidores o más y procesar petabytes de datos y billones de registros en segundos. ^[8]

Modelo de documento JSON sin esquema similar a MongoDB y Elasticsearch , sin necesidad de declarar un esquema formal
API estándar de la industria: ANSI SQL , ODBC/JDBC, API RESTful
Extremadamente fácil de usar y de desarrollar.
La arquitectura conectable permite la conectividad a múltiples almacenes de datos
La versión 1.9 agregó funciones dinámicas definidas por el usuario
La versión 1.11 agregó funciones relacionadas con criptografía y compatibilidad con el formato de archivo PCAP

Soporte de back-end

Drill se centra principalmente en almacenes de datos no relacionales, incluidos archivos de texto Apache Hadoop , NoSQL y almacenamiento en la nube. Una característica destacada también incluye consultas in situ de archivos JSON y Apache Parquet locales. Algunos almacenes de datos adicionales que admite incluyen:

Todas las distribuciones de Hadoop (HDFS API 2.3+), incluidas Apache Hadoop, MapR, CDH y Amazon EMR
NoSQL: MongoDB , Apache HBase , Apache Cassandra
Procesamiento analítico en línea: Apache Kudu , Apache Druid , OpenTSDB
Almacenamiento en la nube: Amazon S3 , Google Cloud Storage , Azure Blob Storage, Swift, IBM Cloud Object Storage
Diversos formatos de datos, incluidos Apache Avro , Apache Parquet y JSON
Complementos de almacenamiento de RDBM (utilizando JDBC para conectarse a MySQL , PostgreSQL y otros)

Se puede agregar un nuevo almacén de datos desarrollando un complemento de almacenamiento. El modelo de datos JSON "sin esquema" de Drill le permite consultar almacenes de datos no relacionales in situ. ^[9]

Soporte de front-end

Se puede realizar consultas a Drill a través de JDBC , ODBC o REST mediante una variedad de métodos y lenguajes, incluidos Python y Java. La instalación predeterminada incluye una interfaz web que permite a los usuarios finales ejecutar ANSI SQL directamente y exportar tablas de datos como archivos CSV sin necesidad de programación.

La biblioteca de panel de control, Apache Superset , ^[10] es particularmente adecuada para la visualización de datos consultados con Drill.

Véase también

Referencias

^ Friedman, Ellen (21 de septiembre de 2015). "Apache Drill: un seguimiento de su historia como comunidad de código abierto". Archivado desde el original el 18 de marzo de 2016.
^ "Breve descripción de las diferencias entre Apache Drill y Presto". HitechNectar . Consultado el 13 de abril de 2023 .
^ "Spark SQL vs. Apache Drill: la guerra de las herramientas SQL en Hadoop". ProjectPro . Consultado el 15 de noviembre de 2022 .
^ "La Apache Software Foundation anuncia Apache Drill como proyecto de alto nivel". 2 de diciembre de 2014. Consultado el 2 de diciembre de 2014 .
^ Vizard, Michael (1 de septiembre de 2021). "Apache Software Foundation actualiza Drill para consultas SQL más amplias". VentureBeat . Consultado el 20 de octubre de 2022 .
^ "Apache Drill elimina ETL, transformación de datos para la base de datos MapR". The New Stack . 2016-04-11 . Consultado el 2022-11-15 .
^ "Apache Drill - SQL sin esquema para Hadoop, NoSQL y almacenamiento en la nube". http://drill.apache.org . Consultado el 29 de diciembre de 2015 .
^ "DrillProposal - INCUBADORA - Apache Software Foundation".
^ "Preguntas frecuentes - Apache Drill". http://drill.apache.org . Consultado el 29 de diciembre de 2015 .
^ Wayner, James R. Borck, Martin Heller, Steven Nuñez, Andrew C. Oliver, Ian Pointer y Peter (5 de octubre de 2020). «El mejor software de código abierto de 2020». InfoWorld . Consultado el 26 de noviembre de 2022 .{{cite web}}: CS1 maint: multiple names: authors list (link)

Papeles

Algunos documentos influyeron en el nacimiento y el diseño. A continuación se incluye una lista parcial:

2005 De bases de datos a espacios de datos: una nueva abstracción para la gestión de la información, los autores destacan la necesidad de que los sistemas de almacenamiento acepten todos los formatos de datos y proporcionen API para el acceso a los datos que evolucionen en función de la comprensión de los datos por parte del sistema de almacenamiento.
Dremel 2010: análisis interactivo de conjuntos de datos a escala web

Enlaces externos

Sitio web oficial
Apache Drill: un recorrido por su historia como comunidad de código abierto
SQL y Hadoop: es complicado