Druida apache

Druid es un almacén de datos distribuido , de código abierto y orientado a columnas escrito en Java . Druid está diseñado para ingerir rápidamente cantidades masivas de datos de eventos y proporcionar consultas de baja latencia además de los datos. ^[3] El nombre Druida proviene de la clase Druida que cambia de forma en muchos juegos de rol , para reflejar que la arquitectura del sistema puede cambiar para resolver diferentes tipos de problemas de datos.

Druid se utiliza comúnmente en inteligencia empresarial : aplicaciones OLAP para analizar grandes volúmenes de datos históricos y en tiempo real . ^[4] Druid es utilizado en la producción por empresas de tecnología como Alibaba , ^[4] Airbnb , ^[4] Cisco , ^[5]^[4] eBay , ^[6] Lyft , ^[7] Netflix , ^[8] PayPal , ^{[4 ]} Pinterest , ^[9] Reddit , ^[10] Twitter , ^[11] Walmart , ^[12] Fundación Wikimedia ^[13] y Yahoo . ^[14]

Historia

Druid fue fundado en 2011 por Eric Tschetter, Fangjin Yang, Gian Merlino y Vadim Ogievetsky ^[15] para impulsar el producto analítico de Metamarkets. El proyecto fue de código abierto bajo la licencia GPL en octubre de 2012, ^[16]^[17]^[18] y pasó a una licencia Apache en febrero de 2015. ^[19]^[20]

Arquitectura

Completamente implementado, Druid se ejecuta como un grupo de procesos especializados (llamados nodos en Druid) para respaldar una arquitectura tolerante a fallas ^[21] donde los datos se almacenan de manera redundante y no hay un punto único de falla. ^[22] El clúster incluye dependencias externas para la coordinación ( Apache ZooKeeper ), almacenamiento de metadatos (por ejemplo, MySQL , PostgreSQL o Derby ) y una instalación de almacenamiento profundo (por ejemplo, HDFS o Amazon S3 ) para copias de seguridad permanentes de los datos.

Gestión de consultas

Las consultas de los clientes llegan primero a los nodos de los intermediarios, que las reenvían a los nodos de datos apropiados (ya sean históricos o en tiempo real). Dado que los segmentos de Druid pueden estar particionados, una consulta entrante puede requerir datos de múltiples segmentos y particiones (o fragmentos ) almacenados en diferentes nodos del clúster. Los corredores pueden aprender qué nodos tienen los datos requeridos y también fusionar resultados parciales antes de devolver el resultado agregado.

Gestión de clústeres

Las operaciones relacionadas con la gestión de datos en nodos históricos son supervisadas por nodos coordinadores. Apache ZooKeeper se utiliza para registrar todos los nodos, gestionar ciertos aspectos de las comunicaciones entre nodos y realizar elecciones de líderes.

Características

Ingestión de datos de baja latencia (streaming).
Exploración arbitraria de datos de corte y corte.
Consultas analíticas de menos de un segundo.
Cálculos aproximados y exactos.

Actuación

En 2019, los investigadores compararon el rendimiento de Hive , Presto y Druid utilizando un Star Schema Benchmark desnormalizado basado en el estándar TPC-H. Druid se probó usando una configuración "Druid Best" que usa tablas con particiones hash y una configuración "Druid Suboptimal" que no usa particiones hash. ^[23]

Las pruebas se realizaron ejecutando las 13 consultas TPC-H utilizando TPC-H Scale Factor 30 (una base de datos de 30 GB), Scale Factor 100 (una base de datos de 100 GB) y Scale Factor 300 (una base de datos de 300 GB).

El rendimiento de Druid se midió como al menos un 98 % más rápido que Hive y al menos un 90 % más rápido que Presto en cada escenario, incluso cuando se usaba la configuración Druid Suboptimized.

Ver también

Lista de DBMS orientados a columnas

Referencias

^ "Apache Druida en GitHub". github.com . Consultado el 4 de mayo de 2021 .
^ . 17 de junio de 2024 https://github.com/apache/druid/releases/tag/druid-30.0.0. {{cite web}}: Falta o está vacío |title=( ayuda )
^ Hemsoth, Nicole. ""Druida invoca fuerza en tiempo real"". Archivado desde el original el 27 de febrero de 2013 . Consultado el 7 de febrero de 2014 ., Datanami , 8 de noviembre de 2012
^ abcde druida. "Druida | Desarrollado por Druida". druida.apache.org . Consultado el 29 de junio de 2016 .
^ Mayordomo, Brandon (20 de junio de 2016). "Bajo el capó de la plataforma Tetration Analytics de Cisco". Archivado desde el original el 26 de abril de 2024 . Consultado el 23 de junio de 2016 .
^ "Druida en Pulsar - ebay的专栏 - 博客频道 - CSDN.NET". blog.csdn.net . Consultado el 23 de junio de 2016 .
^ Streaming SQL y Druid por Arup Malakar , consultado el 29 de enero de 2020
^ "El blog tecnológico de Netflix: Anuncio de Suro: la columna vertebral del canal de datos de Netflix". techblog.netflix.com . Consultado el 23 de junio de 2016 .
^ Pinterest: potenciando el análisis de anuncios con Apache Druid , consultado el 29 de enero de 2020
^ "Ampliación de informes en Reddit: votado a favor". www.redditinc.com . 26 de febrero de 2021 . Consultado el 13 de septiembre de 2022 .
^ "Análisis interactivo en MoPub: consulta de terabytes de datos en segundos". blog.twitter.com . Consultado el 29 de enero de 2020 .
^ Nayak, Amaresh (23 de febrero de 2018). "Event Stream Analytics en Walmart con Druid". Medio . Consultado el 29 de enero de 2020 .
^ "Conferencias - O'Reilly Media".
^ "Complementando Hadoop en Yahoo: análisis interactivo con Druid" . Consultado el 23 de junio de 2016 .
^ "Druida: un almacén de datos analíticos en tiempo real" (PDF) .
^ Tschetter, Eric. ""Presentación del druida"". Archivado desde el original el 8 de febrero de 2022 . Consultado el 12 de junio de 2019 ., druid.apache.org , 24 de octubre de 2012
^ Higginbotham, Stacey. ""Metamercados de código abierto Druid, su base de datos en memoria"". Archivado desde el original el 18 de septiembre de 2021 . Consultado el 7 de febrero de 2014 ., GigaOM , 24 de octubre de 2012
^ "Metamarkets Open Sources Druid, almacén de datos de transmisión en tiempo real". Noticias de Yahoo . 24 de octubre de 2012 . Consultado el 24 de julio de 2023 .
^ Harris, Derrick (20 de febrero de 2015). "La base de datos en tiempo real de Druid pasa a una licencia Apache". Archivado desde el original el 22 de agosto de 2015 . Consultado el 4 de agosto de 2015 .
^ "Druid obtiene código abierto bajo la licencia Apache" . Consultado el 4 de agosto de 2015 .
^ "Documentación del proyecto druida".
^ Yang, Fangjin; Schetter, Eric; Léauté, Xavier; Rayo, Nelson; Merlino, Gian; Ganguli, Profundo. ""Druida: un almacén de datos analíticos en tiempo real"" (PDF) ., Metamercados , consultado el 6 de febrero de 2014
^ Correia, José; Costa, Carlos; Santos, Maribel Yasmina (2019). "Desafiando el rendimiento de SQL-on-Hadoop con Apache Druid". En Abramowicz, Witold; Corchuelo, Rafael (eds.). Sistemas de Información Empresarial . Apuntes de conferencias sobre procesamiento de información empresarial. vol. 353. Cham: Editorial Internacional Springer. págs. 149-161. doi :10.1007/978-3-030-20485-3_12. hdl : 1822/66785 . ISBN 978-3-030-20485-3. S2CID 190005302.

enlaces externos

Página web oficial