Ciruela verde

Greenplum es una tecnología de big data basada en la arquitectura MPP y la tecnología de base de datos de código abierto Postgres . La tecnología fue creada por una empresa del mismo nombre con sede en San Mateo , California, alrededor de 2005. Greenplum fue adquirida por EMC Corporation en julio de 2010. ^[1]

A partir de 2012, su software de sistema de gestión de bases de datos pasó a conocerse como Pivotal Greenplum Database, que se vende a través de Pivotal Software . Pivotal convirtió el motor central en código abierto y continuó su desarrollo a través de la comunidad de código abierto de Greenplum Database y Pivotal.

A partir de 2020, VMware adquirió Pivotal ^[2] y VMware continuó patrocinando la comunidad de código abierto de Greenplum Database y comercializando la tecnología bajo la marca VMware Tanzu Greenplum . En noviembre de 2023, VMware fue adquirida por Broadcom. ^[3]

En mayo de 2024, Tanzu by Broadcom tomó la decisión de cerrar el código fuente del proyecto Greenplum Database. Todas las futuras versiones de Greenplum Database serán de código fuente cerrado y se publicarán como parte de VMware Tanzu Data Suite.

Compañía

La empresa Greenplum fue fundada en septiembre de 2003 por Scott Yara y Luke Lonergan. Fue una fusión de dos empresas más pequeñas: Metapa (fundada en agosto de 2000 cerca de Los Ángeles ) ^[4] y Didera en Fairfax, Virginia . ^[5]

Entre los inversores se encontraban SoundView Ventures, Hudson Ventures y Royal Wulff Ventures. En la fusión se anunció una financiación total de 20 millones de dólares^{. [6]} Greenplum, con sede en San Mateo, California , lanzó su software de sistema de gestión de bases de datos basado en PostgreSQL en abril de 2005, llamándolo Bizgres. ^[7] En marzo de 2006 y febrero de 2007 se invirtieron rondas de capital de riesgo de unos 15 millones de dólares cada una ^{. [8]}

En julio de 2006 se anunció una asociación con Sun Microsystems . ^[9] Sun, que también había adquirido MySQL AB , participó en una ronda de inversión de 27 millones de dólares en enero de 2009, liderada por Meritech Capital Partners . ^[8] El proyecto Bizgres incluyó a algunos otros miembros y recibió apoyo hasta aproximadamente 2008, cuando el producto también se llamó simplemente "Greenplum". ^[10]^[11] Sun Fire X4500 fue una arquitectura de referencia y utilizada por la mayoría de los clientes hasta que se realizó una transición a Linux en esa época. Greenplum fue adquirida por EMC Corporation en julio de 2010, convirtiéndose en la base de la división de software de big data de EMC . ^[1] Aunque EMC no reveló el valor, se estimó en 300 millones de dólares . ^[12]^[13] Los productos de Greenplum en el momento de la adquisición eran Greenplum Database, Chorus (una herramienta de gestión) y Data Science Labs. Greenplum tenía clientes en mercados verticales como eBay . ^[14] Pasó a formar parte de Pivotal Software en 2012. ^[15]

En 2013 se anunció una variante que utiliza Apache Hadoop para almacenar datos en el sistema de archivos Hadoop llamado Hawq. ^[16]^[17] En 2015 se anunciaron los proyectos de software de código abierto GreenplumDB y Hawq . ^[18]

Tecnología

El producto de base de datos Greenplum de Pivotal utiliza técnicas de procesamiento masivamente paralelo (MPP). Cada clúster de computadoras consta de un nodo maestro, un nodo maestro en espera y nodos de segmento. ^[19] Todos los datos residen en los nodos de segmento y la información del catálogo se almacena en los nodos maestros. Los nodos de segmento ejecutan uno o más segmentos, que son instancias de base de datos PostgreSQL modificadas y se les asigna un identificador de contenido. Para cada tabla, los datos se dividen entre los nodos de segmento según las claves de columna de distribución especificadas por el usuario en el lenguaje de definición de datos . Para cada identificador de contenido de segmento, hay un segmento primario y un segmento espejo que no se ejecutan en el mismo host físico. Cuando una consulta ingresa al nodo maestro, se analiza, planifica y envía a todos los segmentos para ejecutar el plan de consulta y devolver los datos solicitados o insertar el resultado de la consulta en una tabla de base de datos. El lenguaje de consulta estructurado , versión SQL:2003 , se utiliza para presentar consultas al sistema. La semántica de transacciones cumple con las restricciones conocidas como ACID . ^[20]

Los competidores incluyen otros sistemas de gestión de bases de datos MPP proporcionados por proveedores importantes como Teradata , Amazon Redshift , Microsoft Azure , Alibaba AnalyticDB y, en el pasado, IBM Netezza . ^[19]^[21] La competencia adicional proviene de otros competidores más pequeños, bases de datos orientadas a columnas como HP Vertica , Exasol y proveedores de almacenamiento de datos con arquitectura no MPP, como Oracle Exadata , IBM Db2 y SAP HANA .

Versión 7 de Greenplum

En septiembre de 2023, se lanzó la versión 7 de la base de datos Greenplum. ^[22] La versión 7 se basa en la versión 12.12 de PostgreSQL.

Versión 6 de Greenplum

En septiembre de 2019, se lanzó la versión 6 de Greenplum Database. La versión 6 se basa en la versión 9.4 de PostgreSQL y presenta mejoras masivas en el rendimiento de OLTP ^[23] . Varias fuentes analizaron Greenplum 6 en los medios y lo mencionaron por su alineación con el código abierto de Postgres ^[24] y por su rendimiento de OLTP ^[25].

Versión 5 de Greenplum

En septiembre de 2017, se lanzó la versión 5 de la base de datos Greenplum. La versión 5 incluye la primera iteración de la estrategia del proyecto Greenplum de fusionar las versiones posteriores de PostgreSQL en Greenplum y se basa en la versión 8.3 de PostgreSQL a partir de la versión anterior 8.2. ^[26] La versión 5 también presenta la disponibilidad general del optimizador GPORCA ^[27] para la optimización basada en costos de SQL diseñada para big data.

Referencias

^ ab "EMC adquirirá Greenplum". Nota de prensa . EMC Corporation. 6 de julio de 2010 . Consultado el 15 de marzo de 2017 .
^ Haranas, Mark. "Cinco cosas que debe saber sobre la adquisición de Pivotal por parte de VMware | CRN". www.crn.com . Consultado el 2 de octubre de 2024 .
^ "El fabricante de chips Broadcom completa un acuerdo de 69.000 millones de dólares para comprar VMware". 2023-11-23 . Consultado el 2024-06-05 .
^ "Formulario D: Notificación de venta de valores" (PDF) . SEC de EE. UU. 30 de julio de 2003. Consultado el 15 de marzo de 2017 .
^ Maureen O'Gara (26 de septiembre de 2003). "Metapa compra Didera". Linux Business News . Consultado el 15 de marzo de 2017 .
^ "Metapa adquiere Didera y cierra financiación adicional; pioneros de la industria en informática de alto rendimiento se unen para crear una solución de clusterización de bases de datos Linux innovadora para el apoyo a la toma de decisiones". Nota de prensa . 23 de septiembre de 2003.
^ "Lanzamiento del proyecto Bizgres". Sitio web del desarrollador de PostgreSQL . 17 de abril de 2005. Consultado el 15 de marzo de 2017 .
^ de Duncan Riley (21 de enero de 2008). "Greenplum obtiene $27 millones en Serie C". Tech Crunch . Consultado el 15 de marzo de 2017 .
^ Colin White; Richard Hackathorn (26 de junio de 2007). "Sun/Greenplum". Mejores prácticas de inteligencia empresarial . Consultado el 15 de marzo de 2017 .
^ "Historia". Antiguo sitio web Bizgres.org . Archivado desde el original el 22 de diciembre de 2008. Consultado el 15 de marzo de 2017 .
^ "Greenplum actualiza una base de datos de código abierto". Information Week . 22 de febrero de 2008 . Consultado el 15 de marzo de 2017 .
^ Om Malik (6 de julio de 2010). «Big Data = Big Money: EMC Buys Greenplum». GigaOm . Archivado desde el original el 20 de octubre de 2016. Consultado el 15 de marzo de 2017 .
^ Alexander Haislip (7 de julio de 2010). "Microsoft, Sun y SAP sorprenden con la venta de Greenplum". Forbes . Consultado el 15 de marzo de 2017 .
^ "Los dos enormes almacenes de datos de eBay". Blog DBMS2 . Monash Research. 30 de abril de 2009. Consultado el 15 de marzo de 2017 .
^ Timothy Prickett Morgan (20 de marzo de 2012). "EMC quiere ser el Linux del big data: abre la herramienta Chorus y atrae a los programadores ágiles de Pivotal Labs". The Register . Consultado el 15 de marzo de 2017 .
^ "¿Cuándo debo utilizar Greenplum Database en lugar de HAWQ?". Sitio web de Pivotal Guru . 31 de enero de 2014. Consultado el 15 de marzo de 2017 .
^ Timothy Prickett Morgan (25 de febrero de 2013). "EMC transforma el elefante Hadoop en la base de datos SQL Hawq". The Register . Consultado el 15 de marzo de 2017 .
^ Cade Metz (17 de febrero de 2015). "Pivotal redobla su apuesta por el código abierto en un signo de cambio en el mundo del software". Wired . Consultado el 15 de marzo de 2017 .
^ ab Timothy Prickett Morgan (6 de abril de 2011). "EMC se vuelve más grande y llamativa con los dispositivos Greenplum: tomen eso, Teradata, Exadata, Netezza". The Register . Consultado el 18 de marzo de 2017 .
^ Sunila Gollapudi (2013). Introducción a Greenplum para el análisis de macrodatos . Packt Publishing. ISBN 978-1-78217-705-0.
^ "Comparación de propiedades del sistema Amazon Redshift vs. Greenplum vs. Microsoft Azure SQL Database vs. Teradata Aster". DB-engines . Consultado el 18 de marzo de 2017 .
^ "Notas de la versión de VMware Greenplum 7.x". 2 de octubre de 2023.
^ "Evaluaciones de rendimiento OLTP de Greenplum 6". 15 de mayo de 2019.
^ "La base de datos Greenplum de Pivotal está a punto de alinearse finalmente con el proyecto de código abierto. ¿Qué significará eso para la plataforma?". ZDNet .
^ "El almacén de datos MPP, que es un importante avance del código abierto, ofrece alta concurrencia, análisis integrados y capacidades de ciencia de datos". 7 de noviembre de 2019.
^ "Pivotal Greenplum está vivito y coleando". ZDNet . Consultado el 14 de septiembre de 2017 .
^ "Orca: una arquitectura de optimización de consultas modular para Big Data" (PDF) . ZDNet . Consultado el 14 de abril de 2016 .