Greenplum es una tecnología de big data basada en la arquitectura MPP y la tecnología de base de datos de código abierto Postgres . La tecnología fue creada por una empresa del mismo nombre con sede en San Mateo , California, alrededor de 2005. Greenplum fue adquirida por EMC Corporation en julio de 2010. [1]
A partir de 2012, su software de sistema de gestión de bases de datos pasó a conocerse como Pivotal Greenplum Database, que se vende a través de Pivotal Software . Pivotal convirtió el motor central en código abierto y continuó su desarrollo a través de la comunidad de código abierto de Greenplum Database y Pivotal.
A partir de 2020, VMware adquirió Pivotal [2] y VMware continuó patrocinando la comunidad de código abierto de Greenplum Database y comercializando la tecnología bajo la marca VMware Tanzu Greenplum . En noviembre de 2023, VMware fue adquirida por Broadcom. [3]
En mayo de 2024, Tanzu by Broadcom tomó la decisión de cerrar el código fuente del proyecto Greenplum Database. Todas las futuras versiones de Greenplum Database serán de código fuente cerrado y se publicarán como parte de VMware Tanzu Data Suite.
La empresa Greenplum fue fundada en septiembre de 2003 por Scott Yara y Luke Lonergan. Fue una fusión de dos empresas más pequeñas: Metapa (fundada en agosto de 2000 cerca de Los Ángeles ) [4] y Didera en Fairfax, Virginia . [5]
Entre los inversores se encontraban SoundView Ventures, Hudson Ventures y Royal Wulff Ventures. En la fusión se anunció una financiación total de 20 millones de dólares . [6] Greenplum, con sede en San Mateo, California , lanzó su software de sistema de gestión de bases de datos basado en PostgreSQL en abril de 2005, llamándolo Bizgres. [7] En marzo de 2006 y febrero de 2007 se invirtieron rondas de capital de riesgo de unos 15 millones de dólares cada una . [8]
En julio de 2006 se anunció una asociación con Sun Microsystems . [9] Sun, que también había adquirido MySQL AB , participó en una ronda de inversión de 27 millones de dólares en enero de 2009, liderada por Meritech Capital Partners . [8] El proyecto Bizgres incluyó a algunos otros miembros y recibió apoyo hasta aproximadamente 2008, cuando el producto también se llamó simplemente "Greenplum". [10] [11] Sun Fire X4500 fue una arquitectura de referencia y utilizada por la mayoría de los clientes hasta que se realizó una transición a Linux en esa época. Greenplum fue adquirida por EMC Corporation en julio de 2010, convirtiéndose en la base de la división de software de big data de EMC . [1] Aunque EMC no reveló el valor, se estimó en 300 millones de dólares . [12] [13] Los productos de Greenplum en el momento de la adquisición eran Greenplum Database, Chorus (una herramienta de gestión) y Data Science Labs. Greenplum tenía clientes en mercados verticales como eBay . [14] Pasó a formar parte de Pivotal Software en 2012. [15]
En 2013 se anunció una variante que utiliza Apache Hadoop para almacenar datos en el sistema de archivos Hadoop llamado Hawq. [16] [17] En 2015 se anunciaron los proyectos de software de código abierto GreenplumDB y Hawq . [18]
El producto de base de datos Greenplum de Pivotal utiliza técnicas de procesamiento masivamente paralelo (MPP). Cada clúster de computadoras consta de un nodo maestro, un nodo maestro en espera y nodos de segmento. [19] Todos los datos residen en los nodos de segmento y la información del catálogo se almacena en los nodos maestros. Los nodos de segmento ejecutan uno o más segmentos, que son instancias de base de datos PostgreSQL modificadas y se les asigna un identificador de contenido. Para cada tabla, los datos se dividen entre los nodos de segmento según las claves de columna de distribución especificadas por el usuario en el lenguaje de definición de datos . Para cada identificador de contenido de segmento, hay un segmento primario y un segmento espejo que no se ejecutan en el mismo host físico. Cuando una consulta ingresa al nodo maestro, se analiza, planifica y envía a todos los segmentos para ejecutar el plan de consulta y devolver los datos solicitados o insertar el resultado de la consulta en una tabla de base de datos. El lenguaje de consulta estructurado , versión SQL:2003 , se utiliza para presentar consultas al sistema. La semántica de transacciones cumple con las restricciones conocidas como ACID . [20]
Los competidores incluyen otros sistemas de gestión de bases de datos MPP proporcionados por proveedores importantes como Teradata , Amazon Redshift , Microsoft Azure , Alibaba AnalyticDB y, en el pasado, IBM Netezza . [19] [21] La competencia adicional proviene de otros competidores más pequeños, bases de datos orientadas a columnas como HP Vertica , Exasol y proveedores de almacenamiento de datos con arquitectura no MPP, como Oracle Exadata , IBM Db2 y SAP HANA .
En septiembre de 2023, se lanzó la versión 7 de la base de datos Greenplum. [22] La versión 7 se basa en la versión 12.12 de PostgreSQL.
En septiembre de 2019, se lanzó la versión 6 de Greenplum Database. La versión 6 se basa en la versión 9.4 de PostgreSQL y presenta mejoras masivas en el rendimiento de OLTP [23] . Varias fuentes analizaron Greenplum 6 en los medios y lo mencionaron por su alineación con el código abierto de Postgres [24] y por su rendimiento de OLTP [25].
En septiembre de 2017, se lanzó la versión 5 de la base de datos Greenplum. La versión 5 incluye la primera iteración de la estrategia del proyecto Greenplum de fusionar las versiones posteriores de PostgreSQL en Greenplum y se basa en la versión 8.3 de PostgreSQL a partir de la versión anterior 8.2. [26] La versión 5 también presenta la disponibilidad general del optimizador GPORCA [27] para la optimización basada en costos de SQL diseñada para big data.