Actian Vector (anteriormente conocido como VectorWise ) es un sistema de gestión de bases de datos relacionales SQL diseñado para un alto rendimiento en aplicaciones de bases de datos analíticas. [2] Publicó resultados récord en el punto de referencia TPC-H del Transaction Processing Performance Council para tamaños de bases de datos de 100 GB, 300 GB, 1 TB y 3 TB en hardware no agrupado. [3] [4] [5] [6]
Vectorwise se originó a partir del proyecto de investigación X100 llevado a cabo dentro del Centrum Wiskunde & Informatica (CWI, el Instituto Nacional Holandés de Investigación en Matemáticas y Ciencias de la Computación) entre 2003 y 2008. Se escindió como una empresa de nueva creación en 2008 y fue adquirida por Ingres Corporation en 2011. [7] Se lanzó como un producto comercial en junio de 2010, [8] [9] [10] [11] inicialmente para la plataforma Linux de 64 bits, y más tarde también para Windows. A partir del lanzamiento de la versión 3.5 en abril de 2014, el nombre del producto se acortó a "Vector". [12] En junio de 2014, Actian Vortex se anunció como una versión de procesamiento paralelo masivo en clúster de Vector, en Hadoop con almacenamiento en HDFS . [13] [14] Actian Vortex luego pasó a llamarse Actian Vector en Hadoop.
La arquitectura básica y los principios de diseño del motor X100 de la base de datos VectorWise fueron bien descritos en dos tesis doctorales de los fundadores de VectorWise, Marcin Żukowski: "Balancing Vectorized Query Execution with Bandwidth-Optimized Storage" [15] y Sandor Héman: "Updating Compressed Column Stores", [16] bajo la supervisión de otro fundador, el profesor Peter Boncz . El motor X100 se integró con el front-end SQL de Ingres , lo que permitió que la base de datos utilizara la sintaxis SQL de Ingres y el conjunto de herramientas de administración de base de datos y cliente de Ingres . [17]
La arquitectura de ejecución de consultas hace uso de la "Ejecución de consultas vectorizadas", es decir, el procesamiento en fragmentos de vectores de datos que se ajustan a la caché . Esto permite utilizar los principios del procesamiento vectorial y de instrucción única, múltiples datos (SIMD) para realizar la misma operación en múltiples datos simultáneamente y aprovechar el paralelismo a nivel de datos en el hardware moderno. También reduce los gastos generales que se encuentran en el "procesamiento fila por fila" tradicional que se encuentra en la mayoría de los RDBMS.
El almacenamiento de la base de datos se realiza en un formato comprimido orientado a columnas [18] , con un gestor de búfer optimizado para el escaneo. En Actian Vortex en HDFS se utiliza el mismo formato propietario.
La carga de grandes cantidades de datos se realiza mediante anexos directos al almacenamiento estable, mientras que las actualizaciones transaccionales pequeñas se realizan mediante árboles delta posicionales (PDT) [ 16] [20] (patente en trámite) — estructuras especializadas de diferencias indexadas en forma de árbol B sobre el almacenamiento estable, que se parchean sin problemas durante los escaneos y se propagan de forma transparente al almacenamiento estable en un proceso en segundo plano. El método de almacenar diferencias en estructuras de tipo parche y reescribir el almacenamiento estable en masa hizo posible trabajar en un sistema de archivos como HDFS, en el que los archivos solo se pueden agregar. [13]
Una prueba comparativa de rendimiento del Transaction Processing Performance Council TPC-H de MonetDB realizada por su creador original en Centrum Wiskunde & Informatica (CWI) en 2003 mostró que su rendimiento como base de datos analítica podía mejorarse. Como resultado, los investigadores de CWI propusieron una nueva arquitectura que utilizase el procesamiento de consultas segmentadas ("procesamiento vectorizado") para mejorar el rendimiento de las consultas analíticas. Esto condujo a la creación del proyecto "X100", con la intención de diseñar un nuevo núcleo para MonetDB, que se llamaría "MonetDB/X100". [15] [21] [22]
El equipo del proyecto X100 ganó el premio DaMoN al mejor artículo en 2007 por el artículo "Procesamiento de datos vectorizados en el motor de banda ancha celular" [23] [24], así como el premio DaMoN al mejor artículo en 2008 por el artículo "DSM vs. NSM: compensaciones en el rendimiento de la CPU en el procesamiento de consultas orientadas a bloques". [25] [26]
En agosto de 2009, los creadores del proyecto X100 ganaron el "Premio al mejor artículo de los diez años" en la 35.ª Conferencia internacional sobre bases de datos muy grandes (VLDB) por su artículo de 1999 "Arquitectura de bases de datos optimizada para el nuevo cuello de botella: acceso a la memoria". La VLDB reconoció que el equipo del proyecto había logrado un gran progreso en la implementación de las ideas contenidas en el artículo durante los 10 años anteriores. [27] La premisa central del artículo es que los sistemas de bases de datos relacionales tradicionales se diseñaron a fines de la década de 1970 y principios de la de 1980 durante una época en la que el rendimiento de las bases de datos estaba determinado por el tiempo necesario para leer y escribir datos en el disco duro. En ese momento, la CPU disponible era relativamente lenta y la memoria principal era relativamente pequeña, por lo que se podían cargar muy pocos datos en la memoria a la vez. Con el tiempo, el hardware mejoró, y la velocidad de la CPU y el tamaño de la memoria se duplicaron aproximadamente cada dos años de acuerdo con la ley de Moore , pero el diseño de los sistemas de bases de datos relacionales tradicionales no se había adaptado. El equipo de investigación de CWI describió mejoras en el código de base de datos y las estructuras de datos para aprovechar al máximo el hardware moderno. [28]
En 2008, el proyecto X100 se separó de MonetDB como proyecto independiente, con su propia empresa, y pasó a llamarse "VectorWise". Entre los cofundadores se encontraban Peter A. Boncz y Marcin Żukowski. [29] [30]
En junio de 2010, Ingres Corporation anunció oficialmente la tecnología VectorWise , [9] [31] con el lanzamiento de Ingres VectorWise 1.0. [32]
En marzo de 2011, se lanzó VectorWise 1.5, [33] publicando un resultado récord en el benchmark TPC-H de 100 GB. [4] [34] Las nuevas características incluyeron ejecución de consultas paralelas (una sola consulta ejecutada en múltiples núcleos de CPU), carga masiva mejorada y soporte SQL mejorado. En junio de 2011, se lanzó VectorWise 1.6, [5] publicando resultados récord en el benchmark TPC-H de 100 GB, [35] 300 GB [36] y 1 TB [37] no agrupados.
En diciembre de 2011, se lanzó VectorWise 2.0 [38] con nuevo soporte SQL para funciones analíticas como rango y percentil y tipos de datos de fecha, hora y marca de tiempo mejorados, y soporte para desbordamiento de disco en uniones hash y agregaciones.
En junio de 2012, se lanzó VectorWise 2.5. [39] En esta versión, se reorganizó el formato de almacenamiento para permitir almacenar la base de datos en múltiples ubicaciones, se mejoró el mecanismo de propagación de actualizaciones en segundo plano desde los PDT al almacenamiento estable para permitir reescribir solo los bloques modificados en lugar de reescrituras completas, y se introdujo un nuevo [40] Predictive Buffer Manager (PBM) patentado. [41]
En marzo de 2013, se lanzó VectorWise 3.0. [42] Las nuevas características incluían un motor de almacenamiento más eficiente, soporte para más tipos de datos y funciones SQL analíticas, características DDL mejoradas y mejor accesibilidad para monitoreo y creación de perfiles.
En marzo de 2014, se lanzó Actian Vector 3.5, con un nuevo nombre renombrado y abreviado. [12] Las nuevas características incluían soporte para tablas particionadas, derrame de disco mejorado, capacidades de respaldo en línea y soporte SQL mejorado, por ejemplo, MERGE/UPSERT
operaciones DML y FIRST_VALUE
funciones LAST_VALUE
de agregación de ventanas.
En junio de 2014, en la Cumbre Hadoop 2014 en San José, Actian anunció Actian Vortex: la versión MPP en clúster de Vector, con el mismo nivel de soporte SQL que funciona en Hadoop con almacenamiento directamente en HDFS. [13] Actian Vortex fue renombrado posteriormente como Actian Vector en Hadoop, y las versiones no agrupadas de Actian Vector también se actualizan para que coincidan. [1] En marzo de 2015 se lanzó Actian Vector 4, y Actian Vector en Hadoop 4 se lanzó en diciembre de 2015. [43]
En marzo de 2019, Actian Avalanche se lanzó como una plataforma de datos en la nube, con Vector como motor principal para la oferta de Warehouse. [44] En noviembre de 2023, Actian cambió el nombre y relanzó Avalanche como Actian Data Platform, incluidas nuevas capacidades para la calidad de los datos. [45]
En 2024, Actian decidió retirar el soporte de fin de obsolescencia para Actian Vector en Hadoop, después de descontinuar la comercialización de esta línea de productos, convirtiendo así a 6.0 en su último lanzamiento y al servicio Cloud Data Warehouse de Actian Data Platform en la única implementación MPP de Vector disponible.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite book}}
: |work=
ignorado ( ayuda )