Actian Vector (anteriormente conocido como VectorWise ) es un sistema de gestión de bases de datos relacionales SQL diseñado para un alto rendimiento en aplicaciones de bases de datos analíticas. [3] Publicó resultados récord en la prueba comparativa TPC-H del Transaction Processing Performance Council para tamaños de bases de datos de 100 GB, 300 GB, 1 TB y 3 TB en hardware no agrupado. [4] [5] [6] [7]
Vectorwise surgió del proyecto de investigación X100 llevado a cabo dentro del Centrum Wiskunde & Informatica (CWI, el Instituto Nacional Holandés de Investigación en Matemáticas e Informática) entre 2003 y 2008. Se escindió como una empresa de nueva creación en 2008 y fue adquirida por Ingres Corporation en 2011. [8] Fue lanzado como producto comercial en junio de 2010, [9] [10] [11] [12] inicialmente para plataforma Linux de 64 bits y luego también para Windows. A partir de la versión 3.5 en abril de 2014, el nombre del producto se redujo a "Vector". [13] En junio de 2014, Actian Vortex se anunció como una versión de procesamiento paralelo masivo agrupado de Vector, en Hadoop con almacenamiento en HDFS . [14] [15] Posteriormente, Actian Vortex pasó a llamarse Actian Vector en Hadoop.
La arquitectura básica y los principios de diseño del motor X100 de la base de datos VectorWise se describieron bien en dos tesis doctorales de los fundadores de VectorWise, Marcin Żukowski: "Balancing Vectorized Query Execution with Bandwidth-Optimized Storage" [16] y Sandor Héman: "Updating Compressed Column Stores". ", [17] bajo la supervisión de otro fundador, el profesor Peter Boncz . El motor X100 se integró con el front-end SQL de Ingres , lo que permite que la base de datos utilice la sintaxis SQL de Ingres y el conjunto de herramientas de administración de bases de datos y clientes de Ingres . [18]
La arquitectura de ejecución de consultas utiliza la "ejecución de consultas vectorizadas": procesamiento en fragmentos de vectores de datos que se ajustan a la caché . Esto permite involucrar los principios de procesamiento vectorial e instrucción única, datos múltiples (SIMD), para realizar la misma operación en múltiples datos simultáneamente y explotar el paralelismo a nivel de datos en hardware moderno. También reduce los gastos generales que se encuentran en el tradicional "procesamiento fila por fila" que se encuentra en la mayoría de los RDBMS.
El almacenamiento de la base de datos está en un formato comprimido orientado a columnas , [19] con un administrador de búfer optimizado para el análisis. En Actian Vortex en HDFS se utiliza el mismo formato propietario.
La carga de grandes cantidades de datos se admite mediante anexos directos al almacenamiento estable, mientras que las pequeñas actualizaciones transaccionales se admiten mediante árboles delta posicionales (PDT, por sus siglas en inglés), pendientes de patente [20] [17] [21] : estructuras especializadas similares a árboles B de diferencias indexadas además del almacenamiento estable, que se parchean sin problemas durante los análisis y que se propagan de forma transparente al almacenamiento estable en un proceso en segundo plano. El método de almacenar diferencias en estructuras similares a parches y reescribir el almacenamiento estable de forma masiva hizo posible trabajar en un sistema de archivos como HDFS, en el que los archivos se agregan únicamente. [14]
Una prueba comparativa de rendimiento TPC-H del Transaction Processing Performance Council de MonetDB realizada por su creador original en Centrum Wiskunde & Informatica (CWI) en 2003 mostró margen de mejora en su rendimiento como base de datos analítica. Como resultado, los investigadores del CWI propusieron una nueva arquitectura que utiliza el procesamiento de consultas canalizadas ("procesamiento vectorizado") para mejorar el rendimiento de las consultas analíticas. Esto llevó a la creación del proyecto "X100", con la intención de diseñar un nuevo kernel para MonetDB, que se llamaría "MonetDB/X100". [16] [22] [23]
El equipo del proyecto X100 ganó el premio DaMoN Best Paper Award 2007 por el artículo "Vectorized Data Processing on the Cell Broadband Engine" [24] [25], así como el premio DaMoN Best Paper Award 2008 por el artículo "DSM vs. NSM: CPU Performance". Compensaciones en el procesamiento de consultas orientado a bloques". [26] [27]
En agosto de 2009, los creadores del proyecto X100 ganaron el "Premio al Mejor Artículo de Diez Años" en la 35ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB) por su artículo de 1999 "Arquitectura de base de datos optimizada para el nuevo cuello de botella: acceso a la memoria". La VLDB reconoció que el equipo del proyecto había logrado grandes avances en la implementación de las ideas contenidas en el documento durante los 10 años anteriores. [28] La premisa central del artículo es que los sistemas de bases de datos relacionales tradicionales se diseñaron a finales de los años 1970 y principios de los 1980, durante una época en la que el rendimiento de la base de datos estaba dictado por el tiempo necesario para leer y escribir datos en el disco duro. En ese momento, la CPU disponible era relativamente lenta y la memoria principal era relativamente pequeña, por lo que se podían cargar muy pocos datos en la memoria a la vez. Con el tiempo, el hardware mejoró, y la velocidad de la CPU y el tamaño de la memoria se duplicaron aproximadamente cada dos años de acuerdo con la ley de Moore , pero el diseño de los sistemas de bases de datos relacionales tradicionales no se había adaptado. El equipo de investigación del CWI describió mejoras en el código de la base de datos y las estructuras de datos para aprovechar al máximo el hardware moderno. [29]
En 2008, el proyecto X100 se separó de MonetDB como un proyecto independiente, con su propia empresa, y pasó a llamarse "VectorWise". Los cofundadores incluyeron a Peter A. Boncz y Marcin Żukowski. [30] [31]
En junio de 2010, Ingres Corporation anunció oficialmente la tecnología VectorWise , [10] [32] con el lanzamiento de Ingres VectorWise 1.0. [33]
En marzo de 2011, se lanzó VectorWise 1.5, [34] publicando un resultado récord en la prueba comparativa TPC-H de 100 GB. [5] [35] Las nuevas características incluyeron ejecución de consultas paralelas (consulta única ejecutada en múltiples núcleos de CPU), carga masiva mejorada y soporte SQL mejorado. En junio de 2011, se lanzó VectorWise 1.6, [6] publicando resultados récord en pruebas comparativas no agrupadas TPC-H de 100 GB, [36] 300 GB [37] y 1 TB [38] .
En diciembre de 2011, se lanzó VectorWise 2.0 [39] con nuevo soporte SQL para funciones analíticas como rango y percentil y tipos de datos mejorados de fecha, hora y marca de tiempo, y soporte para derrame de disco en uniones hash y agregación.
En junio de 2012, se lanzó VectorWise 2.5. [40] En esta versión, el formato de almacenamiento se reorganizó para permitir almacenar la base de datos en múltiples ubicaciones, el mecanismo de propagación de actualizaciones en segundo plano desde PDT al almacenamiento estable se mejoró para permitir reescribir solo los bloques modificados en lugar de reescrituras completas, y una nueva patente [41] Se introdujo el Predictive Buffer Manager (PBM). [42]
En marzo de 2013, se lanzó VectorWise 3.0. [43] Las nuevas características incluyeron un motor de almacenamiento más eficiente, soporte para más tipos de datos y funciones analíticas de SQL, características DDL mejoradas y accesibilidad mejorada a la supervisión y creación de perfiles.
En marzo de 2014, se lanzó Actian Vector 3.5, con un nuevo nombre renombrado y abreviado. [13] Las nuevas características incluyeron soporte para tablas particionadas, derrame de disco mejorado, capacidades de copia de seguridad en línea y soporte SQL mejorado, por ejemplo, MERGE/UPSERT
operaciones DML FIRST_VALUE
y LAST_VALUE
funciones de agregación de ventanas.
En junio de 2014, en la Cumbre Hadoop 2014 en San José, Actian anunció Actian Vortex: una versión MPP agrupada de Vector, con el mismo nivel de soporte SQL que funciona en Hadoop con almacenamiento directamente en HDFS. [14] Posteriormente, Actian Vortex pasó a llamarse Actian Vector en Hadoop, y las versiones de Actian Vector no agrupadas también se actualizan para coincidir. [1] En marzo de 2015 se lanzó Actian Vector 4 y Actian Vector en Hadoop 4 se lanzó en diciembre de 2015. [44]
En marzo de 2019, Actian Avalanche se lanzó como una plataforma de datos en la nube, con Vector como motor central de la oferta de Warehouse. [45]
{{cite journal}}
: Citar diario requiere |journal=
( ayuda ){{cite journal}}
: Citar diario requiere |journal=
( ayuda ){{cite journal}}
: Citar diario requiere |journal=
( ayuda ){{cite book}}
: |work=
ignorado ( ayuda )