stringtranslate.com

Vector actiano

Actian Vector (anteriormente conocido como VectorWise ) es un sistema de gestión de bases de datos relacionales SQL diseñado para un alto rendimiento en aplicaciones de bases de datos analíticas. [3] Publicó resultados récord en el punto de referencia TPC-H del Transaction Processing Performance Council para tamaños de bases de datos de 100 GB, 300 GB, 1 TB y 3 TB en hardware no agrupado. [4] [5] [6] [7]

Vectorwise se originó a partir del proyecto de investigación X100 llevado a cabo dentro del Centrum Wiskunde & Informatica (CWI, el Instituto Nacional Holandés de Investigación en Matemáticas y Ciencias de la Computación) entre 2003 y 2008. Se escindió como una empresa de nueva creación en 2008 y fue adquirida por Ingres Corporation en 2011. [8] Se lanzó como un producto comercial en junio de 2010, [9] [10] [11] [12] inicialmente para la plataforma Linux de 64 bits, y más tarde también para Windows. A partir del lanzamiento de la versión 3.5 en abril de 2014, el nombre del producto se acortó a "Vector". [13] En junio de 2014, Actian Vortex se anunció como una versión de procesamiento paralelo masivo en clúster de Vector, en Hadoop con almacenamiento en HDFS . [14] [15] Actian Vortex luego pasó a llamarse Actian Vector en Hadoop.

Tecnología

La arquitectura básica y los principios de diseño del motor X100 de la base de datos VectorWise fueron bien descritos en dos tesis doctorales de los fundadores de VectorWise, Marcin Żukowski: "Balancing Vectorized Query Execution with Bandwidth-Optimized Storage" [16] y Sandor Héman: "Updating Compressed Column Stores", [17] bajo la supervisión de otro fundador, el profesor Peter Boncz . El motor X100 se integró con el front-end SQL de Ingres , lo que permitió que la base de datos utilizara la sintaxis SQL de Ingres y el conjunto de herramientas de administración de base de datos y cliente de Ingres . [18]

La arquitectura de ejecución de consultas hace uso de la "Ejecución de consultas vectorizadas", es decir, el procesamiento en fragmentos de vectores de datos que se ajustan a la caché . Esto permite utilizar los principios del procesamiento vectorial y de instrucción única, múltiples datos (SIMD) para realizar la misma operación en múltiples datos simultáneamente y aprovechar el paralelismo a nivel de datos en el hardware moderno. También reduce los gastos generales que se encuentran en el "procesamiento fila por fila" tradicional que se encuentra en la mayoría de los RDBMS.

El almacenamiento de la base de datos se realiza en un formato comprimido orientado a columnas [19] , con un gestor de búfer optimizado para el escaneo. En Actian Vortex en HDFS se utiliza el mismo formato propietario.

La carga de grandes cantidades de datos se realiza mediante anexos directos al almacenamiento estable, mientras que las actualizaciones transaccionales pequeñas se realizan mediante árboles delta posicionales (PDT) [17] [21] (patente en trámite ) — estructuras especializadas de diferencias indexadas en forma de árbol B sobre el almacenamiento estable, que se parchean sin problemas durante los escaneos y se propagan de forma transparente al almacenamiento estable en un proceso en segundo plano. El método de almacenar diferencias en estructuras de tipo parche y reescribir el almacenamiento estable en masa hizo posible trabajar en un sistema de archivos como HDFS, en el que los archivos solo se pueden agregar. [14]

Historia

Una prueba comparativa de rendimiento del Transaction Processing Performance Council TPC-H de MonetDB realizada por su creador original en Centrum Wiskunde & Informatica (CWI) en 2003 mostró que su rendimiento como base de datos analítica podía mejorarse. Como resultado, los investigadores de CWI propusieron una nueva arquitectura que utilizase el procesamiento de consultas segmentadas ("procesamiento vectorizado") para mejorar el rendimiento de las consultas analíticas. Esto condujo a la creación del proyecto "X100", con la intención de diseñar un nuevo núcleo para MonetDB, que se llamaría "MonetDB/X100". [16] [22] [23]

El equipo del proyecto X100 ganó el premio DaMoN al mejor artículo en 2007 por el artículo "Procesamiento de datos vectorizados en el motor de banda ancha celular" [24] [25], así como el premio DaMoN al mejor artículo en 2008 por el artículo "DSM vs. NSM: compensaciones en el rendimiento de la CPU en el procesamiento de consultas orientadas a bloques". [26] [27]

En agosto de 2009, los creadores del proyecto X100 ganaron el "Premio al mejor artículo de los diez años" en la 35.ª Conferencia internacional sobre bases de datos muy grandes (VLDB) por su artículo de 1999 "Arquitectura de bases de datos optimizada para el nuevo cuello de botella: acceso a la memoria". La VLDB reconoció que el equipo del proyecto había logrado un gran progreso en la implementación de las ideas contenidas en el artículo durante los 10 años anteriores. [28] La premisa central del artículo es que los sistemas de bases de datos relacionales tradicionales se diseñaron a fines de la década de 1970 y principios de la de 1980 durante una época en la que el rendimiento de las bases de datos estaba determinado por el tiempo necesario para leer y escribir datos en el disco duro. En ese momento, la CPU disponible era relativamente lenta y la memoria principal era relativamente pequeña, por lo que se podían cargar muy pocos datos en la memoria a la vez. Con el tiempo, el hardware mejoró, y la velocidad de la CPU y el tamaño de la memoria se duplicaron aproximadamente cada dos años de acuerdo con la ley de Moore , pero el diseño de los sistemas de bases de datos relacionales tradicionales no se había adaptado. El equipo de investigación de CWI describió mejoras en el código de base de datos y las estructuras de datos para aprovechar al máximo el hardware moderno. [29]

En 2008, el proyecto X100 se separó de MonetDB como proyecto independiente, con su propia empresa, y pasó a llamarse "VectorWise". Entre los cofundadores se encontraban Peter A. Boncz y Marcin Żukowski. [30] [31]

En junio de 2010, Ingres Corporation anunció oficialmente la tecnología VectorWise , [10] [32] con el lanzamiento de Ingres VectorWise 1.0. [33]

En marzo de 2011, se lanzó VectorWise 1.5, [34] publicando un resultado récord en el benchmark TPC-H de 100 GB. [5] [35] Las nuevas características incluyeron ejecución de consultas paralelas (una sola consulta ejecutada en múltiples núcleos de CPU), carga masiva mejorada y soporte SQL mejorado. En junio de 2011, se lanzó VectorWise 1.6, [6] publicando resultados récord en el benchmark TPC-H de 100 GB, [36] 300 GB [37] y 1 TB [38] no agrupados.

En diciembre de 2011, se lanzó VectorWise 2.0 [39] con nuevo soporte SQL para funciones analíticas como rango y percentil y tipos de datos de fecha, hora y marca de tiempo mejorados, y soporte para desbordamiento de disco en uniones hash y agregaciones.

En junio de 2012, se lanzó VectorWise 2.5. [40] En esta versión, se reorganizó el formato de almacenamiento para permitir almacenar la base de datos en múltiples ubicaciones, se mejoró el mecanismo de propagación de actualizaciones en segundo plano desde los PDT al almacenamiento estable para permitir reescribir solo los bloques modificados en lugar de reescrituras completas, y se introdujo un nuevo Predictive Buffer Manager (PBM) patentado [41] . [42]

En marzo de 2013, se lanzó VectorWise 3.0. [43] Las nuevas características incluían un motor de almacenamiento más eficiente, soporte para más tipos de datos y funciones SQL analíticas, características DDL mejoradas y mejor accesibilidad para monitoreo y creación de perfiles.

En marzo de 2014, se lanzó Actian Vector 3.5, con un nuevo nombre renombrado y abreviado. [13] Las nuevas características incluían soporte para tablas particionadas, derrame de disco mejorado, capacidades de respaldo en línea y soporte SQL mejorado, por ejemplo, MERGE/UPSERToperaciones DML y FIRST_VALUEfunciones LAST_VALUEde agregación de ventanas.

En junio de 2014, en la Cumbre Hadoop 2014 en San José, Actian anunció Actian Vortex: la versión MPP en clúster de Vector, con el mismo nivel de soporte SQL que funciona en Hadoop con almacenamiento directamente en HDFS. [14] Actian Vortex fue renombrado posteriormente como Actian Vector en Hadoop, y las versiones no agrupadas de Actian Vector también se actualizan para que coincidan. [1] En marzo de 2015 se lanzó Actian Vector 4, y Actian Vector en Hadoop 4 se lanzó en diciembre de 2015. [44]

En marzo de 2019, Actian Avalanche se lanzó como una plataforma de datos en la nube, con Vector como motor principal para la oferta de Warehouse. [45]

Historial de versiones

Vector actiano

Leyenda:
Versión antigua, sin mantenimiento
Versión antigua, aún mantenida
Última versión
Última versión preliminar
Lanzamiento futuro

Vector Actian en Hadoop

Leyenda:
Versión antigua, sin mantenimiento
Versión antigua, aún mantenida
Última versión
Última versión preliminar
Lanzamiento futuro

Véase también

Referencias

  1. ^ ab "Vector 6.3 ofrece una administración más sencilla, mayor automatización y mejor productividad para el análisis de datos". 9 de diciembre de 2022. Consultado el 13 de abril de 2023 .
  2. ^ "Actian busca ayudar a las empresas a superar las limitaciones de Hadoop; agrega soporte de ML, seguridad y tiempo real". 2020-07-30 . Consultado el 2023-04-13 .
  3. ^ "Vectorwise Enterprise". Corporación Actian . Consultado el 3 de mayo de 2012 .
  4. ^ "TPC-H - Resultados de rendimiento de los diez mejores - No agrupados". Consejo de rendimiento de procesamiento de transacciones . Consultado el 3 de mayo de 2012 .
  5. ^ ab "Vectorwise rompe el récord de TPC-H con un factor de escala 100 y ofrece un 340 % del mejor récord anterior" (nota de prensa). Actian Corporation. 15 de febrero de 2011. Consultado el 7 de febrero de 2016 .
  6. ^ ab "Vectorwise rompe récords de referencia TPC-H de 300 GB y 1 TB sin dudarlo" (nota de prensa). Actian Corporation. 4 de mayo de 2011. Consultado el 7 de febrero de 2011 .
  7. ^ "La plataforma de análisis de Actian duplica el rendimiento de todas las demás y establece un nuevo récord en el último índice de referencia TPC-H". Actian Corporation . Consultado el 20 de agosto de 2016 .
  8. ^ "La empresa derivada de CWI, VectorWise, se vendió a Ingres Corporation".
  9. ^ Clarke, Gavin (2 de febrero de 2010). "VectorWise de Ingres responde a Microsoft". The Register .
  10. ^ ab Babcock, Charles (9 de junio de 2010). "Ingres presenta el motor de base de datos VectorWise". InformationWeek .
  11. ^ Suleman, Khidr (8 de junio de 2010). "Ingres lanza el motor de base de datos VectorWise". V3.co.uk .
  12. ^ Zukowski, Marcin; Boncz, Peter (2012). "De x100 a vectorwise". Actas de la conferencia internacional de 2012 sobre Gestión de Datos - SIGMOD '12 . p. 861. doi :10.1145/2213836.2213967. ISBN 978-1-4503-1247-9.S2CID 9187072  .
  13. ^ ab "Pssst: ¿Quieres saber más sobre Actian Vector 3.5?". 2016-05-04.
  14. ^ abc "Vector(wise) se vuelve Hadoop".
  15. ^ "Peter Boncz - Actian Vector en Hadoop: el primer DBMS de nivel industrial que realmente aprovecha Hadoop". YouTube .
  16. ^ ab Żukowski, Marcin (11 de septiembre de 2009). "Equilibrio entre la ejecución de consultas vectorizadas y el almacenamiento optimizado para el ancho de banda" (PDF) . Universiteit van Amsterdam . Consultado el 7 de febrero de 2016 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  17. ^ ab Héman, Sandor (2015). "Actualización de almacenes de columnas comprimidas" (PDF) . Vrije Universiteit Ámsterdam . Consultado el 7 de febrero de 2016 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  18. ^ Inkster, Doug; Żukowski, Marcin; Boncz, Peter (septiembre de 2011). "Integración de VectorWise con Ingres" (PDF) . Registro SIGMOD . 40 (3): 45–53. doi :10.1145/2070736.2070747. hdl :1871/33100. S2CID  6372175 . Consultado el 7 de febrero de 2016 .
  19. ^ Zukowski, Marcin; Boncz, Peter (marzo de 2012). "Vectorwise: Beyond Column Stores" (PDF) . Boletín de ingeniería de datos del IEEE . 35 (1): 21–27 . Consultado el 4 de mayo de 2012 .
  20. ^ Solicitud de EE. UU. 20100235335, Sandor ABC Heman, Peter A. Boncz, Marcin Zukowski, Nicolaas J. Nes, "Arquitectura de base de datos con almacenamiento en columnas que utiliza un sistema y métodos de actualización de árbol delta posicional", publicada el 16 de septiembre de 2010 
  21. ^ Héman, Sándor; Żukowski, Marcin; Nes, Niels; Sidirourgos, Lefteris; Boncz, Pedro. "Manejo de actualizaciones posicionales en almacenes de columnas" (PDF) . Conferencia SIGMOD 2010 : 543–554.
  22. ^ "Página de inicio de Peter Boncz" . Consultado el 7 de febrero de 2016 .
  23. ^ "Tecnología de bases de datos más rápida con MonetDB/X100". CWI Amsterdam . Consultado el 4 de mayo de 2012 .
  24. ^ Héman, S.; Nes, NJ; Zukowski, M.; Boncz, PA (2007). "Procesamiento de datos vectorizados en el motor de banda ancha celular". Universiteit van Amsterdam . Consultado el 4 de mayo de 2012 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  25. ^ "Tercer taller internacional sobre gestión de datos en hardware nuevo (DaMoN 2007)". Facultad de Informática de Carnegie Mellon (SCS) . Consultado el 4 de mayo de 2012 .
  26. ^ Zukowski, Marcin; Nes, Niels; Boncz, Peter (2008). "DSM vs. NSM". Actas del 4º taller internacional sobre gestión de datos en nuevo hardware - DaMoN '08 . p. 47. doi :10.1145/1457150.1457160. ISBN 9781605581842.S2CID11946467  .​
  27. ^ "Cuarto Taller Internacional sobre Gestión de Datos en Nuevo Hardware (DaMoN 2008)". Facultad de Informática Carnegie Mellon . Consultado el 4 de mayo de 2012 .
  28. ^ "Premio al mejor artículo de los 10 años – VLDB 2009". Conferencia internacional sobre bases de datos de gran tamaño . Consultado el 4 de mayo de 2012 .
  29. ^ Boncz, Peter; Manegold, Stefan; Kersten, Martin L. (15 de junio de 1999). Arquitectura de base de datos optimizada para el nuevo cuello de botella: acceso a la memoria (PDF) . Universiteit van Amsterdam . pp. 54–65. ISBN. 1-55860-615-7. Recuperado el 11 de diciembre de 2013 . {{cite book}}: |work=ignorado ( ayuda )
  30. ^ Curt Monash (25 de abril de 2013). "Adiós VectorWise, ¿adiós ParAccel?". DBMS2 . Consultado el 11 de diciembre de 2013 .
  31. ^ "Peter Boncz". Página web del personal . CWI . Consultado el 11 de diciembre de 2013 .
  32. ^ Clark, Don (22 de septiembre de 2011). "Empresa de software de bases de datos prueba 'aplicaciones de acción'". The Wall Street Journal .
  33. ^ "Ingres Vectorwise 1.0" . Consultado el 7 de febrero de 2016 .
  34. ^ "Un primer vistazo a Actian VectorWise 1.5".
  35. ^ "TPC-H SF100 Vectorwise 1.5".
  36. ^ "TPC-H SF100 Vectorwise 1.6".
  37. ^ "TPC-H SF300 Vectorwise 1.6".
  38. ^ "TPC-H SF1000 Vectorwise 1.6".
  39. ^ "Un VectorWise aún más rápido".
  40. ^ "Actian lanza Vectorwise 2.5: la base de datos récord ahora es aún más rápida".
  41. ^ Patente estadounidense B1 8825959 B1, Michal Switakowski, Peter Boncz, Marcin Zukowski, "Método y aparato para utilizar la predicción del tiempo de acceso a datos para mejorar las políticas de almacenamiento en búfer de datos", publicada el 2 de septiembre de 2014 
  42. ^ Świtakowski, Michał; Boncz, Peter; Żukowski, Marcin (agosto de 2012). "From Cooperative Scans to Predictive Buffer Management" (PDF) . Actas de la Fundación VLDB . 5 (12). VLDB 2012: 1759–1770. arXiv : 1208.4170 . Bibcode :2012arXiv1208.4170S. doi :10.14778/2367502.2367515. S2CID  17184937 . Consultado el 7 de febrero de 2016 .
  43. ^ "Actian anuncia la disponibilidad de Vectorwise 3.0 para obtener respuestas rápidas a partir de big data".
  44. ^ "Fechas del ciclo de vida: Vector Actian y Vector en Hadoop".
  45. ^ "El almacén de datos conectado en tiempo real Actian Avalanche agrega integración".

Enlaces externos