stringtranslate.com

Vector actiano

Actian Vector (anteriormente conocido como VectorWise ) es un sistema de gestión de bases de datos relacionales SQL diseñado para un alto rendimiento en aplicaciones de bases de datos analíticas. [3] Publicó resultados récord en la prueba comparativa TPC-H del Transaction Processing Performance Council para tamaños de bases de datos de 100 GB, 300 GB, 1 TB y 3 TB en hardware no agrupado. [4] [5] [6] [7]

Vectorwise surgió del proyecto de investigación X100 llevado a cabo dentro del Centrum Wiskunde & Informatica (CWI, el Instituto Nacional Holandés de Investigación en Matemáticas e Informática) entre 2003 y 2008. Se escindió como una empresa de nueva creación en 2008 y fue adquirida por Ingres Corporation en 2011. [8] Fue lanzado como producto comercial en junio de 2010, [9] [10] [11] [12] inicialmente para plataforma Linux de 64 bits y luego también para Windows. A partir de la versión 3.5 en abril de 2014, el nombre del producto se redujo a "Vector". [13] En junio de 2014, Actian Vortex se anunció como una versión de procesamiento paralelo masivo agrupado de Vector, en Hadoop con almacenamiento en HDFS . [14] [15] Posteriormente, Actian Vortex pasó a llamarse Actian Vector en Hadoop.

Tecnología

La arquitectura básica y los principios de diseño del motor X100 de la base de datos VectorWise se describieron bien en dos tesis doctorales de los fundadores de VectorWise, Marcin Żukowski: "Balancing Vectorized Query Execution with Bandwidth-Optimized Storage" [16] y Sandor Héman: "Updating Compressed Column Stores". ", [17] bajo la supervisión de otro fundador, el profesor Peter Boncz . El motor X100 se integró con el front-end SQL de Ingres , lo que permite que la base de datos utilice la sintaxis SQL de Ingres y el conjunto de herramientas de administración de bases de datos y clientes de Ingres . [18]

La arquitectura de ejecución de consultas utiliza la "ejecución de consultas vectorizadas": procesamiento en fragmentos de vectores de datos que se ajustan a la caché . Esto permite involucrar los principios de procesamiento vectorial e instrucción única, datos múltiples (SIMD), para realizar la misma operación en múltiples datos simultáneamente y explotar el paralelismo a nivel de datos en hardware moderno. También reduce los gastos generales que se encuentran en el tradicional "procesamiento fila por fila" que se encuentra en la mayoría de los RDBMS.

El almacenamiento de la base de datos está en un formato comprimido orientado a columnas , [19] con un administrador de búfer optimizado para el análisis. En Actian Vortex en HDFS se utiliza el mismo formato propietario.

La carga de grandes cantidades de datos se admite mediante anexos directos al almacenamiento estable, mientras que las pequeñas actualizaciones transaccionales se admiten mediante árboles delta posicionales (PDT, por sus siglas en inglés), pendientes de patente [20] [17] [21] : estructuras especializadas similares a árboles B de diferencias indexadas además del almacenamiento estable, que se parchean sin problemas durante los análisis y que se propagan de forma transparente al almacenamiento estable en un proceso en segundo plano. El método de almacenar diferencias en estructuras similares a parches y reescribir el almacenamiento estable de forma masiva hizo posible trabajar en un sistema de archivos como HDFS, en el que los archivos se agregan únicamente. [14]

Historia

Una prueba comparativa de rendimiento TPC-H del Transaction Processing Performance Council de MonetDB realizada por su creador original en Centrum Wiskunde & Informatica (CWI) en 2003 mostró margen de mejora en su rendimiento como base de datos analítica. Como resultado, los investigadores del CWI propusieron una nueva arquitectura que utiliza el procesamiento de consultas canalizadas ("procesamiento vectorizado") para mejorar el rendimiento de las consultas analíticas. Esto llevó a la creación del proyecto "X100", con la intención de diseñar un nuevo kernel para MonetDB, que se llamaría "MonetDB/X100". [16] [22] [23]

El equipo del proyecto X100 ganó el premio DaMoN Best Paper Award 2007 por el artículo "Vectorized Data Processing on the Cell Broadband Engine" [24] [25], así como el premio DaMoN Best Paper Award 2008 por el artículo "DSM vs. NSM: CPU Performance". Compensaciones en el procesamiento de consultas orientado a bloques". [26] [27]

En agosto de 2009, los creadores del proyecto X100 ganaron el "Premio al Mejor Artículo de Diez Años" en la 35ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB) por su artículo de 1999 "Arquitectura de base de datos optimizada para el nuevo cuello de botella: acceso a la memoria". La VLDB reconoció que el equipo del proyecto había logrado grandes avances en la implementación de las ideas contenidas en el documento durante los 10 años anteriores. [28] La premisa central del artículo es que los sistemas de bases de datos relacionales tradicionales se diseñaron a finales de los años 1970 y principios de los 1980, durante una época en la que el rendimiento de la base de datos estaba dictado por el tiempo necesario para leer y escribir datos en el disco duro. En ese momento, la CPU disponible era relativamente lenta y la memoria principal era relativamente pequeña, por lo que se podían cargar muy pocos datos en la memoria a la vez. Con el tiempo, el hardware mejoró, y la velocidad de la CPU y el tamaño de la memoria se duplicaron aproximadamente cada dos años de acuerdo con la ley de Moore , pero el diseño de los sistemas de bases de datos relacionales tradicionales no se había adaptado. El equipo de investigación del CWI describió mejoras en el código de la base de datos y las estructuras de datos para aprovechar al máximo el hardware moderno. [29]

En 2008, el proyecto X100 se separó de MonetDB como un proyecto independiente, con su propia empresa, y pasó a llamarse "VectorWise". Los cofundadores incluyeron a Peter A. Boncz y Marcin Żukowski. [30] [31]

En junio de 2010, Ingres Corporation anunció oficialmente la tecnología VectorWise , [10] [32] con el lanzamiento de Ingres VectorWise 1.0. [33]

En marzo de 2011, se lanzó VectorWise 1.5, [34] publicando un resultado récord en la prueba comparativa TPC-H de 100 GB. [5] [35] Las nuevas características incluyeron ejecución de consultas paralelas (consulta única ejecutada en múltiples núcleos de CPU), carga masiva mejorada y soporte SQL mejorado. En junio de 2011, se lanzó VectorWise 1.6, [6] publicando resultados récord en pruebas comparativas no agrupadas TPC-H de 100 GB, [36] 300 GB [37] y 1 TB [38] .

En diciembre de 2011, se lanzó VectorWise 2.0 [39] con nuevo soporte SQL para funciones analíticas como rango y percentil y tipos de datos mejorados de fecha, hora y marca de tiempo, y soporte para derrame de disco en uniones hash y agregación.

En junio de 2012, se lanzó VectorWise 2.5. [40] En esta versión, el formato de almacenamiento se reorganizó para permitir almacenar la base de datos en múltiples ubicaciones, el mecanismo de propagación de actualizaciones en segundo plano desde PDT al almacenamiento estable se mejoró para permitir reescribir solo los bloques modificados en lugar de reescrituras completas, y una nueva patente [41] Se introdujo el Predictive Buffer Manager (PBM). [42]

En marzo de 2013, se lanzó VectorWise 3.0. [43] Las nuevas características incluyeron un motor de almacenamiento más eficiente, soporte para más tipos de datos y funciones analíticas de SQL, características DDL mejoradas y accesibilidad mejorada a la supervisión y creación de perfiles.

En marzo de 2014, se lanzó Actian Vector 3.5, con un nuevo nombre renombrado y abreviado. [13] Las nuevas características incluyeron soporte para tablas particionadas, derrame de disco mejorado, capacidades de copia de seguridad en línea y soporte SQL mejorado, por ejemplo, MERGE/UPSERToperaciones DML FIRST_VALUEy LAST_VALUEfunciones de agregación de ventanas.

En junio de 2014, en la Cumbre Hadoop 2014 en San José, Actian anunció Actian Vortex: una versión MPP agrupada de Vector, con el mismo nivel de soporte SQL que funciona en Hadoop con almacenamiento directamente en HDFS. [14] Posteriormente, Actian Vortex pasó a llamarse Actian Vector en Hadoop, y las versiones de Actian Vector no agrupadas también se actualizan para coincidir. [1] En marzo de 2015 se lanzó Actian Vector 4 y Actian Vector en Hadoop 4 se lanzó en diciembre de 2015. [44]

En marzo de 2019, Actian Avalanche se lanzó como una plataforma de datos en la nube, con Vector como motor central de la oferta de Warehouse. [45]

Historial de lanzamientos

Vector actiano

Leyenda:
Versión antigua
Versión anterior, aún mantenida.
Ultima versión
Última versión preliminar
Future release

Vector actiano en Hadoop

Leyenda:
Versión antigua
Versión anterior, aún mantenida.
Ultima versión
Última versión preliminar
Future release

Ver también

Referencias

  1. ^ ab "Vector 6.3 ofrece una administración más sencilla, mayor automatización y mejor productividad para el análisis de datos". 9 de diciembre de 2022 . Consultado el 13 de abril de 2023 .
  2. ^ "Actian busca ayudar a las empresas a superar las limitaciones de Hadoop; agrega soporte de aprendizaje automático, seguridad y tiempo real". 2020-07-30 . Consultado el 13 de abril de 2023 .
  3. ^ "Empresa vectorial". Corporación Actian . Consultado el 3 de mayo de 2012 .
  4. ^ "TPC-H - Diez resultados de rendimiento principales - No agrupados". Consejo de desempeño del procesamiento de transacciones . Consultado el 3 de mayo de 2012 .
  5. ^ ab "Vectorwise bate el récord de TPC-H con un factor de escala 100, logrando el 340% del mejor récord anterior" (Comunicado de prensa). Corporación Actian. 15 de febrero de 2011 . Consultado el 7 de febrero de 2016 .
  6. ^ ab "Vectorwise bate sin dudas los récords de referencia TPC-H de 300 GB y 1 TB" (Presione soltar). Corporación Actian. 4 de mayo de 2011 . Consultado el 7 de febrero de 2011 .
  7. ^ "La plataforma Actian Analytics supera a todas las demás en 2 veces y establece un nuevo récord en el último punto de referencia TPC-H". Corporación Actian . Consultado el 20 de agosto de 2016 .
  8. ^ "VectorWise, empresa derivada de CWI, vendida a Ingres Corporation".
  9. ^ Clarke, Gavin (2 de febrero de 2010). "VectorWise de Ingres se eleva para responder a Microsoft". El registro .
  10. ^ ab Babcock, Charles (9 de junio de 2010). "Ingres presenta el motor de base de datos VectorWise". Semana de la Información .
  11. ^ Suleman, Khidr (8 de junio de 2010). "Ingres lanza el motor de base de datos VectorWise". V3.co.uk.
  12. ^ Zukowski, Marcin; Boncz, Peter (2012). "De x100 a vectorial". Actas de la conferencia internacional de 2012 sobre Gestión de Datos - SIGMOD '12 . pag. 861. doi : 10.1145/2213836.2213967. ISBN 978-1-4503-1247-9. S2CID  9187072.
  13. ^ ab "Pssst: ¿Quiere saber más sobre Actian Vector 3.5?". 2016-05-04.
  14. ^ abc "Vector (sabio) se convierte en Hadoop".
  15. ^ "Peter Boncz - Actian Vector en Hadoop: el primer DBMS de potencia industrial que realmente aprovecha Hadoop". YouTube .
  16. ^ ab Żukowski, Marcin (11 de septiembre de 2009). "Equilibrio de la ejecución de consultas vectorizadas con el almacenamiento optimizado para el ancho de banda" (PDF) . Universitéit van Amsterdam . Consultado el 7 de febrero de 2016 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  17. ^ ab Héman, Sandor (2015). "Actualización de almacenes de columnas comprimidas" (PDF) . Vrije Universiteit Ámsterdam . Consultado el 7 de febrero de 2016 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  18. ^ Inkster, Doug; Żukowski, Marcin; Boncz, Peter (septiembre de 2011). "Integración de VectorWise con Ingres" (PDF) . Registro SIGMOD . 40 (3): 45–53. doi :10.1145/2070736.2070747. hdl :1871/33100. S2CID  6372175 . Consultado el 7 de febrero de 2016 .
  19. ^ Zukowski, Marcin; Boncz, Peter (marzo de 2012). "Vectorwise: más allá de los almacenes de columnas" (PDF) . Boletín de ingeniería de datos IEEE . 35 (1): 21–27 . Consultado el 4 de mayo de 2012 .
  20. ^ Solicitud de EE. UU. 20100235335, Sandor ABC Heman, Peter A. Boncz, Marcin Zukowski, Nicolaas J. Nes, "Arquitectura de base de datos de almacén de columnas que utiliza métodos y sistema de actualización de árbol delta posicional", publicado el 16 de septiembre de 2010 
  21. ^ Héman, Sándor; Żukowski, Marcin; Nes, Niels; Sidirourgos, Lefteris; Boncz, Pedro. "Manejo de actualizaciones posicionales en almacenes de columnas" (PDF) . Conferencia SIGMOD 2010 : 543–554.
  22. ^ "Página de inicio de Peter Boncz" . Consultado el 7 de febrero de 2016 .
  23. ^ "Tecnología de base de datos más rápida con MonetDB/X100". CWI Ámsterdam . Consultado el 4 de mayo de 2012 .
  24. ^ Heman, S.; Nes, Nueva Jersey; Zukowski, M.; Boncz, PA (2007). "Procesamiento de datos vectorizados en el motor de banda ancha celular". Universitéit van Amsterdam . Consultado el 4 de mayo de 2012 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  25. ^ "Tercer Taller Internacional sobre Gestión de Datos en Nuevo Hardware (DaMoN 2007)". Escuela de Ciencias de la Computación (SCS) de Carnegie Mellon . Consultado el 4 de mayo de 2012 .
  26. ^ Zukowski, Marcin; Nes, Niels; Boncz, Peter (2008). "DSM frente a NSM". Actas del 4º taller internacional sobre gestión de datos en nuevo hardware - DaMoN '08 . pag. 47. doi :10.1145/1457150.1457160. ISBN 9781605581842. S2CID  11946467.
  27. ^ "Cuarto Taller Internacional sobre Gestión de Datos en Nuevo Hardware (DaMoN 2008)". Escuela de Ciencias de la Computación Carnegie Mellon . Consultado el 4 de mayo de 2012 .
  28. ^ "Premio al mejor artículo decenal - VLDB 2009". Conferencia Internacional sobre Bases de Datos de Muy Gran Tamaño . Consultado el 4 de mayo de 2012 .
  29. ^ Boncz, Pedro; Manegold, Stefan; Kersten, Martin L. (15 de junio de 1999). Arquitectura de base de datos optimizada para el nuevo cuello de botella: acceso a la memoria (PDF) . Universitéit van Amsterdam . págs. 54–65. ISBN 1-55860-615-7. Consultado el 11 de diciembre de 2013 . {{cite book}}: |work=ignorado ( ayuda )
  30. ^ Curt Monash (25 de abril de 2013). "¿Adiós VectorWise, adiós ParAccel?". DBMS2 . Consultado el 11 de diciembre de 2013 .
  31. ^ "Peter Boncz". Página web del personal . CWI . Consultado el 11 de diciembre de 2013 .
  32. ^ Clark, Don (22 de septiembre de 2011). "Empresa de software de bases de datos prueba aplicaciones de acción'". El periodico de Wall Street .
  33. ^ "Ingres Vectorwise 1.0" . Consultado el 7 de febrero de 2016 .
  34. ^ "Una mirada temprana a Actian VectorWise 1.5".
  35. ^ "TPC-H SF100 Vectorialmente 1,5".
  36. ^ "TPC-H SF100 Vectorialmente 1.6".
  37. ^ "TPC-H SF300 Vectorialmente 1.6".
  38. ^ "TPC-H SF1000 Vectorialmente 1.6".
  39. ^ "Un VectorWise aún más rápido".
  40. ^ "Actian lanza Vectorwise 2.5: la base de datos que bate récords ahora es aún más rápida".
  41. ^ B1 Patente estadounidense 8825959 B1, Michal Switakowski, Peter Boncz, Marcin Zukowski, "Método y aparato para utilizar la predicción del tiempo de acceso a datos para mejorar las políticas de almacenamiento en búfer de datos", publicado el 2 de septiembre de 2014 
  42. ^ Świtakowski, Michał; Boncz, Peter; Żukowski, Marcin (agosto de 2012). "De los análisis cooperativos a la gestión predictiva del búfer" (PDF) . Actas del Fondo de Dotación VLDB . 5 (12). VLDB 2012: 1759-1770. arXiv : 1208.4170 . Código Bib : 2012arXiv1208.4170S. doi :10.14778/2367502.2367515. S2CID  17184937 . Consultado el 7 de febrero de 2016 .
  43. ^ "Actian anuncia la disponibilidad de Vectorwise 3.0 para obtener respuestas rápidas a partir de Big Data".
  44. ^ "Fechas del ciclo de vida: vector Actian y vector en Hadoop".
  45. ^ "El almacén de datos conectado en tiempo real de Actian Avalanche agrega integración".

enlaces externos