stringtranslate.com

Agregado (almacén de datos)

Ejemplo de una arquitectura básica de un almacén de datos

Un agregado es un tipo de resumen que se utiliza en los modelos dimensionales de los almacenes de datos para acortar el tiempo que lleva proporcionar respuestas a consultas típicas sobre grandes conjuntos de datos . La razón por la que los agregados pueden lograr un aumento tan drástico en el rendimiento de un almacén de datos es la reducción de la cantidad de filas a las que se accede cuando se responde a una consulta. [1]

Usar

En su forma más simple, un agregado es una tabla de resumen simple que se puede derivar al realizar una consulta SQL de Agrupamiento por . Un uso más común de los agregados es tomar una dimensión y cambiar su granularidad. Al cambiar la granularidad de la dimensión, la tabla de hechos debe resumirse parcialmente para ajustarse al nuevo grano de la nueva dimensión , creando así nuevas tablas dimensionales y de hechos para ajustarse a este nuevo nivel de grano.

Diseño

A veces, los agregados se denominan datos resumidos precalculados, ya que las agregaciones suelen ser datos precalculados, parcialmente resumidos, que se almacenan en nuevas tablas agregadas. Cuando se agregan hechos, se hace eliminando la dimensionalidad o asociando los hechos con una dimensión acumulada. Las dimensiones acumuladas deben ser versiones reducidas de las dimensiones asociadas con los hechos base granulares. De esta manera, las tablas de dimensiones agregadas deben ajustarse a las tablas de dimensiones base. [2]

Actuación

En 1996, Ralph Kimball , considerado ampliamente como uno de los arquitectos originales del almacenamiento de datos, afirmó: [3]

La forma más espectacular de afectar el rendimiento de un gran almacén de datos es proporcionar un conjunto adecuado de registros agregados (resumen) que coexistan con los registros base primarios. Los agregados pueden tener un efecto muy significativo en el rendimiento, en algunos casos acelerando las consultas en un factor de cien o incluso mil. No existe otro medio para obtener ganancias tan espectaculares.

Complejidad

La presencia de agregados y datos atómicos aumenta la complejidad del modelo dimensional. Esta complejidad debería ser transparente para los usuarios del almacén de datos, de modo que cuando se realiza una solicitud, el almacén de datos debería devolver datos de la tabla con el grano correcto. Por lo tanto, cuando se realizan solicitudes al almacén de datos, se debería implementar la funcionalidad del navegador de agregados para ayudar a determinar la tabla correcta con el grano correcto. La cantidad de agregaciones posibles está determinada por cada combinación posible de granularidades de dimensión. Dado que generar todas las agregaciones posibles generaría una gran cantidad de sobrecarga, es una buena idea elegir un subconjunto de tablas en las que realizar agregaciones. La mejor manera de elegir este subconjunto y decidir qué agregaciones generar es monitorear las consultas y diseñar agregaciones que coincidan con los patrones de consulta. [4]

Navegación agregada

La presencia de datos agregados en el modelo dimensional hace que el entorno sea más complejo. Para que esta complejidad adicional sea transparente para el usuario, se utiliza una funcionalidad conocida como navegación agregada para consultar las tablas dimensionales y de hechos con el nivel de detalle correcto. La navegación agregada examina básicamente la consulta para ver si se puede responder utilizando una tabla agregada más pequeña. [5]

Se pueden encontrar implementaciones de navegadores agregados en una variedad de tecnologías:

En general, se recomienda utilizar cualquiera de las tres primeras tecnologías, ya que los beneficios en el último caso se limitan a una única herramienta de BI de interfaz [6].

Desafíos

Referencias

  1. ^ Christopher Adamson, Dominar los agregados de almacenamiento de datos: soluciones para el rendimiento del esquema en estrella , Wiley Publishing, Inc., 2006 ISBN  978-0-471-77709-0 , página 23
  2. ^ Ralph Kimball; Margy Ross (2002). El kit de herramientas para almacenes de datos: la guía completa para el modelado dimensional (segunda edición). Wiley Computer Publishing. pág. 356. ISBN 0-471-20024-7.
  3. ^ "Navegación agregada sin metadatos (casi)". 15 de agosto de 1995. Archivado desde el original el 11 de diciembre de 2010. Consultado el 22 de noviembre de 2010 .
  4. ^ Kimball y el kit de herramientas de almacenamiento de datos, pág. 355.
  5. ^ Kimball y el kit de herramientas de almacenamiento de datos, pág. 137.
  6. ^ Kimball y el kit de herramientas de almacenamiento de datos, pág. 354.