Almacén de datos

En informática , un almacén de datos ( DW o DWH ), también conocido como almacén de datos empresarial ( EDW ), es un sistema utilizado para la elaboración de informes y el análisis de datos y es un componente fundamental de la inteligencia empresarial . ^{[1] Los almacenes de datos son}repositorios centrales de datos integrados de fuentes dispares. Almacenan datos actuales e históricos organizados de manera que sea fácil crear informes, realizar consultas y obtener información a partir de los datos. ^[2] A diferencia de las bases de datos, están destinados a ser utilizados por analistas y gerentes para ayudar a tomar decisiones organizacionales. ^[3]

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como marketing o ventas). Los datos pueden pasar por un almacén de datos operativos y pueden requerir una limpieza de datos para operaciones adicionales a fin de garantizar la calidad de los datos antes de que se utilicen en el almacén de datos para la elaboración de informes.

Los dos enfoques principales para construir un sistema de almacenamiento de datos son extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT).

Componentes

El entorno para almacenes y centros de datos incluye lo siguiente:

Sistemas fuente de datos (a menudo, las bases de datos operativas de la empresa, como las bases de datos relacionales ^[3] );
Tecnología y procesos de integración de datos para extraer datos de los sistemas de origen, transformarlos y cargarlos en un almacén o depósito de datos; ^[3]
Arquitecturas para almacenar datos en los almacenes o marts;
Herramientas y aplicaciones para distintos usuarios;
Metadatos, calidad de datos y procesos de gobernanza. Los metadatos incluyen fuentes de datos (nombres de bases de datos, tablas y columnas), cronogramas de actualización y medidas de uso de datos. ^[3]

Sistemas relacionados

Bases de datos operativas

Las bases de datos operativas están optimizadas para la preservación de la integridad de los datos y la velocidad de registro de las transacciones comerciales mediante el uso de la normalización de bases de datos y un modelo entidad-relación . Los diseñadores de sistemas operativos generalmente siguen las 12 reglas de normalización de bases de datos de Codd para garantizar la integridad de los datos. Los diseños de bases de datos completamente normalizadas (es decir, aquellos que satisfacen todas las reglas de Codd) a menudo dan como resultado que la información de una transacción comercial se almacene en docenas o cientos de tablas. Las bases de datos relacionales son eficientes en la gestión de las relaciones entre estas tablas. Las bases de datos tienen un rendimiento de inserción/actualización muy rápido porque solo una pequeña cantidad de datos en esas tablas se ve afectada por cada transacción. Para mejorar el rendimiento, los datos más antiguos se purgan periódicamente.

Los almacenes de datos están optimizados para patrones de acceso analítico, que generalmente implican la selección de campos específicos en lugar de todos los campos, como es común en las bases de datos operativas. Debido a estas diferencias en el acceso, las bases de datos operativas (en sentido amplio, OLTP) se benefician del uso de un sistema de administración de bases de datos (DBMS) orientado a filas, mientras que las bases de datos analíticas (en sentido amplio, OLAP) se benefician del uso de un DBMS orientado a columnas . Los sistemas operativos mantienen una instantánea del negocio, mientras que los almacenes mantienen datos históricos a través de procesos ETL que migran periódicamente datos de los sistemas operativos al almacén.

El procesamiento analítico en línea (OLAP) se caracteriza por una baja tasa de transacciones y consultas complejas que involucran agregaciones. El tiempo de respuesta es una medida de rendimiento eficaz de los sistemas OLAP. Las aplicaciones OLAP se utilizan ampliamente para la minería de datos . Las bases de datos OLAP almacenan datos históricos agregados en esquemas multidimensionales (generalmente esquemas en estrella ). Los sistemas OLAP suelen tener una latencia de datos de unas pocas horas, mientras que la latencia del data mart es más cercana a un día. El enfoque OLAP se utiliza para analizar datos multidimensionales desde múltiples fuentes y perspectivas. Las tres operaciones básicas en OLAP son la acumulación (consolidación), el desglose y el corte y segmentación.

El procesamiento de transacciones en línea (OLTP) se caracteriza por una gran cantidad de transacciones cortas en línea (INSERTAR, ACTUALIZAR, ELIMINAR). Los sistemas OLTP enfatizan el procesamiento rápido de consultas y el mantenimiento de la integridad de los datos en entornos de acceso múltiple. Para los sistemas OLTP, el rendimiento es la cantidad de transacciones por segundo. Las bases de datos OLTP contienen datos detallados y actuales. El esquema utilizado para almacenar bases de datos transaccionales es el modelo de entidad (generalmente 3NF ). ^[4] La normalización es la norma para las técnicas de modelado de datos en este sistema.

El análisis predictivo consiste en encontrar y cuantificar patrones ocultos en los datos mediante modelos matemáticos complejos y predecir resultados futuros. Por el contrario, el OLAP se centra en el análisis de datos históricos y es reactivo. Los sistemas predictivos también se utilizan para la gestión de relaciones con los clientes (CRM).

Centros de datos

Un data mart es un almacén de datos simple enfocado en un solo tema o área funcional. Por lo tanto, obtiene datos de un número limitado de fuentes, como ventas, finanzas o marketing. Los data mart suelen ser creados y controlados por un solo departamento de una organización. Las fuentes pueden ser sistemas operativos internos, un almacén de datos central o datos externos. ^[5] Al igual que con los almacenes, los datos almacenados no suelen estar normalizados.

Los tipos de almacenes de datos incluyen almacenes de datos dependientes , independientes e híbridos. ^{[ aclaración necesaria ]}

Variantes

ETL

El almacén de datos típico basado en extracción, transformación y carga (ETL) utiliza capas de preparación , integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena datos sin procesar extraídos de cada uno de los distintos sistemas de datos de origen. La capa de integración integra conjuntos de datos dispares transformando los datos de la capa de preparación, a menudo almacenando estos datos transformados en una base de datos de almacén de datos operativos (ODS). Los datos integrados luego se mueven a otra base de datos, a menudo llamada base de datos de almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo llamados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones a veces se denomina esquema en estrella . La capa de acceso ayuda a los usuarios a recuperar datos. ^[6]

La fuente principal de los datos se limpia , transforma, cataloga y pone a disposición para su uso por parte de gerentes y otros profesionales de negocios para minería de datos , procesamiento analítico en línea , investigación de mercado y soporte de decisiones . ^[7] Sin embargo, los medios para recuperar y analizar datos, extraer, transformar y cargar datos, y administrar el diccionario de datos también se consideran componentes esenciales de un sistema de almacenamiento de datos. Muchas referencias al almacenamiento de datos utilizan este contexto más amplio. Por lo tanto, una definición ampliada de almacenamiento de datos incluye herramientas de inteligencia empresarial , herramientas para extraer, transformar y cargar datos en el repositorio y herramientas para administrar y recuperar metadatos .

Enseñanza del idioma inglés

El almacenamiento de datos basado en ELT elimina la necesidad de una herramienta ETL independiente para la transformación de datos. En su lugar, mantiene un área de almacenamiento temporal dentro del propio almacén de datos. En este enfoque, los datos se extraen de sistemas de origen heterogéneos y luego se cargan directamente en el almacén de datos, antes de que se produzca cualquier transformación. Todas las transformaciones necesarias se gestionan luego dentro del propio almacén de datos. Por último, los datos manipulados se cargan en tablas de destino en el mismo almacén de datos.

Beneficios

Un almacén de datos mantiene una copia de la información de los sistemas de transacciones de origen. Esta complejidad arquitectónica brinda la oportunidad de:

Integrar datos de múltiples fuentes en una única base de datos y un único modelo de datos. Mayor concentración de datos en una única base de datos, de modo que se pueda utilizar un único motor de consulta para presentar los datos en un almacén de datos operativo .
Mitigar el problema de la contención de bloqueo a nivel de aislamiento en los sistemas de procesamiento de transacciones causado por consultas de análisis de larga ejecución en bases de datos de procesamiento de transacciones.
Mantener el historial de datos , incluso si los sistemas de transacciones de origen no lo hacen.
Integrar datos de múltiples sistemas de origen, lo que permite una vista central de toda la empresa. Este beneficio siempre es valioso, pero especialmente cuando la organización crece mediante fusiones.
Mejore la calidad de los datos proporcionando códigos y descripciones consistentes, marcando o incluso corrigiendo datos incorrectos.
Presentar la información de la organización de forma consistente.
Proporcionar un único modelo de datos común para todos los datos de interés, independientemente de la fuente de datos.
Reestructurar los datos para que tengan sentido para los usuarios comerciales.
Reestructurar los datos para que ofrezcan un excelente rendimiento de consulta, incluso para consultas analíticas complejas, sin afectar los sistemas operativos .
Agregue valor a las aplicaciones comerciales operativas, en particular a los sistemas de gestión de relaciones con los clientes (CRM).
Haga que las consultas de apoyo a la toma de decisiones sean más fáciles de redactar.
Organizar y desambiguar datos repetitivos.

Historia

El concepto de almacenamiento de datos se remonta a finales de los años 1980 ^[8], cuando los investigadores de IBM Barry Devlin y Paul Murphy desarrollaron el "almacén de datos empresariales". En esencia, el concepto de almacenamiento de datos tenía por objeto proporcionar un modelo arquitectónico para el flujo de datos desde los sistemas operativos a los entornos de apoyo a la toma de decisiones . El concepto intentaba abordar los diversos problemas asociados a este flujo, principalmente los altos costes asociados a él. En ausencia de una arquitectura de almacenamiento de datos, se requería una enorme cantidad de redundancia para dar soporte a múltiples entornos de apoyo a la toma de decisiones. En las grandes corporaciones, era habitual que varios entornos de apoyo a la toma de decisiones funcionaran de forma independiente. Aunque cada entorno prestaba servicio a distintos usuarios, a menudo requerían gran parte de los mismos datos almacenados. El proceso de recopilación, limpieza e integración de datos de diversas fuentes, normalmente de sistemas operativos existentes a largo plazo (normalmente denominados sistemas heredados ), se solía replicar en parte para cada entorno. Además, los sistemas operativos se reexaminaban con frecuencia a medida que surgían nuevos requisitos de apoyo a la toma de decisiones. A menudo, los nuevos requisitos exigían recopilar, limpiar e integrar nuevos datos de " depósitos de datos " diseñados para que los usuarios pudieran acceder fácilmente a ellos.

Además, con la publicación de The Imperative (Wiley & Sons, 1991) de James M. Kerr, se popularizó la idea de gestionar y poner un valor en dólares a los recursos de datos de una organización y luego reportar ese valor como un activo en un balance general. En el libro, Kerr describió una forma de llenar bases de datos de áreas temáticas a partir de datos derivados de sistemas impulsados por transacciones para crear un área de almacenamiento donde los datos resumidos se pudieran aprovechar aún más para informar la toma de decisiones ejecutivas. Este concepto sirvió para promover una mayor reflexión sobre cómo se podría desarrollar y gestionar un almacén de datos de manera práctica dentro de cualquier empresa.

Principales avances en los primeros años del almacenamiento de datos:

Década de 1960 – General Mills y Dartmouth College , en un proyecto de investigación conjunto, desarrollan los términos dimensiones y hechos . ^[9]
Década de 1970: ACNielsen e IRI ofrecen almacenes de datos dimensionales para ventas minoristas. ^[9]
Década de 1970: Bill Inmon comienza a definir y analizar el término almacén de datos. ^[10]^[11]^[12]
1975 – Sperry Univac presenta MAPPER (MAintain, Prepare, and Produce Executive Reports), un sistema de gestión de bases de datos y generación de informes que incluye el primer 4GL del mundo . Es la primera plataforma diseñada para construir centros de información (un precursor de la tecnología de almacenamiento de datos contemporánea).
1983 – Teradata presenta la computadora de base de datos DBC/1012 diseñada específicamente para el soporte de decisiones. ^[13]
1984 – Metaphor Computer Systems , fundada por David Liddle y Don Massaro, lanza un paquete de hardware/software y una GUI para que los usuarios comerciales creen un sistema de análisis y gestión de bases de datos.
1988 – Barry Devlin y Paul Murphy publican el artículo “Una arquitectura para un sistema de información y negocios” donde introducen el término “almacén de datos de negocios”. ^[14]
1990 – Red Brick Systems, fundada por Ralph Kimball , presenta Red Brick Warehouse, un sistema de gestión de bases de datos específicamente para el almacenamiento de datos.
1991 - James M. Kerr escribe The Imperative (El imperativo IRM), que sugiere que los recursos de datos podrían contabilizarse como un activo en un balance general, lo que fomenta el interés comercial en el establecimiento de almacenes de datos.
1991 – Prism Solutions, fundada por Bill Inmon , presenta Prism Warehouse Manager, un software para desarrollar un almacén de datos.
1992 – Bill Inmon publica el libro Building the Data Warehouse . ^[15]
1995 – Se funda el Data Warehousing Institute, una organización con fines de lucro que promueve el almacenamiento de datos.
1996 – Ralph Kimball publica el libro The Data Warehouse Toolkit . ^[16]
1998 – El modelado focal se implementa como un enfoque de modelado de almacén de datos de conjunto (híbrido), con Patrik Lager como uno de los principales impulsores. ^[17]^[18]
2000 – Dan Linstedt publica en el dominio público el modelado de bóveda de datos , concebido en 1990 como una alternativa a Inmon y Kimball para proporcionar almacenamiento histórico a largo plazo de datos provenientes de múltiples sistemas operativos, con énfasis en el rastreo, la auditoría y la resiliencia al cambio del modelo de datos de origen.
2008 – Bill Inmon , junto con Derek Strauss y Genia Neushloss, publica "DW 2.0: La arquitectura para la próxima generación de almacenamiento de datos", explicando su enfoque de arriba hacia abajo para el almacenamiento de datos y acuñando el término "almacenamiento de datos 2.0".
2008 – El modelado de anclaje se formalizó en un artículo presentado en la Conferencia Internacional sobre Modelado Conceptual y ganó el premio al mejor artículo ^[19]
2012 – Bill Inmon desarrolla y publica una tecnología conocida como "desambiguación textual". La desambiguación textual aplica contexto a texto sin formato y reformatea el texto sin formato y el contexto en un formato de base de datos estándar. Una vez que el texto sin formato pasa por la desambiguación textual, se puede acceder a él y analizarlo de manera fácil y eficiente mediante tecnología de inteligencia empresarial estándar. La desambiguación textual se logra mediante la ejecución de ETL textual. La desambiguación textual es útil dondequiera que se encuentre texto sin formato, como en documentos, Hadoop, correo electrónico, etc.
2013 – Se lanzó Data Vault 2.0, ^[20]^[21] con algunos cambios menores en el método de modelado, así como integración con las mejores prácticas de otras metodologías, arquitecturas e implementaciones, incluidos los principios ágiles y CMMI.

Organización de datos

Hechos

Un hecho es un valor o medida en el sistema que se gestiona.

Los datos brutos son los que informa la entidad que realiza los informes. Por ejemplo, en un sistema de telefonía móvil, si una estación base transceptora (BTS) recibe 1000 solicitudes de asignación de canal de tráfico, asigna 820 y rechaza el resto, podría informar tres datos a un sistema de gestión:

tch_req_total = 1000
tch_req_success = 820
tch_req_fail = 180

Los datos brutos se agregan a niveles superiores en varias dimensiones para extraer información más relevante para el servicio o el negocio. Estos se denominan datos agregados o resúmenes.

Por ejemplo, si hay tres estaciones base en una ciudad, los datos anteriores se pueden agregar al nivel de la ciudad en la dimensión de red. Por ejemplo:

tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

Enfoque dimensional versus enfoque normalizado para el almacenamiento de datos

Los dos enfoques más importantes para almacenar datos en un almacén son el dimensional y el normalizado. El enfoque dimensional utiliza un esquema en estrella , tal como lo propuso Ralph Kimball . El enfoque normalizado, también llamado tercera forma normal (3NF), es un modelo normalizado entidad-relacional propuesto por Bill Inmon. ^[22]

Enfoque dimensional

En un enfoque dimensional , los datos de transacción se dividen en "hechos", que suelen ser datos numéricos de transacción, y " dimensiones ", que son la información de referencia que da contexto a los hechos. Por ejemplo, una transacción de venta se puede dividir en hechos como la cantidad de productos pedidos y el precio total pagado por los productos, y en dimensiones como la fecha del pedido, el nombre del cliente, el número de producto, las ubicaciones de envío y facturación del pedido y el vendedor responsable de recibir el pedido.

Este enfoque dimensional facilita la comprensión de los datos y acelera su recuperación. ^[16] Las estructuras dimensionales son fáciles de entender para los usuarios comerciales porque la estructura se divide en mediciones/hechos y contexto/dimensiones. Los hechos están relacionados con los procesos comerciales y el sistema operativo de la organización, y las dimensiones son el contexto sobre ellos (Kimball, Ralph 2008). Otra ventaja es que el modelo dimensional no involucra una base de datos relacional cada vez. Por lo tanto, este tipo de técnica de modelado es muy útil para las consultas de los usuarios finales en el almacén de datos.

El modelo de hechos y dimensiones también puede entenderse como un cubo de datos , ^[23] donde las dimensiones son las coordenadas categóricas en un cubo multidimensional, el hecho es un valor correspondiente a las coordenadas.

Las principales desventajas del enfoque dimensional son:

Es complicado mantener la integridad de los hechos y las dimensiones, cargando el almacén de datos con datos de diferentes sistemas operativos.
Es difícil modificar la estructura del almacén si la organización cambia su forma de hacer negocios.

Enfoque normalizado

En el enfoque normalizado, los datos del almacén se almacenan siguiendo, hasta cierto punto, las reglas de normalización de bases de datos . Las tablas de bases de datos relacionales normalizadas se agrupan en áreas temáticas (por ejemplo, clientes, productos y finanzas). Cuando se utilizan en grandes empresas, el resultado son docenas de tablas vinculadas por una red de uniones (Kimball, Ralph 2008).

La principal ventaja de este enfoque es que resulta sencillo agregar información a la base de datos. Las desventajas incluyen que, debido a la gran cantidad de tablas, puede resultar difícil para los usuarios combinar datos de diferentes fuentes para obtener información significativa y acceder a la información sin un conocimiento preciso de las fuentes de datos y la estructura de datos del almacén de datos.

Tanto los modelos normalizados como los dimensionales pueden representarse en diagramas de entidad-relación porque ambos contienen tablas relacionales unidas. La diferencia entre ellos es el grado de normalización. Estos enfoques no son mutuamente excluyentes y existen otros enfoques. Los enfoques dimensionales pueden implicar la normalización de los datos hasta cierto punto (Kimball, Ralph 2008).

En Information-Driven Business ^[24] , Robert Hillard compara los dos enfoques en función de las necesidades de información del problema empresarial. Concluye que los modelos normalizados contienen mucha más información que sus equivalentes dimensionales (incluso cuando se utilizan los mismos campos en ambos modelos), pero a costa de la usabilidad. La técnica mide la cantidad de información en términos de entropía de información y la usabilidad en términos de la medida de transformación de datos Small Worlds. ^[25]

Métodos de diseño

Diseño de abajo hacia arriba

En el enfoque ascendente , los data marts se crean primero para proporcionar capacidades de análisis y generación de informes para procesos empresariales específicos . Estos data marts pueden luego integrarse para crear un almacén de datos integral. La arquitectura del bus del almacén de datos es principalmente una implementación del "bus", una colección de dimensiones y hechos conformados, que son dimensiones que se comparten (de una manera específica) entre hechos en dos o más data marts. ^[26]

Diseño de arriba hacia abajo

El enfoque descendente se diseña utilizando un modelo de datos empresariales normalizado . Los datos "atómicos" , es decir, los datos con el mayor nivel de detalle, se almacenan en el almacén de datos. A partir del almacén de datos se crean almacenes de datos dimensionales que contienen los datos necesarios para procesos empresariales específicos o departamentos específicos. ^[27]

Diseño híbrido

Los almacenes de datos suelen parecerse a la arquitectura de centro y radios . Los sistemas heredados que alimentan el almacén suelen incluir la gestión de relaciones con los clientes y la planificación de recursos empresariales , lo que genera grandes cantidades de datos. Para consolidar estos diversos modelos de datos y facilitar el proceso de extracción, transformación y carga , los almacenes de datos suelen utilizar un almacén de datos operativo , cuya información se analiza en el almacén de datos real. Para reducir la redundancia de datos, los sistemas más grandes suelen almacenar los datos de forma normalizada. A continuación, se pueden crear almacenes de datos para informes específicos sobre el almacén de datos.

Una base de datos de almacén de datos híbrida (también llamada de conjunto) se mantiene en la tercera forma normal para eliminar la redundancia de datos . Sin embargo, una base de datos relacional normal no es eficiente para los informes de inteligencia empresarial en los que prevalece el modelado dimensional. Los pequeños almacenes de datos pueden comprar datos del almacén consolidado y utilizar los datos específicos filtrados para las tablas de hechos y las dimensiones requeridas. El almacén de datos proporciona una única fuente de información desde la que pueden leer los almacenes de datos, lo que proporciona una amplia gama de información empresarial. La arquitectura híbrida permite que un almacén de datos se reemplace por un repositorio de gestión de datos maestros donde podría residir la información operativa (no estática).

Los componentes de modelado de la bóveda de datos siguen una arquitectura de tipo hub and spokes. Este estilo de modelado es un diseño híbrido, que consta de las mejores prácticas tanto de la tercera forma normal como del esquema en estrella . El modelo de bóveda de datos no es una verdadera tercera forma normal y rompe algunas de sus reglas, pero es una arquitectura de arriba hacia abajo con un diseño de abajo hacia arriba. El modelo de bóveda de datos está diseñado para ser estrictamente un almacén de datos. No está diseñado para que el usuario final pueda acceder a él, lo que, cuando se crea, aún requiere el uso de un almacén de datos o un área de lanzamiento basada en esquema en estrella para fines comerciales.

Características

Hay características básicas que definen los datos en el almacén de datos, que incluyen la orientación temática, la integración de datos, los datos variantes en el tiempo, los datos no volátiles y la granularidad de los datos.

Orientado a temas

A diferencia de los sistemas operativos, los datos del almacén de datos giran en torno a los sujetos de la empresa. La orientación a sujetos no es una normalización de bases de datos . La orientación a sujetos puede ser muy útil para la toma de decisiones. La recopilación de los objetos necesarios se denomina orientación a sujetos.

Integrado

Los datos que se encuentran en el almacén de datos están integrados. Dado que provienen de varios sistemas operativos, se deben eliminar todas las inconsistencias. Las inconsistencias incluyen convenciones de nomenclatura, medición de variables, estructuras de codificación, atributos físicos de los datos, etc.

Variante temporal

Mientras que los sistemas operativos reflejan valores actuales, ya que respaldan las operaciones diarias, los datos del almacén de datos representan un horizonte temporal largo (hasta 10 años), lo que significa que almacena principalmente datos históricos. Está destinado principalmente a la minería de datos y la previsión. (Por ejemplo, si un usuario busca un patrón de compra de un cliente específico, el usuario necesita consultar los datos sobre las compras actuales y pasadas). ^[28]

No volátil

Los datos del almacén de datos son de sólo lectura, lo que significa que no se pueden actualizar, crear ni eliminar (a menos que exista una obligación reglamentaria o legal de hacerlo). ^[29]

Opciones

Agregación

En el proceso de almacenamiento de datos, los datos se pueden agregar en almacenes de datos en diferentes niveles de abstracción. El usuario puede comenzar mirando las unidades de venta totales de un producto en una región entera. Luego, el usuario mira los estados de esa región. Finalmente, puede examinar las tiendas individuales en un estado determinado. Por lo tanto, normalmente, el análisis comienza en un nivel superior y se profundiza en niveles inferiores de detalles. ^[28]

Virtualización

Con la virtualización de datos , los datos utilizados permanecen en sus ubicaciones originales y se establece un acceso en tiempo real para permitir el análisis de múltiples fuentes creando un almacén de datos virtual. Esto puede ayudar a resolver algunas dificultades técnicas, como problemas de compatibilidad al combinar datos de varias plataformas, reducir el riesgo de error causado por datos defectuosos y garantizar que se utilicen los datos más recientes. Además, evitar la creación de una nueva base de datos que contenga información personal puede facilitar el cumplimiento de las regulaciones de privacidad. Sin embargo, con la virtualización de datos, la conexión a todas las fuentes de datos necesarias debe estar operativa ya que no hay una copia local de los datos, lo que es uno de los principales inconvenientes de este enfoque. ^[30]

Arquitectura

Los distintos métodos que se utilizan para construir u organizar un almacén de datos especificado por una organización son numerosos. El hardware utilizado, el software creado y los recursos de datos específicamente requeridos para el correcto funcionamiento de un almacén de datos son los componentes principales de la arquitectura del almacén de datos. Todos los almacenes de datos tienen múltiples fases en las que se modifican y ajustan los requisitos de la organización. ^[31]

Evolución en el uso de las organizaciones

Estos términos se refieren al nivel de sofisticación de un almacén de datos:

Almacén de datos operativos sin conexión: Los almacenes de datos en esta etapa de evolución se actualizan en un ciclo de tiempo regular (generalmente diario, semanal o mensual) desde los sistemas operativos y los datos se almacenan en una base de datos integrada orientada a informes.
Almacén de datos sin conexión: En esta etapa, los almacenes de datos se actualizan periódicamente a partir de los datos de los sistemas operativos y los datos del almacén de datos se guardan en una estructura de datos diseñada para facilitar la generación de informes.
Almacén de datos a tiempo: El almacenamiento de datos integrado en línea representa la etapa de almacenamiento de datos en tiempo real; los datos en el almacén se actualizan para cada transacción realizada en los datos de origen.
Almacén de datos integrado: Estos almacenes de datos reúnen datos de diferentes áreas de negocio, de modo que los usuarios pueden buscar la información que necesitan en otros sistemas. ^[32]

Véase también

Busque almacén de datos en Wikcionario, el diccionario libre.

Lista de software de inteligencia empresarial
Lago de datos : sistema o repositorio de datos almacenados en su formato natural/sin procesar
Malla de datos : marco de arquitectura distribuida para la gestión de datos

Referencias

^ Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José (eds.). Una evaluación de los desafíos del multilingüismo en el desarrollo de almacenes de datos. Conferencia internacional sobre sistemas de información empresarial, 25-28 de abril de 2016, Roma, Italia (PDF) . Actas de la 18.ª Conferencia internacional sobre sistemas de información empresarial (ICEIS 2016) . Vol. 1. SciTePress. págs. 196-206. doi : 10.5220/0005858401960206 . ISBN 978-989-758-187-8. Archivado (PDF) del original el 22 de mayo de 2018.
^ "¿Qué es un almacén de datos? | Conceptos clave | Amazon Web Services". Amazon Web Services, Inc. Consultado el 13 de febrero de 2023 .
^ abcd Rainer, R. Kelly; Cegielski, Casey G. (1 de mayo de 2012). Introducción a los sistemas de información: habilitación y transformación de los negocios, 4.ª edición (edición Kindle). Wiley. págs. 127, 128, 130, 131, 133. ISBN 978-1118129401.
^ "OLTP vs. OLAP". Datawarehouse4u.Info . 2009. Podemos dividir los sistemas de TI en transaccionales (OLTP) y analíticos (OLAP). En general, podemos suponer que los sistemas OLTP proporcionan datos de origen a los almacenes de datos, mientras que los sistemas OLAP ayudan a analizarlos.
^ "Conceptos de Data Mart". Oracle. 2007.
^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimización del sistema de almacenamiento de datos: simplificación en la generación de informes y análisis". Actas de la IJCA sobre la Conferencia y taller internacional sobre tendencias emergentes en tecnología (ICWET) . 9 (6). Fundamentos de la informática: 33–37.
^ Marakas y O'Brien 2009
^ "La historia hasta ahora". 15 de abril de 2002. Archivado desde el original el 8 de julio de 2008. Consultado el 21 de septiembre de 2008 .
^ por Kimball 2013, pág. 15
^ "La auditoría del marco de trabajo del almacén de datos" (PDF) . Archivado (PDF) desde el original el 12 de mayo de 2012.
^ Kempe, Shannon (23 de agosto de 2012). "Una breve historia del almacenamiento de datos". DATAVERSITY . Consultado el 10 de mayo de 2024 .
^ "Almacén de datos: qué es y por qué es importante". www.sas.com . Consultado el 10 de mayo de 2024 .
↑ Paul Gillin (20 de febrero de 1984). "¿Teradata revivirá un mercado?". Computer World . pp. 43, 48. Consultado el 13 de marzo de 2017 .
^ Devlin, BA; Murphy, PT (1988). "Una arquitectura para un sistema de información y de negocios". IBM Systems Journal . 27 : 60–80. doi :10.1147/sj.271.0060.
^ Inmon, Bill (1992). Creación del almacén de datos. Wiley. ISBN 0-471-56960-7.
^ de Kimball, Ralph (2011). El kit de herramientas para almacenes de datos . Wiley. pág. 237. ISBN 978-0-470-14977-5.
^ Introducción al marco focal
^ Reunión de modelado de datos en Múnich: Introducción a Focal con Patrik Lager - YouTube
^ Consideraciones, Olle; Rönnbäck, Lars; Bergholtz, María; Johannesson, Paul; Wohed, Petia (2009). "Modelado de anclajes". Actas de la 28ª Conferencia Internacional sobre Modelado Conceptual . Emergencias '09. Gramado, Brasil: Springer-Verlag: 234–250. ISBN 978-3-642-04839-5.
^ Una breve introducción a #datavault 2.0
^ Se anuncia Data Vault 2.0
^ Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (1998-06-01). "El modelo de hechos dimensionales: un modelo conceptual para almacenes de datos". Revista Internacional de Sistemas de Información Cooperativa . 07 (2n03): 215–247. doi :10.1142/S0218843098000118. ISSN 0218-8430.
^ "Introducción a los cubos de datos".
^ Hillard, Robert (2010). Negocios basados en la información . Wiley. ISBN 978-0-470-62577-4.
^ "Teoría de la información y estrategia de inteligencia empresarial - Medida de transformación de datos de Small Worlds - MIKE2.0, la metodología de código abierto para el desarrollo de la información". Mike2.openmethodology.org . Consultado el 14 de junio de 2013 .
^ "El error de denominación de abajo hacia arriba - DecisionWorks Consulting". DecisionWorks Consulting . 17 de septiembre de 2003 . Consultado el 6 de marzo de 2016 .
^ Gartner, De almacenes de datos, almacenes de datos operativos, centros de datos y dependencias de datos, diciembre de 2005
^ ab Paulraj., Ponniah (2010). Fundamentos del almacenamiento de datos para profesionales de TI . Ponniah, Paulraj. (2.ª ed.). Hoboken, NJ: John Wiley & Sons. ISBN 9780470462072.OCLC 662453070 .
^ Inmon, William H. (2005). Creación del almacén de datos (4.ª ed.). Indianápolis, IN: Wiley Pub. ISBN 9780764599446.OCLC 61762085 .
^ Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Oportunidades de los datos urbanos recopilados para ciudades inteligentes". Ciudades inteligentes IET . 4 (4): 275–291. doi : 10.1049/smc2.12044 . S2CID 253467923.
^ Gupta, Satinder Bal; Mittal, Aditya (2009). Introducción al sistema de gestión de bases de datos. Laxmi Publications. ISBN 9788131807248.
^ "Almacén de datos". 6 de abril de 2019.

Lectura adicional

Davenport, Thomas H. y Harris, Jeanne G. Competir con análisis: la nueva ciencia de ganar (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
Ganczarski, Joe. Implementaciones de almacenes de datos: estudio de factores críticos de implementación (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8
Kimball, Ralph y Ross, Margy. The Data Warehouse Toolkit, tercera edición (2013), Wiley, ISBN 978-1-118-53080-1
Linstedt, Graziano, Hultgren. El negocio del modelado de bóvedas de datos, segunda edición (2010) Dan Linstedt, ISBN 978-1-4357-1914-9
William Inmon. Creación de un almacén de datos (2005) John Wiley and Sons, ISBN 978-81-265-0645-3