Almacén de datos

En informática , un almacén de datos ( DW o DWH ), también conocido como almacén de datos empresarial ( EDW ), es un sistema utilizado para informes y análisis de datos y se considera un componente central de la inteligencia empresarial . ^[1] Los almacenes de datos son depósitos centrales de datos integrados de una o más fuentes dispares. Almacenan datos actuales e históricos en un solo lugar ^[2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa. ^[3] Esto es beneficioso para las empresas, ya que les permite interrogar y extraer información de sus datos y tomar decisiones. ^[4]

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como marketing o ventas). Los datos pueden pasar a través de un almacén de datos operativo y pueden requerir una limpieza de datos ^[2] para operaciones adicionales a fin de garantizar la calidad de los datos antes de que se utilicen en el almacén de datos para generar informes.

Extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT) son los dos enfoques principales utilizados para construir un sistema de almacenamiento de datos.

Variantes

Almacenamiento de datos basado en ETL

El típico almacén de datos basado en extracción, transformación y carga (ETL) ^[5] utiliza capas de preparación , integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena datos sin procesar extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra conjuntos de datos dispares mediante la transformación de los datos de la capa de preparación y, a menudo, almacena estos datos transformados en una base de datos de almacén de datos operativos (ODS). Luego, los datos integrados se trasladan a otra base de datos, a menudo denominada base de datos de almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo denominados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones a veces se denomina esquema en estrella . La capa de acceso ayuda a los usuarios a recuperar datos. ^[6]

La fuente principal de datos se limpia , transforma, cataloga y se pone a disposición de los gerentes y otros profesionales de negocios para la extracción de datos , el procesamiento analítico en línea , la investigación de mercado y el apoyo a la toma de decisiones . ^[7] Sin embargo, los medios para recuperar y analizar datos, extraer, transformar y cargar datos, y administrar el diccionario de datos también se consideran componentes esenciales de un sistema de almacenamiento de datos. Muchas referencias al almacenamiento de datos utilizan este contexto más amplio. Por lo tanto, una definición ampliada de almacenamiento de datos incluye herramientas de inteligencia empresarial , herramientas para extraer, transformar y cargar datos en el repositorio, y herramientas para gestionar y recuperar metadatos .

Almacenamiento de datos basado en ELT

El almacenamiento de datos basado en ELT elimina una herramienta ETL independiente para la transformación de datos. En cambio, mantiene un área de preparación dentro del propio almacén de datos. En este enfoque, los datos se extraen de sistemas de origen heterogéneos y luego se cargan directamente en el almacén de datos, antes de que se produzca cualquier transformación. Luego, todas las transformaciones necesarias se manejan dentro del propio almacén de datos. Finalmente, los datos manipulados se cargan en tablas de destino en el mismo almacén de datos.

Beneficios

Un almacén de datos mantiene una copia de la información de los sistemas de transacciones de origen. Esta complejidad arquitectónica brinda la oportunidad de:

Integre datos de múltiples fuentes en una única base de datos y modelo de datos. Más congregación de datos en una única base de datos para que se pueda utilizar un único motor de consulta para presentar datos en un ODS .
Mitigue el problema de la contención de bloqueo del nivel de aislamiento de la base de datos en los sistemas de procesamiento de transacciones causada por intentos de ejecutar consultas de análisis grandes y de larga duración en bases de datos de procesamiento de transacciones.
Mantenga el historial de datos , incluso si los sistemas de transacciones de origen no lo hacen.
Integre datos de múltiples sistemas de origen, lo que permite una vista central de toda la empresa. Este beneficio siempre es valioso, pero especialmente cuando la organización ha crecido mediante fusión.
Mejore la calidad de los datos proporcionando códigos y descripciones coherentes, marcando o incluso corrigiendo datos incorrectos.
Presentar la información de la organización de manera consistente.
Proporcionar un único modelo de datos común para todos los datos de interés, independientemente de su fuente.
Reestructurar los datos para que tengan sentido para los usuarios empresariales.
Reestructure los datos para que ofrezcan un excelente rendimiento de consultas, incluso para consultas analíticas complejas, sin afectar los sistemas operativos .
Agregue valor a las aplicaciones comerciales operativas, en particular a los sistemas de gestión de relaciones con los clientes (CRM).
Facilite la redacción de consultas de apoyo a la toma de decisiones.
Organizar y eliminar ambigüedades de datos repetitivos.

Genérico

El entorno para almacenes de datos y mercados incluye lo siguiente:

Sistemas de origen que proporcionan datos al almacén o mercado;
Tecnología y procesos de integración de datos necesarios para preparar los datos para su uso;
Diferentes arquitecturas para almacenar datos en el almacén de datos o en los mercados de datos de una organización;
Diferentes herramientas y aplicaciones para una variedad de usuarios;
Deben existir metadatos, calidad de los datos y procesos de gobernanza para garantizar que el almacén o mercado cumpla con sus propósitos.

Con respecto a los sistemas fuente enumerados anteriormente, R. Kelly Rainer afirma: "Una fuente común para los datos en los almacenes de datos son las bases de datos operativas de la empresa, que pueden ser bases de datos relacionales". ^[8]

Respecto a la integración de datos, Rainer afirma: "Es necesario extraer datos de los sistemas fuente, transformarlos y cargarlos en un data mart o almacén". ^[8]

Rainer analiza el almacenamiento de datos en el almacén de datos o en los mercados de datos de una organización. ^[8]

Los metadatos son datos sobre datos. "El personal de TI necesita información sobre fuentes de datos; nombres de bases de datos, tablas y columnas; programas de actualización y medidas de uso de datos". ^[8]

Hoy en día, las empresas más exitosas son aquellas que pueden responder con rapidez y flexibilidad a los cambios y oportunidades del mercado. Una clave para esta respuesta es el uso efectivo y eficiente de los datos y la información por parte de analistas y gerentes. ^[8] Un "almacén de datos" es un depósito de datos históricos que es organizado por el sujeto para apoyar a los tomadores de decisiones en la organización. ^[8] Una vez que los datos se almacenan en un data mart o almacén, se puede acceder a ellos.

Sistemas relacionados

Un data mart es una forma simple de almacén de datos que se centra en un solo tema (o área funcional), por lo que extrae datos de un número limitado de fuentes, como ventas, finanzas o marketing. Los data marts suelen ser creados y controlados por un único departamento dentro de una organización. Las fuentes podrían ser sistemas operativos internos, un almacén de datos central o datos externos. ^[9] La desnormalización es la norma para las técnicas de modelado de datos en este sistema. Dado que los data marts generalmente cubren solo un subconjunto de los datos contenidos en un almacén de datos, suelen ser más fáciles y rápidos de implementar.

Los tipos de data marts incluyen data marts dependientes , independientes e híbridos. ^{[ se necesita aclaración ]}

El procesamiento analítico en línea (OLAP) se caracteriza por un volumen relativamente bajo de transacciones. Las consultas suelen ser muy complejas e implican agregaciones. Para los sistemas OLAP, el tiempo de respuesta es una medida eficaz. Las aplicaciones OLAP son ampliamente utilizadas por técnicas de Minería de Datos . Las bases de datos OLAP almacenan datos históricos agregados en esquemas multidimensionales (generalmente esquemas en estrella ). Los sistemas OLAP suelen tener una latencia de datos de unas pocas horas, a diferencia de los data marts, donde se espera que la latencia sea más cercana a un día. El enfoque OLAP se utiliza para analizar datos multidimensionales de múltiples fuentes y perspectivas. Las tres operaciones básicas en OLAP son Roll-up (Consolidación), Drill-down y Slicing & Dicing.

El procesamiento de transacciones en línea (OLTP) se caracteriza por una gran cantidad de transacciones cortas en línea (INSERTAR, ACTUALIZAR, ELIMINAR). Los sistemas OLTP enfatizan el procesamiento de consultas muy rápido y el mantenimiento de la integridad de los datos en entornos de acceso múltiple. Para los sistemas OLTP, la efectividad se mide por la cantidad de transacciones por segundo. Las bases de datos OLTP contienen datos detallados y actuales. El esquema utilizado para almacenar bases de datos transaccionales es el modelo de entidad (normalmente 3NF ). ^[10] La normalización es la norma para las técnicas de modelado de datos en este sistema.

El análisis predictivo consiste en encontrar y cuantificar patrones ocultos en los datos utilizando modelos matemáticos complejos que pueden usarse para predecir resultados futuros. El análisis predictivo se diferencia de OLAP en que OLAP se centra en el análisis de datos históricos y es de naturaleza reactiva, mientras que el análisis predictivo se centra en el futuro. Estos sistemas también se utilizan para la gestión de relaciones con los clientes (CRM).

Historia

El concepto de almacenamiento de datos se remonta a finales de los años 1980 ^[11] cuando los investigadores de IBM Barry Devlin y Paul Murphy desarrollaron el "almacén de datos empresariales". En esencia, el concepto de almacenamiento de datos tenía como objetivo proporcionar un modelo arquitectónico para el flujo de datos desde los sistemas operativos hasta los entornos de soporte de decisiones . El concepto intentó abordar los diversos problemas asociados con este flujo, principalmente los altos costos asociados al mismo. En ausencia de una arquitectura de almacenamiento de datos, se requería una enorme cantidad de redundancia para soportar múltiples entornos de soporte de decisiones. En las corporaciones más grandes, era típico que múltiples entornos de soporte de decisiones operaran de forma independiente. Aunque cada entorno servía a diferentes usuarios, a menudo requerían gran parte de los mismos datos almacenados. El proceso de recopilación, limpieza e integración de datos de diversas fuentes, generalmente de sistemas operativos existentes a largo plazo (generalmente denominados sistemas heredados ), generalmente se replicaba en parte para cada entorno. Además, los sistemas operativos se reexaminaban con frecuencia a medida que surgían nuevas necesidades de apoyo a las decisiones. A menudo, los nuevos requisitos requerían recopilar, limpiar e integrar nuevos datos de " data marts " que estaban diseñados para que los usuarios pudieran acceder fácilmente a ellos.

Además, con la publicación de The IRM Imperative (Wiley & Sons, 1991) de James M. Kerr, se hizo popular la idea de gestionar y poner un valor en dólares a los recursos de datos de una organización y luego informar ese valor como un activo en un balance general. . En el libro, Kerr describió una manera de poblar bases de datos de áreas temáticas a partir de datos derivados de sistemas impulsados por transacciones para crear un área de almacenamiento donde los datos resumidos podrían aprovecharse aún más para informar la toma de decisiones ejecutivas. Este concepto sirvió para promover una mayor reflexión sobre cómo se podría desarrollar y gestionar un almacén de datos de forma práctica dentro de cualquier empresa.

Desarrollos clave en los primeros años del almacenamiento de datos:

Década de 1960: General Mills y Dartmouth College , en un proyecto de investigación conjunto, desarrollan los términos dimensiones y hechos . ^[12]
Década de 1970: ACNielsen e IRI proporcionan mercados de datos dimensionales para las ventas minoristas. ^[12]
Década de 1970: Bill Inmon comienza a definir y analizar el término almacén de datos. ^{[ cita necesaria ]}^[13]
1975: Sperry Univac presenta MAPPER (mantener, preparar y producir informes ejecutivos), un sistema de generación de informes y gestión de bases de datos que incluye el primer 4GL del mundo . Es la primera plataforma diseñada para construir Centros de Información (un precursor de la tecnología de almacenamiento de datos contemporánea).
1983 – Teradata presenta la computadora de base de datos DBC/1012 diseñada específicamente para apoyar la toma de decisiones. ^[14]
1984 – Metaphor Computer Systems , fundada por David Liddle y Don Massaro, lanza un paquete de hardware/software y una GUI para que los usuarios empresariales creen un sistema analítico y de gestión de bases de datos.
1988 – Barry Devlin y Paul Murphy publican el artículo "Una arquitectura para un sistema de información y negocios" donde introducen el término "almacén de datos empresariales". ^[15]
1990 – Red Brick Systems, fundada por Ralph Kimball , presenta Red Brick Warehouse, un sistema de gestión de bases de datos específicamente para el almacenamiento de datos.
1991: James M. Kerr escribe The IRM Imperative, que sugiere que los recursos de datos podrían declararse como un activo en un balance, fomentando el interés comercial en el establecimiento de almacenes de datos.
1991 – Prism Solutions, fundada por Bill Inmon , presenta Prism Warehouse Manager, un software para desarrollar un almacén de datos.
1992 – Bill Inmon publica el libro Construyendo el almacén de datos . ^[dieciséis]
1995 – Se funda el Data Warehousing Institute, una organización con fines de lucro que promueve el almacenamiento de datos.
1996 – Ralph Kimball publica el libro The Data Warehouse Toolkit . ^[17]
1998 – Se implementa el modelado focal como un enfoque de modelado de almacén de datos de conjunto (híbrido), con Patrik Lager como uno de los principales impulsores. ^[18]^[19]
2000 – Dan Linstedt lanza al dominio público el modelado de bóveda de datos , concebido en 1990 como una alternativa a Inmon y Kimball para proporcionar almacenamiento histórico a largo plazo de datos provenientes de múltiples sistemas operativos, con énfasis en el seguimiento, la auditoría y la resiliencia al cambio. del modelo de datos fuente.
2008 – Bill Inmon , junto con Derek Strauss y Genia Neushloss, publica "DW 2.0: La arquitectura para la próxima generación de almacenamiento de datos", explicando su enfoque de arriba hacia abajo para el almacenamiento de datos y acuñando el término almacenamiento de datos 2.0.
2008 – El modelado de anclaje se formalizó en un artículo presentado en la Conferencia Internacional sobre Modelado Conceptual y ganó el premio al mejor artículo ^[20]
2012 – Bill Inmon desarrolla y hace pública una tecnología conocida como "desambiguación textual". La desambiguación textual aplica contexto al texto sin formato y reformatea el texto sin formato y el contexto en un formato de base de datos estándar. Una vez que el texto sin formato pasa por la desambiguación textual, se puede acceder a él y analizarlo de manera fácil y eficiente mediante tecnología de inteligencia empresarial estándar. La desambiguación textual se logra mediante la ejecución de ETL textual. La desambiguación textual es útil dondequiera que se encuentre texto sin formato, como en documentos, Hadoop, correo electrónico, etc.
2013: se lanzó Data Vault 2.0, ^[21]^[22] con algunos cambios menores en el método de modelado, así como integración con las mejores prácticas de otras metodologías, arquitecturas e implementaciones, incluidos principios ágiles y CMMI.

Almacenamiento de informacion

Hechos

Un hecho es un valor o medida que representa un hecho sobre la entidad o sistema gestionado.

Se dice que los hechos, tal como los informa la entidad que informa, están en bruto; por ejemplo, en un sistema de telefonía móvil, si una BTS ( estación transceptora base ) recibe 1.000 solicitudes de asignación de canales de tráfico, asigna 820 y rechaza las restantes, informaría tres hechos o mediciones a un sistema de gestión:

tch_req_total = 1000
tch_req_success = 820
tch_req_fail = 180

Los hechos en el nivel bruto se agregan aún más a niveles superiores en varias dimensiones para extraer de ellos más información relevante para el servicio o el negocio. Estos se denominan agregados o resúmenes o hechos agregados.

Por ejemplo, si hay tres BTS en una ciudad, entonces los hechos anteriores se pueden agregar desde el nivel de BTS hasta el nivel de ciudad en la dimensión de red. Por ejemplo:

tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

Enfoque dimensional versus normalizado para el almacenamiento de datos

Existen tres o más enfoques principales para almacenar datos en un almacén de datos; los enfoques más importantes son el enfoque dimensional y el enfoque normalizado.

El enfoque dimensional se refiere al enfoque de Ralph Kimball en el que se afirma que el almacén de datos debe modelarse utilizando un modelo dimensional/ esquema en estrella . El enfoque normalizado, también llamado modelo 3NF (Tercera Forma Normal), se refiere al enfoque de Bill Inmon en el que se afirma que el almacén de datos debe modelarse utilizando un modelo ER/modelo normalizado. ^[23]

Enfoque dimensional

En un enfoque dimensional , los datos de las transacciones se dividen en "hechos", que generalmente son datos de transacciones numéricos, y " dimensiones ", que son la información de referencia que da contexto a los hechos. Por ejemplo, una transacción de ventas se puede dividir en hechos como la cantidad de productos pedidos y el precio total pagado por los productos, y en dimensiones como fecha del pedido, nombre del cliente, número de producto, envío del pedido y facturación. ubicaciones y vendedor responsable de recibir el pedido.

Una ventaja clave de un enfoque dimensional es que el almacén de datos es más fácil de entender y utilizar para el usuario. Además, la recuperación de datos del almacén de datos tiende a realizarse muy rápidamente. ^[17] Las estructuras dimensionales son fáciles de entender para los usuarios empresariales, porque la estructura se divide en medidas/hechos y contexto/dimensiones. Los hechos están relacionados con los procesos de negocio y el sistema operativo de la organización, mientras que las dimensiones que los rodean contienen el contexto sobre la medición (Kimball, Ralph 2008). Otra ventaja que ofrece el modelo dimensional es que no implica una base de datos relacional cada vez. Por tanto, este tipo de técnica de modelado es muy útil para consultas de usuarios finales en el almacén de datos.

El modelo de hechos y dimensiones también puede entenderse como un cubo de datos . ^[24] Donde las dimensiones son las coordenadas categóricas en un cubo multidimensional, el hecho es un valor correspondiente a las coordenadas.

Las principales desventajas del enfoque dimensional son las siguientes:

Para mantener la integridad de los hechos y las dimensiones, es complicado cargar el almacén de datos con datos de diferentes sistemas operativos.
Es difícil modificar la estructura del almacén de datos si la organización que adopta el enfoque dimensional cambia la forma en que hace negocios.

Enfoque normalizado

In the normalized approach, the data in the data warehouse are stored following, to a degree, database normalization rules. Tables are grouped together by subject areas that reflect general data categories (e.g., data on customers, products, finance, etc.). The normalized structure divides data into entities, which creates several tables in a relational database. When applied in large enterprises the result is dozens of tables that are linked together by a web of joins. Furthermore, each of the created entities is converted into separate physical tables when the database is implemented (Kimball, Ralph 2008). The main advantage of this approach is that it is straightforward to add information into the database. Some disadvantages of this approach are that, because of the number of tables involved, it can be difficult for users to join data from different sources into meaningful information and to access the information without a precise understanding of the sources of data and of the data structure of the data warehouse.

Both normalized and dimensional models can be represented in entity–relationship diagrams as both contain joined relational tables. The difference between the two models is the degree of normalization (also known as Normal Forms). These approaches are not mutually exclusive, and there are other approaches. Dimensional approaches can involve normalizing data to a degree (Kimball, Ralph 2008).

In Information-Driven Business,^[25] Robert Hillard proposes an approach to comparing the two approaches based on the information needs of the business problem. The technique shows that normalized models hold far more information than their dimensional equivalents (even when the same fields are used in both models) but this extra information comes at the cost of usability. The technique measures information quantity in terms of information entropy and usability in terms of the Small Worlds data transformation measure.^[26]

Design methods

Bottom-up design

In the bottom-up approach, data marts are first created to provide reporting and analytical capabilities for specific business processes. These data marts can then be integrated to create a comprehensive data warehouse. The data warehouse bus architecture is primarily an implementation of "the bus", a collection of conformed dimensions and conformed facts, which are dimensions that are shared (in a specific way) between facts in two or more data marts.^[27]

Top-down design

El enfoque de arriba hacia abajo está diseñado utilizando un modelo de datos empresariales normalizado . Los datos "atómicos" , es decir, los datos con el mayor nivel de detalle, se almacenan en el almacén de datos. A partir del almacén de datos se crean mercados de datos dimensionales que contienen datos necesarios para procesos comerciales específicos o departamentos específicos. ^[28]

Diseño híbrido

Los almacenes de datos a menudo se parecen a la arquitectura de centro y radios . Los sistemas heredados que alimentan el almacén a menudo incluyen gestión de relaciones con los clientes y planificación de recursos empresariales , lo que genera grandes cantidades de datos. Para consolidar estos diversos modelos de datos y facilitar el proceso de carga de transformación de extracción , los almacenes de datos a menudo utilizan un almacén de datos operativo , cuya información se analiza en el almacén de datos real. Para reducir la redundancia de datos, los sistemas más grandes suelen almacenar los datos de forma normalizada. Luego se pueden construir mercados de datos para informes específicos sobre el almacén de datos.

Una base de datos de almacén de datos híbrida (también llamada conjunto) se mantiene en tercera forma normal para eliminar la redundancia de datos . Sin embargo, una base de datos relacional normal no es eficiente para informes de inteligencia empresarial donde prevalece el modelado dimensional. Los pequeños mercados de datos pueden comprar datos del almacén consolidado y utilizar los datos específicos filtrados para las tablas de hechos y las dimensiones requeridas. El almacén de datos proporciona una única fuente de información que los data marts pueden leer, proporcionando una amplia gama de información empresarial. La arquitectura híbrida permite reemplazar un almacén de datos con un repositorio de gestión de datos maestros donde podría residir la información operativa (no estática).

Los componentes de modelado de la bóveda de datos siguen una arquitectura de centro y radios. Este estilo de modelado es un diseño híbrido que consta de las mejores prácticas tanto de la tercera forma normal como del esquema en estrella . El modelo de bóveda de datos no es una verdadera tercera forma normal y rompe algunas de sus reglas, pero es una arquitectura de arriba hacia abajo con un diseño de abajo hacia arriba. El modelo de bóveda de datos está diseñado para ser estrictamente un almacén de datos. No está diseñado para ser accesible para el usuario final, lo que, una vez construido, aún requiere el uso de un centro de datos o un área de lanzamiento basada en esquemas en estrella para fines comerciales.

Características

Hay características básicas que definen los datos en el almacén de datos que incluyen orientación temática, integración de datos, datos variables en el tiempo, no volátiles y granularidad de los datos.

Orientado al tema

A diferencia de los sistemas operativos, los datos del almacén de datos giran en torno a los sujetos de la empresa. La orientación temática no es la normalización de la base de datos . La orientación temática puede resultar realmente útil para la toma de decisiones. Reunir los objetos necesarios se denomina orientado a temas.

Integrado

Los datos que se encuentran dentro del almacén de datos están integrados. Dado que proviene de varios sistemas operativos, se deben eliminar todas las inconsistencias. Las coherencias incluyen convenciones de nomenclatura, medición de variables, estructuras de codificación, atributos físicos de los datos, etc.

Variante de tiempo

Si bien los sistemas operativos reflejan los valores actuales ya que respaldan las operaciones diarias, los datos del almacén de datos representan un horizonte temporal prolongado (hasta 10 años), lo que significa que almacenan principalmente datos históricos. Está destinado principalmente a la extracción de datos y la previsión. (Por ejemplo, si un usuario busca un patrón de compra de un cliente específico, debe consultar los datos de las compras actuales y pasadas). ^[29]

No volátil

Los datos del almacén de datos son de solo lectura, lo que significa que no se pueden actualizar, crear ni eliminar (a menos que exista una obligación reglamentaria o legal para hacerlo). ^[30]

Opciones

Agregación

En el proceso de almacenamiento de datos, los datos se pueden agregar en mercados de datos en diferentes niveles de abstracción. El usuario puede empezar a mirar el total de unidades de venta de un producto en toda una región. Luego, el usuario mira los estados de esa región. Finalmente, podrán examinar las tiendas individuales en un estado determinado. Por lo tanto, normalmente el análisis comienza en un nivel superior y profundiza hasta niveles inferiores de detalles. ^[29]

Virtualización

Con la virtualización de datos , los datos utilizados permanecen en sus ubicaciones originales y se establece un acceso en tiempo real para permitir análisis en múltiples fuentes creando un almacén de datos virtual. Esto puede ayudar a resolver algunas dificultades técnicas, como problemas de compatibilidad al combinar datos de varias plataformas, reducir el riesgo de error causado por datos defectuosos y garantizar que se utilicen los datos más recientes. Además, evitar la creación de una nueva base de datos que contenga información personal puede facilitar el cumplimiento de las normas de privacidad. Sin embargo, con la virtualización de datos, la conexión a todas las fuentes de datos necesarias debe estar operativa, ya que no existe una copia local de los datos, lo cual es uno de los principales inconvenientes de este enfoque. ^[31]

Arquitectura

Los diferentes métodos utilizados para construir/organizar un almacén de datos especificado por una organización son numerosos. El hardware utilizado, el software creado y los recursos de datos específicamente necesarios para el funcionamiento correcto de un almacén de datos son los componentes principales de la arquitectura del almacén de datos. Todos los almacenes de datos tienen múltiples fases en las que se modifican y afinan los requisitos de la organización. ^[32]

Frente al sistema operativo

Los sistemas operativos están optimizados para la preservación de la integridad de los datos y la velocidad de registro de las transacciones comerciales mediante el uso de la normalización de la base de datos y un modelo entidad-relación . Los diseñadores de sistemas operativos generalmente siguen las 12 reglas de normalización de bases de datos de Codd para garantizar la integridad de los datos. Los diseños de bases de datos completamente normalizadas (es decir, aquellos que satisfacen todas las reglas de Codd) a menudo dan como resultado que la información de una transacción comercial se almacene en docenas o cientos de tablas. Las bases de datos relacionales son eficientes para gestionar las relaciones entre estas tablas. Las bases de datos tienen un rendimiento de inserción/actualización muy rápido porque sólo una pequeña cantidad de datos en esas tablas se ve afectada cada vez que se procesa una transacción. Para mejorar el rendimiento, los datos más antiguos suelen eliminarse periódicamente de los sistemas operativos.

Los almacenes de datos están optimizados para patrones de acceso analítico. Los patrones de acceso analítico generalmente implican seleccionar campos específicos y rara vez select *, o nunca, seleccionar todos los campos/columnas, como es más común en las bases de datos operativas. Debido a estas diferencias en los patrones de acceso, las bases de datos operativas (en términos generales, OLTP) se benefician del uso de un DBMS orientado a filas, mientras que las bases de datos analíticas (en términos generales, OLAP) se benefician del uso de un DBMS orientado a columnas . A diferencia de los sistemas operativos que mantienen una instantánea del negocio, los almacenes de datos generalmente mantienen un historial infinito que se implementa a través de procesos ETL que migran periódicamente datos desde los sistemas operativos al almacén de datos.

Evolución en el uso de la organización

Estos términos se refieren al nivel de sofisticación de un almacén de datos:

Almacén de datos operativos fuera de línea: Los almacenes de datos en esta etapa de evolución se actualizan en un ciclo de tiempo regular (generalmente diario, semanal o mensual) desde los sistemas operativos y los datos se almacenan en una base de datos integrada orientada a la generación de informes.
Almacén de datos fuera de línea: Los almacenes de datos en esta etapa se actualizan periódicamente a partir de los datos de los sistemas operativos y los datos del almacén de datos se almacenan en una estructura de datos diseñada para facilitar la presentación de informes.
Almacén de datos puntual: El almacenamiento de datos integrado en línea representa la etapa de almacenamiento de datos en tiempo real, los datos en el almacén se actualizan para cada transacción realizada en los datos de origen.
Almacén de datos integrado: Estos almacenes de datos reúnen datos de diferentes áreas de negocio, para que los usuarios puedan buscar la información que necesitan en otros sistemas. ^[33]

Ver también

Busque almacén de datos en Wikcionario, el diccionario gratuito.

Lista de software de inteligencia empresarial
Lago de datos : sistema o repositorio de datos almacenados en su formato natural/sin procesar.
Malla de datos : marco de arquitectura distribuida para la gestión de datos
Marketing.xml
Virtual Database Manager : software para representar datos no relacionales en un almacén de datos virtual

Referencias

^ Dedic, Nedim; Stanier, Clara (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Campamento, Olivier; Cordeiro, José (eds.). Una evaluación de los desafíos del multilingüismo en el desarrollo del almacén de datos. Conferencia internacional sobre sistemas de información empresarial, 25 a 28 de abril de 2016, Roma, Italia (PDF) . Actas de la 18.ª Conferencia Internacional sobre Sistemas de Información Empresarial (ICEIS 2016) . vol. 1. SciTePress. págs. 196-206. doi : 10.5220/0005858401960206 . ISBN 978-989-758-187-8. Archivado (PDF) desde el original el 22 de mayo de 2018.
^ ab "9 razones por las que fracasan los proyectos de almacenamiento de datos". blog.rjmetrics.com. 4 de diciembre de 2014 . Consultado el 30 de abril de 2017 .
^ "Exploración de los almacenes de datos y la calidad de los datos". spotlessdata.com. Archivado desde el original el 26 de julio de 2018 . Consultado el 30 de abril de 2017 .
^ "¿Qué es un almacén de datos? | Conceptos clave | Servicios web de Amazon". Servicios web de Amazon, Inc. Consultado el 13 de febrero de 2023 .
^ "¿Qué es Big Data?". spotlessdata.com. Archivado desde el original el 17 de febrero de 2017 . Consultado el 30 de abril de 2017 .
^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimización del sistema de almacenamiento de datos: simplificación de informes y análisis". Actas de la IJCA sobre conferencias y talleres internacionales sobre tendencias emergentes en tecnología (ICWET) . Fundación de Ciencias de la Computación. 9 (6): 33–37.
^ Marakas y O'Brien 2009
^ abcdef Rainer, R. Kelly; Cegielski, Casey G. (1 de mayo de 2012). Introducción a los sistemas de información: habilitación y transformación de negocios, cuarta edición (edición Kindle). Wiley. págs.127, 128, 130, 131, 133. ISBN 978-1118129401.
^ "Conceptos de Data Mart". Oráculo. 2007.
^ "OLTP frente a OLAP". Datawarehouse4u.Info . 2009. Podemos dividir los sistemas de TI en transaccionales (OLTP) y analíticos (OLAP). En general, podemos suponer que los sistemas OLTP proporcionan datos de origen a los almacenes de datos, mientras que los sistemas OLAP ayudan a analizarlos.
^ "La historia hasta ahora". 2002-04-15. Archivado desde el original el 8 de julio de 2008 . Consultado el 21 de septiembre de 2008 .
^ ab Kimball 2013, pág. 15
^ "La auditoría del Data Warehouse Framework" (PDF) . Archivado (PDF) desde el original el 12 de mayo de 2012.
^ Paul Gillin (20 de febrero de 1984). "¿Teradata revivirá un mercado?". Mundo de la informática . págs.43, 48 . Consultado el 13 de marzo de 2017 .
^ Devlin, Licenciatura en Letras; Murphy, PT (1988). "Una arquitectura para un sistema de información y empresarial". Revista de sistemas IBM . 27 : 60–80. doi :10.1147/sj.271.0060.
^ Inmon, Bill (1992). Construyendo el almacén de datos. Wiley. ISBN 0-471-56960-7.
^ ab Kimball, Ralph (2011). El kit de herramientas de almacenamiento de datos . Wiley. pag. 237.ISBN 978-0-470-14977-5.
^ Introducción al marco focal
^ Meetup de modelado de datos en Múnich: introducción a Focal con Patrik Lager - YouTube
^ Consideraciones, Olle; Rönnbäck, Lars; Bergholtz, María; Johannesson, Paul; Wohed, Petia (2009). "Modelado de anclajes". Actas de la 28ª Conferencia Internacional sobre Modelado Conceptual . Emergencias '09. Gramado, Brasil: Springer-Verlag: 234–250. ISBN 978-3-642-04839-5.
^ Una breve introducción a #datavault 2.0
^ Se anuncia Data Vault 2.0
^ Golfarelli, Matteo; Maio, Darío; Rizzi, Stefano (1 de junio de 1998). "El modelo de hechos dimensional: un modelo conceptual para almacenes de datos". Revista Internacional de Sistemas de Información Cooperativa . 07 (2n03): 215–247. doi :10.1142/S0218843098000118. ISSN 0218-8430.
^ "Introducción a los cubos de datos".
^ Hillard, Robert (2010). Negocios impulsados por la información . Wiley. ISBN 978-0-470-62577-4.
^ "Teoría de la información y estrategia de inteligencia empresarial - Medida de transformación de datos de mundos pequeños - MIKE2.0, la metodología de código abierto para el desarrollo de la información". Mike2.openmethodology.org . Consultado el 14 de junio de 2013 .
^ "El nombre inapropiado de abajo hacia arriba: DecisionWorks Consulting". Consultoría DecisionWorks . 17 de septiembre de 2003 . Consultado el 6 de marzo de 2016 .
^ Gartner, De almacenes de datos, almacenes de datos operativos, mercados de datos y dependencias de datos, diciembre de 2005
^ ab Paulraj., Ponniah (2010). Fundamentos del almacenamiento de datos para profesionales de TI . Ponniah, Paulraj. (2ª ed.). Hoboken, Nueva Jersey: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.
^ Inmon, William H. (2005). Construcción del almacén de datos (4ª ed.). Indianápolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.
^ Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Oportunidades de los datos urbanos recopilados para ciudades inteligentes". Ciudades inteligentes IET . 4 (4): 275–291. doi : 10.1049/smc2.12044 . S2CID 253467923.
^ Gupta, Satinder Bal; Mittal, Aditya (2009). Introducción al Sistema de Gestión de Bases de Datos. Publicaciones Laxmi. ISBN 9788131807248.
^ "Almacén de datos". 6 de abril de 2019.

Otras lecturas

Davenport, Thomas H. y Harris, Jeanne G. Competir en análisis: la nueva ciencia de ganar (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
Ganczarski, Joe. Implementaciones de almacenamiento de datos: estudio de factores críticos de implementación (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8
Kimball, Ralph y Ross, Margy. Tercera edición del kit de herramientas de almacenamiento de datos (2013) Wiley, ISBN 978-1-118-53080-1
Linstedt, Graziano, Hultgren. El negocio del modelado de bóvedas de datos, segunda edición (2010) Dan Linstedt, ISBN 978-1-4357-1914-9
Guillermo Inmón. Construcción del almacén de datos (2005) John Wiley and Sons, ISBN 978-81-265-0645-3