Procesamiento analítico en línea

El procesamiento analítico en línea , u OLAP ( / ˈ oʊ l æ p / ), es un enfoque para responder rápidamente consultas analíticas multidimensionales (MDA) en informática . ^[1] OLAP es parte de la categoría más amplia de inteligencia empresarial , que también abarca bases de datos relacionales , redacción de informes y minería de datos . ^[2] Las aplicaciones típicas de OLAP incluyen informes comerciales para ventas, marketing , informes de gestión, gestión de procesos de negocio (BPM), ^[3] presupuestación y previsión , informes financieros y áreas similares, con nuevas aplicaciones emergentes, como la agricultura . ^[4]

El término OLAP se creó como una ligera modificación del término tradicional de base de datos de procesamiento de transacciones en línea (OLTP). ^[5]

Las herramientas OLAP permiten a los usuarios analizar datos multidimensionales de forma interactiva desde múltiples perspectivas. OLAP consta de tres operaciones analíticas básicas: consolidación (acumulación), desglose y corte y corte. ^[6]^{: 402–403} La consolidación implica la agregación de datos que se pueden acumular y calcular en una o más dimensiones. Por ejemplo, todas las oficinas de ventas se agrupan en el departamento de ventas o en la división de ventas para anticipar las tendencias de ventas. Por el contrario, el desglose es una técnica que permite a los usuarios navegar a través de los detalles. Por ejemplo, los usuarios pueden ver las ventas de productos individuales que componen las ventas de una región. Cortar y cortar en cubitos es una función mediante la cual los usuarios pueden extraer (cortar) un conjunto específico de datos del cubo OLAP y ver (cortar en cubitos) los cortes desde diferentes puntos de vista. Estos puntos de vista a veces se denominan dimensiones (como observar las mismas ventas por vendedor, por fecha, por cliente, por producto, por región, etc.).

Las bases de datos configuradas para OLAP utilizan un modelo de datos multidimensional, lo que permite consultas analíticas y ad hoc complejas con un tiempo de ejecución rápido. ^[7] Toman prestados aspectos de las bases de datos de navegación , las bases de datos jerárquicas y las bases de datos relacionales.

OLAP suele contrastarse con OLTP (procesamiento de transacciones en línea), que generalmente se caracteriza por consultas mucho menos complejas, en un volumen mayor, para procesar transacciones en lugar de con fines de inteligencia empresarial o generación de informes. Mientras que los sistemas OLAP están optimizados en su mayoría para lectura, OLTP tiene que procesar todo tipo de consultas (lectura, inserción, actualización y eliminación).

Descripción general de los sistemas OLAP

El núcleo de cualquier sistema OLAP es un cubo OLAP (también llamado "cubo multidimensional" o hipercubo ). Consta de hechos numéricos llamados medidas que se clasifican por dimensiones . Las medidas se colocan en las intersecciones del hipercubo, que está abarcado por las dimensiones como un espacio vectorial . La interfaz habitual para manipular un cubo OLAP es una interfaz matricial, como las tablas dinámicas en un programa de hoja de cálculo, que realiza operaciones de proyección a lo largo de las dimensiones, como agregación o promedio.

Los metadatos del cubo generalmente se crean a partir de un esquema de estrella o de copo de nieve o una constelación de tablas de hechos en una base de datos relacional . Las medidas se derivan de los registros de la tabla de hechos y las dimensiones se derivan de las tablas de dimensiones .

Se puede considerar que cada medida tiene un conjunto de etiquetas o metadatos asociados a ella. Una dimensión es lo que describe estas etiquetas ; Proporciona información sobre la medida .

Un ejemplo simple sería un cubo que contiene las ventas de una tienda como medida y la fecha/hora como dimensión . Cada venta tiene una etiqueta de fecha/hora que describe más sobre esa venta.

Por ejemplo:

Tabla de datos de ventas+-------------+----------+| importe_venta | tiempo_id |+-------------+----------+ Dimensión de tiempo| 2008.10| 1234 |----+ +---------+-------------------++-------------+----------+ | | tiempo_id | marca de tiempo | | +---------+---------------------------------+ +---->| 1234 | 20080902 12:35:43 | +---------+---------------------------------+

Bases de datos multidimensionales

La estructura multidimensional se define como "una variación del modelo relacional que utiliza estructuras multidimensionales para organizar datos y expresar las relaciones entre datos". ^[6]^{: 177} La estructura se divide en cubos y los cubos pueden almacenar y acceder a datos dentro de los límites de cada cubo. "Cada celda dentro de una estructura multidimensional contiene datos agregados relacionados con elementos a lo largo de cada una de sus dimensiones". ^[6]^{: 178} Incluso cuando se manipulan los datos, siguen siendo de fácil acceso y continúan constituyendo un formato de base de datos compacto. Los datos siguen estando interrelacionados. La estructura multidimensional es bastante popular para las bases de datos analíticas que utilizan aplicaciones de procesamiento analítico en línea (OLAP). ^[6] Las bases de datos analíticas utilizan estas bases de datos debido a su capacidad para brindar respuestas a consultas comerciales complejas rápidamente. Los datos se pueden ver desde diferentes ángulos, lo que brinda una perspectiva más amplia de un problema a diferencia de otros modelos. ^[8]

Agregaciones

Se ha afirmado que, para consultas complejas, los cubos OLAP pueden producir una respuesta en aproximadamente el 0,1% del tiempo necesario para la misma consulta sobre datos relacionales OLTP . ^[9]^[10] El mecanismo más importante en OLAP que le permite lograr tal rendimiento es el uso de agregaciones . Las agregaciones se crean a partir de la tabla de hechos cambiando la granularidad en dimensiones específicas y agregando datos a lo largo de estas dimensiones, utilizando una función agregada (o función de agregación ). El número de agregaciones posibles está determinado por cada combinación posible de granularidades de dimensiones.

La combinación de todas las agregaciones posibles y los datos base contiene las respuestas a cada consulta que se puede responder a partir de los datos. ^[11]

Debido a que normalmente hay muchas agregaciones que se pueden calcular, a menudo sólo se calcula completamente un número predeterminado; el resto se resuelven bajo demanda. El problema de decidir qué agregaciones (vistas) calcular se conoce como problema de selección de vistas. La selección de vistas puede estar limitada por el tamaño total del conjunto de agregaciones seleccionado, el tiempo para actualizarlas a partir de cambios en los datos base, o ambos. El objetivo de la selección de vistas suele ser minimizar el tiempo promedio para responder consultas OLAP, aunque algunos estudios también minimizan el tiempo de actualización. La selección de vista es NP-Completa . Se han explorado muchos enfoques para el problema, incluidos algoritmos codiciosos , búsqueda aleatoria, algoritmos genéticos y algoritmo de búsqueda A* .

Algunas funciones de agregación se pueden calcular para todo el cubo OLAP calculando previamente los valores para cada celda y luego calculando la agregación para un conjunto de celdas agregando estos agregados, aplicando un algoritmo de divide y vencerás al problema multidimensional para calcularlos de manera eficiente. ^[12] Por ejemplo, la suma general de un resumen es solo la suma de las subsumas en cada celda. Las funciones que se pueden descomponer de esta manera se denominan funciones de agregación descomponibles , e incluyen COUNT, MAX, MIN,y SUM, que se pueden calcular para cada celda y luego agregarlas directamente; éstas se conocen como funciones de agregación autodescomponibles. ^[13] En otros casos, la función agregada se puede calcular calculando números auxiliares para las celdas, sumando estos números auxiliares y finalmente calculando el número total al final; los ejemplos incluyen AVERAGE(seguimiento de la suma y el recuento, división al final) y RANGE(seguimiento del máximo y mínimo, resta al final). En otros casos, la función agregada no se puede calcular sin analizar todo el conjunto de una vez, aunque en algunos casos se pueden calcular aproximaciones; los ejemplos incluyen DISTINCT COUNT, MEDIAN,y MODE; por ejemplo, la mediana de un conjunto no es la mediana de las medianas de los subconjuntos. Estos últimos son difíciles de implementar eficientemente en OLAP, ya que requieren calcular la función agregada en los datos base, ya sea computándolos en línea (lento) o precalculándolos para posibles implementaciones (gran espacio).

Tipos

Los sistemas OLAP se han categorizado tradicionalmente utilizando la siguiente taxonomía. ^[14]

OLAP multidimensional (MOLAP)

MOLAP (procesamiento analítico en línea multidimensional) es la forma clásica de OLAP y a veces se lo denomina simplemente OLAP. MOLAP almacena estos datos en una matriz de almacenamiento multidimensional optimizada, en lugar de en una base de datos relacional.

Algunas herramientas MOLAP requieren el cálculo previo y el almacenamiento de datos derivados, como las consolidaciones, operación conocida como procesamiento. Estas herramientas MOLAP generalmente utilizan un conjunto de datos precalculado denominado cubo de datos . El cubo de datos contiene todas las respuestas posibles a un rango determinado de preguntas. Como resultado, tienen una respuesta muy rápida a las consultas. Por otro lado, la actualización puede llevar mucho tiempo dependiendo del grado de cálculo previo. El cálculo previo también puede conducir a lo que se conoce como explosión de datos.

Otras herramientas MOLAP, en particular aquellas que implementan el modelo de base de datos funcional, no calculan previamente los datos derivados, sino que realizan todos los cálculos a pedido, distintos de los que se solicitaron y almacenaron previamente en un caché.

Ventajas de MOLAP

Rápido rendimiento de consultas gracias al almacenamiento optimizado, la indexación multidimensional y el almacenamiento en caché.
Tamaño de datos en disco más pequeño en comparación con los datos almacenados en una base de datos relacional debido a técnicas de compresión.
Cálculo automatizado de agregados de datos de nivel superior.
Es muy compacto para conjuntos de datos de baja dimensión.
Los modelos de matriz proporcionan indexación natural.
Extracción de datos eficaz lograda mediante la preestructuración de datos agregados.

Desventajas de MOLAP

Dentro de algunos sistemas MOLAP, el paso de procesamiento (carga de datos) puede ser bastante largo, especialmente en grandes volúmenes de datos. Esto normalmente se soluciona haciendo sólo un procesamiento incremental, es decir, procesando sólo los datos que han cambiado (normalmente datos nuevos) en lugar de reprocesar todo el conjunto de datos.
Algunas metodologías MOLAP introducen redundancia de datos.

Productos

Ejemplos de productos comerciales que utilizan MOLAP son Cognos Powerplay, Oracle Database OLAP Option , MicroStrategy , Microsoft Analysis Services , Essbase , TM1 , Jedox e icCube .

OLAP relacional (ROLAP)

ROLAP trabaja directamente con bases de datos relacionales y no requiere cálculo previo. Los datos base y las tablas de dimensiones se almacenan como tablas relacionales y se crean nuevas tablas para contener la información agregada. Depende de un diseño de esquema especializado. Esta metodología se basa en la manipulación de los datos almacenados en la base de datos relacional para dar la apariencia de la funcionalidad tradicional de corte y corte de OLAP. En esencia, cada acción de cortar y cortar en cubitos equivale a agregar una cláusula "WHERE" en la declaración SQL. Las herramientas ROLAP no utilizan cubos de datos precalculados, sino que plantean la consulta a la base de datos relacional estándar y sus tablas para recuperar los datos necesarios para responder la pregunta. Las herramientas ROLAP cuentan con la capacidad de formular cualquier pregunta porque la metodología no se limita al contenido de un cubo. ROLAP también tiene la capacidad de profundizar hasta el nivel más bajo de detalle en la base de datos.

Si bien ROLAP utiliza una fuente de base de datos relacional, generalmente la base de datos debe diseñarse cuidadosamente para su uso. Una base de datos diseñada para OLTP no funcionará bien como base de datos ROLAP. Por lo tanto, ROLAP todavía implica crear una copia adicional de los datos. Sin embargo, dado que es una base de datos, se pueden utilizar una variedad de tecnologías para completar la base de datos.

Ventajas de ROLAP

Se considera que ROLAP es más escalable en el manejo de grandes volúmenes de datos, especialmente modelos con dimensiones con cardinalidad muy alta (es decir, millones de miembros).
Con una variedad de herramientas de carga de datos disponibles y la capacidad de ajustar el código de extracción, transformación y carga (ETL) al modelo de datos particular, los tiempos de carga son generalmente mucho más cortos que con las cargas MOLAP automatizadas.
Los datos se almacenan en una base de datos relacional estándar y se puede acceder a ellos mediante cualquier herramienta de informes SQL (la herramienta no tiene que ser una herramienta OLAP).
Las herramientas ROLAP son mejores para manejar hechos no agregables (por ejemplo, descripciones textuales). Las herramientas MOLAP tienden a sufrir un rendimiento lento al consultar estos elementos.
Al desacoplar el almacenamiento de datos del modelo multidimensional, es posible modelar con éxito datos que de otro modo no encajarían en un modelo dimensional estricto.
El enfoque ROLAP puede aprovechar los controles de autorización de la base de datos , como la seguridad a nivel de fila, mediante la cual los resultados de la consulta se filtran según criterios preestablecidos aplicados, por ejemplo, a un usuario o grupo de usuarios determinado ( cláusula WHERE de SQL ).

Desventajas de ROLAP

Existe un consenso en la industria de que las herramientas ROLAP tienen un rendimiento más lento que las herramientas MOLAP. Sin embargo, consulte la discusión a continuación sobre el rendimiento de ROLAP.
La carga de tablas agregadas debe gestionarse mediante un código ETL personalizado . Las herramientas ROLAP no ayudan con esta tarea. Esto significa tiempo de desarrollo adicional y más código que admitir.
Cuando se omite el paso de crear tablas agregadas, el rendimiento de la consulta se ve afectado porque se deben consultar las tablas detalladas más grandes. Esto se puede solucionar parcialmente agregando tablas agregadas adicionales; sin embargo, todavía no es práctico crear tablas agregadas para todas las combinaciones de dimensiones/atributos.
ROLAP se basa en la base de datos de propósito general para realizar consultas y almacenamiento en caché y, por lo tanto, varias técnicas especiales empleadas por las herramientas MOLAP no están disponibles (como la indexación jerárquica especial). Sin embargo, las herramientas ROLAP modernas aprovechan las últimas mejoras en el lenguaje SQL , como los operadores CUBE y ROLLUP, DB2 Cube Views y otras extensiones SQL OLAP. Estas mejoras de SQL pueden mitigar los beneficios de las herramientas MOLAP .
Dado que las herramientas ROLAP dependen de SQL para todos los cálculos, no son adecuadas cuando el modelo tiene muchos cálculos que no se traducen bien en SQL . Ejemplos de tales modelos incluyen presupuestación, asignaciones, informes financieros y otros escenarios.

Rendimiento de ROLAP

En la industria OLAP, generalmente se percibe que ROLAP puede escalarse para grandes volúmenes de datos, pero sufre un rendimiento de consultas más lento en comparación con MOLAP. La Encuesta OLAP, la encuesta independiente más grande sobre todos los principales productos OLAP, realizada durante 6 años (2001 a 2006) ha encontrado consistentemente que las empresas que usan ROLAP reportan un rendimiento más lento que aquellas que usan MOLAP, incluso cuando se toman en consideración los volúmenes de datos.

Sin embargo, como ocurre con cualquier encuesta, existen una serie de cuestiones sutiles que deben tenerse en cuenta al interpretar los resultados.

La encuesta muestra que las herramientas ROLAP tienen 7 veces más usuarios que las herramientas MOLAP dentro de cada empresa. Los sistemas con más usuarios tenderán a sufrir más problemas de rendimiento en los momentos de mayor uso.
También existe una pregunta sobre la complejidad del modelo, medida tanto en número de dimensiones como en riqueza de cálculos. La encuesta no ofrece una buena manera de controlar estas variaciones en los datos que se analizan.

Desventajas de la flexibilidad

Algunas empresas eligen ROLAP porque tienen la intención de reutilizar tablas de bases de datos relacionales existentes; estas tablas con frecuencia no estarán diseñadas de manera óptima para el uso de OLAP. La flexibilidad superior de las herramientas ROLAP permite que funcione este diseño poco óptimo, pero el rendimiento se ve afectado. Por el contrario, las herramientas MOLAP obligarían a que los datos se vuelvan a cargar en un diseño OLAP óptimo.

OLAP híbrido (HOLAP)

La compensación indeseable entre el coste adicional de ETL y el rendimiento lento de las consultas ha garantizado que la mayoría de las herramientas OLAP comerciales utilicen ahora un enfoque "OLAP híbrido" (HOLAP), que permite al diseñador del modelo decidir qué parte de los datos se almacenará en MOLAP y qué parte de los datos se almacenará en MOLAP. qué porción en ROLAP.

No existe un acuerdo claro en toda la industria sobre lo que constituye "OLAP híbrido", excepto que una base de datos dividirá los datos entre almacenamiento relacional y especializado. ^[15] Por ejemplo, para algunos proveedores, una base de datos HOLAP utilizará tablas relacionales para contener grandes cantidades de datos detallados y utilizará almacenamiento especializado para al menos algunos aspectos de las cantidades más pequeñas de datos más agregados o menos detallados. HOLAP aborda las deficiencias de MOLAP y ROLAP combinando las capacidades de ambos enfoques. Las herramientas HOLAP pueden utilizar tanto cubos precalculados como fuentes de datos relacionales.

Partición vertical

En este modo, HOLAP almacena agregaciones en MOLAP para un rendimiento rápido de las consultas y datos detallados en ROLAP para optimizar el tiempo de procesamiento del cubo .

Partición horizontal

En este modo, HOLAP almacena una porción de datos, generalmente la más reciente (es decir, dividida por dimensión de tiempo) en MOLAP para un rendimiento rápido de las consultas, y los datos más antiguos en ROLAP. Además, podemos almacenar algunos dados en MOLAP y otros en ROLAP, aprovechando el hecho de que en un cuboide grande habrá subregiones densas y escasas. ^[dieciséis]

Productos

El primer producto que proporcionó almacenamiento HOLAP fue Holos , pero la tecnología también estuvo disponible en otros productos comerciales como Microsoft Analysis Services , Oracle Database OLAP Option , MicroStrategy y SAP AG BI Accelerator. El enfoque híbrido OLAP combina la tecnología ROLAP y MOLAP, beneficiándose de la mayor escalabilidad de ROLAP y el cálculo más rápido de MOLAP. Por ejemplo, un servidor HOLAP puede almacenar grandes volúmenes de datos detallados en una base de datos relacional, mientras que las agregaciones se mantienen en un almacén MOLAP separado. Los servicios OLAP de Microsoft SQL Server 7.0 admiten un servidor OLAP híbrido

Comparación

Cada tipo tiene ciertos beneficios, aunque existe desacuerdo sobre los detalles específicos de los beneficios entre los proveedores.

Algunas implementaciones MOLAP son propensas a la explosión de la base de datos, un fenómeno que provoca que las bases de datos MOLAP utilicen grandes cantidades de espacio de almacenamiento cuando se cumplen ciertas condiciones comunes: gran número de dimensiones, resultados precalculados y datos multidimensionales escasos.
MOLAP generalmente ofrece un mejor rendimiento debido a la indexación especializada y optimizaciones de almacenamiento. MOLAP también necesita menos espacio de almacenamiento en comparación con ROLAP porque el almacenamiento especializado suele incluir técnicas de compresión . ^[15]
ROLAP es generalmente más escalable. ^[15] Sin embargo, el preprocesamiento de grandes volúmenes es difícil de implementar de manera eficiente, por lo que con frecuencia se omite. Por lo tanto, el rendimiento de las consultas ROLAP puede verse enormemente afectado.
Dado que ROLAP depende más de la base de datos para realizar cálculos, tiene más limitaciones en las funciones especializadas que puede utilizar.
HOLAP intenta mezclar lo mejor de ROLAP y MOLAP. Por lo general, puede realizar un preprocesamiento rápidamente, escalar bien y ofrecer un buen soporte funcional.

Otros tipos

A veces también se utilizan las siguientes siglas, aunque no están tan extendidas como las anteriores:

WOLAP : OLAP basado en web
DOLAP : OLAP de escritorio
RTOLAP : OLAP en tiempo real
GOLAP – Gráfico OLAP ^[17]^[18]
CaseOLAP : OLAP semántico sensible al contexto, ^[19] desarrollado para aplicaciones biomédicas. ^[20] La plataforma CaseOLAP incluye preprocesamiento de datos (por ejemplo, descarga, extracción y análisis de documentos de texto), indexación y búsqueda con Elasticsearch, creando una estructura de documento funcional llamada Text-Cube, ^[21]^[22]^[23]^[24]^[25] y cuantificar las relaciones frase-categoría definidas por el usuario utilizando el algoritmo central CaseOLAP.

API y lenguajes de consulta

A diferencia de las bases de datos relacionales , que tenían SQL como lenguaje de consulta estándar y API generalizadas como ODBC , JDBC y OLEDB , en el mundo OLAP no hubo tal unificación durante mucho tiempo. La primera API estándar real fue OLE DB para la especificación OLAP de Microsoft , que apareció en 1997 e introdujo el lenguaje de consulta MDX . Varios proveedores de OLAP (tanto de servidor como de cliente) lo adoptaron. En 2001, Microsoft e Hyperion anunciaron la especificación XML para análisis , que fue respaldada por la mayoría de los proveedores de OLAP. Dado que también utilizaba MDX como lenguaje de consulta, MDX se convirtió en el estándar de facto. ^[26] Desde septiembre de 2011, LINQ se puede utilizar para consultar cubos SSAS OLAP desde Microsoft .NET. ^[27]

Productos

Historia

El primer producto que realizó consultas OLAP fue Express, que se lanzó en 1970 (y fue adquirido por Oracle en 1995 a Information Resources). ^[28] Sin embargo, el término no apareció hasta 1993 cuando fue acuñado por Edgar F. Codd , quien ha sido descrito como "el padre de la base de datos relacional". El artículo de Codd ^[1] fue el resultado de una breve tarea de consultoría que Codd realizó para la antigua Arbor Software (más tarde Hyperion Solutions , y en 2007 adquirida por Oracle), como una especie de golpe de marketing. La empresa había lanzado su propio producto OLAP, Essbase , un año antes. Como resultado, las "doce leyes del procesamiento analítico en línea" de Codd fueron explícitas en su referencia a Essbase. Hubo cierta controversia y cuando Computerworld se enteró de que Arbor le pagaba a Codd, se retractó del artículo. El mercado OLAP experimentó un fuerte crecimiento a finales de la década de 1990 con la entrada al mercado de docenas de productos comerciales. En 1998, Microsoft lanzó su primer servidor OLAP: Microsoft Analysis Services , que impulsó una amplia adopción de la tecnología OLAP y la generalizó.

Comparación de productos

Clientes OLAP

Los clientes OLAP incluyen muchos programas de hojas de cálculo como Excel, aplicaciones web, SQL, herramientas de panel, etc. Muchos clientes admiten la exploración de datos interactiva donde los usuarios seleccionan dimensiones y medidas de interés. Algunas dimensiones se utilizan como filtros (para dividir y dividir los datos), mientras que otras se seleccionan como ejes de una tabla dinámica o un gráfico dinámico. Los usuarios también pueden variar el nivel de agregación (para desglosar o acumular) la vista mostrada. Los clientes también pueden ofrecer una variedad de widgets gráficos, como controles deslizantes, mapas geográficos, mapas de calor y más, que pueden agruparse y coordinarse como paneles. Una lista extensa de clientes aparece en la columna de visualización de la tabla de comparación de servidores OLAP .

Estructura del mercado

A continuación se muestra una lista de los principales proveedores de OLAP en 2006, con cifras en millones de dólares estadounidenses . ^[29]

Fuente abierta

Apache Pinot se utiliza en LinkedIn, Cisco, Uber, Slack, Stripe, DoorDash, Target, Walmart, Amazon y Microsoft para ofrecer análisis escalables en tiempo real con baja latencia. ^[30] Puede ingerir datos de fuentes de datos fuera de línea (como Hadoop y archivos planos), así como de fuentes en línea (como Kafka). Pinot está diseñado para escalar horizontalmente.
El servidor Mondrian OLAP es un servidor OLAP de código abierto escrito en Java . Admite el lenguaje de consulta MDX , XML para análisis y las especificaciones de interfaz olap4j.
Apache Doris es una base de datos analítica en tiempo real de código abierto basada en la arquitectura MPP. Puede admitir escenarios de consulta puntual de alta concurrencia y análisis complejos de alto rendimiento. ^[31]
Apache Druid es un popular almacén de datos distribuido de código abierto para consultas OLAP que varias organizaciones utilizan a escala en producción.
Apache Kylin es un almacén de datos distribuido para consultas OLAP desarrollado originalmente por eBay.
Cubes (servidor OLAP) es otra implementación liviana de kit de herramientas de código abierto de la funcionalidad OLAP en el lenguaje de programación Python con ROLAP incorporado.
ClickHouse es un DBMS bastante nuevo orientado a columnas que se centra en tiempos de respuesta y procesamiento rápidos.
DuckDB ^{[32] es un sistema de gestión de bases de datos SQL OLAP}^[33] en proceso .
MonetDB es un RDBMS SQL maduro de código abierto orientado a columnas diseñado para consultas OLAP.

Ver también

Referencias

Citas

^ ab Codd EF; Codd SB y Salley CT (1993). "Proporcionar OLAP (procesamiento analítico en línea) a los analistas de usuarios: un mandato de TI" (PDF) . Codd y fecha, Inc. Consultado el 5 de marzo de 2008 .^{[ enlace muerto permanente ]}
^ Deepak Pareek (2007). Inteligencia de Negocios para las Telecomunicaciones. Prensa CRC. págs.294 págs. ISBN 978-0-8493-8792-0. Consultado el 18 de marzo de 2008 .
^ Apóstolos Benisis (2010). Gestión de procesos de negocio: un cubo de datos para analizar datos de simulación de procesos de negocio para la toma de decisiones. VDM Verlag Dr. Müller eK págs. 204 págs. ISBN 978-3-639-22216-6.
^ Abdullah, Ahsan (noviembre de 2009). "Análisis de la incidencia de la cochinilla en el cultivo de algodón mediante la herramienta ADSS-OLAP (Online Analytical Processing)". Computadoras y Electrónica en la Agricultura . 69 (1): 59–72. Código Bib : 2009CEAgr..69...59A. doi :10.1016/j.compag.2009.07.003.
^ "Libro blanco del Consejo OLAP" (PDF) . Consejo OLAP. 1997 . Consultado el 18 de marzo de 2008 .
^ abcd O'Brien, JA y Marakas, GM (2009). Sistemas de información de gestión (9ª ed.). Boston, MA: McGraw-Hill/Irwin.
^ Hari Mailvaganam (2007). "Introducción a OLAP: ¡cortar, cortar en dados y perforar!". Revisión del almacenamiento de datos . Consultado el 18 de marzo de 2008 .
^ Williams, C., Garza, VR, Tucker, S, Marcus, AM (24 de enero de 1994). Los modelos multidimensionales aumentan las opciones de visualización. InfoWorld, 16(4)
^ MicroStrategy, incorporada (1995). "El caso de OLAP relacional" (PDF) . Consultado el 20 de marzo de 2008 .
^ Surajit Chaudhuri y Umeshwar Dayal (1997). "Una descripción general del almacenamiento de datos y la tecnología OLAP". Rec. SIGMOD . 26 (1): 65. CiteSeerX 10.1.1.211.7178 . doi :10.1145/248603.248616. S2CID 8125630.
^ Gris, Jim ; Chaudhuri, Surajit; Laico, Andrés; Reichart, Don; Venkatrao, Murali; Pellow, Frank; Pirahesh, Hamid (1997). "Cubo de datos: {A} operador de agregación relacional que generaliza agrupación por, tabulación cruzada y subtotales". J. Minería de datos y descubrimiento de conocimientos . 1 (1): 29–53. arXiv : cs/0701155 . doi :10.1023/A:1009726021843. S2CID 12502175 . Consultado el 20 de marzo de 2008 .
^ Zhang 2017, pag. 1.
^ Jesús, Baquero y Almeida 2011, 2.1 Funciones descomponibles, págs.
^ Nigel Pendse (27 de junio de 2006). "Arquitecturas OLAP". Informe OLAP. Archivado desde el original el 24 de enero de 2008 . Consultado el 17 de marzo de 2008 .
^ abc Bach Pedersen, Torben; S. Jensen, Christian (diciembre de 2001). "Tecnología de bases de datos multidimensionales". Sistemas distribuidos en línea . 34 (12): 40–46. doi : 10.1109/2.970558. ISSN 0018-9162.
^ Kaser, Owen; Lemire, Daniel (2006). "Reordenación de valores de atributos para OLAP híbrido eficiente". Ciencias de la Información . 176 (16): 2304–2336. arXiv : cs/0702143 . doi :10.1016/j.ins.2005.09.005.
^ "Esta semana en análisis de entidades y gráficos". Datanami . 7 de diciembre de 2016 . Consultado el 8 de marzo de 2018 .
^ "Cambridge Semantics anuncia compatibilidad con AnzoGraph para bases de datos Amazon Neptune y Graph". Tendencias y aplicaciones de bases de datos . 15 de febrero de 2018 . Consultado el 8 de marzo de 2018 .
^ Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, lanza; Voss, Clara; Han, Jiawei (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) .
^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista americana de fisiología. Corazón y Fisiología Circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912 . PMID 29775406.
^ Lee, S.; Kim, N.; Kim, J. (2014). "Un cubo de datos y análisis multidimensional para texto no estructurado y redes sociales". 2014 Cuarta Conferencia Internacional IEEE sobre Big Data y Computación en la Nube . págs. 761–764. doi :10.1109/BDCloud.2014.117. ISBN 978-1-4799-6719-3. S2CID 229585.
^ Ding, B.; Lin, XC; Han, J.; Zhai, C.; Srivastava, A.; Oza, Carolina del Norte (diciembre de 2011). "Búsqueda eficiente basada en palabras clave para las K celdas principales en el cubo de texto". Transacciones IEEE sobre conocimiento e ingeniería de datos . 23 (12): 1795–1810. doi :10.1109/TKDE.2011.34. S2CID 13960227.
^ Ding, B.; Zhao, B.; Lin, CX; Han, J.; Zhai, C. (2010). "TopCells: búsqueda basada en palabras clave de los documentos agregados top-k en un cubo de texto". 2010 IEEE 26ª Conferencia Internacional sobre Ingeniería de Datos (ICDE 2010) . págs. 381–384. CiteSeerX 10.1.1.215.7504 . doi :10.1109/ICDE.2010.5447838. ISBN 978-1-4244-5445-7. S2CID 14649087.
^ Lin, CX; Ding, B.; Han, K.; Zhu, F.; Zhao, B. (2008). "Cubo de texto: cálculo de medidas de IR para análisis de bases de datos de texto multidimensional". 2008 Octava Conferencia Internacional IEEE sobre Minería de Datos . págs. 905–910. doi :10.1109/icdm.2008.135. ISBN 978-0-7695-3502-9. S2CID 1522480. {{cite book}}: |journal=ignorado ( ayuda )
^ Liu, X.; Tang, K.; Hancock, J.; Han, J.; Canción, M.; Xu, R.; Pokorny, B. (21 de marzo de 2013). "Computación social, modelado y predicción conductual-cultural. SBP 2013. Apuntes de conferencias en informática". En Greenberg, AM; Kennedy, WG; Bos, ND (eds.). Un enfoque de cubo de texto para el comportamiento humano, social y cultural en la transmisión de Twitter (7812 ed.). Berlín, Heidelberg: Springer. págs. 321–330. ISBN 978-3-642-37209-4.
^ Nigel Pendse (23 de agosto de 2007). "Comentario: guerras de API OLAP". Informe OLAP. Archivado desde el original el 28 de mayo de 2008 . Consultado el 18 de marzo de 2008 .
^ "Proveedor de marco de entidad SSAS para LINQ a SSAS OLAP".
^ Nigel Pendse (23 de agosto de 2007). "Los orígenes de los productos OLAP actuales". Informe OLAP. Archivado desde el original el 21 de diciembre de 2007 . Consultado el 27 de noviembre de 2007 .
^ Nigel Pendse (2006). "Mercado OLAP". Informe OLAP . Consultado el 17 de marzo de 2008 .
^ Yegulalp, Serdar (11 de junio de 2015). "LinkedIn llena otro nicho de SQL en Hadoop". InfoMundo . Consultado el 19 de noviembre de 2016 .
^ "Apache Doris". Github . Comunidad Apache Doris . Consultado el 5 de abril de 2023 .
^ "Un sistema de gestión de bases de datos SQL OLAP en proceso". PatoDB . Consultado el 10 de diciembre de 2022 .
^ Anand, Chillar (17 de noviembre de 2022). "Rastreo común en una computadora portátil: extracción de un subconjunto de datos". Página de Avilés . Consultado el 10 de diciembre de 2022 .

Fuentes

Jesús, Paulo; Baquero, Carlos; Paulo Sergio Almeida (2011). "Una encuesta sobre algoritmos de agregación de datos distribuidos". arXiv : 1110.0725 [cs.DC].
Zhang, Chao (2017). Función agregada simétrica y asimétrica en computación masivamente paralela (informe técnico).

Otras lecturas

Daniel Lemire (diciembre de 2007). "Almacén de datos y bibliografía orientada a la investigación OLAP-A".

Erik Thomsen. (1997). Soluciones OLAP: construcción de sistemas de información multidimensionales, segunda edición . John Wiley e hijos. ISBN 978-0-471-14931-6.

Ling Liu y Tamer M. Özsu (Eds.) (2009). "Enciclopedia de sistemas de bases de datos, 4100 p. 60 ilustraciones. ISBN 978-0-387-49616-0 .