Agregación en línea

La agregación en línea es una técnica para mejorar el comportamiento interactivo de los sistemas de bases de datos que procesan consultas analíticas costosas. Casi todas las operaciones de la base de datos se realizan en modo por lotes, es decir, el usuario emite una consulta y espera hasta que la base de datos haya terminado de procesar la consulta completa. Por el contrario, al utilizar la agregación en línea, el usuario obtiene estimaciones de una consulta agregada en línea tan pronto como se emite la consulta. Por ejemplo, si la respuesta final es 1000, después de k segundos, el usuario obtiene las estimaciones en forma de un intervalo de confianza como [990, 1020] con un 95% de probabilidad. Esta confianza sigue reduciéndose a medida que el sistema obtiene más y más muestras.

La agregación en línea fue propuesta en 1997 por Hellerstein, Haas y Wang ^[1] para consultas de agregación grupal sobre una sola tabla. Posteriormente, los autores mostraron cómo evaluar uniones en línea. ^[2] En 2007, Jermaine et al. diseñó e implementó un prototipo de sistema de base de datos llamado Database-Online (o DBO) que calcula consultas agrupadas por agregados en múltiples tablas en línea y, lo que es más importante, de manera escalable. ^[3] Todos los enfoques para la agregación en línea utilizan muestreo aleatorio , que no es trivial en un entorno distribuido debido a la paradoja de la inspección de la teoría de la recompensa por renovación. En 2011, Pansare et al. propuso un modelo bayesiano para abordar la paradoja de la inspección e implementó la agregación en línea para un entorno similar a MapReduce . ^[4]

Referencias

^ Hellerstein, Joseph M .; Haas, Peter J .; Wang, Helen J. (junio de 1997). "Agregación en línea". Rec. SIGMOD . 26 (2): 171–182. doi : 10.1145/253262.253291 .
^ Haas, Pedro ; Hellerstein, Joseph M. (junio de 1999). "Ripple se une para la agregación en línea". Rec. SIGMOD . 28 (2): 287–298. doi :10.1145/304181.304208.
^ Jermaine, Chris; Arumugam, subramano; Pol, Abhijit; Dobra, Alin (2007). "Procesamiento de consultas aproximado escalable con el motor DBO". Actas de la conferencia internacional ACM SIGMOD 2007 sobre gestión de datos . págs. 725–736. doi :10.1145/1247480.1247560. ISBN 9781595936868. S2CID 13040670.
^ Pansare, Niketan; Borkar, Vinayak; Jermaine, Chris; Condie, Tyson (agosto de 2011). "Agregación en línea para trabajos grandes de MapReduce" (PDF) . VLDB .