Una base de datos estadística es una base de datos utilizada con fines de análisis estadístico. Es un sistema OLAP (procesamiento analítico en línea), en lugar de OLTP (procesamiento de transacciones en línea). Las bases de datos estadísticas modernas y clásicas suelen estar más cerca del modelo relacional que del modelo multidimensional comúnmente utilizado en los sistemas OLAP actuales.
Las bases de datos estadísticas suelen contener datos de parámetros y los datos medidos para estos parámetros. Por ejemplo, los datos de los parámetros consisten en diferentes valores para condiciones variables en un experimento (p. ej., temperatura, tiempo). Los datos medidos (o variables) son las mediciones tomadas en el experimento bajo estas condiciones variables.
Muchas bases de datos estadísticas son escasas y tienen muchos valores nulos o cero. No es raro que una base de datos estadística tenga entre un 40% y un 50% de escasez. Hay dos opciones para lidiar con la escasez: (1) dejar los valores nulos allí y usar técnicas de compresión para eliminarlos o (2) eliminar las entradas que solo tienen valores nulos.
Las bases de datos estadísticas suelen incorporar soporte para técnicas avanzadas de análisis estadístico, como las correlaciones, que van más allá de SQL . También plantean preocupaciones de seguridad únicas , que fueron el foco de muchas investigaciones, particularmente a finales de los años 1970 y principios y mediados de los años 1980.
En una base de datos estadística, a menudo se desea permitir el acceso de consultas sólo a datos agregados, no a registros individuales. Proteger una base de datos de este tipo es un problema difícil, ya que los usuarios inteligentes pueden utilizar una combinación de consultas agregadas para obtener información sobre un solo individuo.
Algunos enfoques comunes son:
Durante muchos años, la investigación en esta área estuvo estancada, y en 1980 se pensaba que, para citar:
Pero en 2006, Cynthia Dwork definió el campo de la privacidad diferencial , utilizando trabajos que comenzaron a aparecer en 2003. Si bien demostró que algunos objetivos de seguridad semántica, relacionados con el trabajo de Tore Dalenius, eran imposibles, identificó nuevas técnicas para limitar el mayor riesgo de privacidad resultante. de la inclusión de datos privados en una base de datos estadística. Esto hace posible en muchos casos proporcionar estadísticas muy precisas a partir de la base de datos y al mismo tiempo garantizar altos niveles de privacidad. [2] [3]
Gestión de Bases de Datos Estadística y Científica (SSDBM) Un importante ciclo de conferencias en este campo
Algunos artículos clave en este campo:
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )