stringtranslate.com

Base de datos estadística

Una base de datos estadística es una base de datos utilizada con fines de análisis estadístico. Es un sistema OLAP (procesamiento analítico en línea), en lugar de OLTP (procesamiento de transacciones en línea). Las bases de datos estadísticas modernas y clásicas suelen estar más cerca del modelo relacional que del modelo multidimensional comúnmente utilizado en los sistemas OLAP actuales.

Las bases de datos estadísticas suelen contener datos de parámetros y los datos medidos para estos parámetros. Por ejemplo, los datos de los parámetros consisten en diferentes valores para condiciones variables en un experimento (p. ej., temperatura, tiempo). Los datos medidos (o variables) son las mediciones tomadas en el experimento bajo estas condiciones variables.

Muchas bases de datos estadísticas son escasas y tienen muchos valores nulos o cero. No es raro que una base de datos estadística tenga entre un 40% y un 50% de escasez. Hay dos opciones para lidiar con la escasez: (1) dejar los valores nulos allí y usar técnicas de compresión para eliminarlos o (2) eliminar las entradas que solo tienen valores nulos.

Las bases de datos estadísticas suelen incorporar soporte para técnicas avanzadas de análisis estadístico, como las correlaciones, que van más allá de SQL . También plantean preocupaciones de seguridad únicas , que fueron el foco de muchas investigaciones, particularmente a finales de los años 1970 y principios y mediados de los años 1980.

Privacidad en bases de datos estadísticas

En una base de datos estadística, a menudo se desea permitir el acceso de consultas sólo a datos agregados, no a registros individuales. Proteger una base de datos de este tipo es un problema difícil, ya que los usuarios inteligentes pueden utilizar una combinación de consultas agregadas para obtener información sobre un solo individuo.

Algunos enfoques comunes son:

Durante muchos años, la investigación en esta área estuvo estancada, y en 1980 se pensaba que, para citar:

La conclusión es que las bases de datos estadísticas casi siempre están sujetas a compromisos. Las restricciones severas en los tamaños de conjuntos de consultas permitidos harán que la base de datos sea inútil como fuente de información estadística, pero no protegerán los registros confidenciales. [1]

Pero en 2006, Cynthia Dwork definió el campo de la privacidad diferencial , utilizando trabajos que comenzaron a aparecer en 2003. Si bien demostró que algunos objetivos de seguridad semántica, relacionados con el trabajo de Tore Dalenius, eran imposibles, identificó nuevas técnicas para limitar el mayor riesgo de privacidad resultante. de la inclusión de datos privados en una base de datos estadística. Esto hace posible en muchos casos proporcionar estadísticas muy precisas a partir de la base de datos y al mismo tiempo garantizar altos niveles de privacidad. [2] [3]

Algunas lecturas adicionales

Gestión de Bases de Datos Estadística y Científica (SSDBM) Un importante ciclo de conferencias en este campo

Algunos artículos clave en este campo:

  1. doi :10.1145/320613.320616 - Dorothy E. Denning, Bases de datos estadísticas seguras con consultas de muestras aleatorias, ACM Transactions on Database Systems (TODS), volumen 5, número 3 (septiembre de 1980), páginas: 291 - 315
  2. doi :10.1145/319830.319834 - Wiebren de Jonge, Bases de datos estadísticas comprometidas que responden a consultas sobre medios, ACM Transactions on Database Systems, volumen 8, número 1 (marzo de 1983), páginas: 60 - 80
  3. doi :10.1145/320128.320138 - Dorothy E. Denning, Jan Schlörer, Un procedimiento rápido para encontrar un rastreador en una base de datos estadística, ACM Transactions on Database Systems, Volumen 5, Número 1 (marzo de 1980). Páginas: 88 - 102
  4. A. Shoshani, “Statistical Databases: Characteristics, Problems, and some Solutions”, en Actas de la 8ª Conferencia Internacional sobre Bases de Datos Muy Grandes, San Francisco, CA, EE.UU., 1982, págs.

Referencias

  1. ^ Dorothy E. Denning, Peter J. Denning y Mayer D. Schwartz, "The Tracker: A Threat to Statistical Database Security", ACM Transactions on Database Systems (TODS), volumen 4, número 1 (marzo de 1979), páginas: 76 - 96, doi :10.1145/320064.320069.
  2. ^ HILTON, MICHAEL. "Privacidad diferencial: un estudio histórico" (PDF) . S2CID  16861132. Archivado desde el original (PDF) el 1 de marzo de 2017. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  3. ^ Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: una encuesta de resultados". En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y Aplicaciones de Modelos de Computación . Apuntes de conferencias sobre informática. vol. 4978. Springer Berlín Heidelberg. págs. 1-19. doi :10.1007/978-3-540-79228-4_1. ISBN 9783540792277.