stringtranslate.com

Base de datos estadística

Una base de datos estadística es una base de datos que se utiliza con fines de análisis estadístico. Es un sistema OLAP (procesamiento analítico en línea), en lugar de OLTP (procesamiento de transacciones en línea). Las bases de datos estadísticas clásicas y de toma de decisiones modernas suelen estar más cerca del modelo relacional que del modelo multidimensional que se utiliza habitualmente en los sistemas OLAP actuales.

Las bases de datos estadísticas suelen contener datos de parámetros y datos medidos para estos parámetros. Por ejemplo, los datos de parámetros consisten en los diferentes valores para condiciones variables en un experimento (por ejemplo, temperatura, tiempo). Los datos medidos (o variables) son las mediciones tomadas en el experimento bajo estas condiciones variables.

Muchas bases de datos estadísticas son dispersas y tienen muchos valores nulos o cero. No es raro que una base de datos estadística tenga entre un 40 % y un 50 % de dispersión. Hay dos opciones para lidiar con la dispersión: (1) dejar los valores nulos y usar técnicas de compresión para exprimirlos o (2) eliminar las entradas que solo tienen valores nulos.

Las bases de datos estadísticas suelen incorporar compatibilidad con técnicas avanzadas de análisis estadístico, como correlaciones, que van más allá de SQL . También plantean problemas de seguridad particulares , que fueron el foco de mucha investigación, en particular a fines de la década de 1970 y a principios y mediados de la de 1980.

Privacidad en bases de datos estadísticas

En una base de datos estadística, a menudo se desea permitir el acceso a consultas solo a datos agregados, no a registros individuales. Proteger una base de datos de este tipo es un problema difícil, ya que los usuarios inteligentes pueden utilizar una combinación de consultas agregadas para obtener información sobre un solo individuo.

Algunos enfoques comunes son:

Durante muchos años, la investigación en este ámbito estuvo estancada y en 1980 se pensó que:

La conclusión es que las bases de datos estadísticas casi siempre están sujetas a riesgos. Las restricciones severas sobre los tamaños permitidos de los conjuntos de consultas harán que la base de datos sea inútil como fuente de información estadística, pero no protegerán los registros confidenciales. [1]

Pero en 2006, Cynthia Dwork definió el campo de la privacidad diferencial , utilizando el trabajo que comenzó a aparecer en 2003. Si bien demostró que algunos objetivos de seguridad semántica, relacionados con el trabajo de Tore Dalenius, eran imposibles, identificó nuevas técnicas para limitar el mayor riesgo de privacidad resultante de la inclusión de datos privados en una base de datos estadística. Esto hace posible en muchos casos proporcionar estadísticas muy precisas de la base de datos al mismo tiempo que se garantizan altos niveles de privacidad. [2] [3]

Referencias

  1. ^ Dorothy E. Denning, Peter J. Denning y Mayer D. Schwartz, "El rastreador: una amenaza para la seguridad de las bases de datos estadísticas", ACM Transactions on Database Systems (TODS), volumen 4, número 1 (marzo de 1979), páginas: 76 - 96, doi :10.1145/320064.320069.
  2. ^ HILTON, MICHAEL. "Privacidad diferencial: un estudio histórico" (PDF) . S2CID  16861132. Archivado desde el original (PDF) el 2017-03-01. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  3. ^ Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: un estudio de resultados". En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y aplicaciones de modelos de computación . Apuntes de clase en informática. Vol. 4978. Springer Berlin Heidelberg. págs. 1–19. doi :10.1007/978-3-540-79228-4_1. ISBN . 9783540792277.

Lectura adicional

Una importante serie de conferencias en este campo:

Algunos artículos clave en este campo:

  1. doi :10.1145/320613.320616 - Dorothy E. Denning, Bases de datos estadísticas seguras con consultas de muestras aleatorias, ACM Transactions on Database Systems (TODS), Volumen 5, Número 3 (septiembre de 1980), Páginas: 291 - 315
  2. doi :10.1145/319830.319834 - Wiebren de Jonge, Bases de datos estadísticas comprometidas que responden a consultas sobre medias, ACM Transactions on Database Systems, Volumen 8, Número 1 (marzo de 1983), Páginas: 60 - 80
  3. doi :10.1145/320128.320138 - Dorothy E. Denning, Jan Schlörer, Un procedimiento rápido para encontrar un rastreador en una base de datos estadística, ACM Transactions on Database Systems, Volumen 5, Número 1 (marzo de 1980). Páginas: 88 - 102
  4. A. Shoshani, “Bases de datos estadísticas: características, problemas y algunas soluciones”, en Actas de la 8ª Conferencia internacional sobre bases de datos muy grandes, San Francisco, California, EE. UU., 1982, págs. 208-222.