La mayoría de las bases de datos reales contienen datos cuya exactitud es incierta. Para trabajar con dichos datos, es necesario cuantificar su integridad. Esto se logra mediante el uso de bases de datos probabilísticas.
Una base de datos probabilística es una base de datos incierta en la que los mundos posibles tienen probabilidades asociadas . Los sistemas de gestión de bases de datos probabilísticas son actualmente un área activa de investigación. "Si bien actualmente no existen sistemas de bases de datos probabilísticas comerciales, existen varios prototipos de investigación..." [1]
Las bases de datos probabilísticas distinguen entre el modelo de datos lógicos y la representación física de los datos, de forma muy similar a como lo hacen las bases de datos relacionales en la arquitectura ANSI-SPARC . En las bases de datos probabilísticas esto es aún más crucial, ya que dichas bases de datos tienen que representar cantidades muy grandes de mundos posibles, a menudo exponenciales en el tamaño de un mundo (una base de datos clásica ), de manera sucinta . [2] [3]
En una base de datos probabilística, cada tupla está asociada con una probabilidad entre 0 y 1, donde 0 representa que los datos son ciertamente incorrectos y 1 representa que son ciertamente correctos.
Una base de datos probabilística podría existir en múltiples estados. Por ejemplo, si existe incertidumbre sobre la existencia de una tupla en la base de datos, la base de datos podría estar en dos estados diferentes con respecto a esa tupla: el primer estado contiene la tupla, mientras que el segundo no. De manera similar, si un atributo puede tomar uno de los valores x , y o z , la base de datos puede estar en tres estados diferentes con respecto a ese atributo.
Cada uno de estos estados se llama mundo posible.
Considere la siguiente base de datos:
(Aquí {b3, b3′, b3′′} denota que el atributo puede tomar cualquiera de los valores b3 , b3′ o b3′′ )
Entonces, el estado actual de la base de datos puede contener o no la primera tupla (dependiendo de si es correcta o no). De manera similar, el valor del atributo B puede ser b3 , b3′ o b3′′ .
En consecuencia, los mundos posibles correspondientes a la base de datos son los siguientes:
Básicamente, existen dos tipos de incertidumbres que podrían existir en una base de datos probabilística, como se describe en la siguiente tabla:
Asignando valores a variables aleatorias asociadas con los elementos de datos, se pueden representar diferentes mundos posibles.
El primer uso publicado del término "base de datos probabilística" fue probablemente en el artículo de la conferencia VLDB de 1987 "La teoría de las bases de datos probabilísticas", de Cavallo y Pittarelli. [4] El título (del artículo de 11 páginas) fue pensado como una broma, ya que la monografía de 600 páginas de David Maier, La teoría de las bases de datos relacionales, habría sido familiar en ese momento para muchos de los participantes de la conferencia y lectores de las actas de la conferencia.