Base de datos probabilística

La mayoría de las bases de datos reales contienen datos cuya exactitud es incierta. Para trabajar con dichos datos, es necesario cuantificar su integridad. Esto se logra mediante el uso de bases de datos probabilísticas.

Una base de datos probabilística es una base de datos incierta en la que los mundos posibles tienen probabilidades asociadas . Los sistemas de gestión de bases de datos probabilísticas son actualmente un área activa de investigación. "Si bien actualmente no existen sistemas de bases de datos probabilísticas comerciales, existen varios prototipos de investigación..." ^[1]

Las bases de datos probabilísticas distinguen entre el modelo de datos lógicos y la representación física de los datos, de forma muy similar a como lo hacen las bases de datos relacionales en la arquitectura ANSI-SPARC . En las bases de datos probabilísticas esto es aún más crucial, ya que dichas bases de datos tienen que representar cantidades muy grandes de mundos posibles, a menudo exponenciales en el tamaño de un mundo (una base de datos clásica ), de manera sucinta . ^[2]^[3]

Terminología

En una base de datos probabilística, cada tupla está asociada con una probabilidad entre 0 y 1, donde 0 representa que los datos son ciertamente incorrectos y 1 representa que son ciertamente correctos.

Mundos posibles

Una base de datos probabilística podría existir en múltiples estados. Por ejemplo, si existe incertidumbre sobre la existencia de una tupla en la base de datos, la base de datos podría estar en dos estados diferentes con respecto a esa tupla: el primer estado contiene la tupla, mientras que el segundo no. De manera similar, si un atributo puede tomar uno de los valores x , y o z , la base de datos puede estar en tres estados diferentes con respecto a ese atributo.

Cada uno de estos estados se llama mundo posible.

Considere la siguiente base de datos:

(Aquí {b3, b3′, b3′′} denota que el atributo puede tomar cualquiera de los valores b3 , b3′ o b3′′ )

Suponiendo que hay incertidumbre sobre la primera tupla, certeza sobre la segunda tupla e incertidumbre sobre el valor del atributo B en la tercera tupla.

Entonces, el estado actual de la base de datos puede contener o no la primera tupla (dependiendo de si es correcta o no). De manera similar, el valor del atributo B puede ser b3 , b3′ o b3′′ .

En consecuencia, los mundos posibles correspondientes a la base de datos son los siguientes:

Tipos de incertidumbres

Básicamente, existen dos tipos de incertidumbres que podrían existir en una base de datos probabilística, como se describe en la siguiente tabla:

Asignando valores a variables aleatorias asociadas con los elementos de datos, se pueden representar diferentes mundos posibles.

Historia

El primer uso publicado del término "base de datos probabilística" fue probablemente en el artículo de la conferencia VLDB de 1987 "La teoría de las bases de datos probabilísticas", de Cavallo y Pittarelli. ^[4] El título (del artículo de 11 páginas) fue pensado como una broma, ya que la monografía de 600 páginas de David Maier, La teoría de las bases de datos relacionales, habría sido familiar en ese momento para muchos de los participantes de la conferencia y lectores de las actas de la conferencia.

Referencias

^ Vinod Muthusamy, Haifeng Liu, Hans-Arno Jacobsen: Coincidencia predictiva entre publicación y suscripción. Universidad de Toronto.
^ Nilesh N. Dalvi, Dan Suciu : Evaluación eficiente de consultas en bases de datos probabilísticas. VLDB J. 16(4): 523–544 (2007)
^ Lyublena Antova, Christoph Koch, Dan Olteanu: 10^(10^6) Mundos y más allá: Representación y procesamiento eficientes de información incompleta. ICDE 2007: 606–615
^ Roger Cavallo, Michael Pittarelli: La teoría de las bases de datos probabilísticas. En VLDB'87, Actas de la 13.ª Conferencia internacional sobre bases de datos de gran tamaño, 1-4 de septiembre de 1987, Brighton: 71-81 (1987)

Enlaces externos

El proyecto MayBMS en la Universidad de Cornell (sitio del proyecto sourceforge.net)
El proyecto MystiQ en la Universidad de Washington
El proyecto Orión en la Universidad de Purdue
El proyecto Trio en la Universidad de Stanford
El proyecto BayesStore en la Universidad de California, Berkeley
El proyecto PrDB en la Universidad de Maryland, College Park
El proyecto Mimir en la Universidad de Buffalo
El proyecto ProvSQL en la École normale supérieure (París) (Módulo para PostgreSQL )