En informática , los datos inciertos son aquellos que contienen ruido que los hace desviarse de los valores correctos, previstos u originales. En la era del big data , la incertidumbre o veracidad de los datos es una de las características definitorias de los datos. Los datos crecen constantemente en volumen, variedad, velocidad e incertidumbre (1/veracidad). Hoy en día, los datos inciertos se encuentran en abundancia en la web, en las redes de sensores y dentro de las empresas, tanto en sus fuentes estructuradas como no estructuradas. Por ejemplo, puede haber incertidumbre con respecto a la dirección de un cliente en un conjunto de datos empresariales o las lecturas de temperatura capturadas por un sensor debido al envejecimiento del sensor. En 2012, IBM destacó la gestión de datos inciertos a escala en su informe de perspectivas tecnológicas globales [1] que presenta un análisis integral que mira de tres a diez años hacia el futuro buscando identificar tecnologías significativas y disruptivas que cambiarán el mundo. Para tomar decisiones comerciales confiables basadas en datos del mundo real, los análisis deben tener en cuenta necesariamente muchos tipos diferentes de incertidumbre presentes en grandes cantidades de datos. Los análisis basados en datos inciertos tendrán un efecto en la calidad de las decisiones posteriores, por lo que no se pueden ignorar el grado y los tipos de inexactitudes en estos datos inciertos.
Los datos inciertos se encuentran en el área de redes de sensores ; texto, donde abundan los textos ruidosos en las redes sociales, la web y dentro de las empresas, donde los datos estructurados y no estructurados pueden ser antiguos, obsoletos o simplemente incorrectos; en el modelado, donde el modelo matemático puede ser solo una aproximación del proceso real. Al representar dichos datos en una base de datos , se debe seleccionar un modelo de base de datos incierto adecuado .
Una forma de representar datos inciertos es mediante distribuciones de probabilidad . Tomemos el ejemplo de una base de datos relacional . Hay tres formas principales de representar la incertidumbre como distribuciones de probabilidad en un modelo de base de datos de este tipo .
En la incertidumbre de atributos , cada atributo incierto en una tupla está sujeto a su propia distribución de probabilidad independiente . [2] Por ejemplo, si se toman lecturas de temperatura y velocidad del viento, cada una se describiría mediante su propia distribución de probabilidad, ya que conocer la lectura de una medición no proporcionaría ninguna información sobre la otra.
En la incertidumbre correlacionada , se pueden describir múltiples atributos mediante una distribución de probabilidad conjunta . [2] Por ejemplo, si se toman lecturas de la posición de un objeto y se almacenan las coordenadas x e y , la probabilidad de diferentes valores puede depender de la distancia desde las coordenadas registradas. Como la distancia depende de ambas coordenadas, puede ser apropiado utilizar una distribución conjunta para estas coordenadas, ya que no son independientes .
En la incertidumbre de tuplas , todos los atributos de una tupla están sujetos a una distribución de probabilidad conjunta. Esto cubre el caso de incertidumbre correlacionada, pero también incluye el caso en el que existe una probabilidad de que una tupla no pertenezca a la relación relevante, lo que se indica por la suma de todas las probabilidades que no dan uno. [2] Por ejemplo, supongamos que tenemos la siguiente tupla de una base de datos probabilística :
Entonces, la tupla tiene un 10% de posibilidades de no existir en la base de datos.