El descubrimiento de la verdad (también conocido como búsqueda de la verdad ) es el proceso de elegir el valor real de un elemento de datos cuando diferentes fuentes de datos proporcionan información contradictoria al respecto.
Se han propuesto varios algoritmos para abordar este problema, que van desde métodos simples como la votación por mayoría hasta otros más complejos capaces de estimar la confiabilidad de las fuentes de datos . [1]
Los problemas de descubrimiento de la verdad se pueden dividir en dos subclases: verdad única y verdad múltiple. En el primer caso sólo se permite un valor verdadero para un elemento de datos (por ejemplo, cumpleaños de una persona, capital de un país). Mientras que en el segundo caso se permiten múltiples valores verdaderos (por ejemplo, actores de una película, autores de un libro). [2] [3]
Normalmente, el descubrimiento de la verdad es el último paso de un proceso de integración de datos , cuando se han unificado los esquemas de diferentes fuentes de datos y se han detectado los registros que hacen referencia al mismo elemento de datos . [4]
La abundancia de datos disponibles en la web hace que cada vez sea más probable encontrar que diferentes fuentes proporcionen (parcial o completamente) valores diferentes para el mismo dato . Esto, junto con el hecho de que estamos aumentando nuestra dependencia de los datos para tomar decisiones importantes, motiva la necesidad de desarrollar buenos algoritmos de descubrimiento de la verdad . [5]
Muchos métodos disponibles actualmente se basan en una estrategia de votación para definir el valor real de un elemento de datos . Sin embargo, estudios recientes han demostrado que, si nos basamos únicamente en el voto mayoritario , podríamos obtener resultados erróneos incluso en el 30% de los datos . [5]
La solución a este problema es evaluar la confiabilidad de las fuentes y dar más importancia a los votos provenientes de fuentes confiables. [4] [5]
Idealmente, se podrían aprovechar las técnicas de aprendizaje supervisado para asignar una puntuación de confiabilidad a las fuentes después de etiquetar manualmente los valores proporcionados; Desafortunadamente, esto no es factible ya que la cantidad de ejemplos etiquetados necesarios debe ser proporcional a la cantidad de fuentes y, en muchas aplicaciones, la cantidad de fuentes puede ser prohibitiva. [2] [6]
El descubrimiento de una verdad única y de una verdad múltiple son dos problemas muy diferentes. [2]
El descubrimiento de una verdad única se caracteriza por las siguientes propiedades:
Mientras que en el caso de verdades múltiples se mantienen las siguientes propiedades:
El descubrimiento de múltiples verdades tiene características únicas que hacen que el problema sea más complejo y debe tenerse en cuenta al desarrollar soluciones de descubrimiento de la verdad. [2]
Los ejemplos siguientes señalan las principales diferencias de los dos métodos. Sabiendo que en ambos ejemplos la verdad la proporciona la fuente 1, en el caso de verdad única (primera tabla) podemos decir que las fuentes 2 y 3 se oponen a la verdad y como resultado proporcionan valores incorrectos. Por otro lado, en el segundo caso (segunda tabla), las fuentes 2 y 3 no son ni correctas ni erróneas, sino que proporcionan un subconjunto de los valores verdaderos y al mismo tiempo no se oponen a la verdad.
La gran mayoría de los métodos de descubrimiento de la verdad se basan en un enfoque de votación: cada fuente vota por un valor de un determinado elemento de datos y, al final, el valor con el voto más alto se selecciona como el verdadero. En los métodos más sofisticados, los votos no tienen el mismo peso para todas las fuentes de datos ; de hecho, se da más importancia a los votos que provienen de fuentes confiables. [5]
La confiabilidad de la fuente generalmente no se conoce a priori , pero se estima con un enfoque iterativo. En cada paso del algoritmo de descubrimiento de la verdad, se refina la puntuación de confiabilidad de cada fuente de datos , lo que mejora la evaluación de los valores verdaderos, lo que a su vez conduce a una mejor estimación de la confiabilidad de las fuentes. Este proceso suele terminar cuando todos los valores alcanzan un estado de convergencia. [5]
La confiabilidad de la fuente puede basarse en diferentes métricas, como la precisión de los valores proporcionados, la copia de valores de otras fuentes y la cobertura del dominio. [1]
Detectar comportamientos de copia es muy importante; de hecho, la copia permite difundir valores falsos fácilmente, lo que hace que el descubrimiento de la verdad sea muy difícil, ya que muchas fuentes votarían por los valores incorrectos. Generalmente los sistemas disminuyen el peso de los votos asociados a los valores copiados o incluso no los cuentan en absoluto. [7]
La mayoría de los métodos de descubrimiento de la verdad actualmente disponibles han sido diseñados para funcionar bien sólo en el caso de una sola verdad. [1] [3]
A continuación se informan algunas de las características de las tipologías más relevantes de métodos de verdad única y cómo los diferentes sistemas modelan la confiabilidad de las fuentes. [5]
La votación por mayoría es el método más sencillo, el valor más popular se selecciona como el verdadero. La votación por mayoría se utiliza comúnmente como punto de referencia al evaluar el desempeño de métodos más complejos.
Estos métodos estiman la confiabilidad de la fuente explotando una técnica similar a la utilizada para medir la autoridad de las páginas web basadas en enlaces web . El voto asignado a un valor se calcula como la suma de los votos asignados a los valores que proporciona la fuente. [5] [8]
Estos métodos estiman la confiabilidad de la fuente utilizando medidas de similitud típicamente utilizadas en la recuperación de información . La confiabilidad de la fuente se calcula como la similitud del coseno (u otras medidas de similitud ) entre el conjunto de valores proporcionados por la fuente y el conjunto de valores considerados verdaderos (ya sea seleccionados de forma probabilística u obtenidos a partir de una verdad fundamental). [5] [9]
Estos métodos utilizan la inferencia bayesiana para definir la probabilidad de que un valor sea verdadero condicionado a los valores proporcionados por todas las fuentes.
donde es un valor proporcionado para un elemento de datos y es el conjunto de valores observados proporcionados por todas las fuentes para ese elemento de datos específico .
Luego, la confiabilidad de una fuente se calcula en función de la precisión de los valores que proporciona. [7] [10] Otros métodos más complejos explotan la inferencia bayesiana para detectar comportamientos de copia y utilizan estos conocimientos para evaluar mejor la confiabilidad de la fuente. [7]
Debido a su complejidad , se ha dedicado menos atención al estudio del descubrimiento de múltiples verdades [2] [3]
A continuación se informan dos tipologías de métodos de verdades múltiples y sus características.
Estos métodos utilizan la inferencia bayesiana para definir la probabilidad de que un grupo de valores sea verdadero condicionado a los valores proporcionados por todas las fuentes de datos . En este caso, dado que podría haber varios valores verdaderos para cada elemento de datos y las fuentes pueden proporcionar varios valores para un único elemento de datos, no es posible considerar los valores individualmente. Una alternativa es considerar asignaciones y relaciones entre un conjunto de valores proporcionados y las fuentes que los proporcionan. Luego, la confiabilidad de una fuente se calcula en función de la precisión de los valores que proporciona. [2]
Los métodos más sofisticados también consideran la cobertura del dominio y los comportamientos de copia para estimar mejor la confiabilidad de la fuente. [2] [3]
Estos métodos utilizan modelos gráficos probabilísticos para definir automáticamente el conjunto de valores verdaderos de un elemento de datos determinado y también para evaluar la calidad de la fuente sin necesidad de supervisión. [11]
Muchas aplicaciones del mundo real pueden beneficiarse del uso de algoritmos de descubrimiento de la verdad. Los dominios de aplicación típicos incluyen: atención médica , detección social/de multitudes , agregación de crowdsourcing , extracción de información y construcción de bases de conocimientos . [1]
Los algoritmos de descubrimiento de la verdad también podrían utilizarse para revolucionar la forma en que se clasifican las páginas web en los motores de búsqueda , pasando de los métodos actuales basados en el análisis de enlaces como el PageRank , a procedimientos que clasifican las páginas web en función de la exactitud de la información que proporcionan. [12]