La fusión de datos es el proceso de integrar múltiples fuentes de datos para producir información más consistente, precisa y útil que la proporcionada por cualquier fuente de datos individual.
Los procesos de fusión de datos suelen clasificarse como de bajo nivel, intermedio o alto nivel, según la etapa de procesamiento en la que se produce la fusión. [1] La fusión de datos de bajo nivel combina varias fuentes de datos sin procesar para producir nuevos datos sin procesar. La expectativa es que los datos fusionados sean más informativos y sintéticos que las entradas originales.
Por ejemplo, la fusión de sensores también se conoce como fusión de datos (multisensores) y es un subconjunto de la fusión de información .
El concepto de fusión de datos tiene su origen en la capacidad que han desarrollado los seres humanos y los animales para incorporar información de múltiples sentidos a fin de mejorar su capacidad de supervivencia. Por ejemplo, una combinación de la vista, el tacto, el olfato y el gusto puede indicar si una sustancia es comestible. [2]
A mediados de los años 1980, los Directores Conjuntos de Laboratorios formaron el Subpanel de Fusión de Datos (que más tarde se conocería como el Grupo de Fusión de Datos). Con la llegada de la World Wide Web, la fusión de datos incluía la fusión de datos, sensores e información. El JDL/DFIG introdujo un modelo de fusión de datos que dividía los distintos procesos. En la actualidad, los seis niveles del modelo del Grupo de Información de Fusión de Datos (DFIG) son:
Aunque el modelo JDL (niveles 1 a 4) todavía se utiliza en la actualidad, suele recibir críticas por implicar que los niveles necesariamente se dan en orden y también por su falta de representación adecuada del potencial de una intervención humana. El modelo DFIG (niveles 0 a 5) exploró las implicaciones de la conciencia de la situación, el refinamiento del usuario y la gestión de la misión. [3] A pesar de estas deficiencias, los modelos JDL/DFIG son útiles para visualizar el proceso de fusión de datos, facilitando el debate y la comprensión común, [4] y son importantes para el diseño de la fusión de información a nivel de sistemas. [3] [5]
En el ámbito geoespacial ( SIG ), la fusión de datos suele ser sinónimo de integración de datos . En estas aplicaciones, suele existir la necesidad de combinar diversos conjuntos de datos en un conjunto de datos unificado (fusionado) que incluya todos los puntos de datos y pasos de tiempo de los conjuntos de datos de entrada. El conjunto de datos fusionados se diferencia de un superconjunto combinado simple en que los puntos del conjunto de datos fusionados contienen atributos y metadatos que podrían no haberse incluido para estos puntos en el conjunto de datos original.
A continuación se muestra un ejemplo simplificado de este proceso, en el que el conjunto de datos "α" se fusiona con el conjunto de datos β para formar el conjunto de datos fusionados δ. Los puntos de datos del conjunto "α" tienen coordenadas espaciales X e Y y atributos A1 y A2. Los puntos de datos del conjunto β tienen coordenadas espaciales X e Y y atributos B1 y B2. El conjunto de datos fusionados contiene todos los puntos y atributos.
En un caso simple donde todos los atributos son uniformes en todo el dominio de análisis, los atributos pueden asignarse simplemente: M?, N?, Q?, R? a M, N, Q, R. En una aplicación real, los atributos no son uniformes y generalmente se requiere algún tipo de interpolación para asignar correctamente los atributos a los puntos de datos en el conjunto fusionado.
En una aplicación mucho más complicada, los investigadores de animales marinos utilizan la fusión de datos para combinar datos de seguimiento de animales con datos batimétricos , meteorológicos , de temperatura de la superficie del mar (TSM) y del hábitat de los animales para examinar y comprender la utilización del hábitat y el comportamiento de los animales en reacción a fuerzas externas como el clima o la temperatura del agua. Cada uno de estos conjuntos de datos presenta una cuadrícula espacial y una frecuencia de muestreo diferentes, por lo que una combinación simple probablemente crearía suposiciones erróneas y contaminaría los resultados del análisis. Pero mediante el uso de la fusión de datos, todos los datos y atributos se reúnen en una única vista en la que se crea una imagen más completa del entorno. Esto permite a los científicos identificar ubicaciones y momentos clave y formar nuevos conocimientos sobre las interacciones entre el entorno y los comportamientos animales.
En la figura de la derecha, se estudian langostas de roca en la costa de Tasmania. Hugh Pederson, de la Universidad de Tasmania, utilizó un software de fusión de datos para fusionar los datos de seguimiento de langostas de roca del sur (codificados por colores en amarillo y negro para el día y la noche, respectivamente) con datos de batimetría y hábitat para crear una imagen 4D única del comportamiento de las langostas de roca.
En aplicaciones fuera del ámbito geoespacial, existen diferencias en el uso de los términos integración de datos y fusión de datos. En áreas como la inteligencia empresarial, por ejemplo, la integración de datos se utiliza para describir la combinación de datos, mientras que la fusión de datos es la integración seguida de una reducción o reemplazo. La integración de datos puede verse como una combinación de conjuntos en la que se conserva el conjunto más grande, mientras que la fusión es una técnica de reducción de conjuntos con una mayor confianza.
Los datos de las diferentes tecnologías de detección se pueden combinar de forma inteligente para determinar con precisión el estado del tráfico. Se ha demostrado que un enfoque basado en la fusión de datos que utiliza los datos acústicos, de imágenes y de sensores recopilados en la carretera combina las ventajas de los diferentes métodos individuales. [6]
En muchos casos, los sensores dispersos geográficamente tienen limitaciones severas de energía y ancho de banda. Por lo tanto, los datos brutos sobre un determinado fenómeno a menudo se resumen en unos pocos bits de cada sensor. Al inferir sobre un evento binario (es decir, o ), en el caso extremo, solo se envían decisiones binarias desde los sensores a un Centro de Fusión de Decisiones (DFC) y se combinan para obtener un mejor rendimiento de clasificación. [7] [8] [9]
Con una multitud de sensores integrados, incluidos sensores de movimiento, sensores ambientales y sensores de posición, un dispositivo móvil moderno generalmente brinda a las aplicaciones móviles acceso a una serie de datos sensoriales que podrían aprovecharse para mejorar la conciencia contextual. Mediante el procesamiento de señales y técnicas de fusión de datos, como la generación de características, el estudio de viabilidad y el análisis de componentes principales (PCA), dichos datos sensoriales mejorarán en gran medida la tasa positiva de clasificación del movimiento y el estado relevante contextual del dispositivo. [10] Snidaro et al. proporcionan muchas técnicas de información mejorada por el contexto . [11] [12]
Los procesos gaussianos son un modelo de aprendizaje automático muy popular. Si se supone que existe una relación autorregresiva entre los datos y que cada fuente de datos es un proceso gaussiano, se trata de un problema de regresión bayesiana no lineal. [13]
Muchos métodos de fusión de datos suponen distribuciones condicionales comunes entre varias fuentes de datos. [14] Recientemente, se han desarrollado métodos para permitir una estimación eficiente dentro del modelo semiparamétrico resultante . [15]
{{cite conference}}
: CS1 maint: varios nombres: lista de autores ( enlace ){{cite conference}}
: CS1 maint: varios nombres: lista de autores ( enlace )