Vinculación de registros

La vinculación de registros (también conocida como coincidencia de datos , enlace de datos , resolución de entidades y muchos otros términos) es la tarea de encontrar registros en un conjunto de datos que hacen referencia a la misma entidad en diferentes fuentes de datos (por ejemplo, archivos de datos, libros, sitios web y bases de datos). La vinculación de registros es necesaria cuando se unen diferentes conjuntos de datos basados en entidades que pueden o no compartir un identificador común (por ejemplo, clave de base de datos , URI , número de identificación nacional ), lo que puede deberse a diferencias en la forma del registro, la ubicación de almacenamiento o el estilo o preferencia del curador. Un conjunto de datos que se ha sometido a una conciliación orientada a RL puede denominarse reticulado .

Convenciones de nombres

"Vinculación de registros" es el término que utilizan los estadísticos, epidemiólogos e historiadores, entre otros, para describir el proceso de unir registros de una fuente de datos con otra que describen la misma entidad. Sin embargo, se utilizan muchos otros términos para este proceso. Lamentablemente, esta profusión de terminología ha dado lugar a pocas referencias cruzadas entre estas comunidades de investigación. ^[1]^[2]

Los informáticos suelen referirse a este concepto como "coincidencia de datos" o como "problema de identidad de objetos". Las aplicaciones comerciales de correo y bases de datos lo denominan "procesamiento de fusión/purga" o "lavado de listas". Otros nombres utilizados para describir el mismo concepto son: "resolución de correferencia/entidad/identidad/nombre/registro", "desambiguación/vinculación de entidades", "coincidencia difusa", "detección de duplicados", "desduplicación", "coincidencia de registros", "conciliación (de referencias)", "identificación de objetos", "integración de datos/información" y "combinación". ^[3]

Si bien comparten nombres similares, la vinculación de registros y los datos vinculados son dos enfoques diferentes para procesar y estructurar datos. Si bien ambos implican la identificación de entidades coincidentes en diferentes conjuntos de datos, la vinculación de registros generalmente equipara las "entidades" con individuos humanos; por el contrario, los datos vinculados se basan en la posibilidad de interconectar cualquier recurso web en diferentes conjuntos de datos, utilizando un concepto de identificador correspondientemente más amplio, a saber, un URI .

Historia

La idea inicial de la vinculación de registros se remonta a Halbert L. Dunn en su artículo de 1946 titulado "Record Linkage" publicado en el American Journal of Public Health . ^[4]

Howard Borden Newcombe luego sentó las bases probabilísticas de la teoría moderna de vinculación de registros en un artículo de 1959 en Science . ^[5] Estas fueron formalizadas en 1969 por Ivan Fellegi y Alan Sunter, en su trabajo pionero "A Theory For Record Linkage", donde demostraron que la regla de decisión probabilística que describieron era óptima cuando los atributos de comparación eran condicionalmente independientes. ^[6] En su trabajo reconocieron el creciente interés en aplicar avances en computación y automatización a grandes colecciones de datos administrativos , y la teoría de Fellegi-Sunter sigue siendo la base matemática para muchas aplicaciones de vinculación de registros.

Desde finales de los años 1990, se han desarrollado varias técnicas de aprendizaje automático que, en condiciones favorables, pueden utilizarse para estimar las probabilidades condicionales requeridas por la teoría de Fellegi-Sunter. Varios investigadores han informado que el supuesto de independencia condicional del algoritmo de Fellegi-Sunter a menudo se viola en la práctica; sin embargo, los esfuerzos publicados para modelar explícitamente las dependencias condicionales entre los atributos de comparación no han dado como resultado una mejora en la calidad de la vinculación de registros. ^{[ cita requerida ]} Por otro lado, los algoritmos de aprendizaje automático o de redes neuronales que no se basan en estos supuestos a menudo brindan una precisión mucho mayor, cuando se dispone de suficientes datos de entrenamiento etiquetados. ^[7]

La vinculación de registros se puede realizar completamente sin la ayuda de una computadora, pero las principales razones por las que se utilizan computadoras para completar la vinculación de registros son para reducir o eliminar la revisión manual y hacer que los resultados sean más fácilmente reproducibles. La vinculación por computadora tiene las ventajas de permitir la supervisión central del procesamiento, un mejor control de calidad, velocidad, consistencia y una mejor reproducibilidad de los resultados. ^[8]

Métodos

Preprocesamiento de datos

La vinculación de registros es muy sensible a la calidad de los datos que se vinculan, por lo que todos los conjuntos de datos en consideración (en particular sus campos de identificadores clave) deberían someterse idealmente a una evaluación de calidad de datos antes de la vinculación de registros. Muchos identificadores clave para la misma entidad pueden presentarse de manera bastante diferente entre conjuntos de datos (e incluso dentro de ellos), lo que puede complicar enormemente la vinculación de registros a menos que se comprenda de antemano. Por ejemplo, los identificadores clave para un hombre llamado William J. Smith podrían aparecer en tres conjuntos de datos diferentes de la siguiente manera:

En este ejemplo, los diferentes estilos de formato dan lugar a registros que parecen diferentes pero que, de hecho, todos hacen referencia a la misma entidad con los mismos valores de identificador lógico. La mayoría de las estrategias de vinculación de registros, si no todas, darían como resultado una vinculación más precisa si estos valores se normalizaran o estandarizaran primero en un formato consistente (por ejemplo, todos los nombres son "Apellido, Nombre de pila" y todas las fechas son "AAAA/MM/DD"). La estandarización se puede lograr mediante transformaciones de datos simples basadas en reglas o procedimientos más complejos, como la tokenización basada en léxico y los modelos probabilísticos ocultos de Markov. ^[9] Varios de los paquetes enumerados en la sección Implementaciones de software proporcionan algunas de estas características para simplificar el proceso de estandarización de datos.

Resolución de entidad

La resolución de entidades es un proceso de inteligencia operativa , generalmente impulsado por un motor de resolución de entidades o middleware , mediante el cual las organizaciones pueden conectar fuentes de datos dispares con el fin de comprender posibles coincidencias de entidades y relaciones no obvias en múltiples silos de datos . Analiza toda la información relacionada con personas o entidades de múltiples fuentes de datos y luego aplica una puntuación de probabilidad para determinar qué identidades coinciden y qué relaciones no obvias existen, si las hay, entre esas identidades.

Los motores de resolución de entidades se utilizan normalmente para descubrir riesgos , fraudes y conflictos de intereses, pero también son herramientas útiles para su uso en los requisitos de integración de datos de clientes (CDI) y gestión de datos maestros (MDM). Los usos típicos de los motores de resolución de entidades incluyen la detección de terroristas, la detección de fraudes de seguros, el cumplimiento de la Ley Patriota de EE. UU. , la detección de redes de delincuencia organizada minorista y la selección de solicitantes.

Por ejemplo: en distintos silos de datos (registros de empleados, datos de proveedores, listas de vigilancia, etc.), una organización puede tener varias variaciones de una entidad denominada ABC, que pueden ser o no el mismo individuo. De hecho, estas entradas pueden aparecer como ABC1, ABC2 o ABC3 dentro de esas fuentes de datos. Al comparar las similitudes entre los atributos subyacentes, como la dirección , la fecha de nacimiento o el número de la seguridad social , el usuario puede eliminar algunas posibles coincidencias y confirmar otras como coincidencias muy probables.

Los motores de resolución de entidades aplican entonces reglas, basadas en la lógica del sentido común, para identificar relaciones ocultas en los datos. En el ejemplo anterior, tal vez ABC1 y ABC2 no sean el mismo individuo, sino dos personas distintas que comparten atributos comunes, como la dirección o el número de teléfono.

Coincidencia de datos

Si bien las soluciones de resolución de entidades incluyen tecnología de comparación de datos, muchas de las ofertas de comparación de datos no se ajustan a la definición de resolución de entidades. A continuación, se presentan cuatro factores que distinguen la resolución de entidades de la comparación de datos, según John Talburt, director del Centro de Investigación Avanzada en Resolución de Entidades y Calidad de la Información de la UALR :

Funciona tanto con registros estructurados como no estructurados, e implica el proceso de extracción de referencias cuando las fuentes no están estructuradas o son semiestructuradas.
Utiliza reglas comerciales elaboradas y modelos conceptuales para lidiar con información faltante, conflictiva y corrupta.
Utiliza información de enlace (asociación) afirmada y no coincidente además de la coincidencia directa
Descubre relaciones no obvias y redes de asociación (es decir, quién está asociado con quién)

A diferencia de los productos de calidad de datos, los motores de resolución de identidades más potentes también incluyen un motor de reglas y un proceso de flujo de trabajo que aplican inteligencia empresarial a las identidades resueltas y sus relaciones. Estas tecnologías avanzadas toman decisiones automatizadas e impactan en los procesos empresariales en tiempo real, lo que limita la necesidad de intervención humana.

Vinculación de registros determinista

El tipo más simple de vinculación de registros, llamada vinculación de registros determinista o basada en reglas , genera vínculos basados en la cantidad de identificadores individuales que coinciden entre los conjuntos de datos disponibles. ^[10] Se dice que dos registros coinciden mediante un procedimiento de vinculación de registros determinista si todos o algunos identificadores (por encima de un cierto umbral) son idénticos. La vinculación de registros determinista es una buena opción cuando las entidades en los conjuntos de datos se identifican por un identificador común, o cuando hay varios identificadores representativos (por ejemplo, nombre, fecha de nacimiento y sexo al identificar a una persona) cuya calidad de datos es relativamente alta.

Como ejemplo, considere dos conjuntos de datos estandarizados, el Conjunto A y el Conjunto B, que contienen diferentes bits de información sobre los pacientes en un sistema hospitalario. Los dos conjuntos de datos identifican a los pacientes mediante una variedad de identificadores: Número de Seguro Social (SSN), nombre, fecha de nacimiento (DOB), sexo y código postal (ZIP). Los registros en dos conjuntos de datos (identificados por la columna "#") se muestran a continuación:

La estrategia de vinculación determinista de registros más simple sería elegir un único identificador que se suponga que es de identificación única, por ejemplo, el SSN, y declarar que los registros que comparten el mismo valor identifican a la misma persona, mientras que los registros que no comparten el mismo valor identifican a personas diferentes. En este ejemplo, la vinculación determinista basada en el SSN crearía entidades basadas en A1 y A2; A3 y B1; y A4. Si bien A1, A2 y B2 parecen representar la misma entidad, B2 no se incluiría en la coincidencia porque le falta un valor para el SSN.

El manejo de excepciones como la falta de identificadores implica la creación de reglas de vinculación de registros adicionales. Una de esas reglas en el caso de la falta de SSN podría ser comparar el nombre, la fecha de nacimiento, el sexo y el código postal con otros registros con la esperanza de encontrar una coincidencia. En el ejemplo anterior, esta regla aún no haría coincidir A1/A2 con B2 porque los nombres siguen siendo ligeramente diferentes: la estandarización puso los nombres en el formato adecuado (Apellido, Nombre de pila) pero no pudo discernir "Bill" como un apodo para "William". Pasar los nombres por un algoritmo fonético como Soundex , NYSIIS o metaphone puede ayudar a resolver este tipo de problemas. Sin embargo, aún pueden tropezar con cambios de apellido como resultado de matrimonio o divorcio, pero entonces B2 se coincidiría solo con A1 ya que el código postal en A2 es diferente. Por lo tanto, se necesitaría crear otra regla para determinar si las diferencias en identificadores particulares son aceptables (como el código postal) y cuáles no (como la fecha de nacimiento).

Como demuestra este ejemplo, incluso una pequeña disminución en la calidad de los datos o un pequeño aumento en la complejidad de los mismos puede dar como resultado un gran aumento en la cantidad de reglas necesarias para vincular los registros correctamente. Con el tiempo, estas reglas de vinculación serán demasiado numerosas e interrelacionadas para construirse sin la ayuda de herramientas de software especializadas. Además, las reglas de vinculación suelen ser específicas de la naturaleza de los conjuntos de datos que están diseñadas para vincular. Un estudio logró vincular el Archivo Maestro de Defunciones del Seguro Social con dos registros hospitalarios del Medio Oeste de los Estados Unidos utilizando el SSN, el nombre de pila codificado en NYSIIS, el mes de nacimiento y el sexo, pero estas reglas pueden no funcionar tan bien con conjuntos de datos de otras regiones geográficas o con datos recopilados sobre poblaciones más jóvenes. ^[11] Por lo tanto, es necesario realizar pruebas de mantenimiento continuas de estas reglas para garantizar que sigan funcionando como se espera a medida que ingresan nuevos datos al sistema y necesitan vincularse. Los nuevos datos que exhiban características diferentes a las esperadas inicialmente podrían requerir una reconstrucción completa del conjunto de reglas de vinculación de registros, lo que podría ser una tarea muy costosa y que demandaría mucho tiempo.

Vinculación probabilística de registros

La vinculación probabilística de registros , a veces denominada coincidencia difusa (también fusión probabilística o fusión difusa en el contexto de la fusión de bases de datos), adopta un enfoque diferente para el problema de la vinculación de registros al tener en cuenta una gama más amplia de identificadores potenciales, calcular pesos para cada identificador en función de su capacidad estimada para identificar correctamente una coincidencia o una no coincidencia, y usar estos pesos para calcular la probabilidad de que dos registros dados se refieran a la misma entidad. Los pares de registros con probabilidades superiores a un cierto umbral se consideran coincidencias, mientras que los pares con probabilidades inferiores a otro umbral se consideran no coincidencias; los pares que se encuentran entre estos dos umbrales se consideran "posibles coincidencias" y se pueden tratar en consecuencia (por ejemplo, revisados por humanos, vinculados o no vinculados, según los requisitos). Mientras que la vinculación determinista de registros requiere una serie de reglas potencialmente complejas que se deben programar de antemano, los métodos de vinculación de registros probabilísticos se pueden "entrenar" para que funcionen bien con mucha menos intervención humana.

Muchos algoritmos de vinculación de registros probabilísticos asignan pesos de coincidencia/no coincidencia a los identificadores mediante dos probabilidades llamadas y . La probabilidad es la probabilidad de que un identificador en dos registros no coincidentes concuerde puramente por casualidad. Por ejemplo, la probabilidad para el mes de nacimiento (donde hay doce valores que se distribuyen de manera aproximadamente uniforme) es ; los identificadores con valores que no se distribuyen de manera uniforme tendrán diferentes probabilidades para diferentes valores (posiblemente incluidos los valores faltantes). La probabilidad es la probabilidad de que un identificador en pares coincidentes concuerde (o sea suficientemente similar, como cadenas con baja distancia de Jaro-Winkler o Levenshtein ). Este valor sería en el caso de datos perfectos, pero dado que esto rara vez (o nunca) es cierto, en cambio se puede estimar. Esta estimación se puede realizar en función del conocimiento previo de los conjuntos de datos, identificando manualmente una gran cantidad de pares coincidentes y no coincidentes para "entrenar" el algoritmo de vinculación de registros probabilístico, o ejecutando iterativamente el algoritmo para obtener estimaciones más cercanas de la probabilidad. Si se tuviera que estimar un valor para la probabilidad, entonces los pesos de coincidencia/no coincidencia para el identificador del mes de nacimiento serían: ${\estilo de visualización u}$ ${\estilo de visualización m}$ ${\estilo de visualización u}$ ${\estilo de visualización u}$ $1/12\aproximadamente 0,083$ ${\estilo de visualización u}$ ${\estilo de visualización m}$ ${\estilo de visualización 1.0}$ ${\estilo de visualización m}$ ${\estilo de visualización 0,95}$ ${\estilo de visualización m}$

Los mismos cálculos se realizarían para todos los demás identificadores bajo consideración para encontrar sus pesos de coincidencia/no coincidencia. Luego, cada identificador de un registro se compararía con el identificador correspondiente de otro registro para calcular el peso total del par: el peso de coincidencia se agrega al total acumulado siempre que un par de identificadores concuerde, mientras que el peso de no coincidencia se agrega (es decir, el total acumulado disminuye) siempre que el par de identificadores no concuerde. El peso total resultante se compara luego con los umbrales antes mencionados para determinar si el par debe vincularse, no vincularse o reservarse para una consideración especial (por ejemplo, validación manual). ^[12]

Bloqueo

Determinar dónde establecer los umbrales de coincidencia/no coincidencia es un acto de equilibrio entre la obtención de una sensibilidad aceptable (o recuperación , la proporción de registros verdaderamente coincidentes que están vinculados por el algoritmo) y un valor predictivo positivo (o precisión , la proporción de registros vinculados por el algoritmo que realmente coinciden). Hay varios métodos manuales y automatizados disponibles para predecir los mejores umbrales, y algunos paquetes de software de vinculación de registros tienen herramientas integradas para ayudar al usuario a encontrar los valores más aceptables. Debido a que esta puede ser una tarea muy exigente desde el punto de vista computacional, en particular para grandes conjuntos de datos, a menudo se utiliza una técnica conocida como bloqueo para mejorar la eficiencia. El bloqueo intenta restringir las comparaciones solo a aquellos registros para los que concuerdan uno o más identificadores particularmente discriminantes, lo que tiene el efecto de aumentar el valor predictivo positivo (precisión) a expensas de la sensibilidad (recuperación). ^[12] Por ejemplo, el bloqueo basado en un apellido y código postal codificados fonéticamente reduciría el número total de comparaciones necesarias y mejoraría las posibilidades de que los registros vinculados fueran correctos (ya que dos identificadores ya coinciden), pero potencialmente se perderían registros que se refieren a la misma persona cuyo apellido o código postal fuera diferente (debido a matrimonio o reubicación, por ejemplo). El bloqueo basado en el mes de nacimiento, un identificador más estable que se esperaría que cambiara solo en el caso de error en los datos, proporcionaría una ganancia más modesta en valor predictivo positivo y pérdida de sensibilidad, pero crearía solo doce grupos distintos que, para conjuntos de datos extremadamente grandes, pueden no proporcionar una gran mejora neta en la velocidad de cálculo. Por lo tanto, los sistemas robustos de vinculación de registros a menudo utilizan múltiples pases de bloqueo para agrupar datos de varias maneras con el fin de obtener grupos de registros que deben compararse entre sí.

Aprendizaje automático

En los últimos años, se han utilizado diversas técnicas de aprendizaje automático en la vinculación de registros. Se ha reconocido ^[7] que el algoritmo clásico de Fellegi-Sunter para la vinculación probabilística de registros descrito anteriormente es equivalente al algoritmo Naive Bayes en el campo del aprendizaje automático, ^[13] y sufre del mismo supuesto de independencia de sus características (un supuesto que normalmente no es cierto). ^[14]^[15] A menudo se puede lograr una mayor precisión utilizando varias otras técnicas de aprendizaje automático, incluido un perceptrón de una sola capa , ^[7] bosque aleatorio y SVM . ^[16] Junto con las tecnologías distribuidas, ^[17] se puede mejorar aún más la precisión y la escala para la vinculación de registros.

Vinculación de registros híbridos hombre-máquina

La vinculación de registros de alta calidad a menudo requiere un sistema híbrido hombre-máquina para gestionar de forma segura la incertidumbre en los flujos siempre cambiantes de grandes datos caóticos. ^[18]^[19] Al reconocer que los errores de vinculación se propagan a los datos vinculados y su análisis, se han propuesto sistemas de vinculación de registros interactivos. La vinculación de registros interactivos se define como personas que ajustan iterativamente los resultados de los métodos automatizados y gestionan la incertidumbre y su propagación a los análisis posteriores. ^[20] Los principales objetivos de los sistemas de vinculación de registros interactivos son resolver manualmente las vinculaciones inciertas y validar los resultados hasta que estén en niveles aceptables para la aplicación dada. También se han propuesto variaciones de la vinculación de registros interactivos que mejoran la privacidad durante los pasos de interacción humana. ^[21]^[22]

Vinculación de registros que preservan la privacidad

Cada vez es más necesario vincular registros entre bases de datos de distintas organizaciones, ya que los datos complementarios que poseen estas organizaciones pueden, por ejemplo, ayudar a identificar pacientes susceptibles a determinadas reacciones adversas a medicamentos (vinculando bases de datos de hospitales, médicos y farmacias). Sin embargo, en muchas de estas aplicaciones, las bases de datos que se vinculan contienen información confidencial sobre personas que no se puede compartir entre las organizaciones. ^[23]

Los métodos de vinculación de registros que preservan la privacidad (PPRL) se han desarrollado con el objetivo de vincular bases de datos sin la necesidad de compartir los valores sensibles originales entre las organizaciones que participan en una vinculación. ^[24]^[25] En PPRL, generalmente los valores de los atributos de los registros que se van a comparar se codifican o cifran de alguna forma. Una técnica de codificación popular utilizada es el filtro Bloom ^[26] , que permite calcular similitudes aproximadas entre valores codificados sin la necesidad de compartir los valores sensibles de texto plano correspondientes. Al final del proceso PPRL, solo se revela información limitada sobre los pares de registros clasificados como coincidencias a las organizaciones que participan en el proceso de vinculación. Las técnicas utilizadas en PPRL ^[24] deben garantizar que ninguna organización participante, ni ningún adversario externo, pueda comprometer la privacidad de las entidades que están representadas por los registros en las bases de datos que se vinculan. ^[27]

Modelo matemático

En una aplicación con dos archivos, A y B, denote las filas ( registros ) por en el archivo A y en el archivo B. Asigne características a cada registro. El conjunto de registros que representan entidades idénticas se define por $\alpha (a)$ $\beta (b)$ ${\estilo de visualización K}$

$M=\left\{(a,b);a=b;a\en A;b\en B\right\}$

y el complemento del conjunto , es decir, el conjunto que representa diferentes entidades, se define como ${\estilo de visualización M}$ ${\estilo de visualización U}$

$U=\{(a,b);a\neq b;a\in A;b\in B\}$ .

Se define un vector que contiene los acuerdos y desacuerdos codificados sobre cada característica: $\gamma$

$\gamma \left[\alpha (a),\beta (b)\right]=\{\gamma ^{1}\left[\alpha (a),\beta (b)\right],...,\gamma ^{K}\left[\alpha (a),\beta (b)\right]\}$

donde es un subíndice para las características (sexo, edad, estado civil, etc.) en los archivos. Las probabilidades condicionales de observar un vector específico dado se definen como $K$ $\gamma$ $(a,b)\in M$ $(a,b)\in U$

$m(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in M\right\}=\sum _{(a,b)\in M}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|M\right]$

$u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right],$ respectivamente. ^[6]

Aplicaciones

Gestión de datos maestros

La mayoría de los productos de gestión de datos maestros (MDM) utilizan un proceso de vinculación de registros para identificar registros de diferentes fuentes que representan la misma entidad del mundo real. Esta vinculación se utiliza para crear un "registro maestro de oro" que contiene los datos depurados y conciliados sobre la entidad. Las técnicas utilizadas en MDM son las mismas que para la vinculación de registros en general. MDM amplía esta correspondencia no solo para crear un "registro maestro de oro", sino también para inferir relaciones (es decir, una persona tiene el mismo apellido o un apellido similar y la misma dirección o una dirección similar, lo que podría implicar que comparten una relación de hogar).

Almacenamiento de datos e inteligencia empresarial

La vinculación de registros desempeña un papel fundamental en el almacenamiento de datos y la inteligencia empresarial . Los almacenes de datos sirven para combinar datos de muchos sistemas de origen operativos diferentes en un modelo de datos lógico , que luego se puede introducir en un sistema de inteligencia empresarial para la elaboración de informes y análisis. Cada sistema de origen operativo puede tener su propio método para identificar las mismas entidades utilizadas en el modelo de datos lógico, por lo que la vinculación de registros entre las diferentes fuentes se hace necesaria para garantizar que la información sobre una entidad particular en un sistema de origen se pueda comparar sin problemas con la información sobre la misma entidad de otro sistema de origen. La estandarización de datos y la posterior vinculación de registros a menudo ocurren en la parte de "transformación" del proceso de extracción, transformación y carga (ETL).

Investigación histórica

La vinculación de registros es importante para la investigación de la historia social, ya que la mayoría de los conjuntos de datos, como los registros censales y los registros parroquiales, se registraron mucho antes de la invención de los números de identificación nacional . Cuando se digitalizan fuentes antiguas, la vinculación de conjuntos de datos es un requisito previo para el estudio longitudinal . Este proceso a menudo se complica aún más por la falta de ortografía estándar de los nombres, los apellidos que cambian según el lugar de residencia, el cambio de los límites administrativos y los problemas de verificación de los datos con otras fuentes. La vinculación de registros fue uno de los temas más destacados en el campo de la historia y la informática en la década de 1980, pero desde entonces ha sido objeto de menos atención en la investigación. ^{[ cita requerida ]}

Práctica médica e investigación

La vinculación de registros es una herramienta importante para crear los datos necesarios para examinar la salud del público y del propio sistema de atención de la salud. Puede utilizarse para mejorar la recopilación de datos, la evaluación de la calidad y la difusión de la información. Se pueden examinar las fuentes de datos para eliminar registros duplicados, identificar casos no registrados o que no se notifican (por ejemplo, recuentos de población en censos), crear estadísticas de salud orientadas a las personas y generar registros de enfermedades y sistemas de vigilancia de la salud. Algunos registros de cáncer vinculan varias fuentes de datos (por ejemplo, admisiones hospitalarias, informes patológicos y clínicos y registros de defunción) para generar sus registros. La vinculación de registros también se utiliza para crear indicadores de salud. Por ejemplo, la mortalidad fetal e infantil es un indicador general del desarrollo socioeconómico, la salud pública y los servicios maternoinfantiles de un país. Si los registros de defunción infantil se cotejan con los registros de nacimiento, es posible utilizar variables de nacimiento, como el peso al nacer y la edad gestacional, junto con datos de mortalidad, como la causa de muerte, para analizar los datos. Los vínculos pueden ayudar en los estudios de seguimiento de cohortes u otros grupos para determinar factores como el estado vital, el estado residencial o los resultados de salud. El rastreo es a menudo necesario para el seguimiento de cohortes industriales, ensayos clínicos y encuestas longitudinales para obtener la causa de muerte y/o cáncer. Un ejemplo de un sistema de vínculos de registros exitoso y de larga data que permite la investigación médica basada en la población es el Proyecto de Epidemiología de Rochester con sede en Rochester, Minnesota . ^[28]

Crítica de las implementaciones de software existentes

Las principales razones citadas son: ^{[ cita requerida ]}

Costos del proyecto : los costos suelen ser de cientos de miles de dólares.
Tiempo : falta de tiempo suficiente para ocuparse de software de limpieza de datos a gran escala
Seguridad : preocupaciones sobre compartir información, dar acceso a una aplicación entre sistemas y efectos en los sistemas heredados
Escalabilidad : debido a la ausencia de identificadores únicos en los registros, la vinculación de registros es computacionalmente costosa y difícil de escalar. ^[29]
Precisión : cambiar los datos comerciales y capturar todas las reglas para vincularlos es un ejercicio difícil y extenso.

Véase también

Notas y referencias

^ "Cristen, P & T: Febrl - Enlace de registros biomédicos libremente extensible (Manual, versión 0.3) p.9". Archivado desde el original el 11 de marzo de 2016. Consultado el 21 de abril de 2006 .
^ Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (enero de 2007). "Detección de registros duplicados: una encuesta" (PDF) . IEEE Transactions on Knowledge and Data Engineering . 19 (1): págs. 1–16. doi :10.1109/tkde.2007.250581. S2CID 386036 . Consultado el 30 de marzo de 2009 .
^ Singla, Parag; Domingos, Pedro (diciembre de 2006). "Resolución de entidades con lógica de Markov" (PDF) . Sexta Conferencia Internacional sobre Minería de Datos (ICDM'06) . pp. 572–582. doi :10.1109/ICDM.2006.65. ISBN 9780769527024. S2CID 12211870 . Consultado el 1 de marzo de 2023 .
^ Dunn, Halbert L. (diciembre de 1946). "Record Linkage". Revista estadounidense de salud pública . 36 (12): págs. 1412–1416. doi :10.2105/AJPH.36.12.1412. PMC 1624512 . PMID 18016455.
^ Newcombe, HB; JM Kennedy; SJ Axford; AP James (octubre de 1959). "Vinculación automática de registros vitales". Science . 130 (3381): 954–959. Bibcode :1959Sci...130..954N. doi :10.1126/science.130.3381.954. PMID 14426783.
^ ab Fellegi, Ivan ; Sunter, Alan (diciembre de 1969). "Una teoría para la vinculación de registros" (PDF) . Revista de la Asociación Estadounidense de Estadística . 64 (328): págs. 1183–1210. doi :10.2307/2286061. JSTOR 2286061.
^ abc Wilson, D. Randall, D. Randall (31 de julio – 5 de agosto de 2011). Más allá de la vinculación probabilística de registros: uso de redes neuronales y características complejas para mejorar la vinculación de registros genealógicos (PDF) . Actas de la Conferencia conjunta internacional sobre redes neuronales. San José, California, EE. UU.
^ Winkler, William E. "Matching and Record Linkage" (PDF) . Oficina del Censo de los Estados Unidos . Consultado el 12 de noviembre de 2011 .
^ Iglesias, Tim; Peter Christen; Kim Lim; Justin Xi Zhu (13 de diciembre de 2002). "Preparación de datos de nombre y dirección para vinculación de registros utilizando modelos ocultos de Markov". BMC Medical Informatics and Decision Making . 2 : 9. doi : 10.1186/1472-6947-2-9 . PMC 140019 . PMID 12482326.
^ Roos, LL; Wajda A (abril de 1991). "Estrategias de vinculación de registros. Parte I: Estimación de información y evaluación de enfoques". Métodos de información en medicina . 30 (2): 117–123. doi :10.1055/s-0038-1634828. PMID 1857246. S2CID 23501719.
^ Grannis, SJ; Overhage JM; McDonald CJ (2002). "Análisis del rendimiento de identificadores utilizando un algoritmo de enlace determinista". Proc AMIA Symp. : 305–9. PMC 2244404 . PMID 12463836.
^ ab Blakely, Tony; Salmond, Clare (diciembre de 2002). "Vinculación probabilística de registros y un método para calcular el valor predictivo positivo". Revista Internacional de Epidemiología . 31 (6): 1246–1252. doi : 10.1093/ije/31.6.1246 . PMID 12540730.
^ Quass, Dallan y Starkey, Paul. “Record Linkage for Genealogical Databases”, Taller ACM SIGKDD '03 sobre limpieza de datos, vinculación de registros y consolidación de objetos, 24 al 27 de agosto de 2003, Washington, DC
^ Langley, Pat, Wayne Iba y Kevin Thompson. “An Analysis of Bayesian Classifiers” (Análisis de los clasificadores bayesianos), en Actas de la 10.ª Conferencia Nacional sobre Inteligencia Artificial (AAAI-92), AAAI Press/MIT Press, Cambridge, MA, págs. 223-228, 1992.
^ Michie, D.; Spiegelhalter, D.; Taylor, C. (1994). Aprendizaje automático, clasificación neuronal y estadística . Hertfordshire, Inglaterra: Ellis Horwood. ISBN 0-13-106360-X.
^ Ramezani, M.; Ilangovan, G.; Kum, HC. (2021). Evaluación de algoritmos de aprendizaje automático en un sistema híbrido de vinculación de registros humano-computadora (PDF) . Vol. 2846. Actas del taller CEUR.
^ "Coincidencia difusa con Spark". Cumbre Spark.
^ Bronstein, Janet M.; Lomatsch, Charles T.; Fletcher, David; Wooten, Terri; Lin, Tsai Mei; Nugent, Richard; Lowery, Curtis L. (1 de mayo de 2008). "Problemas y sesgos en la correspondencia de episodios de embarazo de Medicaid con datos de registros vitales: la experiencia de Arkansas". Revista de salud materna e infantil . 13 (2): 250–259. doi :10.1007/s10995-008-0347-z. ISSN 1092-7875. PMID 18449631. S2CID 22259447.
^ Boscoe, Francis P.; Schrag, Deborah; Chen, Kun; Roohan, Patrick J.; Schymura, Maria J. (15 de diciembre de 2010). "Desarrollo de la capacidad para evaluar la atención del cáncer en la población de Medicaid en el estado de Nueva York". Investigación de servicios de salud . 46 (3): 805–820. doi :10.1111/j.1475-6773.2010.01221.x. ISSN 0017-9124. PMC 3087842 . PMID 21158856.
^ Kum, Hye-Chung; Krishnamurthy, Ashok; Machanavajjhala, Ashwin; Reiter, Michael K; Ahalt, Stanley (marzo de 2014). "Enlace de registros interactivos que preservan la privacidad (PPIRL)". Revista de la Asociación Estadounidense de Informática Médica . 21 (2): 212–220. doi :10.1136/amiajnl-2013-002165. ISSN 1067-5027. PMC 3932473 . PMID 24201028.
^ Kum, HC.; Ragan, E.; Ilangovan, G.; Ramezani, M.; Li, Q.; Schmit, C. (2019). Mejora de la privacidad a través de una interfaz interactiva de divulgación incremental de información a pedido: aplicación de la privacidad por diseño a la vinculación de registros (PDF) . Decimoquinto Simposio sobre privacidad y seguridad utilizables (SOUPS). págs. 175–189. ISBN 978-1-939133-05-2.
^ Ragan, Eric D.; Kum, Hye-Chung; Ilangovan, Gurudev; Wang, Han (21 de abril de 2018). "Equilibrio entre privacidad y divulgación de información en la vinculación de registros interactivos con enmascaramiento visual". Actas de la Conferencia CHI de 2018 sobre factores humanos en sistemas informáticos . Nueva York, NY, EE. UU.: ACM. págs. 1–12. doi :10.1145/3173574.3173900. ISBN 9781450356206.S2CID 5051254 .
^ Vatsalan, D; Sehili, Z; Christen, P; Rahm, E (2017). "Vinculación de registros que preservan la privacidad para Big Data: enfoques actuales y desafíos de investigación". Manual de tecnologías de Big Data . págs. 851–895. doi :10.1007/978-3-319-49340-4_25. hdl :1885/247396. ISBN 978-3-319-49339-8.
^ ab Christen, P; Ranbaduge, T; Schnell, R (2020). Vinculación de datos confidenciales: métodos y técnicas para compartir información de manera práctica y que preserve la privacidad. Heidelberg: Springer. doi :10.1007/978-3-030-59706-1. ISBN 978-3-030-59706-1.ID S2C 222821833.
^ Gkoulalas-Divanis, A; Vatsalan, D; Karapiperis, D; Kantarcioglu, M (2021). "Modernas técnicas de vinculación de registros que preservan la privacidad: una descripción general". Transacciones IEEE sobre seguridad y análisis forense de la información . 16 : 4966–4987. doi :10.1109/TIFS.2021.3114026. S2CID 239088979.
^ Schnell, R; Bachteler, T; Reiher, J (2009). "Vinculación de registros que preservan la privacidad mediante filtros Bloom". BMC Medical Informatics and Decision Making . 9 : 41. doi : 10.1186/1472-6947-9-41 . PMC 2753305 . PMID 19706187.
^ Vidanage, A (2022). Técnicas de criptoanálisis eficientes para la vinculación de registros que preservan la privacidad (tesis). Canberra: Universidad Nacional de Australia. doi :10.25911/VSBZ-A727. hdl :1885/254502.
^ St. Sauver JL; Grossardt BR; Yawn BP; Melton LJ 3rd; Pankratz JJ; Brue SM; Rocca WA (2012). "Perfil de recursos de datos: el sistema de vinculación de registros médicos del Proyecto de Epidemiología de Rochester (REP)". Int J Epidemiol . 41 (6): 1614–24. doi :10.1093/ije/dys195. PMC 3535751 . PMID 23159830. {{cite journal}}: CS1 maint: numeric names: authors list (link)
^ "Resolución de entidades a gran escala". 14 de febrero de 2020.

Enlaces externos

Proyecto de vinculación de datos en Penn State, EE.UU.
Marco de resolución de entidades de Stanford
Dedoop - Deduplicación con Hadoop
Vinculación interactiva de registros con mayor privacidad en la Universidad Texas A&M
Una descripción general de la comparación de datos