La desidentificación es el proceso utilizado para evitar que se revele la identidad personal de una persona. Por ejemplo, los datos producidos durante la investigación con seres humanos podrían anonimizarse para preservar la privacidad de los participantes de la investigación . Los datos biológicos pueden ser anonimizados para cumplir con las regulaciones de HIPAA que definen y estipulan las leyes de privacidad del paciente. [1]
Cuando se aplica a metadatos o datos generales sobre identificación, el proceso también se conoce como anonimización de datos . Las estrategias comunes incluyen eliminar o enmascarar identificadores personales , como el nombre personal , y suprimir o generalizar cuasiidentificadores , como la fecha de nacimiento. El proceso inverso de utilizar datos no identificados para identificar personas se conoce como reidentificación de datos . Las reidentificaciones exitosas [2] [3] [4] [5] arrojan dudas sobre la eficacia de la desidentificación. Una revisión sistemática de catorce ataques de reidentificación distintos encontró "una alta tasa de reidentificación [...] dominada por estudios a pequeña escala sobre datos que no fueron anonimizados según los estándares existentes". [6]
La desidentificación se adopta como uno de los principales enfoques hacia la protección de la privacidad de los datos . [7] Se utiliza comúnmente en los campos de las comunicaciones, multimedia, biometría, big data , computación en la nube, minería de datos , Internet, redes sociales y vigilancia de audio y video. [8]
Cuando se realizan encuestas, como un censo , recopilan información sobre un grupo específico de personas. Para fomentar la participación y proteger la privacidad de los encuestados, los investigadores intentan diseñar la encuesta de manera que cuando las personas participen en una encuesta, no sea posible hacer coincidir las respuestas individuales de ningún participante con los datos publicados. [9]
Cuando un sitio web de compras en línea quiere conocer las preferencias y hábitos de compra de sus usuarios, decide recuperar los datos de los clientes de su base de datos y analizarlos. La información de datos personales incluye identificadores personales que se recopilaron directamente cuando los clientes crearon sus cuentas. El sitio web debe manejar previamente los datos mediante técnicas de desidentificación antes de analizar los registros de datos para evitar violar la privacidad de sus clientes.
La anonimización se refiere a separar irreversiblemente un conjunto de datos de la identidad del contribuyente de datos en un estudio para evitar cualquier reidentificación futura, incluso por parte de los organizadores del estudio bajo cualquier condición. [10] [11] La desidentificación también puede incluir la preservación de información de identificación que solo puede volver a vincularse por una parte de confianza en determinadas situaciones. [10] [11] [12] Existe un debate en la comunidad tecnológica sobre si los datos que pueden volver a vincularse, incluso por parte de una parte confiable, deberían considerarse anonimizados. [13]
Las estrategias comunes de desidentificación son enmascarar identificadores personales y generalizar cuasiidentificadores . La seudonimización es la técnica principal utilizada para enmascarar identificadores personales de los registros de datos, y la anonimización k generalmente se adopta para generalizar cuasi-identificadores .
La seudonimización se realiza reemplazando los nombres reales con una identificación temporal. Elimina o enmascara identificadores personales para que las personas no sean identificadas. Este método permite realizar un seguimiento del registro del individuo a lo largo del tiempo, aunque el registro se actualizará. Sin embargo, no puede impedir que se identifique al individuo si algunas combinaciones específicas de atributos en el registro de datos identifican indirectamente al individuo. [14]
La k-anonimización define atributos que apuntan indirectamente a la identidad del individuo como cuasi-identificadores (QI) y manejan datos haciendo que al menos k individuos tengan alguna combinación de valores de QI. [14] Los valores de QI se manejan siguiendo estándares específicos. Por ejemplo, la anonimización k reemplaza algunos datos originales en los registros con nuevos valores de rango y mantiene algunos valores sin cambios. La nueva combinación de valores de QI evita que el individuo sea identificado y también evita la destrucción de registros de datos.
La investigación sobre la desidentificación está impulsada principalmente por proteger la información de salud . [15] Algunas bibliotecas han adoptado métodos utilizados en la industria de la salud para preservar la privacidad de sus lectores. [15]
En big data , la desidentificación es ampliamente adoptada por individuos y organizaciones. [8] Con el desarrollo de las redes sociales, el comercio electrónico y los macrodatos, a veces se requiere la desidentificación y, a menudo, se utiliza para la privacidad de los datos cuando los datos personales de los usuarios son recopilados por empresas u organizaciones de terceros que los analizan para sus fines. propio uso personal.
En las ciudades inteligentes , es posible que se requiera la desidentificación para proteger la privacidad de los residentes, trabajadores y visitantes. Sin una regulación estricta, la desidentificación puede resultar difícil porque los sensores aún pueden recopilar información sin consentimiento. [dieciséis]
Siempre que una persona participa en una investigación genética , la donación de un espécimen biológico suele dar lugar a la creación de una gran cantidad de datos personalizados. Estos datos son especialmente difíciles de desidentificar. [17]
La anonimización de los datos genéticos es particularmente difícil debido a la enorme cantidad de información genotípica en las muestras biológicas, [17] los vínculos que las muestras suelen tener con el historial médico, [18] y la llegada de herramientas bioinformáticas modernas para la extracción de datos . [18] Ha habido demostraciones de que los datos de individuos en colecciones agregadas de conjuntos de datos genotípicos pueden vincularse a las identidades de los donantes de muestras. [19]
Algunos investigadores han sugerido que no es razonable prometer a los participantes en una investigación genética que pueden conservar su anonimato, sino que se les debe enseñar a dichos participantes los límites del uso de identificadores codificados en un proceso de desidentificación. [11]
En mayo de 2014, el Consejo de Asesores en Ciencia y Tecnología del Presidente de los Estados Unidos consideró que la desidentificación era "algo útil como salvaguardia adicional", pero no era "una base útil para la política", ya que "no es sólida contra la reidentificación futura a corto plazo". métodos". [20]
La regla de privacidad de HIPAA proporciona mecanismos para usar y divulgar datos de salud de manera responsable sin la necesidad del consentimiento del paciente. Estos mecanismos se centran en dos estándares de desidentificación de HIPAA: Puerto Seguro y el Método de Determinación de Expertos. El puerto seguro se basa en la eliminación de identificadores de pacientes específicos (por ejemplo, nombre, número de teléfono, dirección de correo electrónico, etc.), mientras que el Método de determinación de expertos requiere conocimiento y experiencia con principios y métodos estadísticos y científicos generalmente aceptados para convertir la información en no identificable individualmente. [21]
El método de puerto seguro utiliza un enfoque de lista para la desidentificación y tiene dos requisitos:
La determinación de expertos adopta un enfoque de desidentificación basado en el riesgo que aplica los estándares actuales y las mejores prácticas de la investigación para determinar la probabilidad de que una persona pueda ser identificada a partir de su información de salud protegida . Este método requiere que una persona con conocimiento y experiencia adecuados en los principios y métodos estadísticos y científicos generalmente aceptados haga que la información no sea identificable individualmente. Requiere:
La ley clave sobre la investigación de datos de registros médicos electrónicos es la Regla de Privacidad HIPAA . Esta ley permite el uso de registros médicos electrónicos de sujetos fallecidos para investigaciones (Regla de Privacidad HIPAA (sección 164.512(i)(1)(iii))). [22]