La desidentificación es el proceso que se utiliza para evitar que se revele la identidad personal de alguien . Por ejemplo, los datos producidos durante una investigación con sujetos humanos pueden desidentificarse para preservar la privacidad de los participantes de la investigación . Los datos biológicos pueden desidentificarse para cumplir con las regulaciones HIPAA que definen y estipulan las leyes de privacidad del paciente. [1]
Cuando se aplica a metadatos o datos generales sobre identificación, el proceso también se conoce como anonimización de datos . Las estrategias comunes incluyen eliminar o enmascarar identificadores personales , como el nombre personal , y suprimir o generalizar cuasiidentificadores , como la fecha de nacimiento. El proceso inverso de usar datos desidentificados para identificar individuos se conoce como reidentificación de datos . Las reidentificaciones exitosas [2] [3] [4] [5] ponen en duda la efectividad de la desidentificación. Una revisión sistemática de catorce ataques distintos de reidentificación encontró "una alta tasa de reidentificación [...] dominada por estudios a pequeña escala sobre datos que no fueron desidentificados de acuerdo con los estándares existentes". [6]
La desidentificación se adopta como uno de los principales enfoques hacia la protección de la privacidad de los datos . [7] Se utiliza comúnmente en campos de comunicaciones, multimedia, biometría, big data , computación en la nube, minería de datos , Internet, redes sociales y vigilancia de audio y video. [8]
Cuando se realizan encuestas, como un censo , se recopila información sobre un grupo específico de personas. Para fomentar la participación y proteger la privacidad de los encuestados, los investigadores intentan diseñar la encuesta de manera que, cuando las personas participen en ella, no sea posible hacer coincidir las respuestas individuales de ningún participante con los datos publicados. [9]
Cuando un sitio web de compras en línea desea conocer las preferencias y los hábitos de compra de sus usuarios, decide recuperar los datos de los clientes de su base de datos y realizar un análisis de los mismos. La información de datos personales incluye identificadores personales que se recopilaron directamente cuando los clientes crearon sus cuentas. El sitio web debe procesar previamente los datos mediante técnicas de desidentificación antes de analizar los registros de datos para evitar violar la privacidad de sus clientes.
La anonimización se refiere a la separación irreversible de un conjunto de datos de la identidad del contribuyente de datos en un estudio para evitar cualquier reidentificación futura, incluso por parte de los organizadores del estudio bajo cualquier condición. [10] [11] La desidentificación también puede incluir la preservación de información de identificación que solo puede ser revinculada por una parte confiable en ciertas situaciones. [10] [11] [12] Existe un debate en la comunidad tecnológica sobre si los datos que pueden volver a vincularse, incluso por una parte confiable, deben considerarse alguna vez desidentificados. [13]
Las estrategias habituales de desidentificación son el enmascaramiento de los identificadores personales y la generalización de los cuasiidentificadores . La seudonimización es la principal técnica utilizada para enmascarar los identificadores personales de los registros de datos, y la k-anonimización se suele adoptar para generalizar los cuasiidentificadores .
La seudonimización se realiza reemplazando los nombres reales por un identificador temporal. Elimina o enmascara los identificadores personales para que las personas no sean identificadas. Este método permite rastrear el registro de una persona a lo largo del tiempo, aunque el registro se actualice. Sin embargo, no puede evitar que la persona sea identificada si algunas combinaciones específicas de atributos en el registro de datos la identifican indirectamente. [14]
La anonimización k define atributos que apuntan indirectamente a la identidad del individuo como cuasi-identificadores (QIs) y maneja los datos haciendo que al menos k individuos tengan alguna combinación de valores QI. [14] Los valores QI se manejan siguiendo estándares específicos. Por ejemplo, la anonimización k reemplaza algunos datos originales en los registros con nuevos valores de rango y mantiene algunos valores sin cambios. La nueva combinación de valores QI evita que el individuo sea identificado y también evita la destrucción de registros de datos.
La investigación sobre la desidentificación se orienta principalmente a proteger la información sanitaria . [15] Algunas bibliotecas han adoptado métodos utilizados en la industria de la salud para preservar la privacidad de sus lectores. [15]
En el ámbito del big data , la desidentificación es ampliamente adoptada por individuos y organizaciones. [8] Con el desarrollo de las redes sociales, el comercio electrónico y el big data, la desidentificación a veces se requiere y se utiliza a menudo para la privacidad de los datos cuando los datos personales de los usuarios son recopilados por empresas u organizaciones de terceros que los analizarán para su propio uso personal.
En las ciudades inteligentes , puede ser necesaria la desidentificación para proteger la privacidad de los residentes, trabajadores y visitantes. Sin una regulación estricta, la desidentificación puede resultar difícil porque los sensores aún pueden recopilar información sin consentimiento. [16]
La PHI (Información Sanitaria Protegida) puede estar presente en diversos datos y cada formato necesita técnicas y herramientas específicas para desidentificarla:
Cuando una persona participa en una investigación genética , la donación de una muestra biológica suele dar lugar a la creación de una gran cantidad de datos personalizados. Estos datos son especialmente difíciles de desidentificar. [18]
La anonimización de los datos genéticos es particularmente difícil debido a la enorme cantidad de información genotípica en los bioespecímenes, [18] los vínculos que los especímenes a menudo tienen con el historial médico, [19] y el advenimiento de las herramientas bioinformáticas modernas para la minería de datos . [19] Ha habido demostraciones de que los datos de individuos en colecciones agregadas de conjuntos de datos genotípicos se pueden vincular a las identidades de los donantes de especímenes. [20]
Algunos investigadores han sugerido que no es razonable prometer a los participantes en una investigación genética que podrán conservar su anonimato, sino que se les debería enseñar a dichos participantes los límites del uso de identificadores codificados en un proceso de desidentificación. [11]
En mayo de 2014, el Consejo de Asesores sobre Ciencia y Tecnología del Presidente de los Estados Unidos consideró que la desidentificación era "algo útil como medida de protección adicional", pero no "una base útil para la formulación de políticas", ya que "no es sólida frente a futuros métodos de reidentificación a corto plazo". [21]
La regla de privacidad de la HIPAA proporciona mecanismos para usar y divulgar datos de salud de manera responsable sin necesidad del consentimiento del paciente. Estos mecanismos se centran en dos estándares de desidentificación de la HIPAA: Safe Harbor y el método de determinación experta. Safe Harbor se basa en la eliminación de identificadores específicos del paciente (por ejemplo, nombre, número de teléfono, dirección de correo electrónico, etc.), mientras que el método de determinación experta requiere conocimiento y experiencia con principios y métodos estadísticos y científicos generalmente aceptados para hacer que la información no sea identificable individualmente. [22]
El método de puerto seguro utiliza un enfoque de lista para la desidentificación y tiene dos requisitos:
La determinación de expertos adopta un enfoque basado en el riesgo para la desidentificación que aplica los estándares actuales y las mejores prácticas de la investigación para determinar la probabilidad de que una persona pueda ser identificada a partir de su información médica protegida. Este método requiere que una persona con el conocimiento y la experiencia adecuados en principios y métodos estadísticos y científicos generalmente aceptados haga que la información no sea identificable individualmente. Requiere:
La ley clave sobre la investigación de datos de registros médicos electrónicos es la Norma de Privacidad de HIPAA . Esta ley permite el uso de registros médicos electrónicos de sujetos fallecidos para investigación (Norma de Privacidad de HIPAA (sección 164.512(i)(1)(iii))). [23]