Reidentificación de datos

La reidentificación o anonimización de datos es la práctica de comparar datos anónimos (también conocidos como datos no identificados) con información disponible públicamente, o datos auxiliares, para descubrir a la persona a la que pertenecen los datos. ^[1] Esto es preocupante porque las empresas con políticas de privacidad , los proveedores de atención médica y las instituciones financieras pueden divulgar los datos que recopilan después de que hayan pasado por el proceso de desidentificación.

El proceso de desidentificación implica enmascarar, generalizar o eliminar identificadores tanto directos como indirectos ; La definición de este proceso no es universal. La información de dominio público , incluso aparentemente anónima, puede así volver a identificarse en combinación con otros datos disponibles y técnicas informáticas básicas. La Protección de Sujetos Humanos (" Regla Común "), un conjunto de múltiples agencias y departamentos federales de EE. UU., incluido el Departamento de Salud y Servicios Humanos de EE. UU. , advierte que la reidentificación se está volviendo cada vez más fácil debido a los " grandes datos ": la abundancia y constante recopilación y análisis de información junto con la evolución de las tecnologías y los avances de los algoritmos. Sin embargo, otros han afirmado que la desidentificación es una herramienta de liberación de datos segura y eficaz y no ven la reidentificación como una preocupación. ^[2]^{[ la neutralidad está en disputa ]}

Cada vez hay más datos disponibles públicamente a través de Internet. Estos datos se divulgan después de aplicar algunas técnicas de anonimización, como eliminar información de identificación personal (PII), como nombres, direcciones y números de seguro social, para garantizar la privacidad de las fuentes. Esta garantía de privacidad permite al gobierno compartir legalmente conjuntos de datos limitados con terceros sin necesidad de permiso por escrito. Estos datos han demostrado ser muy valiosos para los investigadores, especialmente en el ámbito de la atención sanitaria.

La seudonimización que cumple con el RGPD busca reducir el riesgo de reidentificación mediante el uso de "información adicional" guardada por separado. El enfoque se basa en una evaluación experta de un conjunto de datos para designar algunos identificadores como "directos" y otros como "indirectos". Los defensores de este enfoque argumentan que la reidentificación se puede evitar limitando el acceso a "información adicional" que el controlador mantiene por separado. La teoría es que el acceso a "información adicional" guardada por separado es necesario para la reidentificación, y el controlador puede limitar la atribución de datos a un interesado específico para respaldar únicamente fines legales. Este enfoque es controvertido, ya que falla si existen conjuntos de datos adicionales que pueden usarse para la reidentificación. Dichos conjuntos de datos adicionales pueden ser desconocidos para quienes certifican la seudonimización que cumple con el RGPD, o pueden no existir en el momento de la seudonimización, pero pueden llegar a existir en algún momento en el futuro.

Protecciones legales de datos en los Estados Unidos

Las regulaciones de privacidad existentes generalmente protegen la información que ha sido modificada, de modo que los datos se consideran anónimos o anonimizados. Para información financiera, la Comisión Federal de Comercio permite su circulación si no está identificada y está agregada. ^[3] La Ley Gramm Leach Bliley (GLBA), que exige que las instituciones financieras brinden a los consumidores la oportunidad de optar por no compartir su información con terceros, no cubre datos no identificados si la información es agregada y no contiene identificadores personales. , ya que estos datos no son tratados como información de identificación personal . ^[3]

Registros educativos

En términos de registros universitarios, las autoridades tanto a nivel estatal como federal han mostrado conciencia sobre los problemas de privacidad en la educación y disgusto por la divulgación de información por parte de las instituciones. El Departamento de Educación de EE. UU. ha brindado orientación sobre el discurso y la identificación de datos, instruyendo a las instituciones educativas a ser sensibles al riesgo de reidentificación de datos anónimos mediante referencias cruzadas con datos auxiliares, para minimizar la cantidad de datos en el dominio público al disminuir publicación de información de directorio sobre estudiantes y personal institucional, y ser consistentes en los procesos de desidentificación. ^[4]

Registros médicos

La información médica de los pacientes está cada vez más disponible en Internet, en plataformas gratuitas y de acceso público como HealthData.gov y PatientsLikeMe , alentadas por las políticas gubernamentales de datos abiertos y las iniciativas de intercambio de datos encabezadas por el sector privado. Si bien este nivel de accesibilidad genera muchos beneficios, se han planteado preocupaciones con respecto a la discriminación y la privacidad. ^[5] Las protecciones de los registros médicos y los datos de los consumidores de las farmacias son más fuertes en comparación con las de otros tipos de datos de los consumidores. La Ley de Responsabilidad y Portabilidad del Seguro Médico (HIPAA) protege la privacidad de los datos identificables sobre la salud, pero autoriza la divulgación de información a terceros si no se identifica. Además, exige que los pacientes reciban notificaciones de incumplimiento en caso de que exista una probabilidad mayor que baja de que la información del paciente haya sido divulgada o utilizada de manera inapropiada sin una mitigación suficiente del daño para él o ella. ^[6] La probabilidad de reidentificación es un factor para determinar la probabilidad de que la información del paciente se haya visto comprometida. Por lo general, las farmacias venden información no identificada a empresas de minería de datos que, a su vez, venden a empresas farmacéuticas. ^[3]

Se han promulgado leyes estatales para prohibir la extracción de datos de información médica, pero fueron derogadas por los tribunales federales de Maine y New Hampshire basándose en la Primera Enmienda. Otro tribunal federal, en otro caso, utilizó "ilusorio" para describir las preocupaciones sobre la privacidad de los pacientes y no reconoció los riesgos de la reidentificación. ^[3]

muestra biológica

El Aviso de elaboración de normas propuestas, publicado por las Agencias de Normas Comunes en septiembre de 2015, amplió el término general de "sujeto humano" en la investigación para incluir muestras biológicas o materiales extraídos del cuerpo humano: sangre, orina, tejido, etc. Los investigadores que utilizan muestras biológicas deben seguir los requisitos más estrictos de realizar investigaciones con sujetos humanos. La razón de esto es el mayor riesgo de reidentificación de la muestra biológica. ^[7] Las revisiones finales afirmaron este reglamento. ^[8]^{[ se necesita aclaración ]}^{[ se necesita cita completa ]}

Esfuerzos de reidentificación

Ha habido una cantidad considerable de intentos exitosos de reidentificación en diferentes campos. Incluso si no es fácil para un profano romper el anonimato, una vez que se divulgan y aprenden los pasos para hacerlo, no hay necesidad de conocimientos de nivel superior para acceder a la información de una base de datos . A veces, ni siquiera se necesita experiencia técnica si una población tiene una combinación única de identificadores. ^[3]

Registros de salud

A mediados de la década de 1990, una agencia gubernamental de Massachusetts llamada Group Insurance Commission (GIC), que compraba seguros médicos para los empleados del estado, decidió revelar los registros de las visitas al hospital a cualquier investigador que solicitara los datos, sin coste alguno. GIC aseguró que la privacidad del paciente no era una preocupación ya que había eliminado identificadores como nombre, direcciones, números de seguro social. Sin embargo, información como códigos postales, fecha de nacimiento y sexo permaneció intacta. La garantía del GIC fue reforzada por el entonces gobernador de Massachusetts, William Weld. Latanya Sweeney , una estudiante de posgrado en ese momento, se propuso seleccionar los registros del gobernador en los datos del GIC. Combinando los datos de GIC con la base de datos de votantes de la ciudad de Cambridge, que compró por 20 dólares, se descubrió fácilmente el historial del Gobernador Weld. ^[9]

En 1997, un investigador logró anonimizar los registros médicos utilizando bases de datos de votantes. ^[3]

En 2011, la profesora Latanya Sweeney volvió a utilizar registros anónimos de visitas a hospitales y registros de votación en el estado de Washington y logró emparejar a personas individuales el 43% de las veces. ^[10]

Existen algoritmos que se utilizan para volver a identificar al paciente con información de medicamentos recetados. ^[3]

Hábitos y prácticas de consumo.

Dos investigadores de la Universidad de Texas , Arvind Narayanan y el profesor Vitaly Shmatikov, pudieron volver a identificar una parte de los datos anónimos de clasificación de películas de Netflix con consumidores individuales en el sitio web de streaming. ^[11]^[12]^[13] Los datos fueron publicados por Netflix en 2006 después de la desidentificación, que consistió en reemplazar nombres individuales con números aleatorios y mover detalles personales. Los dos investigadores quitaron el anonimato de algunos de los datos comparándolos con las clasificaciones de películas de usuarios no anónimos de IMDb (Internet Movie Database). Se descubrió que se necesitaba muy poca información de la base de datos para identificar al suscriptor. ^[3] En el trabajo de investigación resultante, hubo revelaciones sorprendentes sobre lo fácil que es reidentificar a los usuarios de Netflix. Por ejemplo, el simple hecho de conocer los datos de sólo dos películas que un usuario ha revisado, incluida la calificación precisa y la fecha de calificación más o menos en tres días, permite un 68% de éxito en la reidentificación. ^[9]

En 2006, después de que AOL publicara las consultas de búsqueda de sus usuarios, datos que fueron anonimizados antes de su divulgación pública, los reporteros del New York Times llevaron a cabo con éxito la reidentificación de individuos tomando grupos de búsquedas realizadas por usuarios anónimos. ^[3] AOL había intentado suprimir la información de identificación, incluidos los nombres de usuario y las direcciones IP, pero los había reemplazado con números de identificación únicos para preservar la utilidad de estos datos para los investigadores. Los blogueros, después de la publicación, estudiaron minuciosamente los datos, ya sea tratando de identificar a usuarios específicos con este contenido o señalando consultas de búsqueda entretenidas, deprimentes o impactantes, ejemplos de las cuales incluyen "cómo matar a tu esposa", "depresión y atención médica". salir", "fotos de accidentes automovilísticos". Dos reporteros, Michael Barbaro y Tom Zeller, pudieron localizar a una viuda de 62 años llamada Thelma Arnold al reconocer pistas sobre la identidad de los historiales de búsqueda del usuario 417729. Arnold reconoció que ella fue la autora de las búsquedas, confirmando que la reidentificación es posible. ^[9]

Datos de localización

Los datos de ubicación (serie de posiciones geográficas en el tiempo que describen el paradero y los movimientos de una persona) son una clase de datos personales que son específicamente difíciles de mantener en el anonimato. La ubicación muestra visitas recurrentes a lugares de la vida cotidiana frecuentados, como el hogar, el lugar de trabajo, las compras, la atención médica o patrones específicos de tiempo libre. ^[14] Sólo eliminar la identidad de una persona de los datos de ubicación no eliminará patrones identificables como ritmos de desplazamiento, lugares para dormir o lugares de trabajo. Al asignar coordenadas a direcciones, los datos de ubicación se vuelven a identificar fácilmente ^[15] o se correlacionan con los contextos de la vida privada de una persona. Los flujos de información de ubicación desempeñan un papel importante en la reconstrucción de identificadores personales a partir de datos de teléfonos inteligentes a los que acceden las aplicaciones. ^[dieciséis]

Decisiones judiciales

En 2019, la profesora Kerstin Noëlle Vokinger y el Dr. Urs Jakob Mühlematter, dos investigadores de la Universidad de Zurich , analizaron casos del Tribunal Supremo Federal de Suiza para evaluar qué empresas farmacéuticas y qué medicamentos estaban implicados en acciones legales contra la Oficina Federal de Salud Pública (FOPH) con respecto a las decisiones de fijación de precios de medicamentos. En general, las partes privadas involucradas (como las compañías farmacéuticas) y la información que revelaría a las partes privadas (por ejemplo, los nombres de los medicamentos) se mantienen anónimas en las sentencias suizas. Los investigadores pudieron volver a identificar el 84% de los casos relevantes anonimizados del Tribunal Supremo Federal de Suiza vinculando información de bases de datos de acceso público. ^[17]^[18] Este logro fue cubierto por los medios de comunicación y comenzó un debate sobre si los casos judiciales deberían ser anónimos y cómo. ^[19]^[20]

Preocupación y consecuencias

En 1997, Latanya Sweeney descubrió, a partir de un estudio de los registros del censo, que hasta el 87 por ciento de la población estadounidense puede identificarse utilizando una combinación de su código postal de cinco dígitos , sexo y fecha de nacimiento. ^[21]^[22]

La reidentificación no autorizada basada en tales combinaciones no requiere el acceso a "información adicional" guardada por separado y bajo el control del controlador de datos, como ahora se requiere para la seudonimización que cumple con el RGPD.

Las personas cuyos datos se vuelven a identificar también corren el riesgo de que su información, con su identidad adjunta, se venda a organizaciones que no quieren que posean información privada sobre sus finanzas, salud o preferencias. La divulgación de estos datos puede causar ansiedad, vergüenza o vergüenza. Una vez que se ha violado la privacidad de un individuo como resultado de la reidentificación, las violaciones futuras se vuelven mucho más fáciles: una vez que se establece un vínculo entre un dato y la identidad real de una persona, cualquier asociación entre los datos y una identidad anónima rompe el anonimato de la persona. ^[3]

La reidentificación puede exponer a las empresas e instituciones que se han comprometido a garantizar el anonimato a una mayor responsabilidad extracontractual y hacer que violen sus políticas internas, políticas de privacidad pública y leyes estatales y federales, como las leyes relativas a la confidencialidad financiera o la privacidad médica , al haber divulgado información a terceros que puedan identificar a los usuarios después de una reidentificación. ^[3]

Remedios

Para abordar los riesgos de la reidentificación, se han sugerido varias propuestas:

Estándares más altos y definición uniforme de desidentificación conservando al mismo tiempo la utilidad de los datos: la definición de desidentificación debe equilibrar las protecciones de la privacidad para reducir el riesgo de reidentificación con la negativa de las empresas a eliminar datos ^[23]
Mayor protección de la privacidad de la información anónima ^[3]
Seguridad más estricta para las bases de datos que almacenan información anónima ^[3]
Una fuerte prohibición de la reidentificación maliciosa, la aprobación de una legislación más amplia contra la discriminación y la privacidad que garantice la protección de la privacidad y fomente la participación en proyectos y esfuerzos de intercambio de datos, así como el establecimiento de estándares uniformes de protección de datos en las comunidades académicas, como en la comunidad científica, con el fin de minimizar las violaciones de la privacidad ^[24]
Creación de políticas de divulgación de datos: garantizar que la retórica de desidentificación sea precisa, redactar contratos que prohíban los intentos de reidentificación y la difusión de información confidencial, establecer enclaves de datos y utilizar estrategias basadas en datos para igualar los estándares de protección requeridos al nivel de riesgo. ^[25]
Implementación de Privacidad Diferencial en conjuntos de datos solicitados
Generación de Datos Sintéticos que exhiben las propiedades estadísticas de los datos brutos, sin permitir identificar individuos reales.

Si bien se ha instado a una prohibición total de la reidentificación, su aplicación sería difícil. Sin embargo, hay formas para que los legisladores combatan y castiguen los esfuerzos de reidentificación, siempre y cuando sean expuestos: combinar una prohibición con penas más severas y una aplicación más estricta por parte de la Comisión Federal de Comercio y la Oficina Federal de Investigaciones ; otorgar a las víctimas de reidentificación un derecho de acción contra quienes las reidentifiquen; y exigir pistas de auditoría de software para las personas que utilizan y analizan datos anonimizados. También se puede imponer una prohibición de reidentificación a pequeña escala a destinatarios confiables de determinadas bases de datos, como investigadores o mineros de datos gubernamentales. Esta prohibición sería mucho más fácil de hacer cumplir y podría desalentar la reidentificación. ^[9]

Ejemplos de anonimización

"Investigadores del MIT y de la Universidad Católica de Lovaina , en Bélgica, analizaron datos de 1,5 millones de usuarios de teléfonos móviles en un pequeño país europeo durante un lapso de 15 meses y descubrieron que sólo cuatro puntos de referencia, con una resolución espacial y temporal bastante baja, eran suficiente para identificar de forma única al 95 por ciento de ellos. En otras palabras, para extraer la información de ubicación completa de una sola persona de un conjunto de datos "anonimizados" de más de un millón de personas, todo lo que necesitaría hacer es ubicarla dentro de un grupo. unos cientos de metros de un transmisor de teléfono celular, en algún momento en el transcurso de una hora, cuatro veces en un año. Unas cuantas publicaciones en Twitter probablemente proporcionarían toda la información necesaria, si contuvieran información específica sobre el paradero de la persona". ^[26]
"Aquí, informamos que los apellidos se pueden recuperar de genomas personales perfilando repeticiones cortas en tándem en el cromosoma Y (Y-STR) y consultando bases de datos de genealogía genética recreativa. Mostramos que una combinación de un apellido con otros tipos de metadatos, como edad y estado, se pueden utilizar para triangular la identidad del objetivo". ^[27]

Ver también

Desidentificación : evitar que se revele la identidad personal
Doxing : publicación de datos privados de personas, a menudo en Internet.
K-anonimato – Propiedad de ciertos datos anonimizados
Información de salud protegida : información sobre el estado de atención médica del individuo
Control de divulgación estadística : técnica utilizada en la investigación basada en datos

Referencias

^ Pedersen, Torben (2005). "HTTPS, HTTPS seguro". Enciclopedia de Criptografía y Seguridad . págs. 268-269. doi :10.1007/0-387-23483-7_189. ISBN 978-0-387-23473-1.
^ Richardson, Víctor; Milam, Sallie; Chrysler, Denise (abril de 2015). "¿Es legal compartir datos anónimos? El estado de las leyes de confidencialidad de la salud pública y su interacción con las técnicas de limitación de la divulgación estadística". La Revista de Derecho, Medicina y Ética . 43 (1_suppl): 83–86. doi :10.1111/jlme.12224. hdl : 2027.42/111074AA . ISSN 1073-1105. PMID 25846173. S2CID 9384220.
^ abcdefghijklm Porter, Christine (2008). "Constitucional y regulatorio: datos anónimos y minería de datos de terceros: el riesgo de reidentificación de información personal". Revista Shidler de derecho, comercio y tecnología . 5 (1).
^ Peltz, Richard (2009). "De la Torre de Marfil a la Casa de Cristal: Acceso a registros de admisión a universidades públicas" no identificados "para estudiar la acción afirmativa" (PDF) . Revista de derecho Harvard BlackLetter . 25 : 181-197. SSRN 1495788.
^ Hoffman, Sharona (2015). "Ciencia ciudadana: la ley y la ética del acceso público a los big data médicos". Revista de derecho tecnológico de Berkeley . doi :10.15779/Z385Z78.
^ Greenberg, Yelena (2016). "Desarrollos de casos recientes: reconocimiento creciente del" riesgo de daño "como una lesión suficiente para justificar su legitimación activa en casos de violación de datos médicos de demanda colectiva". Revista Estadounidense de Derecho y Medicina . 42 (1): 210–4. doi :10.1177/0098858816644723. PMID 27263268. S2CID 77790820.
^ Groden, Samantha; Martín, verano; Merrill, Rebecca (2016). "Cambios propuestos a la regla común: ¿un enfrentamiento entre los derechos del paciente y los avances científicos?". Revista de Derecho de las Ciencias de la Vida y la Salud . 9 (3).
^ 24 CFR § .104 2017.
^ abcd Ohm, Paul (agosto de 2010). "Promesas incumplidas de privacidad: respuesta al sorprendente fracaso de la anonimización" . Revisión de leyes de UCLA . 57 (6): 1701-1777. ISSN 0041-5650. OCLC 670569859 – vía EBSCO.
^ Sweeney, Latanya (28 de septiembre de 2015). "Sólo usted, su médico y muchas otras personas pueden saberlo". Ciencia Tecnológica . 2015092903 . Consultado el 12 de julio de 2024 .
^ Despertar, Margarita. "desanonimización (desanonimización)". WhatIs.com . Consultado el 19 de enero de 2014 .
^ Narayanan, Arvind; Shmatikov, Vitaly. "Robusta anonimización de grandes conjuntos de datos dispersos" (PDF) . Consultado el 19 de enero de 2014 .
^ Narayanan, Arvind; Shmatikov, Vitaly (22 de noviembre de 2007). "Cómo romper el anonimato del conjunto de datos de premios de Netflix". arXiv : cs/0610105 .
^ Fritsch, Lothar (2008), "Servicios basados en la ubicación y elaboración de perfiles (LBS)", Elaboración de perfiles del ciudadano europeo , Springer Países Bajos, págs. 147-168, doi :10.1007/978-1-4020-6914-7_8, ISBN 978-1-4020-6913-0
^ Rocher, Luc; Hendrickx, Julien M.; de Montjoye, Yves-Alexandre (23 de julio de 2019). "Estimación del éxito de las reidentificaciones en conjuntos de datos incompletos utilizando modelos generativos". Comunicaciones de la naturaleza . 10 (1): 3069. Código bibliográfico : 2019NatCo..10.3069R. doi :10.1038/s41467-019-10933-3. ISSN 2041-1723. PMC 6650473 . PMID 31337762.
^ Fritsch, Lothar; Momen, Nurul (2017). Identidades parciales derivadas generadas a partir de permisos de aplicaciones. Gesellschaft für Informatik, Bonn. ISBN 978-3-88579-671-8.
^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jakob (2 de septiembre de 2019). "Identifikation von Gerichtsurteilen durch" Linkage "von Daten(banken)". Carta justa (990).
^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jacob. "Reidentificación de Gerichtsurteilen durch" Linkage "von Daten(banken)".
^ Chandler, Simon (4 de septiembre de 2019). "Los investigadores utilizan big data e inteligencia artificial para eliminar la confidencialidad legal". Forbes . Consultado el 10 de diciembre de 2019 .
^ "SRF Tagesschau". SRF Radio y Televisión Suiza. 2 de septiembre de 2019 . Consultado el 10 de diciembre de 2019 .
^ "¿Qué tan único soy?". Laboratorio de privacidad de datos, Universidad de Harvard . Consultado el 22 de julio de 2021 .
^ Sweeney, Latanya. "Los datos demográficos simples a menudo identifican a las personas de manera única" (PDF) . Universidad Carnegie Mellon, Documento de trabajo sobre privacidad de datos 3 . Consultado el 22 de julio de 2021 .
^ Lagos, Yianni (2014). "Eliminar lo personal de los datos: dar sentido a la desidentificación" (PDF) . Revisión de la ley de Indiana . 48 : 187–203. ISSN 2169-320X. OCLC 56050778.
^ Sejin, Ahn (verano de 2015). "¿De quién es el genoma?: Reidentificación y protección de la privacidad en genómica pública y participativa". Revisión de leyes de San Diego . 52 (3): 751–806. ISSN 2994-9599. OCLC 47865544.
^ Rubinstein, Ira S.; Hartzog, Woodrow (junio de 2016). «Anonimización y Riesgo» . Revisión de la ley de Washington . 91 (2): 703–760. ISSN 0043-0617. OCLC 3899779 - vía EBSCO.
^ Hardesty, Larry (27 de marzo de 2013). "¿Qué tan difícil es 'desanonimizar' los datos de los teléfonos móviles?". Noticias del MIT . Consultado el 14 de enero de 2015 .
^ Melissa Gymrek; Amy L. McGuire; David Golán; Eran Halperin; Yaniv Erlich (18 de enero de 2013). "Identificación de genomas personales por inferencia de apellidos". Ciencia . 339 (6117): 321–4. Código Bib : 2013 Ciencia... 339.. 321G. doi :10.1126/CIENCIA.1229566. ISSN 0036-8075. PMID 23329047. Wikidata Q29619963.