Reidentificación de datos

La reidentificación o desanonimización de datos es la práctica de hacer coincidir datos anónimos (también conocidos como datos desidentificados) con información disponible públicamente, o datos auxiliares, para descubrir a la persona a la que pertenecen los datos. ^[1] Esto es preocupante porque las empresas con políticas de privacidad , los proveedores de atención médica y las instituciones financieras pueden divulgar los datos que recopilan después de que los datos hayan pasado por el proceso de desidentificación.

El proceso de desidentificación implica enmascarar, generalizar o eliminar identificadores tanto directos como indirectos ; la definición de este proceso no es universal. La información de dominio público , incluso aparentemente anónima, puede así ser reidentificada en combinación con otros datos disponibles y técnicas informáticas básicas. La Protección de Sujetos Humanos (' Regla Común '), una colección de múltiples agencias y departamentos federales de los EE. UU., incluido el Departamento de Salud y Servicios Humanos de los EE. UU ., advierte que la reidentificación se está volviendo gradualmente más fácil debido a los " grandes datos " -la abundancia y la constante recopilación y análisis de información junto con la evolución de las tecnologías y los avances de los algoritmos. Sin embargo, otros han afirmado que la desidentificación es una herramienta de liberación de datos segura y efectiva y no ven la reidentificación como una preocupación. ^[2]^{[ Se discute la neutralidad ]}

Cada vez hay más datos disponibles públicamente en Internet. Estos datos se hacen públicos tras aplicar algunas técnicas de anonimización, como la eliminación de información de identificación personal (PII), como nombres, direcciones y números de seguridad social, para garantizar la privacidad de las fuentes. Esta garantía de privacidad permite al gobierno compartir legalmente conjuntos de datos limitados con terceros sin necesidad de un permiso por escrito. Estos datos han demostrado ser muy valiosos para los investigadores, en particular en el ámbito de la atención sanitaria.

La seudonimización conforme al RGPD busca reducir el riesgo de reidentificación mediante el uso de "información adicional" que se conserva por separado. El enfoque se basa en una evaluación experta de un conjunto de datos para designar algunos identificadores como "directos" y otros como "indirectos". Los defensores de este enfoque argumentan que la reidentificación se puede evitar limitando el acceso a la "información adicional" que el responsable del tratamiento conserva por separado. La teoría es que el acceso a la "información adicional" que se conserva por separado es necesario para la reidentificación, y el responsable del tratamiento puede limitar la atribución de datos a un interesado específico para respaldar únicamente fines lícitos. Este enfoque es controvertido, ya que falla si hay conjuntos de datos adicionales que se pueden utilizar para la reidentificación. Dichos conjuntos de datos adicionales pueden ser desconocidos para quienes certifican la seudonimización conforme al RGPD, o pueden no existir en el momento de la seudonimización, pero pueden llegar a existir en algún momento en el futuro.

Protecciones legales de datos en Estados Unidos

Las normas de privacidad existentes suelen proteger la información que ha sido modificada, de modo que los datos se consideran anónimos o desidentificados. En el caso de la información financiera, la Comisión Federal de Comercio permite su circulación si está desidentificada y agregada. ^[3] La Ley Gramm Leach Bliley (GLBA), que obliga a las instituciones financieras a dar a los consumidores la oportunidad de optar por no compartir su información con terceros, no cubre los datos desidentificados si la información es agregada y no contiene identificadores personales, ya que estos datos no se tratan como información de identificación personal . ^[3]

Expedientes educativos

En lo que respecta a los registros universitarios, las autoridades, tanto a nivel estatal como federal, han mostrado una conciencia de las cuestiones de privacidad en la educación y un rechazo a la divulgación de información por parte de las instituciones. El Departamento de Educación de los Estados Unidos ha proporcionado orientación sobre el discurso y la identificación de datos, instruyendo a las instituciones educativas a ser sensibles al riesgo de reidentificación de datos anónimos mediante referencias cruzadas con datos auxiliares, a minimizar la cantidad de datos en el dominio público disminuyendo la publicación de información de directorio sobre estudiantes y personal institucional, y a ser coherentes en los procesos de desidentificación. ^[4]

Historial médico

La información médica de los pacientes está cada vez más disponible en Internet, en plataformas de acceso público y gratuito como HealthData.gov y PatientsLikeMe , alentada por las políticas gubernamentales de datos abiertos y las iniciativas de intercambio de datos encabezadas por el sector privado. Si bien este nivel de accesibilidad produce muchos beneficios, se han planteado preocupaciones con respecto a la discriminación y la privacidad. ^[5] Las protecciones sobre los registros médicos y los datos de los consumidores de las farmacias son más fuertes en comparación con las de otros tipos de datos de los consumidores. La Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) protege la privacidad de los datos identificables sobre la salud, pero autoriza la divulgación de información a terceros si se desidentifica. Además, exige que los pacientes reciban notificaciones de violación si existe una probabilidad más que baja de que la información del paciente se haya divulgado o utilizado de manera inapropiada sin mitigar lo suficiente el daño que le causó. ^[6] La probabilidad de reidentificación es un factor para determinar la probabilidad de que la información del paciente se haya visto comprometida. Comúnmente, las farmacias venden información desidentificada a empresas de minería de datos que, a su vez, venden a las compañías farmacéuticas. ^[3]

Se han promulgado leyes estatales para prohibir la extracción de datos de información médica, pero fueron revocadas por tribunales federales en Maine y New Hampshire con fundamento en la Primera Enmienda. Otro tribunal federal, en otro caso, utilizó el término "ilusorio" para describir las preocupaciones sobre la privacidad de los pacientes y no reconoció los riesgos de la reidentificación. ^[3]

Bioespecímen

El Aviso de Propuesta de Normativa, publicado por las Agencias de Normas Comunes en septiembre de 2015, amplió el término general de "sujeto humano" en la investigación para incluir bioespecímenes o materiales tomados del cuerpo humano (sangre, orina, tejido, etc.). Esto exige que los investigadores que utilicen bioespecímenes deben cumplir con los requisitos más estrictos de la investigación con sujetos humanos. La razón de esto es el mayor riesgo de reidentificación de bioespecímenes. ^[7] Las revisiones finales afirmaron esta regulación. ^[8]^{[ aclaración necesaria ]}^{[ cita completa necesaria ]}

Esfuerzos de reidentificación

Se han realizado numerosos intentos de reidentificación que han dado resultados satisfactorios en distintos campos. Aunque no es fácil para un profano romper el anonimato, una vez que se conocen y se aprenden los pasos necesarios para hacerlo, no es necesario tener conocimientos de nivel superior para acceder a la información de una base de datos . A veces, ni siquiera se necesitan conocimientos técnicos si una población tiene una combinación única de identificadores. ^[3]

Historial sanitario

A mediados de los años 1990, una agencia gubernamental de Massachusetts llamada Group Insurance Commission (GIC), que compraba seguros de salud para empleados del estado, decidió liberar los registros de visitas al hospital a cualquier investigador que solicitara los datos, sin costo alguno. GIC aseguró que la privacidad del paciente no era una preocupación ya que había eliminado identificadores como nombre, direcciones, números de seguridad social. Sin embargo, información como códigos postales, fecha de nacimiento y sexo permanecieron intactos. La garantía de GIC fue reforzada por el entonces gobernador de Massachusetts, William Weld. Latanya Sweeney , una estudiante de posgrado en ese momento, se propuso seleccionar los registros del gobernador en los datos de GIC. Al combinar los datos de GIC con la base de datos de votantes de la ciudad de Cambridge, que compró por 20 dólares, el registro del gobernador Weld fue descubierto con facilidad. ^[9]

En 1997, un investigador logró desanonimizar los registros médicos utilizando bases de datos de votantes. ^[3]

En 2011, la profesora Latanya Sweeney volvió a utilizar registros anónimos de visitas a hospitales y registros de votaciones en el estado de Washington y logró emparejar a personas individuales el 43% de las veces. ^[10]

Existen algoritmos que se utilizan para volver a identificar a los pacientes con información sobre medicamentos recetados. ^[3]

Hábitos y prácticas de consumo

Dos investigadores de la Universidad de Texas , Arvind Narayanan y el profesor Vitaly Shmatikov, pudieron volver a identificar una parte de los datos anónimos de clasificación de películas de Netflix con consumidores individuales en el sitio web de transmisión. ^[11]^[12]^[13] Los datos fueron publicados por Netflix en 2006 después de la desidentificación, que consistió en reemplazar los nombres individuales con números aleatorios y mover los detalles personales. Los dos investigadores desanonimizaron algunos de los datos comparándolos con las calificaciones de películas de usuarios no anónimos de IMDb (Internet Movie Database). Se descubrió que se necesitaba muy poca información de la base de datos para identificar al suscriptor. ^[3] En el artículo de investigación resultante, hubo revelaciones sorprendentes de lo fácil que es volver a identificar a los usuarios de Netflix. Por ejemplo, simplemente conocer los datos sobre solo dos películas que un usuario ha revisado, incluida la calificación precisa y la fecha de la calificación, más o menos tres días, permite un 68% de éxito de reidentificación. ^[9]

En 2006, después de que AOL publicara las consultas de búsqueda de sus usuarios, datos que se habían anonimizado antes de su publicación, los periodistas de The New York Times llevaron a cabo con éxito la reidentificación de individuos tomando grupos de búsquedas realizadas por usuarios anonimizados. ^[3] AOL había intentado suprimir la información de identificación, incluidos los nombres de usuario y las direcciones IP, pero los había reemplazado por números de identificación únicos para preservar la utilidad de estos datos para los investigadores. Los blogueros, después de la publicación, analizaron los datos, ya sea tratando de identificar usuarios específicos con este contenido, o para señalar consultas de búsqueda entretenidas, deprimentes o impactantes, ejemplos de las cuales incluyen "cómo matar a tu esposa", "depresión y baja médica", "fotos de accidentes automovilísticos". Dos periodistas, Michael Barbaro y Tom Zeller, pudieron rastrear a una viuda de 62 años llamada Thelma Arnold al reconocer pistas sobre la identidad del historial de búsqueda del usuario 417729. Arnold reconoció que ella era la autora de las búsquedas, lo que confirma que la reidentificación es posible. ^[9]

Datos de ubicación

Los datos de ubicación (serie de posiciones geográficas en el tiempo que describen el paradero y los movimientos de una persona) son una clase de datos personales que es especialmente difícil de mantener anónimos. La ubicación muestra visitas recurrentes a lugares de la vida cotidiana a los que se acude con frecuencia, como el hogar, el lugar de trabajo, las tiendas, la atención médica o patrones específicos de tiempo libre. ^[14] La mera eliminación de la identidad de una persona de los datos de ubicación no eliminará los patrones identificables, como los ritmos de desplazamiento, los lugares para dormir o los lugares de trabajo. Al asignar coordenadas a direcciones, los datos de ubicación se vuelven a identificar fácilmente ^[15] o se correlacionan con los contextos de la vida privada de una persona. Los flujos de información de ubicación desempeñan un papel importante en la reconstrucción de identificadores personales a partir de los datos de teléfonos inteligentes a los que acceden las aplicaciones. ^[16]

Decisiones judiciales

En 2019, la profesora Kerstin Noëlle Vokinger y el doctor Urs Jakob Mühlematter, dos investigadores de la Universidad de Zúrich , analizaron casos del Tribunal Supremo Federal de Suiza para evaluar qué compañías farmacéuticas y qué medicamentos estaban involucrados en acciones legales contra la Oficina Federal de Salud Pública (FOPH) con respecto a las decisiones sobre precios de medicamentos. En general, las partes privadas involucradas (como las compañías farmacéuticas) y la información que revelaría a la parte privada (por ejemplo, los nombres de los medicamentos) se anonimizan en las sentencias suizas. Los investigadores pudieron volver a identificar el 84% de los casos anonimizados relevantes del Tribunal Supremo Federal de Suiza vinculando información de bases de datos de acceso público. ^[17]^[18] Este logro fue cubierto por los medios de comunicación y dio inicio a un debate sobre si los casos judiciales deberían anonimizarse y cómo. ^[19]^[20]

Preocupación y consecuencias

En 1997, Latanya Sweeney descubrió a partir de un estudio de registros del censo que hasta el 87 por ciento de la población de los EE. UU. puede identificarse utilizando una combinación de su código postal de 5 dígitos , género y fecha de nacimiento. ^[21]^[22]

La reidentificación no autorizada basada en dichas combinaciones no requiere el acceso a "información adicional" conservada por separado que está bajo el control del responsable del tratamiento de datos, como se requiere ahora para la seudonimización conforme al RGPD.

Las personas cuyos datos se reidentifican también corren el riesgo de que su información, junto con su identidad, se venda a organizaciones que no quieren que posean información privada sobre sus finanzas, salud o preferencias. La divulgación de estos datos puede causar ansiedad, vergüenza o bochorno. Una vez que se ha violado la privacidad de una persona como resultado de la reidentificación, las violaciones futuras se vuelven mucho más fáciles: una vez que se establece un vínculo entre un dato y la identidad real de una persona, cualquier asociación entre los datos y una identidad anónima rompe el anonimato de la persona. ^[3]

La reidentificación puede exponer a las empresas e instituciones que se han comprometido a garantizar el anonimato a una mayor responsabilidad civil y hacer que violen sus políticas internas, políticas de privacidad pública y leyes estatales y federales, como las leyes sobre confidencialidad financiera o privacidad médica , al haber revelado información a terceros que pueden identificar a los usuarios después de la reidentificación. ^[3]

Remedios

Para abordar los riesgos de reidentificación, se han sugerido varias propuestas:

Estándares más elevados y una definición uniforme de la desidentificación manteniendo la utilidad de los datos: la definición de desidentificación debe equilibrar las protecciones de la privacidad para reducir el riesgo de reidentificación con la negativa de las empresas a eliminar los datos ^[23]
Mayor protección de la privacidad de la información anónima ^[3]
Mayor seguridad para las bases de datos que almacenan información anónima ^[3]
Prohibición estricta de la reidentificación maliciosa, aprobación de una legislación más amplia contra la discriminación y la privacidad que garantice la protección de la privacidad y fomente la participación en proyectos y esfuerzos de intercambio de datos, así como el establecimiento de normas uniformes de protección de datos en las comunidades académicas, como la comunidad científica, con el fin de minimizar las violaciones de la privacidad ^[24]
Creación de políticas de divulgación de datos: asegurarse de que la retórica de desidentificación sea precisa, redactar contratos que prohíban los intentos de reidentificación y la difusión de información sensible, establecer enclaves de datos y utilizar estrategias basadas en datos para adecuar los estándares de protección requeridos al nivel de riesgo. ^[25]
Implementación de la privacidad diferencial en los conjuntos de datos solicitados
Generación de datos sintéticos que exhiben las propiedades estadísticas de los datos brutos, sin permitir que se identifiquen individuos reales

Aunque se ha pedido una prohibición total de la reidentificación, su aplicación sería difícil. Sin embargo, existen maneras en que los legisladores pueden combatir y castigar los intentos de reidentificación, si y cuando se descubran: acompañar la prohibición con sanciones más severas y una aplicación más estricta por parte de la Comisión Federal de Comercio y la Oficina Federal de Investigaciones ; otorgar a las víctimas de la reidentificación un derecho de acción contra quienes las reidentifiquen; y exigir registros de auditoría de software para las personas que utilizan y analizan datos anónimos. También se puede imponer una prohibición de reidentificación a pequeña escala a los receptores confiables de bases de datos particulares, como los mineros de datos del gobierno o los investigadores. Esta prohibición sería mucho más fácil de aplicar y puede desalentar la reidentificación. ^[9]

Ejemplos de desanonimización

"Los investigadores del MIT y de la Universidad Católica de Lovaina , en Bélgica, analizaron datos de 1,5 millones de usuarios de teléfonos móviles en un pequeño país europeo durante un período de 15 meses y descubrieron que sólo cuatro puntos de referencia, con una resolución espacial y temporal bastante baja, eran suficientes para identificar de forma única al 95 por ciento de ellos. En otras palabras, para extraer la información completa sobre la ubicación de una sola persona de un conjunto de datos "anónimos" de más de un millón de personas, todo lo que habría que hacer es situarla a un par de cientos de metros de un transmisor de teléfono móvil, en algún momento en el transcurso de una hora, cuatro veces en un año. Unas cuantas publicaciones en Twitter probablemente proporcionarían toda la información que se necesita, si contuvieran información específica sobre el paradero de la persona". ^[26]
"En este trabajo informamos que los apellidos pueden recuperarse de los genomas personales mediante el análisis de repeticiones cortas en tándem en el cromosoma Y (Y-STR) y la consulta de bases de datos de genealogía genética recreativa. Demostramos que una combinación de un apellido con otros tipos de metadatos, como la edad y el estado, puede utilizarse para triangular la identidad del objetivo". ^[27]

Véase también

Desidentificación : evitar que se revele la identidad personal
Doxing : publicación de datos privados de personas, a menudo en Internet.
K-anonimato – Propiedad de ciertos datos anonimizados
Información sanitaria protegida : información sobre el estado de salud de una persona
Control de divulgación estadística : técnica utilizada en la investigación basada en datos

Referencias

^ Pedersen, Torben (2005). "HTTPS, HTTPS seguro". Enciclopedia de criptografía y seguridad . págs. 268-269. doi :10.1007/0-387-23483-7_189. ISBN . 978-0-387-23473-1.
^ Richardson, Victor; Milam, Sallie; Chrysler, Denise (abril de 2015). "¿Es legal compartir datos anónimos? El estado de las leyes de confidencialidad en materia de salud pública y su interacción con las técnicas de limitación de la divulgación estadística". Revista de Derecho, Medicina y Ética . 43 (1_suppl): 83–86. doi :10.1111/jlme.12224. hdl : 2027.42/111074AA . ISSN 1073-1105. PMID 25846173. S2CID 9384220.
^ abcdefghijklm Porter, Christine (2008). "Constitucionalidad y reglamentación: datos desidentificados y minería de datos de terceros: el riesgo de la reidentificación de información personal". Shidler Journal of Law, Commerce & Technology . 5 (1).
^ Peltz, Richard (2009). "De la torre de marfil a la casa de cristal: acceso a registros de admisión a universidades públicas "desidentificados" para estudiar la acción afirmativa" (PDF) . Harvard BlackLetter Law Journal . 25 : 181–197. SSRN 1495788.
^ Hoffman, Sharona (2015). "Ciencia ciudadana: la ley y la ética del acceso público a los macrodatos médicos". Berkeley Technology Law Journal . doi :10.15779/Z385Z78.
^ Greenberg, Yelena (2016). "Acontecimientos recientes en casos: creciente reconocimiento del "riesgo de daño" como una lesión suficiente para justificar la legitimación activa en casos de acción colectiva por violación de datos médicos". American Journal of Law & Medicine . 42 (1): 210–4. doi :10.1177/0098858816644723. PMID 27263268. S2CID 77790820.
^ Groden, Samantha; Martin, Summer; Merrill, Rebecca (2016). "Cambios propuestos a la regla común: ¿Un enfrentamiento entre los derechos de los pacientes y los avances científicos?". Revista de derecho de la salud y las ciencias de la vida . 9 (3).
^ 24 CFR § .104 2017.
^ abcd Ohm, Paul (agosto de 2010). "Promesas incumplidas de privacidad: respuesta al sorprendente fracaso de la anonimización" . UCLA Law Review . 57 (6): 1701–1777. ISSN 0041-5650. OCLC 670569859 – vía EBSCO.
^ Sweeney, Latanya (28 de septiembre de 2015). «Solo usted, su médico y muchos otros pueden saberlo». Tecnología Ciencia . 2015092903 . Consultado el 12 de julio de 2024 .
^ Rouse, Margaret. «Desanonimización (deanonymization)». WhatIs.com . Consultado el 19 de enero de 2014 .
^ Narayanan, Arvind; Shmatikov, Vitaly. "Desanonimización robusta de grandes conjuntos de datos dispersos" (PDF) . Consultado el 19 de enero de 2014 .
^ Narayanan, Arvind; Shmatikov, Vitaly (22 de noviembre de 2007). "Cómo romper el anonimato del conjunto de datos de premios de Netflix". arXiv : cs/0610105 .
^ Fritsch, Lothar (2008), "Elaboración de perfiles y servicios basados en la ubicación (LBS)", Elaboración de perfiles del ciudadano europeo , Springer Netherlands, págs. 147-168, doi :10.1007/978-1-4020-6914-7_8, ISBN 978-1-4020-6913-0
^ Rocher, Luc; Hendrickx, Julien M.; de Montjoye, Yves-Alexandre (23 de julio de 2019). "Estimación del éxito de las reidentificaciones en conjuntos de datos incompletos utilizando modelos generativos". Nature Communications . 10 (1): 3069. Bibcode :2019NatCo..10.3069R. doi :10.1038/s41467-019-10933-3. ISSN 2041-1723. PMC 6650473 . PMID 31337762.
^ Fritsch, Lothar; Momen, Nurul (2017). Identidades parciales derivadas generadas a partir de permisos de aplicaciones. Gesellschaft für Informatik, Bonn. ISBN 978-3-88579-671-8.
^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jakob (2 de septiembre de 2019). "Identifikation von Gerichtsurteilen durch" Linkage "von Daten(banken)". Carta justa (990).
^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jacob. "Reidentificación de Gerichtsurteilen durch" Linkage "von Daten(banken)".
^ Chandler, Simon (4 de septiembre de 2019). "Los investigadores utilizan el big data y la inteligencia artificial para eliminar la confidencialidad legal". Forbes . Consultado el 10 de diciembre de 2019 .
^ "SRF Tagesschau". SRF Radio y Televisión Suiza. 2 de septiembre de 2019. Consultado el 10 de diciembre de 2019 .
^ "¿Qué tan único soy?". Data Privacy Lab, Universidad de Harvard . Consultado el 22 de julio de 2021 .
^ Sweeney, Latanya. "Los datos demográficos simples suelen identificar a las personas de forma única" (PDF) . Carnegie Mellon University, Documento de trabajo sobre privacidad de datos 3. Consultado el 22 de julio de 2021 .
^ Lagos, Yianni (2014). "Eliminar lo personal de los datos: dar sentido a la desidentificación" (PDF) . Indiana Law Review . 48 : 187–203. ISSN 2169-320X. OCLC 56050778.
^ Sejin, Ahn (verano de 2015). "¿De quién es el genoma?: reidentificación y protección de la privacidad en la genómica pública y participativa". San Diego Law Review . 52 (3): 751–806. ISSN 2994-9599. OCLC 47865544.
^ Rubinstein, Ira S.; Hartzog, Woodrow (junio de 2016). "Anonimización y riesgo" . Washington Law Review . 91 (2): 703–760. ISSN 0043-0617. OCLC 3899779 – vía EBSCO.
^ Hardesty, Larry (27 de marzo de 2013). "¿Qué tan difícil es 'desanonimizar' los datos de los teléfonos celulares?". MIT news . Consultado el 14 de enero de 2015 .
^ Melissa Gymrek; Amy L. McGuire; David Golan; Eran Halperin; Yaniv Erlich (18 de enero de 2013). "Identificación de genomas personales mediante inferencia de apellidos". Science . 339 (6117): 321–4. Bibcode :2013Sci...339..321G. doi :10.1126/SCIENCE.1229566. ISSN 0036-8075. PMID 23329047. Wikidata Q29619963.