La reidentificación o desanonimización de datos es la práctica de hacer coincidir datos anónimos (también conocidos como datos desidentificados) con información disponible públicamente, o datos auxiliares, para descubrir a la persona a la que pertenecen los datos. [1] Esto es preocupante porque las empresas con políticas de privacidad , los proveedores de atención médica y las instituciones financieras pueden divulgar los datos que recopilan después de que los datos hayan pasado por el proceso de desidentificación.
El proceso de desidentificación implica enmascarar, generalizar o eliminar identificadores tanto directos como indirectos ; la definición de este proceso no es universal. La información de dominio público , incluso aparentemente anónima, puede así ser reidentificada en combinación con otros datos disponibles y técnicas informáticas básicas. La Protección de Sujetos Humanos (' Regla Común '), una colección de múltiples agencias y departamentos federales de los EE. UU., incluido el Departamento de Salud y Servicios Humanos de los EE. UU ., advierte que la reidentificación se está volviendo gradualmente más fácil debido a los " grandes datos " -la abundancia y la constante recopilación y análisis de información junto con la evolución de las tecnologías y los avances de los algoritmos. Sin embargo, otros han afirmado que la desidentificación es una herramienta de liberación de datos segura y efectiva y no ven la reidentificación como una preocupación. [2] [ Se discute la neutralidad ]
Cada vez hay más datos disponibles públicamente en Internet. Estos datos se hacen públicos tras aplicar algunas técnicas de anonimización, como la eliminación de información de identificación personal (PII), como nombres, direcciones y números de seguridad social, para garantizar la privacidad de las fuentes. Esta garantía de privacidad permite al gobierno compartir legalmente conjuntos de datos limitados con terceros sin necesidad de un permiso por escrito. Estos datos han demostrado ser muy valiosos para los investigadores, en particular en el ámbito de la atención sanitaria.
La seudonimización conforme al RGPD busca reducir el riesgo de reidentificación mediante el uso de "información adicional" que se conserva por separado. El enfoque se basa en una evaluación experta de un conjunto de datos para designar algunos identificadores como "directos" y otros como "indirectos". Los defensores de este enfoque argumentan que la reidentificación se puede evitar limitando el acceso a la "información adicional" que el responsable del tratamiento conserva por separado. La teoría es que el acceso a la "información adicional" que se conserva por separado es necesario para la reidentificación, y el responsable del tratamiento puede limitar la atribución de datos a un interesado específico para respaldar únicamente fines lícitos. Este enfoque es controvertido, ya que falla si hay conjuntos de datos adicionales que se pueden utilizar para la reidentificación. Dichos conjuntos de datos adicionales pueden ser desconocidos para quienes certifican la seudonimización conforme al RGPD, o pueden no existir en el momento de la seudonimización, pero pueden llegar a existir en algún momento en el futuro.
Las normas de privacidad existentes suelen proteger la información que ha sido modificada, de modo que los datos se consideran anónimos o desidentificados. En el caso de la información financiera, la Comisión Federal de Comercio permite su circulación si está desidentificada y agregada. [3] La Ley Gramm Leach Bliley (GLBA), que obliga a las instituciones financieras a dar a los consumidores la oportunidad de optar por no compartir su información con terceros, no cubre los datos desidentificados si la información es agregada y no contiene identificadores personales, ya que estos datos no se tratan como información de identificación personal . [3]
En lo que respecta a los registros universitarios, las autoridades, tanto a nivel estatal como federal, han mostrado una conciencia de las cuestiones de privacidad en la educación y un rechazo a la divulgación de información por parte de las instituciones. El Departamento de Educación de los Estados Unidos ha proporcionado orientación sobre el discurso y la identificación de datos, instruyendo a las instituciones educativas a ser sensibles al riesgo de reidentificación de datos anónimos mediante referencias cruzadas con datos auxiliares, a minimizar la cantidad de datos en el dominio público disminuyendo la publicación de información de directorio sobre estudiantes y personal institucional, y a ser coherentes en los procesos de desidentificación. [4]
La información médica de los pacientes está cada vez más disponible en Internet, en plataformas de acceso público y gratuito como HealthData.gov y PatientsLikeMe , alentada por las políticas gubernamentales de datos abiertos y las iniciativas de intercambio de datos encabezadas por el sector privado. Si bien este nivel de accesibilidad produce muchos beneficios, se han planteado preocupaciones con respecto a la discriminación y la privacidad. [5] Las protecciones sobre los registros médicos y los datos de los consumidores de las farmacias son más fuertes en comparación con las de otros tipos de datos de los consumidores. La Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) protege la privacidad de los datos identificables sobre la salud, pero autoriza la divulgación de información a terceros si se desidentifica. Además, exige que los pacientes reciban notificaciones de violación si existe una probabilidad más que baja de que la información del paciente se haya divulgado o utilizado de manera inapropiada sin mitigar lo suficiente el daño que le causó. [6] La probabilidad de reidentificación es un factor para determinar la probabilidad de que la información del paciente se haya visto comprometida. Comúnmente, las farmacias venden información desidentificada a empresas de minería de datos que, a su vez, venden a las compañías farmacéuticas. [3]
Se han promulgado leyes estatales para prohibir la extracción de datos de información médica, pero fueron revocadas por tribunales federales en Maine y New Hampshire con fundamento en la Primera Enmienda. Otro tribunal federal, en otro caso, utilizó el término "ilusorio" para describir las preocupaciones sobre la privacidad de los pacientes y no reconoció los riesgos de la reidentificación. [3]
El Aviso de Propuesta de Normativa, publicado por las Agencias de Normas Comunes en septiembre de 2015, amplió el término general de "sujeto humano" en la investigación para incluir bioespecímenes o materiales tomados del cuerpo humano (sangre, orina, tejido, etc.). Esto exige que los investigadores que utilicen bioespecímenes deben cumplir con los requisitos más estrictos de la investigación con sujetos humanos. La razón de esto es el mayor riesgo de reidentificación de bioespecímenes. [7] Las revisiones finales afirmaron esta regulación. [8] [ aclaración necesaria ] [ cita completa necesaria ]
Se han realizado numerosos intentos de reidentificación que han dado resultados satisfactorios en distintos campos. Aunque no es fácil para un profano romper el anonimato, una vez que se conocen y se aprenden los pasos necesarios para hacerlo, no es necesario tener conocimientos de nivel superior para acceder a la información de una base de datos . A veces, ni siquiera se necesitan conocimientos técnicos si una población tiene una combinación única de identificadores. [3]
A mediados de los años 1990, una agencia gubernamental de Massachusetts llamada Group Insurance Commission (GIC), que compraba seguros de salud para empleados del estado, decidió liberar los registros de visitas al hospital a cualquier investigador que solicitara los datos, sin costo alguno. GIC aseguró que la privacidad del paciente no era una preocupación ya que había eliminado identificadores como nombre, direcciones, números de seguridad social. Sin embargo, información como códigos postales, fecha de nacimiento y sexo permanecieron intactos. La garantía de GIC fue reforzada por el entonces gobernador de Massachusetts, William Weld. Latanya Sweeney , una estudiante de posgrado en ese momento, se propuso seleccionar los registros del gobernador en los datos de GIC. Al combinar los datos de GIC con la base de datos de votantes de la ciudad de Cambridge, que compró por 20 dólares, el registro del gobernador Weld fue descubierto con facilidad. [9]
En 1997, un investigador logró desanonimizar los registros médicos utilizando bases de datos de votantes. [3]
En 2011, la profesora Latanya Sweeney volvió a utilizar registros anónimos de visitas a hospitales y registros de votaciones en el estado de Washington y logró emparejar a personas individuales el 43% de las veces. [10]
Existen algoritmos que se utilizan para volver a identificar a los pacientes con información sobre medicamentos recetados. [3]
Dos investigadores de la Universidad de Texas , Arvind Narayanan y el profesor Vitaly Shmatikov, pudieron volver a identificar una parte de los datos anónimos de clasificación de películas de Netflix con consumidores individuales en el sitio web de transmisión. [11] [12] [13] Los datos fueron publicados por Netflix en 2006 después de la desidentificación, que consistió en reemplazar los nombres individuales con números aleatorios y mover los detalles personales. Los dos investigadores desanonimizaron algunos de los datos comparándolos con las calificaciones de películas de usuarios no anónimos de IMDb (Internet Movie Database). Se descubrió que se necesitaba muy poca información de la base de datos para identificar al suscriptor. [3] En el artículo de investigación resultante, hubo revelaciones sorprendentes de lo fácil que es volver a identificar a los usuarios de Netflix. Por ejemplo, simplemente conocer los datos sobre solo dos películas que un usuario ha revisado, incluida la calificación precisa y la fecha de la calificación, más o menos tres días, permite un 68% de éxito de reidentificación. [9]
En 2006, después de que AOL publicara las consultas de búsqueda de sus usuarios, datos que se habían anonimizado antes de su publicación, los periodistas de The New York Times lograron reidentificar a individuos tomando grupos de búsquedas realizadas por usuarios anonimizados. [3] AOL había intentado suprimir la información de identificación, incluidos los nombres de usuario y las direcciones IP, pero los había reemplazado por números de identificación únicos para preservar la utilidad de estos datos para los investigadores. Los blogueros, después de la publicación, analizaron los datos, ya sea tratando de identificar usuarios específicos con este contenido, o para señalar consultas de búsqueda entretenidas, deprimentes o impactantes, como por ejemplo "cómo matar a tu esposa", "depresión y baja médica", "fotos de accidentes automovilísticos". Dos periodistas, Michael Barbaro y Tom Zeller, pudieron rastrear a una viuda de 62 años llamada Thelma Arnold al reconocer pistas sobre la identidad del historial de búsqueda del usuario 417729. Arnold reconoció que ella era la autora de las búsquedas, lo que confirma que la reidentificación es posible. [9]
Los datos de ubicación (serie de posiciones geográficas en el tiempo que describen el paradero y los movimientos de una persona) son una clase de datos personales que es especialmente difícil de mantener anónimos. La ubicación muestra visitas recurrentes a lugares de la vida cotidiana a los que se acude con frecuencia, como el hogar, el lugar de trabajo, las tiendas, la atención médica o patrones específicos de tiempo libre. [14] La mera eliminación de la identidad de una persona de los datos de ubicación no eliminará los patrones identificables, como los ritmos de desplazamiento, los lugares para dormir o los lugares de trabajo. Al asignar coordenadas a direcciones, los datos de ubicación se vuelven a identificar fácilmente [15] o se correlacionan con los contextos de la vida privada de una persona. Los flujos de información de ubicación desempeñan un papel importante en la reconstrucción de identificadores personales a partir de los datos de teléfonos inteligentes a los que acceden las aplicaciones. [16]
En 2019, la profesora Kerstin Noëlle Vokinger y el doctor Urs Jakob Mühlematter, dos investigadores de la Universidad de Zúrich , analizaron casos del Tribunal Supremo Federal de Suiza para evaluar qué compañías farmacéuticas y qué medicamentos estaban involucrados en acciones legales contra la Oficina Federal de Salud Pública (FOPH) con respecto a las decisiones sobre precios de medicamentos. En general, las partes privadas involucradas (como las compañías farmacéuticas) y la información que revelaría a la parte privada (por ejemplo, los nombres de los medicamentos) se anonimizan en las sentencias suizas. Los investigadores pudieron volver a identificar el 84% de los casos anonimizados relevantes del Tribunal Supremo Federal de Suiza vinculando información de bases de datos de acceso público. [17] [18] Este logro fue cubierto por los medios de comunicación y dio inicio a un debate sobre si los casos judiciales deberían anonimizarse y cómo. [19] [20]
En 1997, Latanya Sweeney descubrió a partir de un estudio de registros del censo que hasta el 87 por ciento de la población de los EE. UU. puede identificarse utilizando una combinación de su código postal de 5 dígitos , género y fecha de nacimiento. [21] [22]
La reidentificación no autorizada basada en dichas combinaciones no requiere el acceso a "información adicional" conservada por separado que está bajo el control del responsable del tratamiento de datos, como se requiere ahora para la seudonimización conforme al RGPD.
Las personas cuyos datos se reidentifican también corren el riesgo de que su información, junto con su identidad, se venda a organizaciones que no quieren que posean información privada sobre sus finanzas, salud o preferencias. La divulgación de estos datos puede causar ansiedad, vergüenza o bochorno. Una vez que se ha violado la privacidad de una persona como resultado de la reidentificación, las violaciones futuras se vuelven mucho más fáciles: una vez que se establece un vínculo entre un dato y la identidad real de una persona, cualquier asociación entre los datos y una identidad anónima rompe el anonimato de la persona. [3]
La reidentificación puede exponer a las empresas e instituciones que se han comprometido a garantizar el anonimato a una mayor responsabilidad civil y hacer que violen sus políticas internas, políticas de privacidad pública y leyes estatales y federales, como las leyes sobre confidencialidad financiera o privacidad médica , al haber revelado información a terceros que pueden identificar a los usuarios después de la reidentificación. [3]
Para abordar los riesgos de reidentificación, se han sugerido varias propuestas:
Aunque se ha pedido una prohibición total de la reidentificación, su aplicación sería difícil. Sin embargo, existen maneras en que los legisladores pueden combatir y castigar los intentos de reidentificación, si y cuando se descubran: acompañar la prohibición con sanciones más severas y una aplicación más estricta por parte de la Comisión Federal de Comercio y la Oficina Federal de Investigaciones ; otorgar a las víctimas de la reidentificación un derecho de acción contra quienes las reidentifiquen; y exigir registros de auditoría de software para las personas que utilizan y analizan datos anónimos. También se puede imponer una prohibición de reidentificación a pequeña escala a los receptores confiables de bases de datos particulares, como los mineros de datos del gobierno o los investigadores. Esta prohibición sería mucho más fácil de aplicar y puede desalentar la reidentificación. [9]