La reidentificación o anonimización de datos es la práctica de comparar datos anónimos (también conocidos como datos no identificados) con información disponible públicamente, o datos auxiliares, para descubrir a la persona a la que pertenecen los datos. [1] Esto es preocupante porque las empresas con políticas de privacidad , los proveedores de atención médica y las instituciones financieras pueden divulgar los datos que recopilan después de que hayan pasado por el proceso de desidentificación.
El proceso de desidentificación implica enmascarar, generalizar o eliminar identificadores tanto directos como indirectos ; La definición de este proceso no es universal. La información de dominio público , incluso aparentemente anónima, puede así volver a identificarse en combinación con otros datos disponibles y técnicas informáticas básicas. La Protección de Sujetos Humanos (" Regla Común "), un conjunto de múltiples agencias y departamentos federales de EE. UU., incluido el Departamento de Salud y Servicios Humanos de EE. UU. , advierte que la reidentificación se está volviendo cada vez más fácil debido a los " grandes datos ": la abundancia y constante recopilación y análisis de información junto con la evolución de las tecnologías y los avances de los algoritmos. Sin embargo, otros han afirmado que la desidentificación es una herramienta de liberación de datos segura y eficaz y no ven la reidentificación como una preocupación. [2] [ la neutralidad está en disputa ]
Cada vez hay más datos disponibles públicamente a través de Internet. Estos datos se divulgan después de aplicar algunas técnicas de anonimización, como eliminar información de identificación personal (PII), como nombres, direcciones y números de seguro social, para garantizar la privacidad de las fuentes. Esta garantía de privacidad permite al gobierno compartir legalmente conjuntos de datos limitados con terceros sin necesidad de permiso por escrito. Estos datos han demostrado ser muy valiosos para los investigadores, especialmente en el ámbito de la atención sanitaria.
La seudonimización que cumple con el RGPD busca reducir el riesgo de reidentificación mediante el uso de "información adicional" guardada por separado. El enfoque se basa en una evaluación experta de un conjunto de datos para designar algunos identificadores como "directos" y otros como "indirectos". Los defensores de este enfoque argumentan que la reidentificación se puede evitar limitando el acceso a "información adicional" que el controlador mantiene por separado. La teoría es que el acceso a "información adicional" guardada por separado es necesario para la reidentificación, y el controlador puede limitar la atribución de datos a un interesado específico para respaldar únicamente fines legales. Este enfoque es controvertido, ya que falla si existen conjuntos de datos adicionales que pueden usarse para la reidentificación. Dichos conjuntos de datos adicionales pueden ser desconocidos para quienes certifican la seudonimización que cumple con el RGPD, o pueden no existir en el momento de la seudonimización, pero pueden llegar a existir en algún momento en el futuro.
Las regulaciones de privacidad existentes generalmente protegen la información que ha sido modificada, de modo que los datos se consideran anónimos o anonimizados. Para información financiera, la Comisión Federal de Comercio permite su circulación si no está identificada y está agregada. [3] La Ley Gramm Leach Bliley (GLBA), que exige que las instituciones financieras brinden a los consumidores la oportunidad de optar por no compartir su información con terceros, no cubre datos no identificados si la información es agregada y no contiene identificadores personales. , ya que estos datos no son tratados como información de identificación personal . [3]
En términos de registros universitarios, las autoridades tanto a nivel estatal como federal han mostrado conciencia sobre los problemas de privacidad en la educación y disgusto por la divulgación de información por parte de las instituciones. El Departamento de Educación de EE. UU. ha brindado orientación sobre el discurso y la identificación de datos, instruyendo a las instituciones educativas a ser sensibles al riesgo de reidentificación de datos anónimos mediante referencias cruzadas con datos auxiliares, para minimizar la cantidad de datos en el dominio público al disminuir publicación de información de directorio sobre estudiantes y personal institucional, y ser consistentes en los procesos de desidentificación. [4]
La información médica de los pacientes está cada vez más disponible en Internet, en plataformas gratuitas y de acceso público como HealthData.gov y PatientsLikeMe , alentadas por las políticas gubernamentales de datos abiertos y las iniciativas de intercambio de datos encabezadas por el sector privado. Si bien este nivel de accesibilidad genera muchos beneficios, se han planteado preocupaciones con respecto a la discriminación y la privacidad. [5] Las protecciones de los registros médicos y los datos de los consumidores de las farmacias son más fuertes en comparación con las de otros tipos de datos de los consumidores. La Ley de Responsabilidad y Portabilidad del Seguro Médico (HIPAA) protege la privacidad de los datos identificables sobre la salud, pero autoriza la divulgación de información a terceros si no se identifica. Además, exige que los pacientes reciban notificaciones de incumplimiento en caso de que exista una probabilidad mayor que baja de que la información del paciente haya sido divulgada o utilizada de manera inapropiada sin una mitigación suficiente del daño para él o ella. [6] La probabilidad de reidentificación es un factor para determinar la probabilidad de que la información del paciente se haya visto comprometida. Por lo general, las farmacias venden información no identificada a empresas de minería de datos que, a su vez, venden a empresas farmacéuticas. [3]
Se han promulgado leyes estatales para prohibir la extracción de datos de información médica, pero fueron derogadas por los tribunales federales de Maine y New Hampshire basándose en la Primera Enmienda. Otro tribunal federal, en otro caso, utilizó "ilusorio" para describir las preocupaciones sobre la privacidad de los pacientes y no reconoció los riesgos de la reidentificación. [3]
El Aviso de elaboración de normas propuestas, publicado por las Agencias de Normas Comunes en septiembre de 2015, amplió el término general de "sujeto humano" en la investigación para incluir muestras biológicas o materiales extraídos del cuerpo humano: sangre, orina, tejido, etc. Los investigadores que utilizan muestras biológicas deben seguir los requisitos más estrictos de realizar investigaciones con sujetos humanos. La razón de esto es el mayor riesgo de reidentificación de la muestra biológica. [7] Las revisiones finales afirmaron este reglamento. [8] [ se necesita aclaración ] [ se necesita cita completa ]
Ha habido una cantidad considerable de intentos exitosos de reidentificación en diferentes campos. Incluso si no es fácil para un profano romper el anonimato, una vez que se divulgan y aprenden los pasos para hacerlo, no hay necesidad de conocimientos de nivel superior para acceder a la información de una base de datos . A veces, ni siquiera se necesita experiencia técnica si una población tiene una combinación única de identificadores. [3]
A mediados de la década de 1990, una agencia gubernamental de Massachusetts llamada Group Insurance Commission (GIC), que compraba seguros médicos para los empleados del estado, decidió revelar los registros de las visitas al hospital a cualquier investigador que solicitara los datos, sin coste alguno. GIC aseguró que la privacidad del paciente no era una preocupación ya que había eliminado identificadores como nombre, direcciones, números de seguro social. Sin embargo, información como códigos postales, fecha de nacimiento y sexo permaneció intacta. La garantía del GIC fue reforzada por el entonces gobernador de Massachusetts, William Weld. Latanya Sweeney , una estudiante de posgrado en ese momento, se propuso seleccionar los registros del gobernador en los datos del GIC. Combinando los datos de GIC con la base de datos de votantes de la ciudad de Cambridge, que compró por 20 dólares, se descubrió fácilmente el historial del Gobernador Weld. [9]
En 1997, un investigador logró anonimizar los registros médicos utilizando bases de datos de votantes. [3]
En 2011, la profesora Latanya Sweeney volvió a utilizar registros anónimos de visitas a hospitales y registros de votación en el estado de Washington y logró emparejar a personas individuales el 43% de las veces. [10]
Existen algoritmos que se utilizan para volver a identificar al paciente con información de medicamentos recetados. [3]
Dos investigadores de la Universidad de Texas , Arvind Narayanan y el profesor Vitaly Shmatikov, pudieron volver a identificar una parte de los datos anónimos de clasificación de películas de Netflix con consumidores individuales en el sitio web de streaming. [11] [12] [13] Los datos fueron publicados por Netflix en 2006 después de la desidentificación, que consistió en reemplazar nombres individuales con números aleatorios y mover detalles personales. Los dos investigadores quitaron el anonimato de algunos de los datos comparándolos con las clasificaciones de películas de usuarios no anónimos de IMDb (Internet Movie Database). Se descubrió que se necesitaba muy poca información de la base de datos para identificar al suscriptor. [3] En el trabajo de investigación resultante, hubo revelaciones sorprendentes sobre lo fácil que es reidentificar a los usuarios de Netflix. Por ejemplo, el simple hecho de conocer los datos de sólo dos películas que un usuario ha revisado, incluida la calificación precisa y la fecha de calificación más o menos en tres días, permite un 68% de éxito en la reidentificación. [9]
En 2006, después de que AOL publicara las consultas de búsqueda de sus usuarios, datos que fueron anonimizados antes de su divulgación pública, los reporteros del New York Times llevaron a cabo con éxito la reidentificación de individuos tomando grupos de búsquedas realizadas por usuarios anónimos. [3] AOL había intentado suprimir la información de identificación, incluidos los nombres de usuario y las direcciones IP, pero los había reemplazado con números de identificación únicos para preservar la utilidad de estos datos para los investigadores. Los blogueros, después de la publicación, estudiaron minuciosamente los datos, ya sea tratando de identificar a usuarios específicos con este contenido o señalando consultas de búsqueda entretenidas, deprimentes o impactantes, ejemplos de las cuales incluyen "cómo matar a tu esposa", "depresión y atención médica". salir", "fotos de accidentes automovilísticos". Dos reporteros, Michael Barbaro y Tom Zeller, pudieron localizar a una viuda de 62 años llamada Thelma Arnold al reconocer pistas sobre la identidad de los historiales de búsqueda del usuario 417729. Arnold reconoció que ella fue la autora de las búsquedas, confirmando que la reidentificación es posible. [9]
Los datos de ubicación (serie de posiciones geográficas en el tiempo que describen el paradero y los movimientos de una persona) son una clase de datos personales que son específicamente difíciles de mantener en el anonimato. La ubicación muestra visitas recurrentes a lugares de la vida cotidiana frecuentados, como el hogar, el lugar de trabajo, las compras, la atención médica o patrones específicos de tiempo libre. [14] Sólo eliminar la identidad de una persona de los datos de ubicación no eliminará patrones identificables como ritmos de desplazamiento, lugares para dormir o lugares de trabajo. Al asignar coordenadas a direcciones, los datos de ubicación se vuelven a identificar fácilmente [15] o se correlacionan con los contextos de la vida privada de una persona. Los flujos de información de ubicación desempeñan un papel importante en la reconstrucción de identificadores personales a partir de datos de teléfonos inteligentes a los que acceden las aplicaciones. [dieciséis]
En 2019, la profesora Kerstin Noëlle Vokinger y el Dr. Urs Jakob Mühlematter, dos investigadores de la Universidad de Zurich , analizaron casos del Tribunal Supremo Federal de Suiza para evaluar qué empresas farmacéuticas y qué medicamentos estaban implicados en acciones legales contra la Oficina Federal de Salud Pública (FOPH) con respecto a las decisiones de fijación de precios de medicamentos. En general, las partes privadas involucradas (como las compañías farmacéuticas) y la información que revelaría a las partes privadas (por ejemplo, los nombres de los medicamentos) se mantienen anónimas en las sentencias suizas. Los investigadores pudieron volver a identificar el 84% de los casos relevantes anonimizados del Tribunal Supremo Federal de Suiza vinculando información de bases de datos de acceso público. [17] [18] Este logro fue cubierto por los medios de comunicación y comenzó un debate sobre si los casos judiciales deberían ser anónimos y cómo. [19] [20]
En 1997, Latanya Sweeney descubrió, a partir de un estudio de los registros del censo, que hasta el 87 por ciento de la población estadounidense puede identificarse utilizando una combinación de su código postal de cinco dígitos , sexo y fecha de nacimiento. [21] [22]
La reidentificación no autorizada basada en tales combinaciones no requiere el acceso a "información adicional" guardada por separado y bajo el control del controlador de datos, como ahora se requiere para la seudonimización que cumple con el RGPD.
Las personas cuyos datos se vuelven a identificar también corren el riesgo de que su información, con su identidad adjunta, se venda a organizaciones que no quieren que posean información privada sobre sus finanzas, salud o preferencias. La divulgación de estos datos puede causar ansiedad, vergüenza o vergüenza. Una vez que se ha violado la privacidad de un individuo como resultado de la reidentificación, las violaciones futuras se vuelven mucho más fáciles: una vez que se establece un vínculo entre un dato y la identidad real de una persona, cualquier asociación entre los datos y una identidad anónima rompe el anonimato de la persona. [3]
La reidentificación puede exponer a las empresas e instituciones que se han comprometido a garantizar el anonimato a una mayor responsabilidad extracontractual y hacer que violen sus políticas internas, políticas de privacidad pública y leyes estatales y federales, como las leyes relativas a la confidencialidad financiera o la privacidad médica , al haber divulgado información a terceros que puedan identificar a los usuarios después de una reidentificación. [3]
Para abordar los riesgos de la reidentificación, se han sugerido varias propuestas:
Si bien se ha instado a una prohibición total de la reidentificación, su aplicación sería difícil. Sin embargo, hay formas para que los legisladores combatan y castiguen los esfuerzos de reidentificación, siempre y cuando sean expuestos: combinar una prohibición con penas más severas y una aplicación más estricta por parte de la Comisión Federal de Comercio y la Oficina Federal de Investigaciones ; otorgar a las víctimas de reidentificación un derecho de acción contra quienes las reidentifiquen; y exigir pistas de auditoría de software para las personas que utilizan y analizan datos anonimizados. También se puede imponer una prohibición de reidentificación a pequeña escala a destinatarios confiables de determinadas bases de datos, como investigadores o mineros de datos gubernamentales. Esta prohibición sería mucho más fácil de hacer cumplir y podría desalentar la reidentificación. [9]