stringtranslate.com

Desidentificación

Si bien una persona generalmente puede identificarse fácilmente a partir de una fotografía tomada directamente de ella, la tarea de identificarla basándose en datos limitados es más difícil, aunque a veces posible.

La desidentificación es el proceso utilizado para evitar que se revele la identidad personal de una persona. Por ejemplo, los datos producidos durante la investigación con seres humanos podrían anonimizarse para preservar la privacidad de los participantes de la investigación . Los datos biológicos pueden ser anonimizados para cumplir con las regulaciones de HIPAA que definen y estipulan las leyes de privacidad del paciente. [1]

Cuando se aplica a metadatos o datos generales sobre identificación, el proceso también se conoce como anonimización de datos . Las estrategias comunes incluyen eliminar o enmascarar identificadores personales , como el nombre personal , y suprimir o generalizar cuasiidentificadores , como la fecha de nacimiento. El proceso inverso de utilizar datos no identificados para identificar personas se conoce como reidentificación de datos . Las reidentificaciones exitosas [2] [3] [4] [5] arrojan dudas sobre la eficacia de la desidentificación. Una revisión sistemática de catorce ataques de reidentificación distintos encontró "una alta tasa de reidentificación [...] dominada por estudios a pequeña escala sobre datos que no fueron anonimizados según los estándares existentes". [6]

La desidentificación se adopta como uno de los principales enfoques hacia la protección de la privacidad de los datos . [7] Se utiliza comúnmente en los campos de las comunicaciones, multimedia, biometría, big data , computación en la nube, minería de datos , Internet, redes sociales y vigilancia de audio y video. [8]

Ejemplos

En el diseño de encuestas

Cuando se realizan encuestas, como un censo , recopilan información sobre un grupo específico de personas. Para fomentar la participación y proteger la privacidad de los encuestados, los investigadores intentan diseñar la encuesta de manera que cuando las personas participen en una encuesta, no sea posible hacer coincidir las respuestas individuales de ningún participante con los datos publicados. [9]

Antes de usar la información

Cuando un sitio web de compras en línea quiere conocer las preferencias y hábitos de compra de sus usuarios, decide recuperar los datos de los clientes de su base de datos y analizarlos. La información de datos personales incluye identificadores personales que se recopilaron directamente cuando los clientes crearon sus cuentas. El sitio web debe manejar previamente los datos mediante técnicas de desidentificación antes de analizar los registros de datos para evitar violar la privacidad de sus clientes.

Anonimización

La anonimización se refiere a separar irreversiblemente un conjunto de datos de la identidad del contribuyente de datos en un estudio para evitar cualquier reidentificación futura, incluso por parte de los organizadores del estudio bajo cualquier condición. [10] [11] La desidentificación también puede incluir la preservación de información de identificación que solo puede volver a vincularse por una parte de confianza en determinadas situaciones. [10] [11] [12] Existe un debate en la comunidad tecnológica sobre si los datos que pueden volver a vincularse, incluso por parte de una parte confiable, deberían considerarse anonimizados. [13]

Técnicas

Las estrategias comunes de desidentificación son enmascarar identificadores personales y generalizar cuasiidentificadores . La seudonimización es la técnica principal utilizada para enmascarar identificadores personales de los registros de datos, y la anonimización k generalmente se adopta para generalizar cuasi-identificadores .

Seudonimización

La seudonimización se realiza reemplazando los nombres reales con una identificación temporal. Elimina o enmascara identificadores personales para que las personas no sean identificadas. Este método permite realizar un seguimiento del registro del individuo a lo largo del tiempo, aunque el registro se actualizará. Sin embargo, no puede impedir que se identifique al individuo si algunas combinaciones específicas de atributos en el registro de datos identifican indirectamente al individuo. [14]

k-anonymización

La k-anonimización define atributos que apuntan indirectamente a la identidad del individuo como cuasi-identificadores (QI) y manejan datos haciendo que al menos k individuos tengan alguna combinación de valores de QI. [14] Los valores de QI se manejan siguiendo estándares específicos. Por ejemplo, la anonimización k reemplaza algunos datos originales en los registros con nuevos valores de rango y mantiene algunos valores sin cambios. La nueva combinación de valores de QI evita que el individuo sea identificado y también evita la destrucción de registros de datos.

Aplicaciones

La investigación sobre la desidentificación está impulsada principalmente por proteger la información de salud . [15] Algunas bibliotecas han adoptado métodos utilizados en la industria de la salud para preservar la privacidad de sus lectores. [15]

En big data , la desidentificación es ampliamente adoptada por individuos y organizaciones. [8] Con el desarrollo de las redes sociales, el comercio electrónico y los macrodatos, a veces se requiere la desidentificación y, a menudo, se utiliza para la privacidad de los datos cuando los datos personales de los usuarios son recopilados por empresas u organizaciones de terceros que los analizan para sus fines. propio uso personal.

En las ciudades inteligentes , es posible que se requiera la desidentificación para proteger la privacidad de los residentes, trabajadores y visitantes. Sin una regulación estricta, la desidentificación puede resultar difícil porque los sensores aún pueden recopilar información sin consentimiento. [dieciséis]

Límites

Siempre que una persona participa en una investigación genética , la donación de un espécimen biológico suele dar lugar a la creación de una gran cantidad de datos personalizados. Estos datos son especialmente difíciles de desidentificar. [17]

La anonimización de los datos genéticos es particularmente difícil debido a la enorme cantidad de información genotípica en las muestras biológicas, [17] los vínculos que las muestras suelen tener con el historial médico, [18] y la llegada de herramientas bioinformáticas modernas para la extracción de datos . [18] Ha habido demostraciones de que los datos de individuos en colecciones agregadas de conjuntos de datos genotípicos pueden vincularse a las identidades de los donantes de muestras. [19]

Algunos investigadores han sugerido que no es razonable prometer a los participantes en una investigación genética que pueden conservar su anonimato, sino que se les debe enseñar a dichos participantes los límites del uso de identificadores codificados en un proceso de desidentificación. [11]

Leyes de desidentificación en los Estados Unidos de América

En mayo de 2014, el Consejo de Asesores en Ciencia y Tecnología del Presidente de los Estados Unidos consideró que la desidentificación era "algo útil como salvaguardia adicional", pero no era "una base útil para la política", ya que "no es sólida contra la reidentificación futura a corto plazo". métodos". [20]

La regla de privacidad de HIPAA proporciona mecanismos para usar y divulgar datos de salud de manera responsable sin la necesidad del consentimiento del paciente. Estos mecanismos se centran en dos estándares de desidentificación de HIPAA: Puerto Seguro y el Método de Determinación de Expertos. El puerto seguro se basa en la eliminación de identificadores de pacientes específicos (por ejemplo, nombre, número de teléfono, dirección de correo electrónico, etc.), mientras que el Método de determinación de expertos requiere conocimiento y experiencia con principios y métodos estadísticos y científicos generalmente aceptados para convertir la información en no identificable individualmente. [21]

Puerto seguro

El método de puerto seguro utiliza un enfoque de lista para la desidentificación y tiene dos requisitos:

  1. La eliminación o generalización de 18 elementos de los datos.
  2. Que la Entidad Cubierta o el Socio Comercial no tiene conocimiento real de que la información residual en los datos podría usarse sola, o en combinación con otra información, para identificar a un individuo. Safe Harbor es un enfoque altamente prescriptivo para la desidentificación. Según este método, todas las fechas deben generalizarse al año y los códigos postales deben reducirse a tres dígitos. Se utiliza el mismo enfoque con los datos independientemente del contexto. Incluso si la información se va a compartir con un investigador confiable que desea analizar los datos para detectar variaciones estacionales en casos respiratorios agudos y, por lo tanto, requiere el mes de ingreso hospitalario, esta información no se puede proporcionar; sólo se conservaría el año de admisión.

Determinación de expertos

La determinación de expertos adopta un enfoque de desidentificación basado en el riesgo que aplica los estándares actuales y las mejores prácticas de la investigación para determinar la probabilidad de que una persona pueda ser identificada a partir de su información de salud protegida . Este método requiere que una persona con conocimiento y experiencia adecuados en los principios y métodos estadísticos y científicos generalmente aceptados haga que la información no sea identificable individualmente. Requiere:

  1. Que el riesgo es muy pequeño de que la información pueda ser utilizada sola, o en combinación con otra información razonablemente disponible, por un destinatario previsto para identificar a un individuo que es sujeto de la información;
  2. Documenta los métodos y resultados del análisis que justifican tal determinación.

Investigación sobre difuntos

La ley clave sobre la investigación de datos de registros médicos electrónicos es la Regla de Privacidad HIPAA . Esta ley permite el uso de registros médicos electrónicos de sujetos fallecidos para investigaciones (Regla de Privacidad HIPAA (sección 164.512(i)(1)(iii))). [22]

Ver también

Referencias

  1. ^ Derechos (OCR), Oficina de Asuntos Civiles (7 de septiembre de 2012). "Métodos para la desidentificación de la PHI". HHS.gov . Consultado el 8 de noviembre de 2020 .
  2. ^ Sweeney, L. (2000). "Los datos demográficos simples a menudo identifican a las personas de manera única". Documento de trabajo sobre privacidad de datos . 3 .
  3. ^ de Montjoye, Y.-A. (2013). "Único entre la multitud: los límites de la privacidad de la movilidad humana". Informes científicos . 3 : 1376. Código bibliográfico : 2013NatSR...3E1376D. doi :10.1038/srep01376. PMC 3607247 . PMID  23524645. 
  4. ^ de Montjoye, Y.-A.; Radaelli, L.; Singh, VK; Pentland, AS (29 de enero de 2015). "Único en el centro comercial: sobre la reidentificabilidad de los metadatos de las tarjetas de crédito". Ciencia . 347 (6221): 536–539. Código Bib : 2015 Ciencia... 347.. 536D. doi : 10.1126/ciencia.1256297 . hdl : 1721.1/96321 . PMID  25635097.
  5. ^ Narayanan, A. (2006). "Cómo romper el anonimato del conjunto de datos de premios de Netflix". arXiv : cs/0610105 .
  6. ^ El Emam, Khaled (2011). "Una revisión sistemática de los ataques de reidentificación de datos de salud". MÁS UNO . 10 (4): e28071. Código Bib : 2011PLoSO...628071E. doi : 10.1371/journal.pone.0028071 . PMC 3229505 . PMID  22164229. 
  7. ^ Simson., Garfinkel. Desidentificación de información personal: recomendación para la transición del uso de algoritmos criptográficos y longitudes de claves. OCLC  933741839.
  8. ^ ab Ribárico, Slobodan; Ariyaeeinia, Aladdin; Pavesic, Nikola (septiembre de 2016). "Desidentificación para la protección de la privacidad en contenidos multimedia: una encuesta". Procesamiento de señales: comunicación de imágenes . 47 : 131-151. doi : 10.1016/j.image.2016.05.020. hdl : 2299/19652 .
  9. ^ Bhaskaran, Vivek (8 de junio de 2023). "Investigación por encuesta: definición, ejemplos y métodos". PreguntaPro . Consultado el 17 de diciembre de 2023 .
  10. ^ ab Godard, licenciado en Letras; Schmidtke, JR; Cassiman, JJ; Aymé, SGN (2003). "Almacenamiento de datos y banco de ADN para investigación biomédica: consentimiento informado, confidencialidad, cuestiones de calidad, propiedad, devolución de beneficios. Una perspectiva profesional". Revista europea de genética humana . 11 : S88-122. doi : 10.1038/sj.ejhg.5201114 . PMID  14718939.
  11. ^ abc Fullerton, SM; Anderson, NR; Guzauskas, G.; Freeman, D.; Freidora-Edwards, K. (2010). "Afrontar los desafíos de gobernanza de la investigación de biorrepositorios de próxima generación". Medicina traslacional de la ciencia . 2 (15): 15cm3. doi :10.1126/scitranslmed.3000361. PMC 3038212 . PMID  20371468. 
  12. ^ McMurry, AJ; Gilbert, California; Reyes, POR; Chueh, HC; Kohane, IS; Mandl, KD (2007). "Una arquitectura de información distribuida y autoescalable para la salud pública, la investigación y la atención clínica". J Am Med Informar Assoc . 14 (4): 527–33. doi :10.1197/jamia.M2371. PMC 2244902 . PMID  17460129. 
  13. ^ "Desidentificación de datos". El Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (J-PAL) . Consultado el 17 de diciembre de 2023 .
  14. ^ ab Ito, Koichi; Kogure, junio; Shimoyama, Takeshi; Tsuda, Hiroshi (2016). "Tecnologías de desidentificación y cifrado para proteger la información personal" (PDF) . Revista científica y técnica de Fujitsu . 52 (3): 28–36.
  15. ^ ab Nicholson, S.; Smith, California (2005). "Utilizar lecciones de la atención médica para proteger la privacidad de los usuarios de la biblioteca: pautas para la desidentificación de los datos de la biblioteca según HIPAA" (PDF) . Actas de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 42 : n/d. doi : 10.1002/meet.1450420106 .
  16. ^ Cooperativa, Alex. "La decisión de Sidewalk Labs de traspasar las decisiones difíciles sobre privacidad a terceros es incorrecta, dice su ex consultor". Mundo de TI Canadá . Consultado el 27 de junio de 2019 .
  17. ^ ab McGuire, AL; Gibbs, RA (2006). "GENÉTICA: Ya no está anonimizada". Ciencia . 312 (5772): 370–371. doi : 10.1126/ciencia.1125339 . PMID  16627725.
  18. ^ ab Thorisson, GA; Muilu, J.; Brookes, AJ (2009). "Bases de datos de genotipo-fenotipo: desafíos y soluciones para la era posgenómica". Naturaleza Reseñas Genética . 10 (1): 9–18. doi :10.1038/nrg2483. hdl : 2381/4584 . PMID  19065136. S2CID  5964522.
  19. ^ Homero, N.; Szelinger, S.; Redman, M.; Duggan, D.; Tembe, W.; Muehling, J.; Pearson, JV; Esteban, fiscal del distrito; Nelson, SF; Craig, DW (2008). Visscher, Peter M. (ed.). "Resolución de individuos que aportan trazas de ADN a mezclas altamente complejas utilizando micromatrices de genotipado SNP de alta densidad". PLOS Genética . 4 (8): e1000167. doi : 10.1371/journal.pgen.1000167 . PMC 2516199 . PMID  18769715. 
  20. ^ PCAST. «Informe al Presidente - Big Data y Privacidad: Una perspectiva tecnológica» (PDF) . Oficina de Política Científica y Tecnológica . Consultado el 28 de marzo de 2016 , a través de Archivos Nacionales .
  21. ^ "Desidentificación 201". Análisis de privacidad . 2015.
  22. ^ 45 CFR 164.512)

enlaces externos