stringtranslate.com

Desidentificación

Si bien una persona generalmente puede ser fácilmente identificada a partir de una fotografía tomada directamente de ella, la tarea de identificarla sobre la base de datos limitados es más difícil, aunque a veces posible.

La desidentificación es el proceso que se utiliza para evitar que se revele la identidad personal de alguien . Por ejemplo, los datos producidos durante una investigación con sujetos humanos pueden desidentificarse para preservar la privacidad de los participantes de la investigación . Los datos biológicos pueden desidentificarse para cumplir con las regulaciones HIPAA que definen y estipulan las leyes de privacidad del paciente. [1]

Cuando se aplica a metadatos o datos generales sobre identificación, el proceso también se conoce como anonimización de datos . Las estrategias comunes incluyen eliminar o enmascarar identificadores personales , como el nombre personal , y suprimir o generalizar cuasiidentificadores , como la fecha de nacimiento. El proceso inverso de usar datos desidentificados para identificar individuos se conoce como reidentificación de datos . Las reidentificaciones exitosas [2] [3] [4] [5] ponen en duda la efectividad de la desidentificación. Una revisión sistemática de catorce ataques distintos de reidentificación encontró "una alta tasa de reidentificación [...] dominada por estudios a pequeña escala sobre datos que no fueron desidentificados de acuerdo con los estándares existentes". [6]

La desidentificación se adopta como uno de los principales enfoques hacia la protección de la privacidad de los datos . [7] Se utiliza comúnmente en campos de comunicaciones, multimedia, biometría, big data , computación en la nube, minería de datos , Internet, redes sociales y vigilancia de audio y video. [8]

Ejemplos

En el diseño de encuestas

Cuando se realizan encuestas, como un censo , se recopila información sobre un grupo específico de personas. Para fomentar la participación y proteger la privacidad de los encuestados, los investigadores intentan diseñar la encuesta de manera que, cuando las personas participen en ella, no sea posible hacer coincidir las respuestas individuales de ningún participante con los datos publicados. [9]

Antes de utilizar la información

Cuando un sitio web de compras en línea desea conocer las preferencias y los hábitos de compra de sus usuarios, decide recuperar los datos de los clientes de su base de datos y realizar un análisis de los mismos. La información de datos personales incluye identificadores personales que se recopilaron directamente cuando los clientes crearon sus cuentas. El sitio web debe procesar previamente los datos mediante técnicas de desidentificación antes de analizar los registros de datos para evitar violar la privacidad de sus clientes.

Anonimización

La anonimización se refiere a la separación irreversible de un conjunto de datos de la identidad del contribuyente de datos en un estudio para evitar cualquier reidentificación futura, incluso por parte de los organizadores del estudio bajo cualquier condición. [10] [11] La desidentificación también puede incluir la preservación de información de identificación que solo puede ser revinculada por una parte confiable en ciertas situaciones. [10] [11] [12] Existe un debate en la comunidad tecnológica sobre si los datos que pueden volver a vincularse, incluso por una parte confiable, deben considerarse alguna vez desidentificados. [13]

Técnicas

Las estrategias habituales de desidentificación son el enmascaramiento de los identificadores personales y la generalización de los cuasiidentificadores . La seudonimización es la principal técnica utilizada para enmascarar los identificadores personales de los registros de datos, y la k-anonimización se suele adoptar para generalizar los cuasiidentificadores .

Pseudonimización

La seudonimización se realiza reemplazando los nombres reales por un identificador temporal. Elimina o enmascara los identificadores personales para que las personas no sean identificadas. Este método permite rastrear el registro de una persona a lo largo del tiempo, aunque el registro se actualice. Sin embargo, no puede evitar que la persona sea identificada si algunas combinaciones específicas de atributos en el registro de datos la identifican indirectamente. [14]

k-anonimización

La anonimización k define atributos que apuntan indirectamente a la identidad del individuo como cuasi-identificadores (QIs) y maneja los datos haciendo que al menos k individuos tengan alguna combinación de valores QI. [14] Los valores QI se manejan siguiendo estándares específicos. Por ejemplo, la anonimización k reemplaza algunos datos originales en los registros con nuevos valores de rango y mantiene algunos valores sin cambios. La nueva combinación de valores QI evita que el individuo sea identificado y también evita la destrucción de registros de datos.

Aplicaciones

La investigación sobre la desidentificación se orienta principalmente a proteger la información sanitaria . [15] Algunas bibliotecas han adoptado métodos utilizados en la industria de la salud para preservar la privacidad de sus lectores. [15]

En el ámbito del big data , la desidentificación es ampliamente adoptada por individuos y organizaciones. [8] Con el desarrollo de las redes sociales, el comercio electrónico y el big data, la desidentificación a veces se requiere y se utiliza a menudo para la privacidad de los datos cuando los datos personales de los usuarios son recopilados por empresas u organizaciones de terceros que los analizarán para su propio uso personal.

En las ciudades inteligentes , puede ser necesaria la desidentificación para proteger la privacidad de los residentes, trabajadores y visitantes. Sin una regulación estricta, la desidentificación puede resultar difícil porque los sensores aún pueden recopilar información sin consentimiento. [16]

Desidentificación de datos

La PHI (Información Sanitaria Protegida) puede estar presente en diversos datos y cada formato necesita técnicas y herramientas específicas para desidentificarla:

Límites

Cuando una persona participa en una investigación genética , la donación de una muestra biológica suele dar lugar a la creación de una gran cantidad de datos personalizados. Estos datos son especialmente difíciles de desidentificar. [18]

La anonimización de los datos genéticos es particularmente difícil debido a la enorme cantidad de información genotípica en los bioespecímenes, [18] los vínculos que los especímenes a menudo tienen con el historial médico, [19] y el advenimiento de las herramientas bioinformáticas modernas para la minería de datos . [19] Ha habido demostraciones de que los datos de individuos en colecciones agregadas de conjuntos de datos genotípicos se pueden vincular a las identidades de los donantes de especímenes. [20]

Algunos investigadores han sugerido que no es razonable prometer a los participantes en una investigación genética que podrán conservar su anonimato, sino que se les debería enseñar a dichos participantes los límites del uso de identificadores codificados en un proceso de desidentificación. [11]

Leyes de desidentificación en los Estados Unidos de América

En mayo de 2014, el Consejo de Asesores sobre Ciencia y Tecnología del Presidente de los Estados Unidos consideró que la desidentificación era "algo útil como medida de protección adicional", pero no "una base útil para la formulación de políticas", ya que "no es sólida frente a futuros métodos de reidentificación a corto plazo". [21]

La regla de privacidad de la HIPAA proporciona mecanismos para usar y divulgar datos de salud de manera responsable sin necesidad del consentimiento del paciente. Estos mecanismos se centran en dos estándares de desidentificación de la HIPAA: Safe Harbor y el método de determinación experta. Safe Harbor se basa en la eliminación de identificadores específicos del paciente (por ejemplo, nombre, número de teléfono, dirección de correo electrónico, etc.), mientras que el método de determinación experta requiere conocimiento y experiencia con principios y métodos estadísticos y científicos generalmente aceptados para hacer que la información no sea identificable individualmente. [22]

Puerto seguro

El método de puerto seguro utiliza un enfoque de lista para la desidentificación y tiene dos requisitos:

  1. La eliminación o generalización de 18 elementos de los datos.
  2. Que la Entidad Cubierta o el Socio Comercial no tengan conocimiento real de que la información residual en los datos podría usarse sola, o en combinación con otra información, para identificar a una persona. Safe Harbor es un enfoque altamente prescriptivo para la desidentificación. Bajo este método, todas las fechas deben generalizarse al año y los códigos postales deben reducirse a tres dígitos. El mismo enfoque se utiliza en los datos independientemente del contexto. Incluso si la información se va a compartir con un investigador de confianza que desea analizar los datos para detectar variaciones estacionales en casos respiratorios agudos y, por lo tanto, requiere el mes de ingreso hospitalario, esta información no se puede proporcionar; solo se conservaría el año de ingreso.

Determinación de expertos

La determinación de expertos adopta un enfoque basado en el riesgo para la desidentificación que aplica los estándares actuales y las mejores prácticas de la investigación para determinar la probabilidad de que una persona pueda ser identificada a partir de su información médica protegida. Este método requiere que una persona con el conocimiento y la experiencia adecuados en principios y métodos estadísticos y científicos generalmente aceptados haga que la información no sea identificable individualmente. Requiere:

  1. Que el riesgo de que la información pueda ser utilizada sola o en combinación con otra información razonablemente disponible por un destinatario previsto para identificar a un individuo que es sujeto de la información es muy pequeño;
  2. Documenta los métodos y resultados del análisis que justifican tal determinación.

Investigación sobre los fallecidos

La ley clave sobre la investigación de datos de registros médicos electrónicos es la Norma de Privacidad de HIPAA . Esta ley permite el uso de registros médicos electrónicos de sujetos fallecidos para investigación (Norma de Privacidad de HIPAA (sección 164.512(i)(1)(iii))). [23]

Véase también

Referencias

  1. ^ Derechos Civiles (OCR), Oficina de Derechos Civiles (7 de septiembre de 2012). "Métodos para la desidentificación de la PHI". HHS.gov . Consultado el 8 de noviembre de 2020 .
  2. ^ Sweeney, L. (2000). "Los datos demográficos simples suelen identificar a las personas de forma única". Documento de trabajo sobre privacidad de datos . 3 .
  3. ^ de Montjoye, Y.-A. (2013). "Único entre la multitud: los límites de privacidad de la movilidad humana". Scientific Reports . 3 : 1376. Bibcode :2013NatSR...3E1376D. doi :10.1038/srep01376. PMC 3607247 . PMID  23524645. 
  4. ^ de Montjoye, Y.-A.; Radaelli, L.; Singh, VK; Pentland, AS (29 de enero de 2015). "Único en el centro comercial: sobre la reidentificación de los metadatos de tarjetas de crédito". Science . 347 (6221): 536–539. Bibcode :2015Sci...347..536D. doi : 10.1126/science.1256297 . hdl : 1721.1/96321 . PMID  25635097.
  5. ^ Narayanan, A. (2006). "Cómo romper el anonimato del conjunto de datos de premios de Netflix". arXiv : cs/0610105 .
  6. ^ El Emam, Khaled (2011). "Una revisión sistemática de los ataques de reidentificación a los datos de salud". PLOS ONE . ​​10 (4): e28071. Bibcode :2011PLoSO...628071E. doi : 10.1371/journal.pone.0028071 . PMC 3229505 . PMID  22164229. 
  7. ^ Simson., Garfinkel. Desidentificación de información personal: recomendación para la transición del uso de algoritmos criptográficos y longitudes de clave. OCLC  933741839.
  8. ^ ab Ribaric, Slobodan; Ariyaeeinia, Aladdin; Pavesic, Nikola (septiembre de 2016). "Desidentificación para la protección de la privacidad en contenido multimedia: una encuesta". Procesamiento de señales: comunicación de imágenes . 47 : 131–151. doi :10.1016/j.image.2016.05.020. hdl : 2299/19652 .
  9. ^ Bhaskaran, Vivek (8 de junio de 2023). "Investigación por encuesta: definición, ejemplos y métodos". QuestionPro . Consultado el 17 de diciembre de 2023 .
  10. ^ ab Godard, BA; Schmidtke, JR; Cassiman, JJ; Aymé, SGN (2003). "Almacenamiento de datos y bancos de ADN para investigación biomédica: consentimiento informado, confidencialidad, cuestiones de calidad, propiedad, retorno de beneficios. Una perspectiva profesional". Revista Europea de Genética Humana . 11 : S88–122. doi : 10.1038/sj.ejhg.5201114 . PMID  14718939.
  11. ^ abc Fullerton, SM; Anderson, NR; Guzauskas, G.; Freeman, D.; Fryer-Edwards, K. (2010). "Afrontar los desafíos de gobernanza de la investigación de biorrepositorios de próxima generación". Science Translational Medicine . 2 (15): 15cm3. doi :10.1126/scitranslmed.3000361. PMC 3038212 . PMID  20371468. 
  12. ^ McMurry, AJ; Gilbert, CA; Reis, BY; Chueh, HC; Kohane, IS; Mandl, KD (2007). "Una arquitectura de información distribuida y autoescalable para la salud pública, la investigación y la atención clínica". J Am Med Inform Assoc . 14 (4): 527–33. doi :10.1197/jamia.M2371. PMC 2244902. PMID  17460129 . 
  13. ^ "Desidentificación de datos". The Abdul Latif Jameel Poverty Action Lab (J-PAL) . Consultado el 17 de diciembre de 2023 .
  14. ^ ab Ito, Koichi; Kogure, Jun; Shimoyama, Takeshi; Tsuda, Hiroshi (2016). "Tecnologías de desidentificación y cifrado para proteger la información personal" (PDF) . Revista científica y técnica de Fujitsu . 52 (3): 28–36.
  15. ^ ab Nicholson, S.; Smith, CA (2005). "Uso de lecciones aprendidas en el ámbito de la atención médica para proteger la privacidad de los usuarios de bibliotecas: pautas para la desidentificación de datos de bibliotecas según la HIPAA" (PDF) . Actas de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 42 : n/a. doi : 10.1002/meet.1450420106 .
  16. ^ Coop, Alex. "La decisión de Sidewalk Labs de delegar decisiones difíciles sobre privacidad en un tercero es incorrecta, dice su ex consultor". IT World Canada . Consultado el 27 de junio de 2019 .
  17. ^ "Desidentificación de PDF médicos: garantizar la privacidad del paciente y el cumplimiento en la gestión de documentos". 2024.
  18. ^ ab McGuire, AL; Gibbs, RA (2006). "GENÉTICA: ya no se desidentifica". Science . 312 (5772): 370–371. doi : 10.1126/science.1125339 . PMID  16627725.
  19. ^ ab Thorisson, GA; Muilu, J.; Brookes, AJ (2009). "Bases de datos de genotipo-fenotipo: desafíos y soluciones para la era posgenómica". Nature Reviews Genetics . 10 (1): 9–18. doi :10.1038/nrg2483. hdl : 2381/4584 . PMID  19065136. S2CID  5964522.
  20. ^ Homer, N.; Szelinger, S.; Redman, M.; Duggan, D.; Tembe, W.; Muehling, J.; Pearson, JV; Stephan, DA; Nelson, SF; Craig, DW (2008). Visscher, Peter M. (ed.). "Resolución de individuos que aportan cantidades traza de ADN a mezclas altamente complejas utilizando microarreglos de genotipado de SNP de alta densidad". PLOS Genetics . 4 (8): e1000167. doi : 10.1371/journal.pgen.1000167 . PMC 2516199 . PMID  18769715. 
  21. ^ PCAST. "Informe al Presidente - Big Data y privacidad: una perspectiva tecnológica" (PDF) . Oficina de Política Científica y Tecnológica . Consultado el 28 de marzo de 2016 – a través de Archivos Nacionales .
  22. ^ "Desidentificación 201". Análisis de privacidad . 2015.
  23. ^ 45 CFR 164.512)

Enlaces externos