stringtranslate.com

Cuasi-identificador

Los cuasiidentificadores son piezas de información que no son en sí mismos identificadores únicos , pero están lo suficientemente bien correlacionadas con una entidad como para poder combinarse con otros cuasiidentificadores para crear un identificador único. [1]

Por lo tanto, los cuasiidentificadores pueden, cuando se combinan, convertirse en información de identificación personal . Este proceso se llama reidentificación . Como ejemplo, Latanya Sweeney ha demostrado que aunque ni el género , ni las fechas de nacimiento ni los códigos postales identifican de forma única a un individuo, la combinación de los tres es suficiente para identificar al 87% de las personas en Estados Unidos. [2]

El término fue introducido por Tore Dalenius en 1986. [3] Desde entonces, los cuasi-identificadores han sido la base de varios ataques a los datos publicados. Por ejemplo, Sweeney vinculó los registros médicos con información disponible públicamente para localizar los registros hospitalarios del entonces gobernador de Massachusetts utilizando cuasiidentificadores de identificación única, [4] [5] y Sweeney, Abu y Winn utilizaron registros públicos de votantes para volver a identificar a los participantes. en el Proyecto Genoma Personal. [6] Además, Arvind Narayanan y Vitaly Shmatikov discutieron sobre cuasi-identificadores para indicar las condiciones estadísticas para anonimizar los datos publicados por Netflix. [7]

Motwani y Ying advierten sobre posibles violaciones de la privacidad que se pueden generar mediante la publicación de grandes volúmenes de datos gubernamentales y comerciales que contienen cuasiidentificadores. [8]

Ver también

Referencias

  1. ^ "Glosario de términos estadísticos: cuasiidentificador". OCDE. 10 de noviembre de 2005 . Consultado el 29 de septiembre de 2013 .
  2. ^ Sweeney, Latanya. Los datos demográficos simples a menudo identifican a las personas de manera única . Universidad Carnegie Mellon, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf
  3. ^ Dalenio, desgarrado. Encontrar una aguja en un pajar o identificar registros censales anónimos . Revista de Estadísticas Oficiales, Vol.2, No.3, 1986. págs. 329–336. http://www.jos.nu/Articles/abstract.asp?article=23329 Archivado el 8 de agosto de 2017 en Wayback Machine.
  4. ^ Anderson, Nate. Los datos anónimos realmente no lo son, y he aquí por qué no. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/
  5. ^ Barth-Jones, Daniel C. La 'reidentificación' de la información médica del gobernador William Weld: un reexamen crítico de los riesgos de identificación de datos de salud y las protecciones de privacidad, antes y ahora. Entonces y ahora (4 de junio de 2012) (2012).
  6. ^ Sweeney, Latanya, Akua Abu y Julia Winn. "Identificar a los participantes en el proyecto del genoma personal por su nombre". Disponible en SSRN 2257732 (2013).
  7. ^ Narayanan, Arvind y Shmatikov, Vitaly. "Sólida anonimización de grandes conjuntos de datos dispersos" . Universidad de Texas en Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
  8. ^ Rajeev Motwani y Ying Xu (2008). Algoritmos eficientes para enmascarar y encontrar cuasiidentificadores (PDF) . Actas del taller internacional SDM'08 sobre minería de datos práctica para preservar la privacidad.