stringtranslate.com

k-anonimato

El k -anonimato es una propiedad que poseen ciertos datos anonimizados . El término k -anonimato fue introducido por primera vez por Pierangela Samarati y Latanya Sweeney en un artículo publicado en 1998, [1] aunque el concepto data de un artículo de 1986 de Tore Dalenius. [2]

El k -anonimato es un intento de resolver el problema "Dados datos estructurados por campos específicos de cada persona, se produce una publicación de los datos con garantías científicas de que los individuos que son sujetos de los datos no pueden ser reidentificados mientras los datos sigan siendo prácticamente útiles". [3] [4] [5] Se dice que una publicación de datos tiene la propiedad k -anonimato si la información de cada persona contenida en la publicación no puede distinguirse de al menos los individuos cuya información también aparece en la publicación. Las garantías proporcionadas por el k -anonimato son aspiracionales, no matemáticas.

Métodos paraa-anonimización

Para utilizar el anonimato k para procesar un conjunto de datos de modo que pueda publicarse con protección de la privacidad, un científico de datos primero debe examinar el conjunto de datos y decidir si cada atributo (columna) es un identificador (que identifica), un no identificador (que no identifica) o un cuasi identificador (que identifica en cierta medida). Los identificadores como los nombres se suprimen, se permite que permanezcan los valores no identificativos y los cuasi identificadores deben procesarse de modo que cada combinación distinta de cuasi identificadores designe al menos k registros.

La siguiente tabla de ejemplo presenta una base de datos ficticia, no anonimizada, que consta de los registros de pacientes de un hospital ficticio. La columna Nombre es un identificador, Edad , Sexo , Estado de domicilio y Religión son cuasi-identificadores, y Enfermedad es un valor sensible no identificable. Pero ¿qué sucede con Altura y Peso ? ¿Son también valores sensibles no identificables o son cuasi-identificadores?

Hay 6 atributos y 10 registros en estos datos. Hay dos métodos comunes para lograr el anonimato k para algún valor de k :

  1. Supresión . En este método, ciertos valores de los atributos se reemplazan por un asterisco "*". Todos o algunos valores de una columna pueden reemplazarse por un "*". En la tabla anonimizada que aparece a continuación, reemplazamos todos los valores del atributo Nombre y todos los valores del atributo Religión por un "*".
  2. Generalización . En este método, los valores individuales de los atributos se reemplazan por una categoría más amplia. Por ejemplo, el valor "19" del atributo Edad puede reemplazarse por "≤ 20", el valor "23" por "20 < Edad ≤ 30", etc.

La siguiente tabla muestra la base de datos anonimizada.

Estos datos tienen 2-anonimato con respecto a los atributos Edad , Género y Estado de domicilio , ya que para cualquier combinación de estos atributos que se encuentren en cualquier fila de la tabla siempre hay al menos 2 filas con esos atributos exactos. Los atributos disponibles para un adversario se denominan cuasi-identificadores . Cada tupla de cuasi-identificador aparece en al menos k registros para un conjunto de datos con k -anonimato. [6]

Críticas dea-anonimato

El siguiente ejemplo demuestra una falla del k -anonimato: pueden existir otros registros de datos que se pueden vincular en las variables que supuestamente no son identificables. Por ejemplo, supongamos que un atacante puede obtener el registro de la persona que estaba tomando los signos vitales como parte del estudio y descubre que Kishor estuvo en el hospital el 30 de abril y mide 180 cm. Esta información se puede utilizar para vincular con la base de datos "anonimizada" (que puede haber sido publicada en Internet) y descubrir que Kishor tiene una enfermedad relacionada con el corazón. Un atacante que sabe que Kishor visitó el hospital el 30 de abril puede ser capaz de inferir esto simplemente sabiendo que Kishor mide 180 cm, pesa aproximadamente 80-82 kg y proviene de Karnataka.

La raíz de este problema es el problema central del k -anonimato: no hay forma de determinar matemáticamente y sin ambigüedades si un atributo es un identificador, un cuasi-identificador o un valor sensible no identificable. De hecho, todos los valores son potencialmente identificables, dependiendo de su prevalencia en la población y de los datos auxiliares que pueda tener el atacante. Otros mecanismos de privacidad, como la privacidad diferencial, no comparten este problema.

Aunque el anonimato k protege contra la revelación de identidad, no protege contra la divulgación de atributos específicos. Esto se vuelve problemático cuando los atacantes poseen conocimiento de fondo. Además, la ausencia de diversidad en dominios sensibles puede resultar en la exposición de información personal. En tales escenarios, optar por la diversidad ℓ podría ofrecer una protección de privacidad más sólida.[1]

Meyerson y Williams (2004) demostraron que el k -anonimato óptimo es un problema NP-difícil , sin embargo, los métodos heurísticos como k -Optimize propuesto por Bayardo y Agrawal (2005) a menudo producen resultados efectivos. [7] [8] Kenig y Tassa presentaron un algoritmo de aproximación práctico que permite resolver el problema de k -anonimización con una garantía de aproximación de . [9]

Ataques

Si bien el k -anonimato es un enfoque relativamente sencillo de implementar para desidentificar un conjunto de datos antes de su publicación, es susceptible a muchos ataques. Cuando un atacante tiene acceso a información de fondo, estos ataques se vuelven aún más efectivos. Entre estos ataques se incluyen:

Como la k -anonimización no incluye ninguna aleatorización, los atacantes pueden hacer inferencias fiables e inequívocas sobre conjuntos de datos que pueden perjudicar a las personas. Por ejemplo, si se sabe que John, de 19 años, de Kerala, está en la base de datos anterior, se puede decir con fiabilidad que tiene cáncer, una enfermedad cardíaca o una infección vírica.

La k -anonimización no es un buen método para anonimizar conjuntos de datos de alta dimensión. [11]

También se ha demostrado que el k -anonimato puede distorsionar los resultados de un conjunto de datos si suprime y generaliza desproporcionadamente los puntos de datos con características no representativas. [12] Sin embargo, los algoritmos de supresión y generalización utilizados para k -anonimizar conjuntos de datos se pueden modificar para que no tengan ese efecto distorsionador. [13]

Véase también

Referencias

  1. ^ Samarati, Pierangela; Sweeney, Latanya (1998). "Protección de la privacidad al divulgar información: anonimato k y su aplicación mediante generalización y supresión" (PDF) . Harvard Data Privacy Lab . Consultado el 12 de abril de 2017 .
  2. ^ Tore Dalenius, "Encontrar una aguja en un pajar", Journal of Official Statistics, vol. 2, núm. 3, 1986, págs. 326-336.
  3. ^ Samarati, Pierangela (noviembre de 2001). "Protección de la identidad de los encuestados en la divulgación de microdatos" (PDF) . IEEE Transactions on Knowledge and Data Engineering . 13 (6): 1010–1027. doi :10.1109/69.971193. S2CID  561716.
  4. ^ Sweeney, Latanya. «Seguridad de bases de datos: k-anonimato» . Consultado el 19 de enero de 2014 .
  5. ^ Sweeney, Latanya (2002). "k-anonimato: un modelo para proteger la privacidad" (PDF) . Revista internacional de incertidumbre, imprecisión y sistemas basados ​​en el conocimiento . 10 (5): 557–570. doi :10.1142/S0218488502001648. S2CID  361794.
  6. ^ Narayanan, Arvind; Shmatikov, Vitaly. "Desanonimización robusta de grandes conjuntos de datos dispersos" (PDF) .
  7. ^ Roberto J. Bayardo; Rakesh Agrawal (2005). "Privacidad de datos mediante la anonimización k óptima". 21.ª Conferencia internacional sobre ingeniería de datos (ICDE'05) (PDF) . pp. 217–228. doi :10.1109/ICDE.2005.42. ISBN 978-0-7695-2285-2. ISSN  1084-4627. S2CID  17044848. La desidentificación de datos concilia la demanda de divulgación de datos para fines de investigación y la demanda de privacidad de los individuos. Este artículo propone y evalúa un algoritmo de optimización para el poderoso procedimiento de desidentificación conocido como k -anonimización. Un conjunto de datos k -anonimizado tiene la propiedad de que cada registro es indistinguible de al menos k  − 1 otros. Incluso las restricciones simples de k -anonimización optimizada son NP-hard, lo que genera desafíos computacionales significativos. Presentamos un nuevo enfoque para explorar el espacio de posibles anonimizaciones que domina la combinatoria del problema y desarrollamos estrategias de gestión de datos para reducir la dependencia de operaciones costosas como la clasificación. A través de experimentos con datos censales reales, demostramos que el algoritmo resultante puede encontrar k -anonimizaciones óptimas bajo dos medidas de costo representativas y un amplio rango de k. También demostramos que el algoritmo puede producir buenas anonimizaciones en circunstancias en las que los datos de entrada o los parámetros de entrada impiden encontrar una solución óptima en un tiempo razonable. Por último, utilizamos el algoritmo para explorar los efectos de diferentes enfoques de codificación y variaciones del problema en la calidad y el rendimiento de la anonimización. Hasta donde sabemos, este es el primer resultado que demuestra una k -anonimización óptima de un conjunto de datos no triviales bajo un modelo general del problema.
  8. ^ Adam Meyerson; Ryan Williams (2004). "Sobre la complejidad del anonimato K óptimo". Actas del vigésimo tercer simposio ACM SIGMOD-SIGACT-SIGART sobre Principios de sistemas de bases de datos (PDF) . Nueva York, NY: ACM. págs. 223–228. doi :10.1145/1055558.1055591. ISBN . 978-1581138580. S2CID  6798963. La técnica de k -anonimización se ha propuesto en la literatura como una forma alternativa de publicar información pública, al tiempo que se garantiza tanto la privacidad como la integridad de los datos. Demostramos que dos versiones generales de k- anonimización óptima de relaciones son NP-duras, incluida la versión de supresión que equivale a elegir un número mínimo de entradas para eliminar de la relación. También presentamos un algoritmo de tiempo polinomial para k -anonimización óptima que logra una relación de aproximación independiente del tamaño de la base de datos, cuando k es constante. En particular, es una aproximación O ( k  log  k ) donde la constante en el gran O no es mayor que 4. Sin embargo, el tiempo de ejecución del algoritmo es exponencial en k . Un algoritmo ligeramente más inteligente elimina esta condición, pero es una aproximación O ( k  log  m ), donde m es el grado de la relación. Creemos que este algoritmo podría ser potencialmente bastante rápido en la práctica.
  9. ^ Kenig, Batya; Tassa, Tamir (2012). "Un algoritmo de aproximación práctico para un k -anonimato óptimo". Minería de datos y descubrimiento de conocimiento . 25 : 134–168. doi :10.1007/s10618-011-0235-9. S2CID  14158546.
  10. ^ Ataques a las defensas de la desidentificación, Aloni Cohen, USENIX Security 2022, ganadora del premio al mejor artículo. https://www.usenix.org/conference/usenixsecurity22/presentation/cohen
  11. ^ Aggarwal, Charu C. (2005). "Sobre el k -anonimato y la maldición de la dimensionalidad". VLDB '05 – Actas de la 31.ª Conferencia internacional sobre bases de datos de gran tamaño . Trondheim, Noruega. CiteSeerX 10.1.1.60.3155 . ISBN.  1-59593-154-6.
  12. ^ Angiuli, Olivia; Joe Blitzstein; Jim Waldo . "Cómo desidentificar sus datos". Cola ACM . ACM.
  13. ^ Angiuli, Olivia; Jim Waldo (junio de 2016). "Compensaciones estadísticas entre generalización y supresión en la desidentificación de conjuntos de datos a gran escala". 2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC) . págs. 589–593. doi :10.1109/COMPSAC.2016.198. ISBN 978-1-4673-8845-0. Número de identificación del sujeto  17716908.