stringtranslate.com

l-diversidad

l -diversidad , también escrita como -diversidad , es una forma de anonimización basada en grupos que se utiliza para preservar la privacidad en conjuntos de datos al reducir la granularidad de unarepresentación de datos . Esta reducción es una compensación que resulta en cierta pérdida de efectividad de la gestión de datos o de los algoritmos de minería para ganar algo de privacidad. El modelo l -diversidad es una extensión del modelo k -anonimato que reduce la granularidad de la representación de datos utilizando técnicas que incluyen la generalización y supresión, de modo que cualquier registro determinado se correlacione con al menos k-1 otros registros en los datos. El modelo l -diversidad maneja algunas de las debilidades del modelo k -anonimato donde proteger identidades al nivel de k -individuos no es equivalente a proteger los valores sensibles correspondientes que fueron generalizados o suprimidos, especialmente cuando los valores sensibles dentro de un grupo exhiben homogeneidad. El modelo de l -diversidad añade la promoción de la diversidad intragrupo para valores sensibles en el mecanismo de anonimización.

Ataques ak-anonimato

Si bien k -anonymity es un enfoque prometedor para la anonimización basada en grupos dada su simplicidad y la amplia gama de algoritmos que lo realizan, es susceptible a muchos ataques. Cuando un atacante dispone de conocimientos previos, dichos ataques se vuelven aún más efectivos. Dichos ataques incluyen:

Definicion formal

Dada la existencia de este tipo de ataques en los que se pueden inferir atributos sensibles para k -datos de anonimato, se creó el método l -diversidad para promover k -anonimato manteniendo adicionalmente la diversidad de campos sensibles. El libro Minería de datos que preserva la privacidad: modelos y algoritmos (2008) [1] define la diversidad l como:

Sea un bloque q* un conjunto de tuplas tales que sus valores no sensibles se generalicen a q*. Un bloque q* es l -diverso si contiene l valores "bien representados" para el atributo sensible S. Una tabla es l -diversa, si cada bloque q* que contiene es l -diverso.

El artículo t -Cerreza: Privacidad más allá de k -anonimato y l -diversidad (2007) [2] define l -diversidad como:

El principio de l -diversidad : se dice que una clase de equivalencia tiene l -diversidad si hay al menos l valores "bien representados" para el atributo sensible. Se dice que una tabla tiene l -diversidad si cada clase de equivalencia de la tabla tiene l -diversidad.

Machanavajjhala et al. (2007) [3] definen “bien representado” de tres maneras posibles:

  1. Diversidad l distinta : la definición más simple garantiza que existan al menos l valores distintos para el campo sensible en cada clase de equivalencia.
  2. Entropía l -diversidad : la definición más compleja define la entropía de una clase equivalente E como la negación de la suma de s en todo el dominio del atributo sensible de p ( E , s )log( p ( E , s )) donde p ( E , s ) es la fracción de registros en E que tienen el valor sensible s . Una tabla tiene entropía l -diversidad cuando para cada clase equivalente E , entropía ( E ) ≥ log( l ).
  3. Diversidad recursiva ( c - l ) : una definición de compromiso que garantiza que el valor más común no aparezca con demasiada frecuencia, mientras que se garantiza que los valores menos comunes no aparezcan con poca frecuencia.

Aggarwal y Yu (2008) señalan que cuando hay más de un campo sensible, el problema de la diversidad l se vuelve más difícil debido a las dimensionalidades agregadas.

Ver también

Referencias

  1. ^ Aggarwal, Charu C.; Yu, Philip S. (2008). "Un estudio general sobre modelos y algoritmos de minería de datos que preservan la privacidad" (PDF) . Minería de datos que preserva la privacidad: modelos y algoritmos . Saltador. págs. 11–52. ISBN 978-0-387-70991-8.
  2. ^ Li, Ninghui; Li, Tiancheng; Venkatasubramanian, S. (abril de 2007). "T-Cercanía: privacidad más allá del k-anonimato y la l-diversidad". 2007 IEEE 23ª Conferencia Internacional sobre Ingeniería de Datos . págs. 106-115. CiteSeerX 10.1.1.158.6171 . doi :10.1109/ICDE.2007.367856. ISBN  978-1-4244-0802-3. S2CID  2949246.
  3. ^ Machanavajjhala, Ashwin; Kifer, Daniel; Gehrke, Johannes; Venkitasubramaniam, Muthuramakrishnan (marzo de 2007). "L-diversidad: privacidad más allá del K-anonimato". Transacciones ACM sobre descubrimiento de conocimiento a partir de datos . 1 (1): 3–es. doi :10.1145/1217299.1217302. ISSN  1556-4681. S2CID  679934. Ataque al conocimiento previo. Alice tiene una amiga por correspondencia llamada Umeko que está admitida en el mismo hospital que Bob y cuyos registros de pacientes también aparecen en la tabla que se muestra en la Figura 2. Alice sabe que Umeko es una mujer japonesa de 21 años que actualmente vive en el código postal. 13068. Con base en esta información, Alice descubre que la información de Umeko está contenida en el registro número 1,2,3 o 4. Sin información adicional, Alice no está segura de si Umeko contrajo un virus o tiene una enfermedad cardíaca. Sin embargo, es bien sabido que los japoneses tienen una incidencia extremadamente baja de enfermedades cardíacas. Por lo tanto, Alice concluye casi con certeza que Umeko tiene una infección viral.