l -diversidad , también escrita como ℓ -diversidad , es una forma de anonimización basada en grupos que se utiliza para preservar la privacidad en conjuntos de datos al reducir la granularidad de unarepresentación de datos . Esta reducción es una compensación que resulta en cierta pérdida de efectividad de la gestión de datos o de los algoritmos de minería para ganar algo de privacidad. El modelo l -diversidad es una extensión del modelo k -anonimato que reduce la granularidad de la representación de datos utilizando técnicas que incluyen la generalización y supresión, de modo que cualquier registro determinado se correlacione con al menos k-1 otros registros en los datos. El modelo l -diversidad maneja algunas de las debilidades del modelo k -anonimato donde proteger identidades al nivel de k -individuos no es equivalente a proteger los valores sensibles correspondientes que fueron generalizados o suprimidos, especialmente cuando los valores sensibles dentro de un grupo exhiben homogeneidad. El modelo de l -diversidad añade la promoción de la diversidad intragrupo para valores sensibles en el mecanismo de anonimización.
Si bien k -anonymity es un enfoque prometedor para la anonimización basada en grupos dada su simplicidad y la amplia gama de algoritmos que lo realizan, es susceptible a muchos ataques. Cuando un atacante dispone de conocimientos previos, dichos ataques se vuelven aún más efectivos. Dichos ataques incluyen:
Dada la existencia de este tipo de ataques en los que se pueden inferir atributos sensibles para k -datos de anonimato, se creó el método l -diversidad para promover k -anonimato manteniendo adicionalmente la diversidad de campos sensibles. El libro Minería de datos que preserva la privacidad: modelos y algoritmos (2008) [1] define la diversidad l como:
Sea un bloque q* un conjunto de tuplas tales que sus valores no sensibles se generalicen a q*. Un bloque q* es l -diverso si contiene l valores "bien representados" para el atributo sensible S. Una tabla es l -diversa, si cada bloque q* que contiene es l -diverso.
El artículo t -Cerreza: Privacidad más allá de k -anonimato y l -diversidad (2007) [2] define l -diversidad como:
El principio de l -diversidad : se dice que una clase de equivalencia tiene l -diversidad si hay al menos l valores "bien representados" para el atributo sensible. Se dice que una tabla tiene l -diversidad si cada clase de equivalencia de la tabla tiene l -diversidad.
Machanavajjhala et al. (2007) [3] definen “bien representado” de tres maneras posibles:
Aggarwal y Yu (2008) señalan que cuando hay más de un campo sensible, el problema de la diversidad l se vuelve más difícil debido a las dimensionalidades agregadas.
Ataque al conocimiento previo.
Alice tiene una amiga por correspondencia llamada Umeko que está admitida en el mismo hospital que Bob y cuyos registros de pacientes también aparecen en la tabla que se muestra en la Figura 2. Alice sabe que Umeko es una mujer japonesa de 21 años que actualmente vive en el código postal. 13068. Con base en esta información, Alice descubre que la información de Umeko está contenida en el registro número 1,2,3 o 4. Sin información adicional, Alice no está segura de si Umeko contrajo un virus o tiene una enfermedad cardíaca. Sin embargo, es bien sabido que los japoneses tienen una incidencia extremadamente baja de enfermedades cardíacas. Por lo tanto, Alice concluye casi con certeza que Umeko tiene una infección viral.