stringtranslate.com

Privacidad diferencial

La privacidad diferencial ( DP ) es un enfoque para brindar privacidad mientras se comparte información sobre un grupo de individuos, describiendo los patrones dentro del grupo mientras se retiene información sobre individuos específicos. [1] [2] Esto se hace realizando pequeños cambios arbitrarios en datos individuales que no cambian las estadísticas de interés. Por tanto, los datos no pueden utilizarse para inferir mucho sobre ningún individuo.

Otra forma de describir la privacidad diferencial es como una restricción en los algoritmos utilizados para publicar información agregada sobre una base de datos estadística que limita la divulgación de información privada de los registros en la base de datos. Por ejemplo, algunas agencias gubernamentales utilizan algoritmos diferencialmente privados para publicar información demográfica u otros agregados estadísticos garantizando al mismo tiempo la confidencialidad de las respuestas de las encuestas, y las empresas para recopilar información sobre el comportamiento de los usuarios mientras controlan lo que es visible incluso para los analistas internos.

En términos generales, un algoritmo es diferencialmente privado si un observador que ve su resultado no puede decir si la información de un individuo en particular se utilizó en el cálculo. La privacidad diferencial a menudo se analiza en el contexto de la identificación de personas cuya información puede estar en una base de datos. Aunque no se refiere directamente a ataques de identificación y reidentificación, los algoritmos diferencialmente privados probablemente resisten tales ataques. [3]

Historia

Antecedentes históricos

Las organizaciones oficiales de estadística se encargan de recopilar información de personas o establecimientos y de publicar datos agregados para servir al interés público. Por ejemplo, el censo de Estados Unidos de 1790 recopiló información sobre las personas que vivían en los Estados Unidos y publicó tabulaciones basadas en sexo, edad, raza y condición de servidumbre . [4] Los registros del censo se publicaron originalmente, pero a partir del censo de 1840 se recopilaron bajo la promesa de confidencialidad de que la información proporcionada se utilizará con fines estadísticos, pero que las publicaciones no producirán información que pueda rastrearse hasta un lugar específico. individuo o establecimiento.

Para lograr el objetivo de la confidencialidad, las organizaciones estadísticas han suprimido durante mucho tiempo información en sus publicaciones. Por ejemplo, en una tabla que presenta las ventas de cada negocio en una ciudad agrupada por categoría de negocio, se podría suprimir una celda que tenga información de una sola empresa para mantener la confidencialidad de las ventas específicas de esa empresa.

La adopción de sistemas de procesamiento electrónico de información por parte de las agencias de estadística en los años 1950 y 1960 aumentó dramáticamente el número de tablas que una organización estadística podía producir y, al hacerlo, aumentó significativamente el potencial de una divulgación inadecuada de información confidencial. Por ejemplo, si una empresa cuyas cifras de ventas se suprimieron también aparecieran esas cifras en las ventas totales de una región, entonces podría ser posible determinar el valor suprimido restando las otras ventas de ese total. Pero también puede haber combinaciones de sumas y restas que podrían hacer que se revele información privada. El número de combinaciones que era necesario verificar aumenta exponencialmente con el número de publicaciones, y es potencialmente ilimitado si los usuarios de los datos pueden realizar consultas en la base de datos estadística utilizando un sistema de consulta interactivo.

Las primeras investigaciones conducen a una privacidad diferencial

En 1977, Tore Dalenius formalizó las matemáticas de la supresión celular. [5] Tore Dalenius fue un estadístico sueco que contribuyó a la privacidad estadística a través de su artículo de 1977 que reveló un punto clave sobre las bases de datos estadísticas, que era que las bases de datos no deben revelar información sobre un individuo que de otro modo no sea accesible. [6]

En 1979, Dorothy Denning , Peter J. Denning y Mayer D. Schwartz formalizaron el concepto de Tracker, un adversario que podía conocer el contenido confidencial de una base de datos estadística creando una serie de consultas específicas y recordando los resultados. [7] Esta y futuras investigaciones mostraron que las propiedades de privacidad en una base de datos solo podrían preservarse considerando cada nueva consulta a la luz de (posiblemente todas) las consultas anteriores. Esta línea de trabajo a veces se denomina privacidad de consultas, y el resultado final fue que rastrear el impacto de una consulta en la privacidad de las personas en la base de datos era NP-difícil.

Investigación del siglo XXI sobre privacidad diferencial

En 2003, Kobbi Nissim e Irit Dinur demostraron que es imposible publicar consultas arbitrarias en una base de datos estadística privada sin revelar cierta cantidad de información privada, y que todo el contenido informativo de la base de datos puede revelarse publicando los resultados de una cantidad sorprendentemente pequeña. número de consultas aleatorias, mucho menos de lo que implicaba el trabajo anterior. [8] El fenómeno general se conoce como Ley Fundamental de Recuperación de Información , y su idea clave, a saber, que en el caso más general, la privacidad no se puede proteger sin inyectar cierta cantidad de ruido, condujo al desarrollo de la privacidad diferencial.

En 2006, Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam D. Smith publicaron un artículo en el que formalizaban la cantidad de ruido que era necesario añadir y proponían un mecanismo generalizado para hacerlo. [3] Su trabajo recibió conjuntamente el premio TCC Test-of-Time de 2016 [9] y el premio Gödel de 2017 . [10]

Desde entonces, investigaciones posteriores han demostrado que hay muchas maneras de producir estadísticas muy precisas a partir de la base de datos y al mismo tiempo garantizar altos niveles de privacidad . [1]

ε-privacidad diferencial

El artículo de 2006 de Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam D. Smith introdujo el concepto de privacidad diferencial ε, una definición matemática de la pérdida de privacidad asociada con cualquier divulgación de datos extraídos de una base de datos estadística. (Aquí, el término base de datos estadística significa un conjunto de datos que se recopilan bajo el compromiso de confidencialidad con el fin de producir estadísticas que, mediante su producción, no comprometan la privacidad de las personas que proporcionaron los datos).

La intuición para la definición de 2006 de privacidad diferencial ε es que la privacidad de una persona no puede verse comprometida por una publicación estadística si sus datos no están en la base de datos. Por lo tanto, con la privacidad diferencial, el objetivo es brindar a cada individuo aproximadamente la misma privacidad que se obtendría si se eliminaran sus datos. Es decir, las funciones estadísticas ejecutadas en la base de datos no deberían depender demasiado de los datos de ningún individuo en particular.

Por supuesto, la contribución de un individuo al resultado de una consulta a una base de datos depende en parte de la cantidad de datos de personas involucradas en la consulta. Si la base de datos contiene datos de una sola persona, los datos de esa persona contribuyen al 100%. Si la base de datos contiene datos de cien personas, los datos de cada persona contribuyen sólo con el 1%. La idea clave de la privacidad diferencial es que a medida que la consulta se realiza sobre los datos de cada vez menos personas, es necesario agregar más ruido al resultado de la consulta para producir la misma cantidad de privacidad. De ahí el nombre del artículo de 2006, "Calibración del ruido a la sensibilidad en el análisis de datos privados".

El artículo de 2006 presenta tanto una definición matemática de privacidad diferencial como un mecanismo basado en la adición de ruido de Laplace (es decir, ruido procedente de la distribución de Laplace ) que satisface la definición.

Definición de privacidad ε-diferencial

Sea ε un número real positivo y un algoritmo aleatorio que toma un conjunto de datos como entrada (que representa las acciones de la parte confiable que posee los datos).

Denotemos la imagen de .

Se dice que el algoritmo proporciona privacidad diferencial ε si, para todos los conjuntos de datos que difieren en un solo elemento (es decir, los datos de una persona), y todos los subconjuntos de :

donde la probabilidad se toma sobre la aleatoriedad utilizada por el algoritmo. [11]


La privacidad diferencial ofrece garantías sólidas y sólidas que facilitan el diseño modular y el análisis de mecanismos diferencialmente privados debido a su componibilidad, robustez al posprocesamiento y degradación elegante en presencia de datos correlacionados.

Componibilidad

La (auto)componibilidad se refiere al hecho de que la distribución conjunta de los resultados de mecanismos diferencialmente privados (posiblemente elegidos de forma adaptativa) satisface la privacidad diferencial.

Composición secuencial. Si consultamos un mecanismo de privacidad diferencial ε veces, y la aleatorización del mecanismo es independiente para cada consulta, entonces el resultado sería -diferencialmente privado. En el caso más general, si existen mecanismos independientes: , cuyas garantías de privacidad son privacidad diferencial, respectivamente, entonces cualquier función de ellos: es diferencialmente privada. [12]

Composición paralela. Si los mecanismos anteriores se calculan en subconjuntos separados de la base de datos privada, entonces la función sería diferencialmente privada. [12]

Robustez al posprocesamiento

Para cualquier función determinista o aleatoria definida sobre la imagen del mecanismo , si satisface la privacidad diferencial ε, también lo hace .

Juntas, la componibilidad y la robustez del posprocesamiento permiten la construcción modular y el análisis de mecanismos diferencialmente privados y motivan el concepto de presupuesto de pérdida de privacidad . Si todos los elementos que acceden a datos sensibles de un mecanismo complejo son privados por separado, también lo será su combinación, seguida de un posprocesamiento arbitrario.

Privacidad del grupo

En general, la privacidad diferencial ε está diseñada para proteger la privacidad entre bases de datos vecinas que difieren sólo en una fila. Esto significa que ningún adversario con información auxiliar arbitraria puede saber si un participante en particular envió su información. Sin embargo, esto también es ampliable. Es posible que queramos proteger bases de datos que difieren en filas, lo que equivale a que un adversario con información auxiliar arbitraria sepa si determinados participantes enviaron su información. Esto se puede lograr porque si los elementos cambian, la dilatación de la probabilidad está limitada por en lugar de , [13] es decir, para D 1 y D 2 que difieren en los elementos:

Por lo tanto, establecer ε en lugar de lograr el resultado deseado (protección de elementos). En otras palabras, en lugar de tener cada elemento con protección ε-diferencialmente privada, ahora cada grupo de elementos tiene protección ε-diferencialmente privada (y cada elemento tiene protección -diferencialmente privada).

Mecanismos ε-diferencialmente privados

Dado que la privacidad diferencial es un concepto probabilístico, cualquier mecanismo diferencialmente privado es necesariamente aleatorio. Algunos de ellos, como el mecanismo de Laplace, que se describe a continuación, se basan en agregar ruido controlado a la función que queremos calcular. Otros, como el mecanismo exponencial [14] y el muestreo posterior [15], toman muestras de una familia de distribuciones dependiente del problema.

Sensibilidad

Sea un número entero positivo, una colección de conjuntos de datos y una función. La sensibilidad [3] de una función, denotada por , se define por

norma

En el ejemplo de la base de datos médica a continuación, si consideramos la función , entonces la sensibilidad de la función es uno, ya que cambiar cualquiera de las entradas en la base de datos hace que la salida de la función cambie en cero o uno.

Existen técnicas (que se describen a continuación) mediante las cuales podemos crear un algoritmo diferencialmente privado para funciones con baja sensibilidad.

El mecanismo de Laplace

El mecanismo de Laplace agrega ruido de Laplace (es decir, ruido de la distribución de Laplace , que puede expresarse mediante la función de densidad de probabilidad , que tiene media cero y desviación estándar ). Ahora, en nuestro caso, definimos la función de salida de como una función con valor real (llamada salida de transcripción por ) como donde y es la consulta/función con valor real original que planeamos ejecutar en la base de datos. Ahora claramente se puede considerar que es una variable aleatoria continua, donde

que es como máximo . Podemos considerarlo como el factor de privacidad . De ello se sigue un mecanismo diferencialmente privado (como puede verse en la definición anterior). Si intentamos utilizar este concepto en nuestro ejemplo de diabetes, del hecho derivado anteriormente se deduce que para tener como algoritmo privado diferencial necesitamos tener . Aunque aquí hemos utilizado el ruido de Laplace, se pueden emplear otras formas de ruido, como el ruido gaussiano, pero pueden requerir una ligera relajación de la definición de privacidad diferencial. [13]

Según esta definición, la privacidad diferencial es una condición del mecanismo de divulgación (es decir, la parte de confianza que divulga información sobre el conjunto de datos) y no del conjunto de datos en sí. Intuitivamente, esto significa que para dos conjuntos de datos cualesquiera que sean similares, un algoritmo privado diferencialmente determinado se comportará aproximadamente de la misma manera en ambos conjuntos de datos. La definición ofrece una fuerte garantía de que la presencia o ausencia de un individuo no afectará significativamente el resultado final del algoritmo.

Por ejemplo, supongamos que tenemos una base de datos de registros médicos donde cada registro es un par ( Nombre , X ), donde un valor booleano indica si una persona tiene diabetes o no. Por ejemplo:

Ahora supongamos que un usuario malintencionado (a menudo denominado adversario ) quiere saber si Chandler tiene diabetes o no. Supongamos que también sabe en qué fila de la base de datos reside Chandler. Ahora supongamos que al adversario solo se le permite usar una forma particular de consulta que devuelve la suma parcial de las primeras filas de la columna en la base de datos. Para encontrar el estado de diabetes de Chandler, el adversario ejecuta y luego calcula su diferencia. En este ejemplo, y , su diferencia es 1. Esto indica que el campo "Tiene diabetes" en la fila de Chandler debe ser 1. Este ejemplo destaca cómo la información individual puede verse comprometida incluso sin consultar explícitamente la información de un individuo específico.

Continuando con este ejemplo, si construimos reemplazando (Chandler, 1) con (Chandler, 0), entonces este adversario malicioso podrá distinguirlo calculando cada conjunto de datos. Si se requiriera que el adversario recibiera los valores a través de un algoritmo diferencialmente privado, para un valor suficientemente pequeño , entonces no podría distinguir entre los dos conjuntos de datos.

Respuesta aleatoria

Un ejemplo sencillo, especialmente desarrollado en las ciencias sociales , [16] es pedirle a una persona que responda a la pregunta "¿Es usted dueño del atributo A ?", según el siguiente procedimiento:

  1. Tirar una moneda .
  2. Si sale cara, lanza la moneda nuevamente (ignorando el resultado) y responde la pregunta honestamente.
  3. Si sale cruz, lance la moneda nuevamente y responda "Sí" si sale cara, "No" si sale cruz.

(El lanzamiento adicional aparentemente redundante en el primer caso es necesario en situaciones en las que otros pueden observar el simple hecho de lanzar una moneda, incluso si el resultado real permanece oculto). La confidencialidad surge entonces de la refutación de las respuestas individuales.

Pero, en conjunto, estos datos con muchas respuestas son significativos, ya que las respuestas positivas las dan una cuarta parte de las personas que no tienen el atributo A y las tres cuartas partes de las personas que sí lo poseen. Por lo tanto, si p es la verdadera proporción de personas con A , entonces esperamos obtener (1/4)(1- p ) + (3/4) p = (1/4) + p /2 respuestas positivas. Por tanto, es posible estimar p .

En particular, si el atributo A es sinónimo de comportamiento ilegal, entonces responder "Sí" no es incriminatorio, en la medida en que la persona tiene probabilidad de responder "Sí", cualquiera que sea.

Aunque este ejemplo, inspirado en una respuesta aleatoria , podría ser aplicable a microdatos (es decir, publicar conjuntos de datos con cada respuesta individual), por definición, la privacidad diferencial excluye las publicaciones de microdatos y solo es aplicable a consultas (es decir, agregar respuestas individuales en un resultado), ya que esto violaría los requisitos, más específicamente la negación plausible de que un sujeto participó o no. [17] [18]

Transformaciones estables

Una transformación es estable si la distancia de Hamming entre y es como máximo veces la distancia de Hamming entre y para dos bases de datos cualesquiera . El teorema 2 en [12] afirma que si hay un mecanismo que es diferencialmente privado, entonces el mecanismo compuesto es diferencialmente privado.

Esto podría generalizarse a la privacidad del grupo, ya que el tamaño del grupo podría considerarse como la distancia de Hamming entre y (donde contiene el grupo y no). En este caso es diferencialmente privado.

Otras nociones de privacidad diferencial

Dado que la privacidad diferencial se considera demasiado fuerte o débil para algunas aplicaciones, se han propuesto muchas versiones de la misma. [19] La relajación más extendida es la privacidad diferencial (ε, δ), [20] que debilita la definición al permitir una pequeña densidad de probabilidad δ adicional en la que el límite superior ε no se cumple.

Adopción de privacidad diferencial en aplicaciones del mundo real

Hasta la fecha, existen más de 12 implementaciones de privacidad diferencial en el mundo real , siendo las más notables:

Consideraciones de propósito público

Hay varias consideraciones de propósito público con respecto a la privacidad diferencial que es importante considerar, especialmente para los formuladores de políticas y las audiencias centradas en las políticas interesadas en las oportunidades y riesgos sociales de la tecnología: [30]

Ver también

Publicaciones

Tutoriales

Referencias

  1. ^ ab Hilton, M; Cali (2012). "Privacidad diferencial: un estudio histórico". Académico semántico . S2CID  16861132 . Consultado el 31 de diciembre de 2023 .
  2. ^ Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: una encuesta de resultados". En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y Aplicaciones de Modelos de Computación . Apuntes de conferencias sobre informática. vol. 4978. Springer Berlín Heidelberg. págs. 1-19. doi :10.1007/978-3-540-79228-4_1. ISBN 978-3-540-79227-7. S2CID  2887752.
  3. ^ abc Calibración del ruido a la sensibilidad en el análisis de datos privados por Cynthia Dwork, Frank McSherry, Kobbi Nissim, Adam Smith. En Conferencia de Teoría de la Criptografía (TCC), Springer, 2006. doi :10.1007/11681878_14. La versión completa aparece en Journal of Privacy and Confidentiality, 7 (3), 17-51. doi :10.29012/jpc.v7i3.405
  4. ^ "Registros del censo de 1790".
  5. ^ Tore Dalenius (1977). "Hacia una metodología para el control de la divulgación estadística". Estadísticas estadísticas . 15 .
  6. ^ Dwork, Cynthia (2006). Bugliesi, Michele; Preneel, Bart; Sassone, Vladimiro; Wegener, Ingo (eds.). "Privacidad Diferencial". Autómatas, Lenguajes y Programación . Apuntes de conferencias sobre informática. Berlín, Heidelberg: Springer: 1–12. doi :10.1007/11787006_1. ISBN 978-3-540-35908-1.
  7. ^ Dorothy E. Denning; Peter J. Denning; Mayer D. Schwartz (marzo de 1979). "The Tracker: una amenaza para la seguridad de las bases de datos estadísticas". Transacciones ACM en sistemas de bases de datos . 4 (1): 76–96. doi :10.1145/320064.320069. S2CID  207655625.
  8. ^ Irit Dinur y Kobbi Nissim. 2003. Revelar información preservando la privacidad. En Actas del vigésimo segundo simposio ACM SIGMOD-SIGACT-SIGART sobre Principios de sistemas de bases de datos (PODS '03). ACM, Nueva York, NY, EE. UU., 202–210. doi :10.1145/773153.773173
  9. ^ "Premio TCC a la prueba del tiempo".
  10. ^ "Premio Gödel 2017".
  11. ^ Los fundamentos algorítmicos de la privacidad diferencial por Cynthia Dwork y Aaron Roth. Fundamentos y tendencias de la informática teórica. vol. 9, núm. 3–4, págs. 211‐407, agosto de 2014. doi :10.1561/0400000042
  12. ^ abc Consultas integradas de privacidad: una plataforma extensible para el análisis de datos que preservan la privacidad por Frank D. McSherry. En Actas de la 35ª Conferencia Internacional SIGMOD sobre Gestión de Datos (SIGMOD), 2009. doi :10.1145/1559845.1559850
  13. ^ ab Privacidad diferencial por Cynthia Dwork, Coloquio internacional sobre autómatas, lenguajes y programación (ICALP) 2006, p. 1–12. doi :10.1007/11787006_1
  14. ^ F. McSherry y K. Talwar. Diseño Mechasim a través de Privacidad Diferencial. Actas del 48º Simposio Anual sobre Fundamentos de la Informática, 2007.
  15. ^ Christos Dimitrakakis, Blaine Nelson, Aikaterini Mitrokotsa, Benjamin Rubinstein. Inferencia bayesiana robusta y privada. Teoría del aprendizaje algorítmico 2014
  16. ^ Warner, SL (marzo de 1965). "Respuesta aleatoria: una técnica de encuesta para eliminar el sesgo de respuesta evasiva". Revista de la Asociación Estadounidense de Estadística . Taylor y Francisco . 60 (309): 63–69. doi :10.1080/01621459.1965.10480775. JSTOR  2283137. PMID  12261830. S2CID  35435339.
  17. ^ Dtrabajo, Cynthia. "Una base firme para el análisis de datos privados". Comunicaciones de la JCA 54.1 (2011): 86–95, supra nota 19, página 91.
  18. ^ Bambauer, Jane, Krishnamurty Muralidhar y Rathindra Sarathy. "El oro de los tontos: una crítica ilustrada de la privacidad diferencial". Vand. J.Ent. Y tecnología. L. 16 (2013): 701.
  19. ^ SoK: Privacidad diferencial por Damien Desfontaines, Balázs Pejó. 2019.
  20. ^ Dwork, Cynthia, Krishnaram Kenthapadi, Frank McSherry, Ilya Mironov y Moni Naor. "Nuestros datos, nosotros mismos: Privacidad mediante generación distribuida de ruido." En Avances en criptología - EUROCRYPT 2006, págs. 486–503. Springer Berlín Heidelberg, 2006.
  21. ^ Ashwin Machanavajjhala, Daniel Kifer, John M. Abowd, Johannes Gehrke y Lars Vilhuber. "Privacidad: la teoría se encuentra con la práctica en el mapa". En Actas de la 24ª Conferencia Internacional sobre Ingeniería de Datos, ICDE) 2008.
  22. ^ Úlfar Erlingsson, Vasyl Pihur, Aleksandra Korolova. "RAPPOR: respuesta ordinal agregable aleatoria que preserva la privacidad". En actas de la 21ª Conferencia ACM sobre seguridad informática y de las comunicaciones (CCS), 2014. doi :10.1145/2660267.2660348
  23. ^ google/rappor, GitHub, 15 de julio de 2021
  24. ^ Abordar la movilidad urbana con tecnología por Andrew Eland. Blog de Google Policy Europe, 18 de noviembre de 2015.
  25. ^ "Apple - Información de prensa - Apple presenta una vista previa de iOS 10, el mayor lanzamiento de iOS jamás realizado". Manzana . Consultado el 20 de junio de 2023 .
  26. ^ Recopilación de datos de telemetría de forma privada por Bolin Ding, Jana Kulkarni, Sergey Yekhanin. NIPS 2017.
  27. ^ Messing, Salomón; DeGregorio, Cristina; Hillenbrand, Bennett; Rey, Gary; Mahanti, Saurav; Mukerjee, Zagreb; Nayak, Chayá; Perseverantemente, Nate; Estado, Bogdan (2020), Conjunto de datos de URL completos protegidos por privacidad de Facebook, Zagreb Mukerjee, Harvard Dataverse, doi :10.7910/dvn/tdoapg , consultado el 8 de febrero de 2023
  28. ^ Evans, Georgina; King, Gary (enero de 2023). "Inferencias estadísticamente válidas a partir de publicaciones de datos diferencialmente privados, con aplicación al conjunto de datos de URL de Facebook". Análisis Político . 31 (1): 1–21. doi :10.1017/pan.2022.1. ISSN  1047-1987. S2CID  211137209.
  29. ^ "Evitación de divulgación para el censo de 2020: introducción". 2 de noviembre de 2021.
  30. ^ "Ficha tecnológica: privacidad diferencial". Centro Belfer para la Ciencia y Asuntos Internacionales . Consultado el 12 de abril de 2021 .

Otras lecturas