Privacidad diferencial

La privacidad diferencial ( DP ) es un marco matemáticamente riguroso para publicar información estadística sobre conjuntos de datos y al mismo tiempo proteger la privacidad de los interesados individuales. Permite al titular de datos compartir patrones agregados del grupo al tiempo que limita la información que se filtra sobre individuos específicos. ^[1]^[2] Esto se hace inyectando ruido cuidadosamente calibrado en los cálculos estadísticos de manera que se preserve la utilidad de la estadística y al mismo tiempo se limite demostrablemente lo que se puede inferir sobre cualquier individuo en el conjunto de datos.

Otra forma de describir la privacidad diferencial es como una restricción en los algoritmos utilizados para publicar información agregada sobre una base de datos estadística que limita la divulgación de información privada de los registros en la base de datos. Por ejemplo, algunas agencias gubernamentales utilizan algoritmos diferencialmente privados para publicar información demográfica u otros agregados estadísticos garantizando al mismo tiempo la confidencialidad de las respuestas de las encuestas, y las empresas para recopilar información sobre el comportamiento de los usuarios mientras controlan lo que es visible incluso para los analistas internos.

En términos generales, un algoritmo es diferencialmente privado si un observador que ve su resultado no puede decir si la información de un individuo en particular se utilizó en el cálculo. La privacidad diferencial a menudo se analiza en el contexto de la identificación de personas cuya información puede estar en una base de datos. Aunque no se refiere directamente a ataques de identificación y reidentificación, los algoritmos diferencialmente privados probablemente resisten tales ataques. ^[3]

ε-privacidad diferencial

El artículo de 2006 de Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam D. Smith ^[3] introdujo el concepto de privacidad ε-diferencial, una definición matemática de la pérdida de privacidad asociada con cualquier divulgación de datos extraídos de una base de datos estadística . ^[4] (Aquí, el término base de datos estadística significa un conjunto de datos que se recopilan bajo el compromiso de confidencialidad con el fin de producir estadísticas que, mediante su producción, no comprometan la privacidad de las personas que proporcionaron los datos).

La definición de privacidad diferencial ε requiere que un cambio en una entrada en una base de datos solo cree un pequeño cambio en la distribución de probabilidad de los resultados de las mediciones, tal como lo ve el atacante. ^[3] La intuición para la definición de privacidad ε-diferencial es que la privacidad de una persona no puede verse comprometida por una publicación estadística si sus datos no están en la base de datos. ^[5] En la privacidad diferencial, a cada individuo se le otorga aproximadamente la misma privacidad que resultaría si se eliminaran sus datos. ^[5] Es decir, las funciones estadísticas ejecutadas en la base de datos no deberían verse afectadas sustancialmente por la eliminación, adición o cambio de cualquier individuo en los datos. ^[5]

La contribución de un individuo al resultado de una consulta a una base de datos depende en parte de la cantidad de datos de personas involucradas en la consulta. Si la base de datos contiene datos de una sola persona, los datos de esa persona contribuyen al 100%. Si la base de datos contiene datos de cien personas, los datos de cada persona contribuyen sólo con el 1%. La idea clave de la privacidad diferencial es que a medida que la consulta se realiza sobre los datos de cada vez menos personas, es necesario agregar más ruido al resultado de la consulta para producir la misma cantidad de privacidad. De ahí el nombre del artículo de 2006, "Calibración del ruido a la sensibilidad en el análisis de datos privados". ^{[ cita necesaria ]}

Definición

Sea ε un número real positivo y un algoritmo aleatorio que toma un conjunto de datos como entrada (que representa las acciones de la parte de confianza que posee los datos). Denotemos la imagen de . ${\mathcal {A}}$ ${\textrm {im}}\ {\mathcal {A}}$ ${\mathcal {A}}$

Se dice que el algoritmo proporciona privacidad diferencial (ε, δ) si, para todos los conjuntos de datos que difieren en un solo elemento (es decir, los datos de una persona), y todos los subconjuntos de : ${\mathcal {A}}$ $D_{1}$ $D_{2}$ $S$ ${\textrm {im}}\ {\mathcal {A}}$

\Pr[{\mathcal {A}}(D_{1})\in S]\leq e^{\varepsilon }\Pr[{\mathcal {A}}(D_{2})\in S]+\delta .

donde la probabilidad se toma sobre la aleatoriedad utilizada por el algoritmo. ^[6] Esta definición a veces se denomina "privacidad diferencial aproximada", siendo la "privacidad diferencial pura" un caso especial cuando . En el último caso, se dice comúnmente que el algoritmo satisface la privacidad diferencial ε (es decir, omitiendo ). ^[^{cita necesaria}^] $\delta =0$ $\delta =0$

La privacidad diferencial ofrece garantías sólidas y sólidas que facilitan el diseño modular y el análisis de mecanismos diferencialmente privados debido a su componibilidad, robustez al posprocesamiento y degradación elegante en presencia de datos correlacionados. ^{[ cita necesaria ]}

Ejemplo

Según esta definición, la privacidad diferencial es una condición del mecanismo de divulgación (es decir, la parte de confianza que divulga información sobre el conjunto de datos) y no del conjunto de datos en sí. Intuitivamente, esto significa que para dos conjuntos de datos cualesquiera que sean similares, un algoritmo privado diferencialmente determinado se comportará aproximadamente de la misma manera en ambos conjuntos de datos. La definición ofrece una fuerte garantía de que la presencia o ausencia de un individuo no afectará significativamente el resultado final del algoritmo.

Por ejemplo, supongamos que tenemos una base de datos de registros médicos donde cada registro es un par ( Nombre , X ), donde un valor booleano indica si una persona tiene diabetes o no. Por ejemplo: $D_{1}$ $X$

Ahora supongamos que un usuario malintencionado (a menudo denominado adversario ) quiere saber si Chandler tiene diabetes o no. Supongamos que también sabe en qué fila de la base de datos reside Chandler. Ahora supongamos que al adversario solo se le permite usar una forma particular de consulta que devuelve la suma parcial de las primeras filas de la columna en la base de datos. Para encontrar el estado de diabetes de Chandler, el adversario ejecuta y luego calcula su diferencia. En este ejemplo, y , su diferencia es 1. Esto indica que el campo "Tiene diabetes" en la fila de Chandler debe ser 1. Este ejemplo destaca cómo la información individual puede verse comprometida incluso sin consultar explícitamente la información de un individuo específico. $Q_{i}$ $i$ $X$ $Q_{5}(D_{1})$ $Q_{4}(D_{1})$ $Q_{5}(D_{1})=3$ $Q_{4}(D_{1})=2$

Continuando con este ejemplo, si construimos reemplazando (Chandler, 1) con (Chandler, 0), entonces este adversario malicioso podrá distinguirlo calculando cada conjunto de datos. Si se requiriera que el adversario recibiera los valores a través de un algoritmo diferencialmente privado, para un valor suficientemente pequeño , entonces no podría distinguir entre los dos conjuntos de datos. $D_{2}$ $D_{2}$ $D_{1}$ $Q_{5}-Q_{4}$ $Q_{i}$ $\varepsilon$ $\varepsilon$

Componibilidad y robustez para el posprocesamiento.

La componibilidad se refiere al hecho de que la distribución conjunta de los resultados de mecanismos diferencialmente privados (posiblemente elegidos de forma adaptativa) satisface la privacidad diferencial. ^[3]

Composición secuencial. Si consultamos un mecanismo de privacidad diferencial ε veces, y la aleatorización del mecanismo es independiente para cada consulta, entonces el resultado sería -diferencialmente privado. En el caso más general, si existen mecanismos independientes: , cuyas garantías de privacidad son privacidad diferencial, respectivamente, entonces cualquier función de ellos: es diferencialmente privada. ^[7] $t$ $\varepsilon t$ $n$ ${\mathcal {M}}_{1},\dots ,{\mathcal {M}}_{n}$ $\varepsilon _{1},\dots ,\varepsilon _{n}$ $g$ $g({\mathcal {M}}_{1},\dots ,{\mathcal {M}}_{n})$ $\left(\sum \limits _{i=1}^{n}\varepsilon _{i}\right)$

Composición paralela. Si los mecanismos anteriores se calculan en subconjuntos separados de la base de datos privada, entonces la función sería diferencialmente privada. ^[7] $g$ $(\max _{i}\varepsilon _{i})$

La otra propiedad importante para el uso modular de la privacidad diferencial es la solidez del posprocesamiento. Esto se define en el sentido de que para cualquier función determinista o aleatoria definida sobre la imagen del mecanismo , si satisface la privacidad diferencial ε, también lo hace . ^[3] $F$ ${\mathcal {A}}$ ${\mathcal {A}}$ $F({\mathcal {A}})$

La propiedad de composición permite la construcción modular y el análisis de mecanismos diferencialmente privados ^[3] y motiva el concepto de presupuesto de pérdida de privacidad . ^{[ cita necesaria ]} Si todos los elementos que acceden a datos confidenciales de un mecanismo complejo son privados de manera diferencial por separado, también lo será su combinación, seguida de un posprocesamiento arbitrario. ^[3]

Privacidad del grupo

En general, la privacidad diferencial ε está diseñada para proteger la privacidad entre bases de datos vecinas que difieren sólo en una fila. Esto significa que ningún adversario con información auxiliar arbitraria puede saber si un participante en particular envió su información. Sin embargo, esto también es ampliable. ^[3] Es posible que queramos proteger bases de datos que difieren en filas, lo que equivale a que un adversario con información auxiliar arbitraria sepa si determinados participantes enviaron su información. Esto se puede lograr porque si los elementos cambian, la dilatación de la probabilidad está limitada por , en lugar de ^[8] , es decir, para D ₁ y D ₂ que difieren en los elementos: por lo tanto, establecer ε en lugar de lograr el resultado deseado (protección de los elementos). ^[3] En otras palabras, en lugar de tener cada elemento ε-protegido de forma privada diferencial, ahora cada grupo de elementos está protegido de forma ε-diferencialmente privada (y cada elemento está -protegido de manera diferencialmente privada). ^[3] $c$ $c$ $c$ $\exp(\varepsilon c)$ $\exp(\varepsilon )$ $c$ $\Pr[{\mathcal {A}}(D_{1})\in S]\leq \exp(\varepsilon c)\cdot \Pr[{\mathcal {A}}(D_{2})\in S]\,\!$ $\varepsilon /c$ $c$ $c$ $(\varepsilon /c)$

Interpretación de la prueba de hipótesis.

Se puede pensar que la privacidad diferencial limita las tasas de error en una prueba de hipótesis. Consideremos dos hipótesis:

$H_{0}$ : Los datos del individuo no están en el conjunto de datos.

$H_{1}$ : Los datos del individuo están en el conjunto de datos.

Entonces, hay dos tasas de error:

Tasa de falsos positivos (FPR): $P_{\text{FP}}=\Pr[{\text{Adversary guesses }}H_{1}\mid H_{0}{\text{ is true}}].$

Tasa de falsos negativos (FNR): $P_{\text{FN}}=\Pr[{\text{Adversary guesses }}H_{0}\mid H_{1}{\text{ is true}}].$

La protección ideal implicaría que ambas tasas de error sean iguales, pero para una configuración fija (ε, δ), un atacante puede lograr las siguientes tasas: ^[9]

$\{(P_{\text{FP}},P_{\text{FN}})\mid P_{\text{FP}}+e^{\varepsilon }P_{\text{FN}}\geq 1-\delta ,\ e^{\varepsilon }P_{\text{FP}}+P_{\text{FN}}\geq 1-\delta \}$

Mecanismos ε-diferencialmente privados

Dado que la privacidad diferencial es un concepto probabilístico, cualquier mecanismo diferencialmente privado es necesariamente aleatorio. Algunos de ellos, como el mecanismo de Laplace, que se describe a continuación, se basan en agregar ruido controlado a la función que queremos calcular. Otros, como el mecanismo exponencial ^[10] y el muestreo posterior ^[11], toman muestras de una familia de distribuciones dependiente del problema.

Una definición importante con respecto a los mecanismos ε-diferencialmente privados es la sensibilidad. ^[3] Sea un número entero positivo, una colección de conjuntos de datos y una función. Una definición de la sensibilidad de una función, denotada , se puede definir mediante: ^[3] donde el máximo está sobre todos los pares de conjuntos de datos y difiere en como máximo un elemento y denota la norma L1 . ^[3] En el ejemplo de la base de datos médica a continuación, si consideramos la función , entonces la sensibilidad de la función es uno, ya que cambiar cualquiera de las entradas en la base de datos hace que la salida de la función cambie en cero o uno. Esto se puede generalizar a otros espacios métricos (medidas de distancia) y debe ser para garantizar que funcionen ciertos algoritmos diferencialmente privados, incluida la adición de ruido de la distribución gaussiana (que requiere la norma L2 ) en lugar de la distribución de Laplace . ^[3] $d$ ${\mathcal {D}}$ $f\colon {\mathcal {D}}\rightarrow \mathbb {R} ^{d}$ $\Delta f$ $\Delta f=\max \lVert f(D_{1})-f(D_{2})\rVert _{1},$ $D_{1}$ $D_{2}$ ${\mathcal {D}}$ $\lVert \cdot \rVert _{1}$ $f$ $Q_{i}$

Existen técnicas (que se describen a continuación) mediante las cuales podemos crear un algoritmo diferencialmente privado para funciones, con parámetros que varían según su sensibilidad. ^[3]

Mecanismo de Laplace

El mecanismo de Laplace agrega ruido de Laplace (es decir, ruido de la distribución de Laplace , que puede expresarse mediante la función de densidad de probabilidad , que tiene media cero y desviación estándar ). Ahora, en nuestro caso, definimos la función de salida de como una función de valor real (llamada salida de transcripción por ) como donde y es la consulta/función de valor real original que planeamos ejecutar en la base de datos. Ahora claramente se puede considerar que es una variable aleatoria continua, donde ${\text{noise}}(y)\propto \exp(-|y|/\lambda )\,\!$ ${\sqrt {2}}\lambda \,\!$ ${\mathcal {A}}\,\!$ ${\mathcal {A}}\,\!$ ${\mathcal {T}}_{\mathcal {A}}(x)=f(x)+Y\,\!$ $Y\sim {\text{Lap}}(\lambda )\,\!\,\!$ $f\,\!$ ${\mathcal {T}}_{\mathcal {A}}(x)\,\!$

{\frac {\mathrm {pdf} ({\mathcal {T}}_{{\mathcal {A}},D_{1}}(x)=t)}{\mathrm {pdf} ({\mathcal {T}}_{{\mathcal {A}},D_{2}}(x)=t)}}={\frac {{\text{noise}}(t-f(D_{1}))}{{\text{noise}}(t-f(D_{2}))}}\,\!

que es como máximo . Podemos considerarlo como el factor de privacidad . De ello se sigue un mecanismo diferencialmente privado (como puede verse en la definición anterior). Si intentamos utilizar este concepto en nuestro ejemplo de diabetes, del hecho derivado anteriormente se deduce que para tener como algoritmo privado diferencial necesitamos tener . Aunque aquí hemos utilizado el ruido de Laplace, se pueden emplear otras formas de ruido, como el ruido gaussiano, pero pueden requerir una ligera relajación de la definición de privacidad diferencial. ^[8] $e^{\frac {|f(D_{1})-f(D_{2})|}{\lambda }}\leq e^{\frac {\Delta (f)}{\lambda }}\,\!$ ${\frac {\Delta (f)}{\lambda }}\,\!$ $\varepsilon \,\!$ ${\mathcal {T}}\,\!$ ${\mathcal {A}}\,\!$ $\varepsilon \,\!$ $\lambda =1/\varepsilon \,\!$

Respuesta aleatoria

Un ejemplo sencillo, especialmente desarrollado en las ciencias sociales , ^[12] es pedirle a una persona que responda a la pregunta "¿Es usted dueño del atributo A ?", según el siguiente procedimiento:

Lanza una moneda .
Si sale cara, lanza la moneda nuevamente (ignorando el resultado) y responde la pregunta honestamente.
Si sale cruz, lance la moneda nuevamente y responda "Sí" si sale cara, "No" si sale cruz.

(El lanzamiento adicional aparentemente redundante en el primer caso es necesario en situaciones en las que otros pueden observar el simple hecho de lanzar una moneda, incluso si el resultado real permanece oculto). La confidencialidad surge entonces de la refutación de las respuestas individuales.

Pero, en conjunto, estos datos con muchas respuestas son significativos, ya que las respuestas positivas las dan una cuarta parte de las personas que no tienen el atributo A y las tres cuartas partes de las personas que sí lo poseen. Por lo tanto, si p es la verdadera proporción de personas con A , entonces esperamos obtener (1/4)(1- p ) + (3/4) p = (1/4) + p /2 respuestas positivas. Por tanto, es posible estimar p .

En particular, si el atributo A es sinónimo de comportamiento ilegal, entonces responder "Sí" no es incriminatorio, en la medida en que la persona tiene probabilidad de responder "Sí", cualquiera que sea.

Aunque este ejemplo, inspirado en una respuesta aleatoria , podría ser aplicable a microdatos (es decir, publicar conjuntos de datos con cada respuesta individual), por definición, la privacidad diferencial excluye las publicaciones de microdatos y solo es aplicable a consultas (es decir, agregar respuestas individuales en un resultado), ya que esto violaría los requisitos, más específicamente la negación plausible de que un sujeto participó o no. ^[13]^[14]

Transformaciones estables

Una transformación es estable si la distancia de Hamming entre y es como máximo la distancia de Hamming entre y para dos bases de datos cualesquiera . ^[^{cita necesaria}^] Si hay un mecanismo que es diferencialmente privado, entonces el mecanismo compuesto es diferencialmente privado. ^[7] $T$ $c$ $T(A)$ $T(B)$ $c$ $A$ $B$ $A,B$ $M$ $\varepsilon$ $M\circ T$ $(\varepsilon \times c)$

Esto podría generalizarse a la privacidad del grupo, ya que el tamaño del grupo podría considerarse como la distancia de Hamming entre y (donde contiene el grupo y no). En este caso es diferencialmente privado. ^[^{cita necesaria}^] $h$ $A$ $B$ $A$ $B$ $M\circ T$ $(\varepsilon \times c\times h)$

Investigación

Las primeras investigaciones conducen a una privacidad diferencial

En 1977, Tore Dalenius formalizó las matemáticas de la supresión celular. ^[15] Tore Dalenius fue un estadístico sueco que contribuyó a la privacidad estadística a través de su artículo de 1977 que reveló un punto clave sobre las bases de datos estadísticas, que era que las bases de datos no deben revelar información sobre un individuo que de otro modo no sea accesible. ^[16] También definió una tipología de divulgaciones estadísticas. ^[4]

En 1979, Dorothy Denning , Peter J. Denning y Mayer D. Schwartz formalizaron el concepto de Tracker, un adversario que podía conocer el contenido confidencial de una base de datos estadística creando una serie de consultas específicas y recordando los resultados. ^[17] Esta y futuras investigaciones mostraron que las propiedades de privacidad en una base de datos solo podrían preservarse considerando cada nueva consulta a la luz de (posiblemente todas) las consultas anteriores. Esta línea de trabajo a veces se denomina privacidad de consultas, y el resultado final fue que rastrear el impacto de una consulta en la privacidad de las personas en la base de datos era NP-difícil . ^{[ cita necesaria ]}

siglo XXI

En 2003, Kobbi Nissim e Irit Dinur demostraron que es imposible publicar consultas arbitrarias en una base de datos estadística privada sin revelar cierta cantidad de información privada, y que todo el contenido informativo de la base de datos puede revelarse publicando los resultados de una cantidad sorprendentemente pequeña. número de consultas aleatorias, mucho menos de lo que implicaba el trabajo anterior. ^[18] El fenómeno general se conoce como Ley Fundamental de Recuperación de Información , y su idea clave, a saber, que en el caso más general, la privacidad no se puede proteger sin inyectar cierta cantidad de ruido, condujo al desarrollo de la privacidad diferencial. ^{[ cita necesaria ]}

En 2006, Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam D. Smith publicaron un artículo ^[3] formalizando la cantidad de ruido que era necesario agregar y proponiendo un mecanismo generalizado para hacerlo. ^{[ cita necesaria ]} Este artículo también creó la primera definición formal de privacidad diferencial. ^[4] Su trabajo recibió conjuntamente el premio TCC Test-of-Time de 2016 ^[19] y el premio Gödel de 2017 . ^[20]

Desde entonces, investigaciones posteriores han demostrado que hay muchas maneras de producir estadísticas muy precisas a partir de la base de datos y al mismo tiempo garantizar altos niveles de privacidad . ^[1]

Adopción en aplicaciones del mundo real

Hasta la fecha, existen más de 12 implementaciones de privacidad diferencial en el mundo real , siendo las más notables:

2008: Oficina del Censo de EE. UU. , por mostrar patrones de desplazamiento. ^[21]
2014: RAPPOR de Google , para telemetría, como el aprendizaje de estadísticas sobre software no deseado que secuestra la configuración de los usuarios. ^[22]^[23]
2015: Google, por compartir estadísticas históricas de tráfico. ^[24]
2016: Apple iOS 10 , para uso en tecnología de asistente personal inteligente . ^[25]
2017: Microsoft, para telemetría en Windows. ^[26]
2020: Social Science One y Facebook , un conjunto de datos de 55 billones de células para que los investigadores aprendan sobre elecciones y democracia. ^[27]^[28]
2021: La Oficina del Censo de EE. UU. utiliza la privacidad diferencial para publicar datos de redistribución de distritos del Censo de 2020. ^[29]

Consideraciones de propósito público

Hay varias consideraciones de propósito público con respecto a la privacidad diferencial que es importante considerar, especialmente para los formuladores de políticas y las audiencias centradas en las políticas interesadas en las oportunidades y riesgos sociales de la tecnología: ^[30]

Utilidad y precisión de los datos. La principal preocupación con la privacidad diferencial es el equilibrio entre la utilidad de los datos y la privacidad individual. Si el parámetro de pérdida de privacidad se establece para favorecer la utilidad, los beneficios de privacidad se reducen (se inyecta menos “ruido” en el sistema); Si el parámetro de pérdida de privacidad se establece para favorecer una gran privacidad, la precisión y la utilidad del conjunto de datos se reducen (se inyecta más "ruido" en el sistema). Es importante que los formuladores de políticas consideren las compensaciones que plantea la privacidad diferencial para ayudar a establecer las mejores prácticas y estándares apropiados en torno al uso de esta práctica de preservación de la privacidad, especialmente considerando la diversidad en los casos de uso organizacional. Sin embargo, vale la pena señalar que la disminución de la precisión y la utilidad es un problema común entre todos los métodos de limitación de la divulgación estadística y no es exclusivo de la privacidad diferencial. Sin embargo, lo que es único es cómo los formuladores de políticas, los investigadores y los implementadores pueden considerar mitigar los riesgos que se presentan a través de esta compensación.
Privacidad y seguridad de datos. La privacidad diferencial proporciona una medida cuantificada de la pérdida de privacidad y un límite superior y permite a los curadores elegir el compromiso explícito entre privacidad y precisión. Es resistente a ataques a la privacidad aún desconocidos. Sin embargo, fomenta un mayor intercambio de datos que, si se hace mal, aumenta el riesgo de privacidad. La privacidad diferencial implica que la privacidad está protegida, pero esto depende en gran medida del parámetro de pérdida de privacidad elegido y, en cambio, puede generar una falsa sensación de seguridad. Finalmente, aunque es resistente contra futuros ataques imprevistos a la privacidad, se puede idear una contramedida que no podemos predecir.

Ataques en la práctica

Debido a que las técnicas de privacidad diferencial se implementan en computadoras reales, son vulnerables a diversos ataques que no es posible compensar únicamente con las matemáticas de las técnicas mismas. Además de los defectos estándar de los artefactos de software que pueden identificarse mediante pruebas o fuzzing , las implementaciones de mecanismos diferencialmente privados pueden sufrir las siguientes vulnerabilidades:

Errores algorítmicos o analíticos sutiles. ^[31]^[32]
Sincronización de ataques de canal lateral. ^[33] A diferencia de los ataques de sincronización contra implementaciones de algoritmos criptográficos que normalmente tienen una baja tasa de fuga y deben ir seguidos de un criptoanálisis no trivial, un canal de sincronización puede conducir a un compromiso catastrófico de un sistema diferencialmente privado, ya que un ataque dirigido puede ser Se utiliza para filtrar precisamente la parte que el sistema está diseñado para ocultar.
Fuga mediante aritmética de coma flotante. ^[34] Los algoritmos diferencialmente privados se presentan típicamente en el lenguaje de distribuciones de probabilidad, que naturalmente conducen a implementaciones que utilizan aritmética de punto flotante. La abstracción de la aritmética de punto flotante tiene fugas y, sin una atención cuidadosa a los detalles, una implementación ingenua puede no proporcionar privacidad diferencial. (Este es particularmente el caso de la privacidad diferencial ε, que no permite ninguna probabilidad de falla, incluso en el peor de los casos.) Por ejemplo, el soporte de un muestreador de libro de texto de la distribución de Laplace (requerido, por ejemplo, para la distribución de Laplace mecanismo ) es menos del 80% de todos los números de punto flotante de doble precisión ; además, el apoyo a distribuciones con diferentes medios no es idéntico. Una sola muestra de una implementación ingenua del mecanismo de Laplace permite distinguir entre dos conjuntos de datos adyacentes con una probabilidad superior al 35%.
Canal de temporización mediante aritmética de coma flotante. ^[35] A diferencia de las operaciones sobre números enteros que normalmente son de tiempo constante en las CPU modernas, la aritmética de punto flotante exhibe una variabilidad de tiempo significativa dependiente de la entrada. ^[36] El manejo de valores subnormales puede ser particularmente lento, hasta ×100 en comparación con el caso típico. ^[37]

Ver también

Implementaciones de análisis diferencialmente privados – implementaciones de privacidad diferencial
Cuasi-identificador
Mecanismo exponencial (privacidad diferencial) : una técnica para diseñar algoritmos diferencialmente privados
k-anonimato
Análisis diferencialmente privado de gráficos.
Información de salud protegida
Privacidad diferencial local
Privacidad

Referencias

^ ab Hilton, M; Cali (2012). "Privacidad diferencial: un estudio histórico". Académico semántico . S2CID 16861132 . Consultado el 31 de diciembre de 2023 .
^ Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: una encuesta de resultados". En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y Aplicaciones de Modelos de Computación . Apuntes de conferencias sobre informática. vol. 4978. Springer Berlín Heidelberg. págs. 1-19. doi :10.1007/978-3-540-79228-4_1. ISBN 978-3-540-79227-7. S2CID 2887752.
^ abcdefghijklmnop Calibración del ruido a la sensibilidad en el análisis de datos privados por Cynthia Dwork, Frank McSherry, Kobbi Nissim, Adam Smith. En Conferencia de Teoría de la Criptografía (TCC), Springer, 2006. doi :10.1007/11681878_14. La versión completa aparece en Journal of Privacy and Confidentiality, 7 (3), 17-51. doi :10.29012/jpc.v7i3.405
^ abc HILTON, MICHAEL. "Privacidad diferencial: un estudio histórico" (PDF) . S2CID 16861132. Archivado desde el original (PDF) el 1 de marzo de 2017. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ abcDwork , Cynthia (2008). "Privacidad diferencial: una encuesta de resultados". En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y Aplicaciones de Modelos de Computación . Apuntes de conferencias sobre informática. vol. 4978. Berlín, Heidelberg: Springer. págs. 1-19. doi :10.1007/978-3-540-79228-4_1. ISBN 978-3-540-79228-4.
^ Los fundamentos algorítmicos de la privacidad diferencial por Cynthia Dwork y Aaron Roth. Fundamentos y tendencias de la informática teórica. vol. 9, núm. 3–4, págs. 211‐407, agosto de 2014. doi :10.1561/0400000042
^ Consultas integradas de privacidad de abc: una plataforma extensible para el análisis de datos que preservan la privacidad por Frank D. McSherry. En Actas de la 35ª Conferencia Internacional SIGMOD sobre Gestión de Datos (SIGMOD), 2009. doi :10.1145/1559845.1559850
^ ab Privacidad diferencial por Cynthia Dwork, Coloquio internacional sobre autómatas, lenguajes y programación (ICALP) 2006, p. 1–12. doi :10.1007/11787006_1
^ Kairouz, Peter, Sewoong Oh y Pramod Viswanath. "El teorema de composición de la privacidad diferencial". Congreso internacional sobre aprendizaje automático. PMLR, 2015.enlace
^ F. McSherry y K. Talwar. Diseño Mechasim a través de Privacidad Diferencial. Actas del 48º Simposio Anual sobre Fundamentos de la Informática, 2007.
^ Christos Dimitrakakis, Blaine Nelson, Aikaterini Mitrokotsa, Benjamin Rubinstein. Inferencia bayesiana robusta y privada. Teoría del aprendizaje algorítmico 2014
^ Warner, SL (marzo de 1965). "Respuesta aleatoria: una técnica de encuesta para eliminar el sesgo de respuesta evasiva". Revista de la Asociación Estadounidense de Estadística . 60 (309). Taylor y Francisco : 63–69. doi :10.1080/01621459.1965.10480775. JSTOR 2283137. PMID 12261830. S2CID 35435339.
^ Dtrabajo, Cynthia. "Una base firme para el análisis de datos privados". Comunicaciones de la JCA 54.1 (2011): 86–95, supra nota 19, página 91.
^ Bambauer, Jane, Krishnamurty Muralidhar y Rathindra Sarathy. "El oro de los tontos: una crítica ilustrada de la privacidad diferencial". Vand. J.Ent. Y tecnología. L. 16 (2013): 701.
^ Tore Dalenius (1977). "Hacia una metodología para el control de la divulgación estadística". Estadísticas estadísticas . 15 . hdl :1813/111303.
^ Dwork, Cynthia (2006). "Privacidad Diferencial". En Bugliesi, Michele; Preneel, Bart; Sassone, Vladimiro; Wegener, Ingo (eds.). Autómatas, Lenguajes y Programación . Apuntes de conferencias sobre informática. vol. 4052. Berlín, Heidelberg: Springer. págs. 1–12. doi :10.1007/11787006_1. ISBN 978-3-540-35908-1.
^ Dorothy E. Denning; Peter J. Denning; Mayer D. Schwartz (marzo de 1979). "The Tracker: una amenaza para la seguridad de las bases de datos estadísticas". Transacciones ACM en sistemas de bases de datos . 4 (1): 76–96. doi :10.1145/320064.320069. S2CID 207655625.
^ Irit Dinur y Kobbi Nissim. 2003. Revelar información preservando la privacidad. En Actas del vigésimo segundo simposio ACM SIGMOD-SIGACT-SIGART sobre Principios de sistemas de bases de datos (PODS '03). ACM, Nueva York, NY, EE. UU., 202–210. doi :10.1145/773153.773173
^ "Premio TCC a la prueba del tiempo".
^ "Premio Gödel 2017".
^ Ashwin Machanavajjhala, Daniel Kifer, John M. Abowd, Johannes Gehrke y Lars Vilhuber. "Privacidad: la teoría se encuentra con la práctica en el mapa". En Actas de la 24ª Conferencia Internacional sobre Ingeniería de Datos, ICDE) 2008.
^ Erlingsson, Úlfar; Pihur, Vasyl; Korolova, Alexandra (2014). "RAPPOR: respuesta ordinal agregable aleatoria que preserva la privacidad". Actas de la Conferencia ACM SIGSAC 2014 sobre seguridad informática y de las comunicaciones . págs. 1054-1067. doi :10.1145/2660267.2660348. ISBN 978-1-4503-2957-6.
^ google/rappor, GitHub, 15 de julio de 2021
^ Abordar la movilidad urbana con tecnología por Andrew Eland. Blog de Google Policy Europe, 18 de noviembre de 2015.
^ "Apple - Información de prensa - Apple presenta una vista previa de iOS 10, el mayor lanzamiento de iOS jamás realizado". Manzana . Consultado el 20 de junio de 2023 .
^ Recopilación de datos de telemetría de forma privada por Bolin Ding, Jana Kulkarni, Sergey Yekhanin. NIPS 2017.
^ Messing, Salomón; DeGregorio, Cristina; Hillenbrand, Bennett; Rey, Gary; Mahanti, Saurav; Mukerjee, Zagreb; Nayak, Chayá; Perseverantemente, Nate; Estado, Bogdan (2020), Conjunto de datos de URL completos protegidos por privacidad de Facebook, Zagreb Mukerjee, Harvard Dataverse, doi :10.7910/dvn/tdoapg , consultado el 8 de febrero de 2023
^ Evans, Georgina; King, Gary (enero de 2023). "Inferencias estadísticamente válidas a partir de publicaciones de datos diferencialmente privados, con aplicación al conjunto de datos de URL de Facebook". Análisis Político . 31 (1): 1–21. doi :10.1017/pan.2022.1. ISSN 1047-1987. S2CID 211137209.
^ "Evitación de divulgación para el censo de 2020: introducción". 2 de noviembre de 2021.
^ "Ficha tecnológica: privacidad diferencial". Centro Belfer para la Ciencia y Asuntos Internacionales . Consultado el 12 de abril de 2021 .
^ McSherry, Frank (25 de febrero de 2018). "La privacidad diferencial de Uber ... probablemente no lo sea". GitHub .
^ Lyu, Min; Su, Dong; Li, Ninghui (1 de febrero de 2017). "Comprensión de la técnica de vectores dispersos para la privacidad diferencial". Actas del Fondo de Dotación VLDB . 10 (6): 637–648. arXiv : 1603.01699 . doi :10.14778/3055330.3055331. S2CID 5449336.
^ Haeberlen, Andreas; Pierce, Benjamín C.; Narayan, Arjun (2011). "Privacidad diferencial bajo fuego". 20º Simposio de Seguridad USENIX .
^ Mironov, Ilya (octubre de 2012). "Sobre la importancia de los bits menos significativos para la privacidad diferencial". Actas de la conferencia ACM de 2012 sobre seguridad informática y de las comunicaciones (PDF) . ACM. págs. 650–661. doi :10.1145/2382196.2382264. ISBN 9781450316514. S2CID 3421585.
^ Andrysco, Marc; Kohlbrenner, David; Cortacésped, Keaton; Jhala, Ranjit; Lerner, Sorin; Shacham, Hovav (mayo de 2015). "Sobre coma flotante anormal y sincronización anormal". Simposio IEEE 2015 sobre seguridad y privacidad . págs. 623–639. doi :10.1109/SP.2015.44. ISBN 978-1-4673-6949-7. S2CID 1903469.
^ Kohlbrenner, David; Shacham, Hovav (agosto de 2017). "Sobre la eficacia de las mitigaciones contra los canales de temporización de punto flotante". Actas del 26º Simposio de la Conferencia USENIX sobre Seguridad . Asociación USENIX: 69–81.
^ Dooley, Isaac; Kale, Laxmikant (septiembre de 2006). "Cuantificación de la interferencia provocada por valores de coma flotante subnormales" (PDF) . Actas del taller sobre interferencia del sistema operativo en aplicaciones de alto rendimiento .

Lectura adicional

Publicaciones

Calibración del ruido a la sensibilidad en el análisis de datos privados, Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam Smith. 2006. En Actas de la Tercera Conferencia sobre Teoría de la Criptografía (TCC'06). Springer-Verlag, Berlín, Heidelberg, 265–284. https://doi.org/10.1007/11681878_14 (Esta es la publicación original de Differential Privacy, y no el artículo homónimo de Dwork que se publicó el mismo año).
Privacidad diferencial: una encuesta de resultados de Cynthia Dwork, Microsoft Research, abril de 2008 (Presenta lo que se descubrió durante los primeros dos años de investigación sobre privacidad diferencial).
Privacidad diferencial: introducción para una audiencia no técnica, Alexandra Wood, Micah Altman , Aaron Bembenek, Mark Bun, Marco Gaboardi, et al, Vanderbilt Journal of Entertainment & Technology LawVanderbilt Journal of Entertainment, volumen 21, número 1, otoño de 2018. (¡Un buen documento introductorio, pero definitivamente *no* para audiencias no técnicas!)
Ficha informativa sobre tecnología: Privacidad diferencial por Raina Gandhi y Amritha Jayanti, Centro Belfer para la Ciencia y Asuntos Internacionales, otoño de 2020
Privacidad diferencial y el censo de EE. UU. de 2020, Estudios de caso del MIT sobre responsabilidades sociales y éticas de la informática, no. Invierno 2022 (enero). https://doi.org/10.21428/2c646de5.7ec6ab93.

Tutoriales

Una guía práctica para principiantes sobre la privacidad diferencial por Christine Task, Universidad Purdue, abril de 2012