Aprendizaje automático adversario

El aprendizaje automático adversarial es el estudio de los ataques a los algoritmos de aprendizaje automático y de las defensas contra dichos ataques. ^[1] Una encuesta de mayo de 2020 revela que los profesionales informan de una necesidad imperiosa de proteger mejor los sistemas de aprendizaje automático en aplicaciones industriales. ^[2]

La mayoría de las técnicas de aprendizaje automático están diseñadas para trabajar en conjuntos de problemas específicos, bajo el supuesto de que los datos de entrenamiento y prueba se generan a partir de la misma distribución estadística ( IID ). Sin embargo, este supuesto suele violarse peligrosamente en aplicaciones prácticas de alto riesgo, donde los usuarios pueden proporcionar intencionalmente datos inventados que violan el supuesto estadístico.

Los ataques más comunes en el aprendizaje automático adversario incluyen ataques de evasión , ^[3] ataques de envenenamiento de datos , ^[4] ataques bizantinos ^[5] y extracción de modelos. ^[6]

Historia

En la Conferencia sobre Spam del MIT en enero de 2004, John Graham-Cumming demostró que un filtro de spam con aprendizaje automático podría usarse para derrotar a otro filtro de spam con aprendizaje automático al aprender automáticamente qué palabras agregar a un correo electrónico spam para que el correo electrónico se clasifique como no spam. ^[7]

En 2004, Nilesh Dalvi y otros observaron que los clasificadores lineales utilizados en los filtros de spam podían ser derrotados por simples " ataques de evasión " a medida que los spammers insertaban "buenas palabras" en sus correos electrónicos spam. (Alrededor de 2007, algunos spammers agregaron ruido aleatorio para difuminar las palabras dentro del "spam de imágenes" con el fin de vencer los filtros basados en OCR ). En 2006, Marco Barreno y otros publicaron "Can Machine Learning Be Secure?", esbozando una amplia taxonomía de ataques. Incluso en 2013, muchos investigadores seguían esperando que los clasificadores no lineales (como las máquinas de vectores de soporte y las redes neuronales ) pudieran ser robustos a los adversarios, hasta que Battista Biggio y otros demostraron los primeros ataques basados en gradientes en dichos modelos de aprendizaje automático (2012 ^[8] –2013 ^[9] ). En 2012, las redes neuronales profundas comenzaron a dominar los problemas de visión por computadora; A partir de 2014, Christian Szegedy y otros demostraron que las redes neuronales profundas podían ser engañadas por los adversarios, nuevamente utilizando un ataque basado en gradientes para crear perturbaciones adversarias. ^[10]^[11]

Recientemente, se observó que los ataques adversarios son más difíciles de producir en el mundo práctico debido a las diferentes restricciones ambientales que cancelan el efecto del ruido. ^[12]^[13] Por ejemplo, cualquier pequeña rotación o iluminación leve en una imagen adversaria puede destruir la adversarialidad. Además, investigadores como Nicholas Frosst de Google Brain señalan que es mucho más fácil hacer que los autos autónomos ^[14] pasen por alto las señales de stop eliminando físicamente la señal en sí, en lugar de crear ejemplos adversarios. ^[15] Frosst también cree que la comunidad de aprendizaje automático adversario asume incorrectamente que los modelos entrenados en una determinada distribución de datos también funcionarán bien en una distribución de datos completamente diferente. Sugiere que se debe explorar un nuevo enfoque para el aprendizaje automático, y actualmente está trabajando en una red neuronal única que tiene características más similares a la percepción humana que los enfoques de última generación. ^[15]

Si bien el aprendizaje automático adversarial sigue estando fuertemente arraigado en el ámbito académico, las grandes empresas tecnológicas como Google, Microsoft e IBM han comenzado a conservar documentación y bases de código fuente abiertas para permitir que otros evalúen concretamente la solidez de los modelos de aprendizaje automático y minimicen el riesgo de ataques adversariales. ^[16]^[17]^[18]

Ejemplos

Los ejemplos incluyen ataques al filtrado de spam , donde los mensajes de spam se ofuscan mediante la ortografía incorrecta de palabras "malas" o la inserción de palabras "buenas"; ^[19]^[20] ataques a la seguridad informática , como ofuscar código de malware dentro de paquetes de red o modificar las características de un flujo de red para engañar a la detección de intrusiones; ^[21]^[22] ataques al reconocimiento biométrico donde se pueden explotar rasgos biométricos falsos para hacerse pasar por un usuario legítimo; ^[23] o para comprometer las galerías de plantillas de los usuarios que se adaptan a rasgos actualizados a lo largo del tiempo.

Los investigadores demostraron que con cambiar solo un píxel era posible engañar a los algoritmos de aprendizaje profundo. ^[24] Otros imprimieron en 3D una tortuga de juguete con una textura diseñada para que la IA de detección de objetos de Google la clasificara como un rifle independientemente del ángulo desde el que se mirara a la tortuga. ^[25] La creación de la tortuga requirió solo tecnología de impresión 3D disponible comercialmente y de bajo costo. ^[26]

Se demostró que una imagen de un perro modificada por una máquina parecía un gato tanto para las computadoras como para los humanos. ^[27] Un estudio de 2019 informó que los humanos pueden adivinar cómo las máquinas clasificarán las imágenes adversas. ^[28] Los investigadores descubrieron métodos para alterar la apariencia de una señal de pare de modo que un vehículo autónomo la clasificara como una señal de incorporación o de límite de velocidad. ^[14]^[29]

McAfee atacó el antiguo sistema Mobileye de Tesla , engañándolo para que condujera 50 mph por encima del límite de velocidad, simplemente agregando una tira de dos pulgadas de cinta negra a una señal de límite de velocidad. ^[30]^[31]

Los patrones adversarios en anteojos o ropa diseñados para engañar a los sistemas de reconocimiento facial o a los lectores de matrículas han dado lugar a una industria especializada de "ropa urbana discreta". ^[32]

Un ataque adversarial a una red neuronal puede permitir a un atacante inyectar algoritmos en el sistema de destino. ^[33] Los investigadores también pueden crear entradas de audio adversariales para disfrazar comandos a asistentes inteligentes en un audio aparentemente benigno; ^[34] una literatura paralela explora la percepción humana de tales estímulos. ^[35]^[36]

Los algoritmos de agrupamiento se utilizan en aplicaciones de seguridad. El análisis de malware y virus informáticos tiene como objetivo identificar familias de malware y generar firmas de detección específicas. ^[37]^[38]

Modalidades de ataque

Taxonomía

Los ataques contra algoritmos de aprendizaje automático (supervisados) se han categorizado en tres ejes principales: ^[39] influencia en el clasificador, la violación de seguridad y su especificidad.

Influencia del clasificador: un ataque puede influir en el clasificador alterando la fase de clasificación. Esto puede ir precedido de una fase de exploración para identificar vulnerabilidades. Las capacidades del atacante pueden verse limitadas por la presencia de restricciones de manipulación de datos. ^[40]
Violación de seguridad: un ataque puede proporcionar datos maliciosos que se clasifican como legítimos. Los datos maliciosos proporcionados durante el entrenamiento pueden provocar que se rechacen los datos legítimos después del entrenamiento.
Especificidad: un ataque dirigido intenta permitir una intrusión o interrupción específica. Por el contrario, un ataque indiscriminado crea un caos general.

Esta taxonomía se ha ampliado para convertirse en un modelo de amenaza más completo que permite realizar suposiciones explícitas sobre el objetivo del adversario, el conocimiento del sistema atacado, la capacidad de manipular los datos de entrada/componentes del sistema y la estrategia de ataque. ^[41]^[42] Esta taxonomía se ha ampliado aún más para incluir dimensiones para las estrategias de defensa contra ataques adversarios. ^[43]

Estrategias

A continuación se presentan algunos de los escenarios de ataque más comunes.

Envenenamiento de datos

El envenenamiento consiste en contaminar el conjunto de datos de entrenamiento con datos diseñados para aumentar los errores en el resultado. Dado que los algoritmos de aprendizaje están determinados por sus conjuntos de datos de entrenamiento, el envenenamiento puede reprogramar eficazmente los algoritmos con intenciones potencialmente maliciosas. Se han planteado preocupaciones especialmente por los datos de entrenamiento generados por el usuario, por ejemplo, para la recomendación de contenido o los modelos de lenguaje natural. La ubicuidad de las cuentas falsas ofrece muchas oportunidades para el envenenamiento. Se informa que Facebook elimina alrededor de 7 mil millones de cuentas falsas por año. ^[44]^[45] Se ha informado que el envenenamiento es la principal preocupación para las aplicaciones industriales. ^[2]

En las redes sociales, las campañas de desinformación intentan sesgar los algoritmos de recomendación y moderación para priorizar ciertos contenidos sobre otros.

Un caso particular de envenenamiento de datos es el ataque de puerta trasera , ^[46] que tiene como objetivo enseñar un comportamiento específico para las entradas con un disparador determinado, por ejemplo, un pequeño defecto en imágenes, sonidos, vídeos o textos.

Por ejemplo, los sistemas de detección de intrusiones suelen entrenarse utilizando datos recopilados. Un atacante puede envenenar estos datos inyectando muestras maliciosas durante la operación que posteriormente interrumpan el reentrenamiento. ^[41]^[42]^[39]^[47]^[48]

Las técnicas de envenenamiento de datos también se pueden aplicar a los modelos de texto a imagen para alterar su resultado. ^[49]

El envenenamiento de datos también puede ocurrir de manera involuntaria a través del colapso del modelo , cuando los modelos se entrenan con datos sintéticos. ^[50]

Ataques bizantinos

A medida que se escala el aprendizaje automático, a menudo depende de múltiples máquinas de computación. En el aprendizaje federado , por ejemplo, los dispositivos de borde colaboran con un servidor central, generalmente enviando gradientes o parámetros del modelo. Sin embargo, algunos de estos dispositivos pueden desviarse de su comportamiento esperado, por ejemplo, para dañar el modelo del servidor central ^[51] o para sesgar los algoritmos hacia ciertos comportamientos (por ejemplo, amplificando la recomendación de contenido de desinformación). Por otro lado, si el entrenamiento se realiza en una sola máquina, entonces el modelo es muy vulnerable a una falla de la máquina, o un ataque a la máquina; la máquina es un único punto de falla . ^{[52] De hecho, el propietario de la máquina puede insertar}puertas traseras demostrablemente indetectables . ^[53]

Las principales soluciones actuales para hacer que los algoritmos de aprendizaje (distribuido) sean demostrablemente resistentes a una minoría de participantes maliciosos (también conocidos como bizantinos ) se basan en reglas de agregación de gradiente robustas. ^[54]^[55]^[56]^[57]^[58]^[59] Las reglas de agregación robustas no siempre funcionan, especialmente cuando los datos de los participantes tienen una distribución no iid. Sin embargo, en el contexto de participantes honestos heterogéneos, como usuarios con diferentes hábitos de consumo de algoritmos de recomendación o estilos de escritura para modelos de lenguaje, existen teoremas de imposibilidad demostrables sobre lo que cualquier algoritmo de aprendizaje robusto puede garantizar. ^[5]^[60]

Evasión

Los ataques de evasión ^[9]^[41]^[42]^[61] consisten en explotar la imperfección de un modelo entrenado. Por ejemplo, los spammers y los hackers a menudo intentan evadir la detección mediante la ofuscación del contenido de los correos electrónicos spam y malware . Las muestras se modifican para evadir la detección; es decir, para que se clasifiquen como legítimas. Esto no implica influencia sobre los datos de entrenamiento. Un claro ejemplo de evasión es el spam basado en imágenes en el que el contenido del spam se incrusta dentro de una imagen adjunta para evadir el análisis textual de los filtros antispam. Otro ejemplo de evasión lo dan los ataques de suplantación de identidad contra los sistemas de verificación biométrica. ^[23]

Los ataques de evasión se pueden dividir generalmente en dos categorías diferentes: ataques de caja negra y ataques de caja blanca . ^[17]

Extracción de modelos

La extracción de modelos implica que un adversario pruebe un sistema de aprendizaje automático de caja negra para extraer los datos con los que fue entrenado. ^[62]^[63] Esto puede causar problemas cuando los datos de entrenamiento o el modelo en sí son sensibles y confidenciales. Por ejemplo, la extracción de modelos podría utilizarse para extraer un modelo de negociación de acciones patentado que el adversario podría utilizar para su propio beneficio financiero.

En el caso extremo, la extracción del modelo puede llevar al robo del modelo , lo que corresponde a la extracción de una cantidad suficiente de datos del modelo para permitir la reconstrucción completa del modelo.

Por otra parte, la inferencia de membresía es un ataque de extracción de modelos dirigido, que infiere el propietario de un punto de datos, a menudo aprovechando el sobreajuste resultante de malas prácticas de aprendizaje automático. ^[64] Es preocupante que esto a veces se pueda lograr incluso sin conocimiento o acceso a los parámetros de un modelo objetivo, lo que plantea problemas de seguridad para los modelos entrenados con datos confidenciales, incluidos, entre otros, registros médicos y/o información de identificación personal. Con el surgimiento del aprendizaje por transferencia y la accesibilidad pública de muchos modelos de aprendizaje automático de última generación, las empresas de tecnología se sienten cada vez más atraídas a crear modelos basados en modelos públicos, lo que brinda a los atacantes información de libre acceso sobre la estructura y el tipo de modelo que se está utilizando. ^[64]

Categorías

Aprendizaje de refuerzo profundo adversarial

El aprendizaje profundo por refuerzo adversarial es un área activa de investigación en el campo del aprendizaje por refuerzo que se centra en las vulnerabilidades de las políticas aprendidas. En esta área de investigación, algunos estudios mostraron inicialmente que las políticas de aprendizaje por refuerzo son susceptibles a manipulaciones adversarias imperceptibles. ^[65]^[66] Si bien se han propuesto algunos métodos para superar estas susceptibilidades, en los estudios más recientes se ha demostrado que estas soluciones propuestas están lejos de proporcionar una representación precisa de las vulnerabilidades actuales de las políticas de aprendizaje profundo por refuerzo. ^[67]

Procesamiento del lenguaje natural adversario

Se han introducido ataques adversarios al reconocimiento de voz para aplicaciones de conversión de voz a texto, en particular para la implementación de DeepSpeech de Mozilla. ^[68]

Ataques adversarios y entrenamiento en modelos lineales

Existe una literatura cada vez mayor sobre los ataques adversarios en modelos lineales. De hecho, desde el trabajo seminal de Goodfellow et al. ^[69], estudiar estos modelos en modelos lineales ha sido una herramienta importante para comprender cómo los ataques adversarios afectan a los modelos de aprendizaje automático. El análisis de estos modelos se simplifica porque el cálculo de los ataques adversarios se puede simplificar en problemas de regresión y clasificación lineal. Además, el entrenamiento adversario es convexo en este caso. ^[70]

Los modelos lineales permiten realizar análisis analíticos y, al mismo tiempo, reproducir los fenómenos observados en los modelos de última generación. Un buen ejemplo de ello es cómo se puede utilizar este modelo para explicar el equilibrio entre robustez y precisión. ^[71] De hecho, diversos trabajos proporcionan análisis de ataques adversarios en modelos lineales, incluido el análisis asintótico para la clasificación ^[72] y para la regresión lineal. ^[73]^[74] Y el análisis de muestras finitas basado en la complejidad de Rademacher. ^[75]

Tipos de ataques específicos

Existe una gran variedad de ataques adversarios diferentes que se pueden utilizar contra los sistemas de aprendizaje automático. Muchos de ellos funcionan tanto en sistemas de aprendizaje profundo como en modelos de aprendizaje automático tradicionales, como las máquinas virtuales de aprendizaje automático ^[8] y la regresión lineal ^[76] . Una muestra de alto nivel de estos tipos de ataques incluye:

Ejemplos adversariales ^[77]
Ataques de troyanos / Ataques de puerta trasera ^[78]
Inversión del modelo ^[79]
Inferencia de membresía ^[80]

Ejemplos adversarios

Un ejemplo antagónico se refiere a una entrada especialmente diseñada para parecer "normal" para los humanos, pero que provoca una clasificación errónea en un modelo de aprendizaje automático. A menudo, se utiliza una forma de "ruido" especialmente diseñado para provocar las clasificaciones erróneas. A continuación, se presentan algunas técnicas actuales para generar ejemplos antagónicos en la literatura (de ninguna manera una lista exhaustiva).

Ataque de evasión basado en gradientes ^[9]
Método de signo de gradiente rápido (FGSM) ^[81]
Descenso de gradiente proyectado (PGD) ^[82]
Carlini y Wagner (C&W) atacan ^[83]
Ataque de parche adversario ^[84]

Ataques de caja negra

Los ataques de caja negra en el aprendizaje automático adversario suponen que el adversario solo puede obtener resultados a partir de las entradas proporcionadas y no tiene conocimiento de la estructura o los parámetros del modelo. ^[17]^[85] En este caso, el ejemplo adversario se genera utilizando un modelo creado desde cero o sin ningún modelo (excluyendo la capacidad de consultar el modelo original). En cualquier caso, el objetivo de estos ataques es crear ejemplos adversarios que puedan transferirse al modelo de caja negra en cuestión. ^[86]

Ataques adversarios de caja negra simples

Los ataques adversarios de caja negra simples se propusieron en 2019 como una forma eficiente de consultar para atacar los clasificadores de imágenes de caja negra. ^[87]

Tome una base ortonormal aleatoria en . Los autores sugirieron la transformada de coseno discreta de la base estándar (los píxeles). $v_{1},v_{2},\dots ,v_{d}$ $\mathbb {R} ^{d}$
Para obtener una imagen clasificada correctamente , pruebe y compare la cantidad de error en el clasificador con . Elija la que cause la mayor cantidad de error. $x$ $x+\epsilon v_{1},x-\epsilon v_{1}$ $x+\epsilon v_{1},x,x-\epsilon v_{1}$
Repita esto hasta alcanzar el nivel de error deseado en el clasificador. $v_{2},v_{3},\dots$

El algoritmo fue descubierto cuando los autores intentaban comparar un algoritmo de ataque adversario de caja negra anterior, basado en procesos gaussianos, con una línea de base simple, y descubrieron que su línea de base resultó funcionar incluso mejor. ^[88]

Ataque cuadrado

El ataque Square se introdujo en 2020 como un ataque adversario de evasión de caja negra basado en la consulta de puntuaciones de clasificación sin la necesidad de información de gradiente. ^[89] Como ataque de caja negra basado en puntuaciones, este enfoque adversario puede consultar distribuciones de probabilidad en las clases de salida del modelo, pero no tiene otro acceso al modelo en sí. Según los autores del artículo, el ataque Square propuesto requería menos consultas que en comparación con los ataques de caja negra basados en puntuaciones de última generación en ese momento. ^[89]

Para describir el objetivo de la función, el ataque define el clasificador como , con representando las dimensiones de la entrada y como el número total de clases de salida. devuelve la puntuación (o una probabilidad entre 0 y 1) de que la entrada pertenece a la clase , lo que permite que la salida de clase del clasificador para cualquier entrada se defina como . El objetivo de este ataque es el siguiente: ^[89] ${\textstyle f:[0,1]^{d}\rightarrow \mathbb {R} ^{K}}$ ${\textstyle d}$ ${\textstyle K}$ ${\textstyle f_{k}(x)}$ ${\textstyle x}$ ${\textstyle k}$ ${\textstyle x}$ ${\textstyle {\text{argmax}}_{k=1,...,K}f_{k}(x)}$

${\text{argmax}}_{k=1,...,K}f_{k}({\hat {x}})\neq y,||{\hat {x}}-x||_{p}\leq \epsilon {\text{ and }}{\hat {x}}\in [0,1]^{d}$

En otras palabras, encontrar un ejemplo antagónico perturbado de modo que el clasificador lo clasifique incorrectamente en otra clase bajo la restricción de que y son similares. El artículo define entonces la pérdida como y propone la solución para encontrar un ejemplo antagónico como la solución del siguiente problema de optimización restringida : ^[89] ${\textstyle {\hat {x}}}$ ${\textstyle {\hat {x}}}$ ${\textstyle x}$ ${\textstyle L}$ ${\textstyle L(f({\hat {x}}),y)=f_{y}({\hat {x}})-\max _{k\neq y}f_{k}({\hat {x}})}$ ${\textstyle {\hat {x}}}$

$\min _{{\hat {x}}\in [0,1]^{d}}L(f({\hat {x}}),y),{\text{ s.t. }}||{\hat {x}}-x||_{p}\leq \epsilon$

El resultado en teoría es un ejemplo adversario que tiene una alta confianza en la clase incorrecta pero que también es muy similar a la imagen original. Para encontrar dicho ejemplo, Square Attack utiliza la técnica de búsqueda aleatoria iterativa para perturbar aleatoriamente la imagen con la esperanza de mejorar la función objetivo. En cada paso, el algoritmo perturba solo una pequeña sección cuadrada de píxeles, de ahí el nombre Square Attack, que termina tan pronto como se encuentra un ejemplo adversario para mejorar la eficiencia de la consulta. Finalmente, dado que el algoritmo de ataque utiliza puntuaciones y no información de gradiente, los autores del artículo indican que este enfoque no se ve afectado por el enmascaramiento de gradiente, una técnica común utilizada anteriormente para prevenir ataques de evasión. ^[89]

Ataque HopSkipJump

Este ataque de caja negra también se propuso como un ataque de consulta eficiente, pero que se basa únicamente en el acceso a la clase de salida predicha de cualquier entrada. En otras palabras, el ataque HopSkipJump no requiere la capacidad de calcular gradientes o acceso a valores de puntuación como el ataque cuadrado, y requerirá solo la salida de predicción de clase del modelo (para cualquier entrada dada). El ataque propuesto se divide en dos configuraciones diferentes, dirigida y no dirigida, pero ambas se construyen a partir de la idea general de agregar perturbaciones mínimas que conducen a una salida de modelo diferente. En la configuración dirigida, el objetivo es hacer que el modelo clasifique incorrectamente la imagen perturbada a una etiqueta de destino específica (que no es la etiqueta original). En la configuración no dirigida, el objetivo es hacer que el modelo clasifique incorrectamente la imagen perturbada a cualquier etiqueta que no sea la etiqueta original. Los objetivos del ataque para ambos son los siguientes, donde es la imagen original, es la imagen adversaria, es una función de distancia entre imágenes, es la etiqueta de destino y es la función de etiqueta de clase de clasificación del modelo: ^[90] ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle d}$ ${\textstyle c^{*}}$ ${\textstyle C}$

${\textbf {Targeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })=c^{*}$

${\textbf {Untargeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })\neq C(x)$

Para resolver este problema, el ataque propone la siguiente función límite tanto para la configuración no dirigida como para la dirigida: ^[90] ${\textstyle S}$

$S(x^{\prime }):={\begin{cases}\max _{c\neq C(x)}{F(x^{\prime })_{c}}-F(x^{\prime })_{C(x)},&{\text{(Untargeted)}}\\F(x^{\prime })_{c^{*}}-\max _{c\neq c^{*}}{F(x^{\prime })_{c}},&{\text{(Targeted)}}\end{cases}}$

Esto se puede simplificar aún más para visualizar mejor el límite entre diferentes ejemplos adversarios potenciales: ^[90]

$S(x^{\prime })>0\iff {\begin{cases}argmax_{c}F(x^{\prime })\neq C(x),&{\text{(Untargeted)}}\\argmax_{c}F(x^{\prime })=c^{*},&{\text{(Targeted)}}\end{cases}}$

Con esta función límite, el ataque sigue luego un algoritmo iterativo para encontrar ejemplos adversarios para una imagen dada que satisfaga los objetivos del ataque. ${\textstyle x^{\prime }}$ ${\textstyle x}$

Inicializar hasta algún punto donde ${\textstyle x}$ ${\textstyle S(x)>0}$
Iterar a continuación
1. Búsqueda de límites
2. Actualización de gradiente
  - Calcular el gradiente
  - Encuentra el tamaño del paso

La búsqueda de límites utiliza una búsqueda binaria modificada para encontrar el punto en el que el límite (tal como se define por ) intersecta con la línea entre y . El siguiente paso implica calcular el gradiente para , y actualizar el original utilizando este gradiente y un tamaño de paso preseleccionado. Los autores de HopSkipJump demuestran que este algoritmo iterativo convergerá, lo que conducirá a un punto justo a lo largo del límite que está muy cerca en distancia a la imagen original. ^[90] ${\textstyle S}$ ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle x}$ ${\textstyle x}$ ${\textstyle x}$

Sin embargo, dado que HopSkipJump es un ataque de caja negra propuesto y el algoritmo iterativo anterior requiere el cálculo de un gradiente en el segundo paso iterativo (al que los ataques de caja negra no tienen acceso), los autores proponen una solución para el cálculo del gradiente que requiere solo las predicciones de salida del modelo. ^[90] Al generar muchos vectores aleatorios en todas las direcciones, denotados como , se puede calcular una aproximación del gradiente utilizando el promedio de estos vectores aleatorios ponderados por el signo de la función límite en la imagen , donde es el tamaño de la perturbación del vector aleatorio: ^[90] ${\textstyle u_{b}}$ ${\textstyle x^{\prime }+\delta _{u_{b}}}$ ${\textstyle \delta _{u_{b}}}$

$\nabla S(x^{\prime },\delta )\approx {\frac {1}{B}}\sum _{b=1}^{B}\phi (x^{\prime }+\delta _{u_{b}})u_{b}$

El resultado de la ecuación anterior proporciona una aproximación cercana del gradiente requerido en el paso 2 del algoritmo iterativo, completando HopSkipJump como un ataque de caja negra. ^[91]^[92]^[90]

Ataques de caja blanca

Los ataques de caja blanca suponen que el adversario tiene acceso a los parámetros del modelo además de poder obtener etiquetas para las entradas proporcionadas. ^[86]

Método de signo de gradiente rápido

Uno de los primeros ataques propuestos para generar ejemplos adversarios fue propuesto por los investigadores de Google Ian J. Goodfellow , Jonathon Shlens y Christian Szegedy. ^[93] El ataque se llamó método de signo de gradiente rápido (FGSM), y consiste en agregar una cantidad lineal de ruido imperceptible a la imagen y hacer que un modelo la clasifique incorrectamente. Este ruido se calcula multiplicando el signo del gradiente con respecto a la imagen que queremos perturbar por una pequeña constante épsilon. A medida que épsilon aumenta, es más probable que el modelo sea engañado, pero las perturbaciones también se vuelven más fáciles de identificar. A continuación se muestra la ecuación para generar un ejemplo adversario donde es la imagen original, es un número muy pequeño, es la función de gradiente, es la función de pérdida, son los pesos del modelo y es la etiqueta verdadera. ^[94] ${\textstyle x}$ ${\textstyle \epsilon }$ ${\textstyle \Delta _{x}}$ ${\textstyle J}$ ${\textstyle \theta }$ ${\textstyle y}$

$adv_{x}=x+\epsilon \cdot sign(\Delta _{x}J(\theta ,x,y))$

Una propiedad importante de esta ecuación es que el gradiente se calcula con respecto a la imagen de entrada, ya que el objetivo es generar una imagen que maximice la pérdida de la imagen original de la etiqueta verdadera . En el descenso de gradiente tradicional (para el entrenamiento del modelo), el gradiente se utiliza para actualizar los pesos del modelo, ya que el objetivo es minimizar la pérdida del modelo en un conjunto de datos de verdad fundamental. El método de signo de gradiente rápido se propuso como una forma rápida de generar ejemplos adversarios para evadir el modelo, basándose en la hipótesis de que las redes neuronales no pueden resistir incluso cantidades lineales de perturbación a la entrada. ^[95]^[94]^[93] El FGSM ha demostrado ser eficaz en ataques adversarios para la clasificación de imágenes y el reconocimiento de acciones esqueléticas. ^[96] ${\textstyle y}$

Carlini y Wagner (C&W)

En un esfuerzo por analizar los ataques y defensas adversarios existentes, los investigadores de la Universidad de California, Berkeley, Nicholas Carlini y David Wagner, en 2016, propusieron un método más rápido y más sólido para generar ejemplos adversarios. ^[97]

El ataque propuesto por Carlini y Wagner comienza intentando resolver una difícil ecuación de optimización no lineal: ^[63]

$\min(||\delta ||_{p}){\text{ subject to }}C(x+\delta )=t,x+\delta \in [0,1]^{n}$

Aquí el objetivo es minimizar el ruido ( ), añadido a la entrada original , de modo que el algoritmo de aprendizaje automático ( ) prediga la entrada original con delta (o ) como alguna otra clase . Sin embargo, en lugar de utilizar directamente la ecuación anterior, Carlini y Wagner proponen utilizar una nueva función tal que: ^[63] ${\textstyle \delta }$ ${\textstyle x}$ ${\textstyle C}$ ${\textstyle x+\delta }$ ${\textstyle t}$ ${\textstyle f}$

$C(x+\delta )=t\iff f(x+\delta )\leq 0$

Esto condensa la primera ecuación en el problema siguiente: ^[63]

$\min(||\delta ||_{p}){\text{ subject to }}f(x+\delta )\leq 0,x+\delta \in [0,1]^{n}$

y aún más a la ecuación siguiente: ^[63]

$\min(||\delta ||_{p}+c\cdot f(x+\delta )),x+\delta \in [0,1]^{n}$

Carlini y Wagner proponen entonces el uso de la siguiente función en lugar de utilizar , una función que determina las probabilidades de clase para una entrada dada . Cuando se sustituye, se puede pensar en esta ecuación como la búsqueda de una clase objetivo que sea más confiable que la siguiente clase más probable por una cantidad constante: ^[63] ${\textstyle f}$ ${\textstyle Z}$ ${\textstyle x}$

$f(x)=([\max _{i\neq t}Z(x)_{i}]-Z(x)_{t})^{+}$

Cuando se resuelve mediante el descenso de gradiente, esta ecuación puede producir ejemplos adversarios más fuertes en comparación con el método de signo de gradiente rápido que también puede eludir la destilación defensiva, una defensa que alguna vez se propuso como efectiva contra ejemplos adversarios. ^[98]^[99]^[97]^[63]

Defensas

Los investigadores han propuesto un enfoque de varios pasos para proteger el aprendizaje automático. ^[11]

Modelado de amenazas: formalice los objetivos y las capacidades de los atacantes con respecto al sistema objetivo.
Simulación de ataque: formaliza el problema de optimización que el atacante intenta resolver de acuerdo con las posibles estrategias de ataque.
Evaluación del impacto de los ataques
Diseño de contramedidas
Detección de ruido (para ataques basados en evasión) ^[100]
Lavado de información: Alterar la información recibida por los adversarios (para ataques de robo de modelos) ^[63]

Mecanismos

Se han propuesto varios mecanismos de defensa contra la evasión, el envenenamiento y los ataques a la privacidad, entre ellos:

Algoritmos de aprendizaje seguro ^[20]^[101]^[102]
Algoritmos resilientes bizantinos ^[54]^[5]
Sistemas de clasificación múltiple ^[19]^[103]
Algoritmos escritos por IA. ^[33]
IA que exploran el entorno de entrenamiento; por ejemplo, en el reconocimiento de imágenes, navegando activamente en un entorno 3D en lugar de escanear pasivamente un conjunto fijo de imágenes 2D. ^[33]
Aprendizaje que preserva la privacidad ^[42]^[104]
Algoritmo de escalera para competiciones estilo Kaggle
Modelos de teoría de juegos ^[105]^[106]^[107]
Desinfección de datos de entrenamiento
Entrenamiento adversarial ^[81]^[22]
Algoritmos de detección de puertas traseras ^[108]
Técnicas de enmascaramiento/ofuscación de gradiente: para evitar que el adversario aproveche el gradiente en ataques de caja blanca. Esta familia de defensas se considera poco confiable ya que estos modelos aún son vulnerables a ataques de caja negra o pueden eludirse de otras maneras. ^[109]
Se han propuesto conjuntos de modelos en la literatura, pero se debe tener cuidado al confiar en ellos: generalmente, agrupar clasificadores débiles da como resultado un modelo más preciso, pero no parece aplicarse en el contexto adversarial. ^[110]

Véase también

Referencias

^ Kianpour, Mazaher; Wen, Shao-Fang (2020). "Ataques de sincronización en el aprendizaje automático: estado del arte". Sistemas inteligentes y aplicaciones . Avances en sistemas inteligentes y computación. Vol. 1037. págs. 111–125. doi :10.1007/978-3-030-29516-5_10. ISBN 978-3-030-29515-8.S2CID201705926 .
^ por Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon (mayo de 2020). "Aprendizaje automático adversario: perspectivas de la industria". Talleres de seguridad y privacidad del IEEE de 2020 (SPW) . págs. 69–75. doi :10.1109/SPW50608.2020.00028. ISBN . 978-1-7281-9346-5.S2CID229357721 .
^ Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 de junio de 2018). "Hacer que el aprendizaje automático sea robusto frente a entradas adversarias". Comunicaciones de la ACM . 61 (7): 56–66. doi : 10.1145/3134599 . ISSN 0001-0782.^{[ enlace muerto permanente ]}
^ Geiping, Jonas; Fowl, Liam H.; Huang, W. Ronny; Czaja, Wojciech; Taylor, Gavin; Moeller, Michael; Goldstein, Tom (28 de septiembre de 2020). Brebaje de brujas: envenenamiento de datos a escala industrial mediante el emparejamiento de gradientes. Conferencia internacional sobre representaciones de aprendizaje 2021 (póster).
^ abc El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (6 de diciembre de 2021). "Aprendizaje colaborativo en la jungla (aprendizaje descentralizado, bizantino, heterogéneo, asincrónico y no convexo)". Avances en sistemas de procesamiento de información neuronal . 34 . arXiv : 2008.00742 .
^ Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas (2016). Robo de modelos de aprendizaje automático mediante predicción {API}. 25.° Simposio de seguridad de USENIX. págs. 601–618. ISBN 978-1-931971-32-4.
^ "Cómo vencer a un filtro antispam adaptativo/bayesiano (2004)" . Consultado el 5 de julio de 2023 .
^ ab Biggio, Battista; Nelson, Blaine; Laskov, Pavel (25 de marzo de 2013). "Ataques de envenenamiento contra máquinas de vectores de soporte". arXiv : 1206.6389 [cs.LG].
^ abc Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio (2013). "Ataques de evasión contra el aprendizaje automático en el momento de la prueba". Ingeniería de sistemas de información avanzada . Apuntes de clase en informática. Vol. 7908. Springer. págs. 387–402. arXiv : 1708.06131 . doi :10.1007/978-3-642-40994-3_25. ISBN . 978-3-642-38708-1. Número de identificación del sujeto 18716873.
^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de febrero de 2014). "Propiedades intrigantes de las redes neuronales". arXiv : 1312.6199 [cs.CV].
^ ab Biggio, Battista; Roli, Fabio (diciembre de 2018). "Patrones salvajes: diez años después del auge del aprendizaje automático adversarial". Reconocimiento de patrones . 84 : 317–331. arXiv : 1712.03141 . Código Bibliográfico :2018PatRe..84..317B. doi :10.1016/j.patcog.2018.07.023. S2CID 207324435.
^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2016). "Ejemplos adversarios en el mundo físico". arXiv : 1607.02533 [cs.CV].
^ Gupta, Kishor Datta, Dipankar Dasgupta y Zahid Akhtar. "Cuestiones de aplicabilidad de los ataques adversarios basados en la evasión y técnicas de mitigación". Simposio IEEE 2020 sobre inteligencia computacional (SSCI). 2020.
^ ab Lim, Hazel Si Min; Taeihagh, Araz (2019). "Toma de decisiones algorítmica en vehículos autónomos: comprensión de las preocupaciones éticas y técnicas para las ciudades inteligentes". Sustainability . 11 (20): 5791. arXiv : 1910.13122 . Bibcode :2019arXiv191013122L. doi : 10.3390/su11205791 . S2CID 204951009.
^ ab "Nicholas Frosst de Google Brain habla de ejemplos adversarios y respuestas emocionales". Sincronizado . 2019-11-21 . Consultado 2021-10-23 .
^ "Prácticas de inteligencia artificial responsables". Google AI . Consultado el 23 de octubre de 2021 .
^ abc Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 23 de octubre de 2021 , consultado el 23 de octubre de 2021
^ amarshal. "Modos de falla en el aprendizaje automático: documentación de seguridad". docs.microsoft.com . Consultado el 23 de octubre de 2021 .
^ ab Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). "Sistemas de clasificación múltiple para el diseño robusto de clasificadores en entornos adversarios". Revista internacional de aprendizaje automático y cibernética . 1 (1–4): 27–41. doi :10.1007/s13042-010-0007-7. hdl :11567/1087824. ISSN 1868-8071. S2CID 8729381. Archivado desde el original el 19 de enero de 2023 . Consultado el 14 de enero de 2015 .
^ ab Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). "Juegos de predicción estática para problemas de aprendizaje adversarial" (PDF) . Revista de investigación en aprendizaje automático . 13 (septiembre): 2617–2654. ISSN 1533-7928.
^ Apruzzese, Giovanni; Andreolini, Mauro; Ferretti, Luca; Marchetti, Mirco; Colajanni, Michele (3 de junio de 2021). "Modelado de ataques adversarios realistas contra sistemas de detección de intrusiones en la red". Amenazas digitales: investigación y práctica . 3 (3): 1–19. arXiv : 2106.09380 . doi :10.1145/3469659. ISSN 2692-1626. S2CID 235458519.
^ ab Vitorino, João; Oliveira, Nuño; Praça, Isabel (marzo 2022). "Patrones de perturbación adaptativos: aprendizaje adversario realista para una detección sólida de intrusiones". Internet del futuro . 14 (4): 108. doi : 10.3390/fi14040108 . hdl : 10400.22/21851 . ISSN 1999-5903.
^ ab Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 de junio de 2009). "Robustez de los métodos de fusión biométrica multimodal contra ataques de suplantación" (PDF) . Journal of Visual Languages & Computing . 20 (3): 169–179. doi :10.1016/j.jvlc.2009.01.010. ISSN 1045-926X.
^ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (octubre de 2019). "Ataque de un píxel para engañar a las redes neuronales profundas". IEEE Transactions on Evolutionary Computation . 23 (5): 828–841. arXiv : 1710.08864 . doi :10.1109/TEVC.2019.2890858. ISSN 1941-0026. S2CID 2698863.
^ "Un cambio de un solo píxel engaña a los programas de inteligencia artificial". BBC News . 3 de noviembre de 2017 . Consultado el 12 de febrero de 2018 .
^ Athalye, Anish; Engstrom, Logan; Ilyas, Andrew; Kwok, Kevin (2017). "Sintetización de ejemplos adversarios robustos". arXiv : 1707.07397 [cs.CV].
^ "La IA tiene un problema de alucinaciones que está resultando difícil de solucionar". WIRED . 2018 . Consultado el 10 de marzo de 2018 .
^ Zhou, Zhenglong; Firestone, Chaz (2019). "Los humanos pueden descifrar imágenes adversarias". Nature Communications . 10 (1): 1334. arXiv : 1809.04120 . Bibcode :2019NatCo..10.1334Z. doi : 10.1038/s41467-019-08931-6 . PMC 6430776 . PMID 30902973.
^ Ackerman, Evan (4 de agosto de 2017). "Pequeñas modificaciones en las señales de tráfico pueden engañar por completo a los algoritmos de aprendizaje automático". IEEE Spectrum: noticias sobre tecnología, ingeniería y ciencia . Consultado el 15 de julio de 2019 .
^ "Un pequeño trozo de cinta engañó a los Tesla para que aceleraran a 50 MPH". Wired . 2020 . Consultado el 11 de marzo de 2020 .
^ "Hackeo de modelos ADAS para pavimentar carreteras más seguras para vehículos autónomos". Blogs de McAfee . 19 de febrero de 2020 . Consultado el 11 de marzo de 2020 .
^ Seabrook, John (2020). "Vestirse para la era de la vigilancia". The New Yorker . Consultado el 5 de abril de 2020 .
^ abc Heaven, Douglas (octubre de 2019). «Por qué las IA de aprendizaje profundo son tan fáciles de engañar». Nature . 574 (7777): 163–166. Bibcode :2019Natur.574..163H. doi :10.1038/d41586-019-03013-5. PMID 31597977. S2CID 203928744.
^ Hutson, Matthew (10 de mayo de 2019). "La IA ahora puede defenderse de los mensajes maliciosos ocultos en el habla". Nature . doi :10.1038/d41586-019-01510-1. PMID 32385365. S2CID 189666088.
^ Lepori, Michael A; Firestone, Chaz (27 de marzo de 2020). "¿Puedes oírme ahora? Comparaciones sensibles de la percepción humana y de las máquinas". arXiv : 2003.12362 [eess.AS].
^ Vadillo, Jon; Santana, Roberto (23 de enero de 2020). "Sobre la evaluación humana de ejemplos de audio adversariales". arXiv : 2001.08444 [eess.AS].
^ DB Skillicorn. "Descubrimiento de conocimiento adversarial". IEEE Intelligent Systems, 24:54–61, 2009.
^ ab B. Biggio, G. Fumera y F. Roli. "Sistemas de reconocimiento de patrones bajo ataque: problemas de diseño y desafíos de investigación Archivado el 20 de mayo de 2022 en Wayback Machine ". Int'l J. Patt. Recogniz. Artif. Intell., 28(7):1460002, 2014.
^ ab Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, JD (2010). "La seguridad del aprendizaje automático" (PDF) . Aprendizaje automático . 81 (2): 121–148. doi : 10.1007/s10994-010-5188-5 . S2CID 2304759.
^ Sikos, Leslie F. (2019). IA en ciberseguridad . Biblioteca de referencia de sistemas inteligentes. Vol. 151. Cham: Springer. pág. 50. doi :10.1007/978-3-319-98842-9. ISBN 978-3-319-98841-2.S2CID259216663 .
^ abc B. Biggio, G. Fumera y F. Roli. "Evaluación de seguridad de clasificadores de patrones bajo ataque Archivado el 18 de mayo de 2018 en Wayback Machine ". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.
^ abcde Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin IP; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio (2014). "Evaluación de seguridad de máquinas de vectores de soporte en entornos adversarios". Aplicaciones de máquinas de vectores de soporte . Springer International Publishing. págs. 105–153. arXiv : 1401.7727 . doi :10.1007/978-3-319-02300-7_4. ISBN 978-3-319-02300-7.S2CID18666561 .
^ Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (15 de junio de 2020). "Engáñame una vez, la culpa es tuya; engáñame dos veces, la culpa es mía: una taxonomía de patrones de ataque y defensa para la seguridad de la IA". Documentos de investigación de ECIS 2020 .
^ "Facebook elimina 15 mil millones de cuentas falsas en dos años". Tech Digest . 2021-09-27 . Consultado el 2022-06-08 .
^ "Facebook eliminó 3 mil millones de cuentas falsas en solo 6 meses". New York Post . Associated Press. 2019-05-23 . Consultado el 2022-06-08 .
^ Schwarzschild, Avi; Goldblum, Micah; Gupta, Arjun; Dickerson, John P.; Goldstein, Tom (1 de julio de 2021). "¿Qué tan tóxico es el envenenamiento de datos? Un punto de referencia unificado para ataques de puerta trasera y envenenamiento de datos". Conferencia internacional sobre aprendizaje automático . PMLR: 9389–9398.
^ B. Biggio, B. Nelson y P. Laskov. "Máquinas de vectores de soporte bajo ruido de etiquetas adversarias Archivado el 3 de agosto de 2020 en Wayback Machine ". En Journal of Machine Learning Research – Proc. 3rd Asian Conf. Machine Learning, volumen 20, págs. 97–112, 2011.
^ M. Kloft y P. Laskov. "Análisis de seguridad de la detección de anomalías de centroide en línea". Journal of Machine Learning Research, 13:3647–3690, 2012.
^ Edwards, Benj (25 de octubre de 2023). «Investigadores de la Universidad de Chicago buscan «envenenar» los generadores de arte de IA con Nightshade». Ars Technica . Consultado el 27 de octubre de 2023 .
^ Rao, Rahul. "Los datos generados por IA pueden envenenar los modelos de IA futuros". Scientific American . Consultado el 22 de junio de 2024 .
^ Baruch, Gilad; Baruch, Moran; Goldberg, Yoav (2019). "Un poco es suficiente: cómo sortear las defensas del aprendizaje distribuido". Avances en sistemas de procesamiento de información neuronal . 32 . Curran Associates, Inc. arXiv : 1902.06156 .
^ El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (26 de mayo de 2022). "Aprendizaje automático bizantino genuinamente distribuido". Computación distribuida . 35 (4): 305–331. arXiv : 1905.03853 . doi : 10.1007/s00446-022-00427-9 . ISSN 1432-0452. S2CID 249111966.
^ Goldwasser, S.; Kim, Michael P.; Vaikuntanathan, V.; Zamir, Or (2022). "Cómo implantar puertas traseras indetectables en modelos de aprendizaje automático". arXiv : 2204.06974 [cs.LG].
^ ab Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien (2017). "Aprendizaje automático con adversarios: descenso de gradiente tolerante bizantino". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc.
^ Chen, Lingjiao; Wang, Hongyi; Charles, Zachary; Papailiopoulos, Dimitris (3 de julio de 2018). "DRACO: Entrenamiento distribuido resistente a los cambios bizantinos mediante gradientes redundantes". Conferencia internacional sobre aprendizaje automático . PMLR: 903–912. arXiv : 1803.09877 .
^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (3 de julio de 2018). "La vulnerabilidad oculta del aprendizaje distribuido en Bizancio". Conferencia internacional sobre aprendizaje automático . PMLR: 3521–3530. arXiv : 1802.07927 .
^ Allen-Zhu, Zeyuan; Ebrahimianghazani, Faeze; Li, Jerry; Alistarh, Dan (28 de septiembre de 2020). "Descenso de gradiente estocástico no convexo resistente a los cambios bizantinos". arXiv : 2012.14368 [cs.LG].Revisar
^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (28 de septiembre de 2020). Momento distribuido para descenso de gradiente estocástico resistente a bizantino. Novena Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), 4-8 de mayo de 2021 (conferencia virtual) . Consultado el 20 de octubre de 2022 .Revisar
^ Datos, Deepesh; Diggavi, Suhas (1 de julio de 2021). "SGD bizantino-resiliente de alta dimensión con iteraciones locales en datos heterogéneos". Conferencia internacional sobre aprendizaje automático . PMLR: 2478–2488.
^ Karimireddy, Sai Praneeth; He, Lie; Jaggi, Martin (29 de septiembre de 2021). "Aprendizaje robusto bizantino en conjuntos de datos heterogéneos mediante agrupamiento". arXiv : 2006.09365 [cs.LG].Revisar
^ B. Nelson, BI Rubinstein, L. Huang, AD Joseph, SJ Lee, S. Rao y JD Tygar. "Estrategias de consulta para evadir clasificadores que inducen convexidad". J. Mach. Learn. Res., 13:1293–1332, 2012
^ "¿Cómo robar sistemas de PNL modernos con jerga?". Cleverhans-blog . 2020-04-06 . Consultado el 2020-10-15 .
^ abcdefgh Wang, Xinran; Xiang, Yu; Gao, junio; Ding, Jie (13 de septiembre de 2020). "Lavado de Información para la Privacidad de Modelos". arXiv : 2009.06112 [cs.CR].
^ ab Dickson, Ben (23 de abril de 2021). "Aprendizaje automático: ¿Qué son los ataques de inferencia de membresía?". TechTalks . Consultado el 7 de noviembre de 2021 .
^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "Explicación y aprovechamiento de ejemplos adversarios". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 1412.6572 .
^ Pieter, Huang; Papernot, Sandy; Goodfellow, Nicolas; Duan, Ian; Abbeel, Yan (7 de febrero de 2017). Ataques adversarios a políticas de redes neuronales . OCLC 1106256905.
^ Korkmaz, Ezgi (2022). "Las políticas de aprendizaje por refuerzo profundo aprenden características adversarias compartidas entre MDP". Trigésima sexta conferencia AAAI sobre inteligencia artificial (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi :10.1609/aaai.v36i7.20684. S2CID 245219157.
^ Carlini, Nicholas; Wagner, David (2018). "Ejemplos de audio adversarial: ataques dirigidos a la conversión de voz a texto". Talleres de seguridad y privacidad del IEEE de 2018 (SPW) . pp. 1–7. arXiv : 1801.01944 . doi :10.1109/SPW.2018.00009. ISBN . 978-1-5386-8276-0. Número de identificación del sujeto 4475201.
^ Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015). Explicación y aprovechamiento de ejemplos adversarios . Conferencia internacional sobre representaciones del aprendizaje (ICLR).
^ Ribeiro, Antonio H.; Zachariah, Dave; Bach, Francis; Schön, Thomas B. (2023). Propiedades de regularización de la regresión lineal entrenada adversariamente. Trigésima séptima Conferencia sobre Sistemas de Procesamiento de Información Neural.
^ Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Turner, Alexander; Ma, Aleksander (2019). La robustez puede estar reñida con la precisión . Conferencia internacional sobre representaciones del aprendizaje.
^ Dan, C.; Wei, Y.; Ravikumar, P. (2020). Garantías estadísticas precisas para una clasificación gaussiana adversariamente robusta. Conferencia internacional sobre aprendizaje automático.
^ Javanmard, A.; Soltanolkotabi, M.; Hassani, H. (2020). Compensaciones precisas en el entrenamiento adversario para la regresión lineal. Conferencia sobre teoría del aprendizaje.
^ Ribeiro, AH; Schön, TB (2023). "Regresión lineal sobreparametrizada bajo ataques adversarios". IEEE Transactions on Signal Processing . 71 : 601–614. arXiv : 2204.06274 . Código Bibliográfico :2023ITSP...71..601R. doi :10.1109/TSP.2023.3246228.
^ Yin, D.; Kannan, R.; Bartlett, P. (2019). Complejidad de Rademacher para generalización adversariamente robusta. Conferencia internacional sobre aprendizaje automático.
^ Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (mayo de 2018). "Manipulación del aprendizaje automático: ataques de envenenamiento y contramedidas para el aprendizaje de regresión". Simposio IEEE sobre seguridad y privacidad de 2018 (SP) . IEEE. págs. 19–35. arXiv : 1804.00308 . doi :10.1109/sp.2018.00057. ISBN . 978-1-5386-4353-2.S2CID 4551073 .
^ "Ataque al aprendizaje automático con ejemplos adversarios". OpenAI . 2017-02-24 . Consultado el 2020-10-15 .
^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de marzo de 2019). "BadNets: identificación de vulnerabilidades en la cadena de suministro del modelo de aprendizaje automático". arXiv : 1708.06733 [cs.CR].
^ Veale, Michael; Binns, Reuben; Edwards, Lilian (28 de noviembre de 2018). "Algoritmos que recuerdan: ataques de inversión de modelos y ley de protección de datos". Philosophical Transactions. Series A, Ciencias matemáticas, físicas y de ingeniería . 376 (2133). arXiv : 1807.04644 . Bibcode :2018RSPTA.37680083V. doi : 10.1098/rsta.2018.0083. ISSN 1364-503X. PMC 6191664. PMID 30322998.
^ Shokri, Reza; Stronati, Marco; Song, Congzheng; Shmatikov, Vitaly (31 de marzo de 2017). "Ataques de inferencia de membresía contra modelos de aprendizaje automático". arXiv : 1610.05820 [cs.CR].
^ ab Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (20 de marzo de 2015). "Explicación y aprovechamiento de ejemplos adversarios". arXiv : 1412.6572 [stat.ML].
^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). "Hacia modelos de aprendizaje profundo resistentes a ataques adversarios". arXiv : 1706.06083 [stat.ML].
^ Carlini, Nicholas; Wagner, David (22 de marzo de 2017). "Hacia la evaluación de la robustez de las redes neuronales". arXiv : 1608.04644 [cs.CR].
^ Brown, Tom B.; Mané, Dandelion; Roy, Aurko; Abadi, Martín; Gilmer, Justin (16 de mayo de 2018). "Parche adversario". arXiv : 1712.09665 [cs.CV].
^ Guo, Sensen; Zhao, Jinxiong; Li, Xiaoyu; Duan, Junhong; Mu, Dejun; Jing, Xiao (24 de abril de 2021). "Un método de ataque de caja negra contra modelos de detección de flujo de red de anomalías basados en aprendizaje automático". Seguridad y redes de comunicación . 2021 . e5578335. doi : 10.1155/2021/5578335 . ISSN 1939-0114.
^ ab Gomes, Joao (17 de enero de 2018). "Ataques adversarios y defensas para redes neuronales convolucionales". Onfido Tech . Consultado el 23 de octubre de 2021 .
^ Guo, Chuan; Gardner, Jacob; You, Yurong; Wilson, Andrew Gordon; Weinberger, Kilian (24 de mayo de 2019). "Ataques adversarios de caja negra simples". Actas de la 36.ª Conferencia internacional sobre aprendizaje automático . PMLR: 2484–2493.
^ Kilian Weinberger. Sobre la importancia de la deconstrucción en la investigación del aprendizaje automático. ML-Retrospectives @ NeurIPS 2020, 2020. https://slideslive.com/38938218/the-importance-of-deconstruction
^ abcde Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020). "Ataque cuadrado: un ataque adversario de caja negra eficiente en consultas mediante búsqueda aleatoria". En Vedaldi, Andrea; Bischof, Horst; Brox, Thomas; Frahm, Jan-Michael (eds.). Visión artificial – ECCV 2020. Apuntes de clase en informática. Vol. 12368. Cham: Springer International Publishing. págs. 484–501. arXiv : 1912.00049 . doi :10.1007/978-3-030-58592-1_29. ISBN 978-3-030-58592-1.S2CID208527215 .
^ abcdefg Chen, Jianbo; Jordan, Michael I.; Wainwright, Martin J. (2019), HopSkipJumpAttack: un ataque basado en decisiones con eficiencia de consulta, arXiv : 1904.02144 , consultado el 25 de octubre de 2021
^ Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (29 de julio de 2020). "Ataque cuadrado: un ataque adversario de caja negra eficiente en consultas mediante búsqueda aleatoria". arXiv : 1912.00049 [cs.LG].
^ "Ataques basados en decisiones de caja negra sobre imágenes". KejiTech . 2020-06-21 . Consultado el 2021-10-25 .
^ ab Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (20 de marzo de 2015). "Explicación y aprovechamiento de ejemplos adversarios". arXiv : 1412.6572 [stat.ML].
^ ab "Ejemplo adversarial usando FGSM | TensorFlow Core". TensorFlow . Consultado el 24 de octubre de 2021 .
^ Tsui, Ken (22 de agosto de 2018). "Quizás la introducción más simple de ejemplos adversarios jamás vista". Medium . Consultado el 24 de octubre de 2021 .
^ Corona-Figueroa, Abril; Bond-Taylor, Sam; Bhowmik, Neelanjan; Gaus, Yona Falinie A.; Breckon, Toby P.; Shum, Hubert PH; Willcocks, Chris G. (2023). Traducción desalineada de 2D a 3D con difusión de código cuantificado por vectores condicional utilizando transformadores . IEEE/CVF. arXiv : 2308.14152 .
^ ab Carlini, Nicholas; Wagner, David (22 de marzo de 2017). "Hacia la evaluación de la robustez de las redes neuronales". arXiv : 1608.04644 [cs.CR].
^ "Ataque de Carlini Wagner". richardjordan.com . Consultado el 23 de octubre de 2021 .
^ Plotz, Mike (26 de noviembre de 2018). "Resumen del artículo: Los ejemplos adversarios no se detectan fácilmente: cómo eludir diez métodos de detección". Medium . Consultado el 23 de octubre de 2021 .
^ Kishor Datta Gupta; Akhtar, Zahid; Dasgupta, Dipankar (2021). "Determinación de la secuencia de la técnica de procesamiento de imágenes (IPT) para detectar ataques adversarios". SN Computer Science . 2 (5): 383. arXiv : 2007.00337 . doi :10.1007/s42979-021-00773-8. ISSN 2662-995X. S2CID 220281087.
^ O. Dekel, O. Shamir y L. Xiao. "Aprender a clasificar con características faltantes o corruptas". Machine Learning, 81:149–178, 2010.
^ Liu, Wei; Chawla, Sanjay (2010). "Extracción de patrones adversarios mediante la minimización de pérdidas regularizadas" (PDF) . Aprendizaje automático . 81 : 69–83. doi : 10.1007/s10994-010-5199-2 . S2CID 17497168.
^ B. Biggio, G. Fumera y F. Roli. "Evade hard multiple classifier systems Archivado el 15 de enero de 2015 en Wayback Machine ". En O. Okun y G. Valentini, editores, Supervised and Unsupervised Ensemble Methods and Their Applications, volumen 245 de Studies in Computational Intelligence, páginas 15-38. Springer Berlin / Heidelberg, 2009.
^ BIP Rubinstein, PL Bartlett, L. Huang y N. Taft. "Aprendizaje en un espacio funcional amplio: mecanismos de preservación de la privacidad para el aprendizaje de SVM". Journal of Privacy and Confidentiality, 4(1):65–100, 2012.
^ M. Kantarcioglu, B. Xi, C. Clifton. "Evaluación de clasificadores y selección de atributos contra adversarios activos". Data Min. Knowl. Discov., 22:291–335, enero de 2011.
^ Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). "Aprendizaje profundo antagónico teórico de juegos con adversarios variacionales". IEEE Transactions on Knowledge and Data Engineering . 33 (11): 3568–3581. doi :10.1109/TKDE.2020.2972320. hdl : 10453/145751 . ISSN 1558-2191. S2CID 213845560.
^ Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). "Modelos de aprendizaje profundo adversarial con múltiples adversarios". IEEE Transactions on Knowledge and Data Engineering . 31 (6): 1066–1079. doi :10.1109/TKDE.2018.2851247. hdl : 10453/136227 . ISSN 1558-2191. S2CID 67024195.
^ "TrojAI". www.iarpa.gov . Consultado el 14 de octubre de 2020 .
^ Athalye, Anish; Carlini, Nicholas; Wagner, David (1 de febrero de 2018). "Los gradientes ofuscados dan una falsa sensación de seguridad: cómo eludir las defensas ante un ejemplo adversario". arXiv : 1802.00420v1 [cs.LG].
^ He, Warren; Wei, James; Chen, Xinyun; Carlini, Nicholas; Song, Dawn (15 de junio de 2017). "Defensas adversarias de ejemplo: los conjuntos de defensas débiles no son fuertes". arXiv : 1706.04701 [cs.LG].

Enlaces externos

MITRE ATLAS: panorama de amenazas adversas para sistemas de inteligencia artificial
Borrador NIST 8269: Una taxonomía y terminología del aprendizaje automático adversario
Taller NIPS 2007 sobre aprendizaje automático en entornos adversarios para la seguridad informática
AlfaSVMLib Archivado el 24 de septiembre de 2020 en Wayback Machine – Ataques adversarios de cambio de etiquetas contra máquinas de vectores de soporte
Laskov, Pavel; Lippmann, Richard (2010). "Aprendizaje automático en entornos adversarios". Aprendizaje automático . 81 (2): 115–119. doi :10.1007/s10994-010-5207-6. S2CID 12567278.
Taller de perspectivas de Dagstuhl sobre "Métodos de aprendizaje automático para la seguridad informática"
Taller sobre Inteligencia Artificial y Seguridad, Serie (AISec)