stringtranslate.com

Estilometría adversarial

La estilometría adversarial es la práctica de alterar el estilo de escritura para reducir la posibilidad de que la estilometría descubra la identidad del autor o sus características. Esta tarea también se conoce como ofuscación de la autoría o anonimización de la autoría . La estilometría plantea un importante desafío a la privacidad en su capacidad para desenmascarar a autores anónimos o vincular seudónimos a otras identidades de un autor, lo que, por ejemplo, crea dificultades para denunciantes , activistas y estafadores . Se espera que el riesgo para la privacidad aumente a medida que se desarrollen las técnicas de aprendizaje automático y los corpus de texto .

Toda estilometría adversarial comparte la idea central de parafrasear fielmente el texto original de modo que el significado no se modifique pero las señales estilísticas se oculten. Una paráfrasis tan fiel es un ejemplo adversarial de un clasificador estilométrico. Existen varios enfoques generales para esto, con cierta superposición: imitación , sustituir el estilo propio del autor por el de otro; traducción , aplicar la traducción automática con la esperanza de que esto elimine el estilo característico en el texto original; y ofuscación , modificar deliberadamente el estilo de un texto para que no se parezca al del propio autor.

Es posible ocultar el estilo manualmente, pero es laborioso; en algunas circunstancias, es preferible o necesario. Las herramientas automatizadas, ya sean semiautomáticas o totalmente automáticas, podrían ayudar a un autor. La mejor manera de realizar la tarea y el diseño de dichas herramientas es una pregunta de investigación abierta. Si bien se ha demostrado que algunos enfoques pueden derrotar análisis estilométricos particulares, en particular aquellos que no tienen en cuenta el potencial de adversarialidad, establecer la seguridad frente a análisis desconocidos es un problema. Garantizar la fidelidad de la paráfrasis es un desafío crítico para las herramientas automatizadas.

No se sabe con certeza si la práctica de la estilometría adversarial es detectable en sí misma. Algunos estudios han descubierto que determinados métodos produjeron señales en el texto de salida, pero un estilometrista que no esté seguro de qué métodos se pudieron haber utilizado puede no ser capaz de detectarlos de manera fiable.

Historia

Rao y Rohatgi (2000), uno de los primeros trabajos sobre estilometría adversarial, [1] identificaron la traducción automática como una posibilidad, pero observaron que la calidad de los traductores disponibles en ese momento presentaba graves desafíos. [2] Kacmarcik y Gamon (2006) es otro de los primeros trabajos. Brennan, Afroz y Greenstadt (2012) realizaron la primera evaluación de los métodos estilométricos adversariales en textos reales. [1]

Brennan y Greenstadt (2009) presentaron el primer corpus de textos escritos por adversarios específicamente para evaluar métodos estilométricos; [3] otros corpus incluyen la Competencia Internacional de Imitación de Hemingway , el concurso Faux Faulkner y el blog falso A Gay Girl in Damascus . [4]

Motivaciones

Rao y Rohatgi (2000) sugieren que los documentos cortos y sin atribución (es decir, publicaciones anónimas ) no corren el riesgo de una identificación estilométrica, pero los autores seudónimos que no han practicado la estilometría adversarial al producir corpus de miles de palabras pueden ser vulnerables. [5] Narayanan et al. (2012) intentaron la desanonimización a gran escala de 100.000 autores de blogs con resultados mixtos: las identificaciones fueron significativamente mejores que el azar, pero solo coincidieron con precisión con el blog y el autor una quinta parte de las veces; [6] la identificación mejoró con el número de publicaciones escritas por el autor en el corpus. [7] Incluso si no se identifica a un autor, algunas de sus características aún pueden deducirse estilométricamente, [8] o la estilometría puede reducir el conjunto de anonimato de autores potenciales lo suficiente para que otra información complete la identificación. [7] Detectar las características del autor (por ejemplo, género o edad) a menudo es más simple que identificar a un autor de un conjunto grande, posiblemente abierto, de candidatos. [9]

Las técnicas modernas de aprendizaje automático ofrecen herramientas poderosas para la identificación; [10] es probable que un mayor desarrollo de los corpus y de las técnicas estilométricas computacionales genere más problemas de privacidad. [11] Gröndahl y Asokan (2020a) dicen que la validez general de la hipótesis subyacente a la estilometría (que los autores tienen "huellas de estilo" invariables e independientes del contenido) es incierta, pero "el ataque de desanonimización es una preocupación real en materia de privacidad". [12]

Entre los interesados ​​en practicar la estilometría adversarial y el engaño estilístico se incluyen los denunciantes que evitan las represalias; [13] periodistas y activistas; [10] perpetradores de fraudes y engaños ; [14] autores de críticas falsas ; [15] falsificadores literarios ; [16] criminales que ocultan su identidad a los investigadores; [17] y, en general, cualquier persona que desee anonimato o seudónimo. [13] Los autores, o los agentes que actúan en nombre de los autores, también pueden intentar eliminar pistas estilísticas sobre las características del autor (por ejemplo, raza o género) para que el conocimiento de esas características no se pueda utilizar para la discriminación (por ejemplo, a través del sesgo algorítmico ). [18] [19] Otro posible uso de la estilometría adversarial es disfrazar el texto generado automáticamente como si fuera de autoría humana. [20]

Métodos

Con la imitación, el autor intenta engañar a la estilometría haciendo coincidir su estilo con el de otro autor. [21] Una imitación incompleta, donde algunas de las características únicas del autor verdadero aparecen junto con las del autor imitado, puede ser una señal detectable para el uso de la estilometría adversaria. [22] La imitación se puede realizar automáticamente con sistemas de transferencia de estilo , aunque esto normalmente requiere un gran corpus en el estilo de destino para que el sistema aprenda de él. [23]

Otro enfoque es la traducción, que emplea la traducción automática de un texto fuente para eliminar el estilo característico, a menudo a través de múltiples traductores en secuencia para producir una traducción de ida y vuelta . Esta traducción encadenada puede provocar que los textos se alteren significativamente, incluso hasta el punto de volverse incomprensibles; las herramientas de traducción mejoradas reducen este riesgo. Los textos con una estructura más simple pueden ser más fáciles de traducir automáticamente sin perder el significado original. [21] La traducción automática se difumina en una imitación o confusión estilística directa lograda a través de la transferencia de estilo automatizada, que puede verse como una "traducción" con el mismo idioma como entrada y salida. [24] [25] Con herramientas de traducción de baja calidad, se puede requerir que un autor corrija manualmente errores de traducción importantes mientras evita el riesgo de volver a introducir características estilísticas. [2] Wang, Juola y Riddell (2022) descubrieron que los errores graves introducidos por Google Translate eran poco frecuentes, pero más comunes con varias traducciones intermedias; sin embargo, las oraciones simples o cortas ocasionales y los errores ortográficos en el texto fuente aparecían textualmente en el resultado, lo que potencialmente proporcionaba una señal de identificación. [26] La traducción en cadena puede dejar rastros característicos de su aplicación en un documento, lo que puede permitir la reconstrucción de los idiomas intermedios utilizados y el número de pasos de traducción realizados. [23]

La ofuscación implica cambiar deliberadamente el estilo de un texto para reducir su similitud con otros textos mediante alguna métrica; esto puede realizarse en el momento de la escritura mediante una modificación consciente, o como parte de un proceso de revisión con la retroalimentación de la métrica que se utiliza como entrada para decidir cuándo el texto ha sido suficientemente ofuscado. A diferencia de la traducción, los textos complejos pueden ofrecer más oportunidades para una ofuscación efectiva sin alterar el significado, [27] y, de la misma manera, los géneros con una variación más permisible permiten una mayor ofuscación. [28] Sin embargo, los textos más largos son más difíciles de ofuscar por completo. [29] La ofuscación puede mezclarse con la imitación si el autor desarrolla un estilo objetivo novedoso, distinto de su estilo original. [30] Con respecto al enmascaramiento de las características del autor, la ofuscación puede apuntar a lograr una unión (agregando señales para las características imitadas) o una intersección (eliminando señales y normalizando) de los estilos de otros autores. [31] Evitar las idiosincrasias propias del autor y producir un texto "normalizado" es un paso crítico en la ofuscación: un autor puede tener una tendencia única a escribir mal ciertas palabras, usar variantes particulares o formatear un documento de una manera característica. [2] [32] Las señales estilométricas varían en la facilidad con la que pueden enmascararse de manera adversa; un autor puede cambiar fácilmente su vocabulario por elección consciente, pero alterar el patrón gramatical o la frecuencia de las letras en su texto puede ser más difícil de lograr, aunque Juola y Vescovi (2011) informan que la imitación generalmente logra enmascarar más características que la ofuscación. [33] La ofuscación automatizada puede requerir grandes cantidades de datos de entrenamiento escritos por el autor. [29]

En cuanto a las implementaciones automatizadas de la estilometría adversarial, dos posibles implementaciones son los sistemas basados ​​en reglas para parafrasear; y las arquitecturas de codificador-decodificador, donde el texto pasa a través de un formato intermedio que es (destinado a ser) neutral en cuanto al estilo. [34] Otra división en los métodos automatizados es si hay retroalimentación de un sistema de identificación o no. [35] Con dicha retroalimentación, encontrar paráfrasis para enmascarar al autor se ha caracterizado como un problema de búsqueda heurística , explorando variantes textuales hasta que el resultado es estilísticamente lo suficientemente lejano (en el caso de la ofuscación) o cercano (en el caso de la imitación), lo que entonces constituye un ejemplo adversarial para ese sistema de identificación. [36] [37]

Evaluación

Cómo enmascarar mejor las características estilométricas en la práctica, y qué tareas realizar manualmente, qué con la asistencia de herramientas y qué de forma totalmente automática, es un campo de investigación abierto, especialmente en documentos cortos con una variabilidad potencial limitada. [38] [11] La estilometría adversarial manual puede ser preferida o incluso requerida si el autor no confía en las computadoras disponibles para la tarea (como puede ser el caso de un denunciante, por ejemplo). [23] Las herramientas de software requieren mantenimiento ; Wang, Juola y Riddell (2022) informan que no existe un software de ofuscación mantenido adecuado para uso general. [39] Zhai et al. (2022) identifican DS-PAN (Castro-Castro, Ortega Bueno y Muñoz 2017) y Mutant-X (Mahmood et al. 2019) como el estado del arte de 2022 en ofuscación automatizada. [40] La modulación estilística manual es un esfuerzo significativo, con malas propiedades de escalabilidad ; la asistencia de herramientas puede reducir la carga en diversos grados. [41] Los métodos automatizados deterministas pueden perder eficacia contra un clasificador entrenado de forma adversa, donde la salida del programa de transferencia de estilo se utiliza en el conjunto de entrenamiento del clasificador. [42]

Potthast, Hagen y Stein (2016) dan tres criterios para su uso en la evaluación de métodos de estilometría adversarial: seguridad , lo que significa que las características estilísticas se eliminan de forma fiable; solidez , lo que significa que el contenido semántico del texto no se altera de forma inaceptable; y sensatez , lo que significa que el resultado está "bien formado y es discreto". Comprometerse demasiado es normalmente un resultado inaceptable, y los tres se contrarrestan entre sí en la práctica. [43] Potthast, Hagen y Stein (2016) encuentran que evaluar automáticamente la sensibilidad, y específicamente si el resultado es aceptablemente gramatical y está bien formado, es difícil; [44] la evaluación automatizada de la solidez es algo más prometedora, pero la revisión manual es el mejor método. [45]

A pesar de que la seguridad es una propiedad importante de un método de estilometría adversarial, todavía se puede intercambiar de manera útil si el potencial de identificación estilométrica concedido es posible de otra manera mediante un análisis no estilométrico; por ejemplo, es poco probable que a un autor que habla de su propia crianza en Gran Bretaña le importe si la estilometría puede revelar que su texto es típico del inglés británico . [46] [47]

La evaluación de la seguridad de diferentes enfoques se complica por cómo la resistencia a la identificación depende fundamentalmente de los métodos de identificación bajo consideración. [48] La propiedad de ser resistente a análisis desconocidos se llama transferibilidad . [49] Gröndahl y Asokan (2020b) identifican cuatro modelos de amenaza diferentes para los autores, que varían con su conocimiento de cómo se analizará su texto y qué datos de entrenamiento se utilizarán: acceso de consulta , con el analista más débil y el autor más fuerte que conoce tanto los métodos de análisis como los datos de entrenamiento; acceso de arquitectura , donde el autor conoce los métodos de análisis pero no los datos de entrenamiento; acceso de datos , donde el autor conoce los datos de entrenamiento pero no los métodos de análisis; y acceso sustituto , con el autor más débil y el analista más fuerte, donde el autor no conoce los métodos de análisis ni los datos de entrenamiento. [34] Además, cuando un autor elige un método, debe confiar en su modelo de amenaza y confiar en que es válido, y que los análisis desconocidos capaces de detectar las señales estilísticas restantes no pueden o no se realizarán, o que el enmascaramiento se transfiere con éxito; [50] sin embargo, un estilometrista con conocimiento de cómo el autor intentó enmascarar su estilo, puede ser capaz de explotar alguna debilidad en el método y hacerlo inseguro. [51] Gran parte de la investigación sobre métodos automatizados ha asumido que el autor tiene acceso a consultas, lo que puede no generalizarse a otras configuraciones. [52] Los métodos de enmascaramiento que utilizan internamente un conjunto de diferentes análisis como modelo para su adversario pueden transferirse mejor contra análisis invisibles. [35]

Una pérdida total de solidez frustra el propósito de la comunicación, aunque puede ser tolerable cierto grado de cambio de significado si se preserva el mensaje central; requerir solo la implicación textual o permitir el resumen automático son otras opciones para perder algo de significado de una manera posiblemente tolerable. [53] Reescribir un texto de entrada para vencer la estilometría, en lugar de eliminar conscientemente las características estilísticas durante la composición, plantea desafíos para retener el significado textual. [54] Gröndahl y Asokan (2020a) evalúan el problema de la falta de solidez como "el desafío más importante" para la investigación de enfoques completamente automáticos. [11]

Por razones de sensibilidad, si un texto es tan agramatical que resulta incomprensible o está tan mal formado que no cabe en su género, entonces el método ha fallado, pero pueden ser útiles compromisos que no lleguen a ese punto. [44] Si se pierde parcialmente la inconspicuidad, existe la posibilidad de que se realicen análisis más costosos y menos escalables (por ejemplo, consultar a un lingüista forense) para confirmar sospechas o reunir más pruebas. [55] El impacto de una falla total de inconspicuidad varía según la motivación para realizar la estilometría adversarial: para alguien que simplemente intenta permanecer anónimo (por ejemplo, un denunciante), la detección puede no ser un problema; sin embargo, para un falsificador literario, la detección sería desastrosa. [16] La estilometría adversarial puede dejar evidencia de su práctica, lo que es una falla de inconspicuidad. [56] [57] En el corpus Brennan-Greenstadt, se ha descubierto que los textos comparten un "estilo" común propio. [58] Sin embargo, Gröndahl y Asokan (2020a) consideran que la evidencia existente es insuficiente para demostrar que la estilometría adversarial siempre es detectable, y solo se han estudiado métodos limitados. [59] Mejorar la suavidad del texto de salida puede reducir la detectabilidad de las herramientas automatizadas. [60] La detectabilidad general de la autoría adversarial no se ha estudiado a fondo; si los métodos disponibles para ser utilizados por el autor son desconocidos para el estilometrista, puede ser imposible. [11]

Los problemas de identificación y verificación de autores en un contexto adversarial son muy diferentes a los de reconocer autores ingenuos o cooperativos. [61] Juola y Vescovi (2011) describen los intentos deliberados de enmascarar la autoría como un "problema para el estado actual del arte estilométrico", [62] y Brennan, Afroz y Greenstadt (2012) afirman que, a pesar del alto rendimiento de la estilometría en la identificación de autores no adversariales, la aplicación manual de métodos adversariales la vuelve poco confiable. [63]

Kacmarcik y Gamon (2006) observan que los modelos estilométricos de baja dimensión que operan en un pequeño número de características son menos resistentes a la estilometría adversarial. [64] La investigación ha descubierto que los autores varían en su capacidad para modular su estilo, y algunos pueden realizar la tarea con éxito incluso sin entrenamiento. [39] Wang, Juola y Riddell (2022), una réplica y reproducción de Brennan, Afroz y Greenstadt (2012), descubrieron que los tres métodos de imitación, traducción y ofuscación redujeron significativamente la eficacia de la atribución de autoría, siendo la ofuscación manual algo más eficaz que la imitación o traducción manual, que funcionaron de manera similar entre sí; el estudio original encontró que la imitación era superior. [65] Potthast, Hagen y Stein (2016) informaron que incluso los métodos automatizados simples de estilometría adversarial causaban grandes dificultades para los sistemas de identificación de autoría de última generación, aunque a un costo significativo de solidez y sensibilidad. [66] Los sistemas de identificación que tienen en cuenta las amenazas pueden funcionar mucho mejor contra la estilometría adversaria siempre que sepan qué métodos de ofuscación potenciales se utilizaron, incluso si el identificador comete errores al analizar qué método de anonimización se utilizó. [67]

Véase también

Referencias

  1. ^ desde Brennan, Afroz y Greenstadt 2012, pág. 3-4.
  2. ^ abc Kacmarcik y Gamon 2006, pág. 445.
  3. ^ Juola y Vescovi 2011, pag. 117.
  4. ^ Afroz, Brennan y Greenstadt 2012, pág. 466.
  5. ^ Rao y Rohatgi 2000, 1.3 Contribuciones.
  6. ^ Gröndahl y Asokan 2020a, pag. 19.
  7. ^ ab Narayanan et al. 2012, pág. 301.
  8. ^ Emmery, Kádár y Chrupała 2021, p. 2388.
  9. ^ Shetty, Schiele y Fritz 2018, 1 Introducción.
  10. ^ ab Mahmood et al. 2019, pág. 54.
  11. ^ abcd Gröndahl y Asokan 2020a, pag. 28.
  12. ^ Gröndahl y Asokan 2020a, pag. 3.
  13. ^ desde Kacmarcik y Gamon 2006, pág. 444.
  14. ^ Afroz, Brennan y Greenstadt 2012, pág. 461.
  15. ^ Gröndahl y Asokan 2020a, pag. 4.
  16. ^ ab Potthast, Hagen y Stein 2016, pág. 5.
  17. ^ Juola y Vescovi 2011, pag. 115.
  18. ^ Xu y otros. 2019, pág. 247.
  19. ^ Mireshghallah y Berg-Kirkpatrick 2021, pág. 2009.
  20. ^ Uchendu, Le y Lee 2022, pág. 1.
  21. ^ ab Neal et al. 2018, pág. 6.
  22. ^ Kacmarcik y Gamon 2006, pág. 446.
  23. ^ abc Wang, Juola y Riddell 2022, pág. 2.
  24. ^ Adelani y col. 2021, pág. 8687.
  25. ^ Wang, Juola y Riddell 2022, pág. 8.
  26. ^ Neal et al. 2018, págs. 6-7.
  27. ^ Neal et al. 2018, pág. 26.
  28. ^ ab Mahmood et al. 2019, pág. 55.
  29. ^ Afroz, Brennan y Greenstadt 2012, pág. 471.
  30. ^ Mireshghallah y Berg-Kirkpatrick 2021, pág. 2009-2010.
  31. ^ Rao y Rohatgi 2000, 5 direcciones futuras.
  32. ^ Juola y Vescovi 2011, pag. 121-123.
  33. ^ ab Gröndahl y Asokan 2020b, pág. 177.
  34. ^ ab Haroon et al. 2021, pág. 1.
  35. ^ Bevendorff y col. 2019, pág. 1098.
  36. ^ Saedi y Dras 2020, pág. 181.
  37. ^ Neal et al. 2018, pág. 27.
  38. ^ por Wang, Juola y Riddell 2022, pág. 3.
  39. ^ Zhai y otros. 2022, pág. 7374.
  40. ^ Gröndahl y Asokan 2020a, pag. 21-22.
  41. ^ Gröndahl y Asokan 2020b, pág. 176.
  42. ^ Potthast, Hagen y Stein 2016, pág. 6.
  43. ^ ab Potthast, Hagen y Stein 2016, pág. 12-13.
  44. ^ Potthast, Hagen y Stein 2016, pág. 11.
  45. ^ Almishari, Oguz y Tsudik 2014, pág. 6.
  46. ^ Xu y otros. 2019, págs. 247-248.
  47. ^ Kacmarcik y Gamon 2006, pág. 448.
  48. ^ Haroon y otros. 2021, pág. 3.
  49. ^ Emmery, Kádár y Chrupała 2021, p. 2388-2389.
  50. ^ Potthast, Hagen y Stein 2016, pág. 9-10.
  51. ^ Gröndahl y Asokan 2020b, pág. 189.
  52. ^ Potthast, Hagen y Stein 2016, pág. 11-12.
  53. ^ McDonald et al. 2012, 7.1 Trabajos adicionales.
  54. ^ Potthast, Hagen y Stein 2016, pág. 13.
  55. ^ Mahmood, Shafiq y Srinivasan 2020, pág. 2235.
  56. ^ Afroz, Brennan y Greenstadt 2012, pág. 462.
  57. ^ Juola 2012, pág. 93-94.
  58. ^ Gröndahl y Asokan 2020a, pag. 2.
  59. ^ Mahmood, Shafiq y Srinivasan 2020, pág. 2243.
  60. ^ Afroz, Brennan y Greenstadt 2012, pág. 464.
  61. ^ Juola y Vescovi 2011, pag. 123.
  62. ^ Brennan, Afroz y Greenstadt 2012, pág. 2.
  63. ^ Kacmarcik y Gamon 2006, pág. 451.
  64. ^ Wang, Juola y Riddell 2022, págs. 7-8.
  65. ^ Potthast, Hagen y Stein 2016, pág. 21.
  66. ^ Zhai y otros. 2022, pág. 7373.

Bibliografía