stringtranslate.com

Estilometría

La estilometría es la aplicación del estudio del estilo lingüístico , generalmente al lenguaje escrito. [1] También se ha aplicado con éxito a la música, [2] la pintura, [3] y el ajedrez. [4]

La estilometría se utiliza a menudo para atribuir la autoría a documentos anónimos o disputados. [5] Tiene aplicaciones tanto legales como académicas y literarias, que van desde la cuestión de la autoría de las obras de Shakespeare hasta la lingüística forense y tiene similitudes metodológicas con el análisis de la legibilidad del texto .

La estilometría puede utilizarse para desenmascarar autores seudónimos o anónimos, o para revelar alguna información sobre el autor sin llegar a una identificación completa. Los autores pueden utilizar la estilometría adversarial para resistir esta identificación eliminando sus propias características estilísticas sin cambiar el contenido significativo de sus comunicaciones. Puede frustrar los análisis que no tienen en cuenta su posibilidad, pero la eficacia final de la estilometría en un entorno adversarial es incierta: la identificación estilométrica puede no ser fiable, pero tampoco se puede garantizar la no identificación; la práctica de la estilometría adversarial en sí misma puede ser detectable.

Historia

La estilometría surgió de técnicas anteriores de análisis de textos en busca de evidencia de autenticidad, identidad del autor y otras cuestiones.

La práctica moderna de la disciplina recibió publicidad a partir del estudio de los problemas de autoría en el drama renacentista inglés. Los investigadores y lectores observaron que algunos dramaturgos de la época tenían patrones distintivos de preferencias lingüísticas e intentaron usar esos patrones para identificar a los autores de obras inciertas o colaborativas. Los primeros esfuerzos no siempre tuvieron éxito: en 1901, un investigador intentó usar la preferencia de John Fletcher por "⁠ ⁠'em", la forma contraída de "them", como un marcador para distinguir entre Fletcher y Philip Massinger en sus colaboraciones, pero empleó erróneamente una edición de las obras de Massinger en la que el editor había ampliado todas las instancias de "⁠ ⁠'em" a "them". [6]

Los principios básicos de la estilometría fueron establecidos por el filósofo polaco Wincenty Lutosławski en Principes de stylométrie (1890). Lutosławski utilizó este método para desarrollar una cronología de los Diálogos de Platón . [7]

El desarrollo de las computadoras y su capacidad para analizar grandes cantidades de datos mejoró este tipo de esfuerzos en órdenes de magnitud. Sin embargo, la gran capacidad de las computadoras para el análisis de datos no garantizó una buena calidad de los resultados. A principios de la década de 1960, el reverendo AQ Morton realizó un análisis informático de las catorce epístolas del Nuevo Testamento atribuidas a San Pablo, que indicó que seis autores diferentes habían escrito ese conjunto de obras. Una comprobación de su método, aplicada a las obras de James Joyce , dio el resultado de que Ulises , la novela multiperspectiva y multiestilo de Joyce, fue compuesta por cinco individuos separados, ninguno de los cuales aparentemente tuvo parte en la elaboración de la primera novela de Joyce, Retrato del artista adolescente . [8]

Sin embargo, con el tiempo y la práctica, los investigadores y académicos han perfeccionado sus métodos para obtener mejores resultados. Un éxito notable en los primeros tiempos fue la resolución de la disputa sobre la autoría de doce de los Documentos Federalistas de Frederick Mosteller y David Wallace. [9] Si bien todavía hay dudas sobre los supuestos y métodos iniciales (y tal vez siempre las habrá), pocos cuestionan ahora la premisa básica de que el análisis lingüístico de textos escritos puede producir información y conocimientos valiosos. (De hecho, esto era evidente incluso antes de la llegada de las computadoras: la aplicación exitosa de un análisis textual/lingüístico al canon de Fletcher por parte de Cyrus Hoy y otros produjo resultados claros a fines de la década de 1950 y principios de la de 1960).

Aplicaciones

Las aplicaciones de la estilometría incluyen estudios literarios, estudios históricos, estudios sociales, recuperación de información y muchos casos y estudios forenses. [10] [11] Recientemente, los debates de larga data sobre las sagas islandesas medievales anónimas han avanzado gracias a su utilización. [12] [13] [14] También se puede aplicar al código informático [15] y a la detección de plagio intrínseco , que consiste en detectar el plagio basándose en los cambios de estilo de escritura dentro del documento. [16] La estilometría también se puede utilizar para predecir si alguien es un hablante nativo o no nativo de inglés por su velocidad de mecanografía . [17]

La estilometría como método es vulnerable a la distorsión del texto durante la revisión. [18] También existe el caso del autor que adopta diferentes estilos a lo largo de su carrera, como se demostró en el caso de Platón , quien eligió diferentes políticas estilísticas como las adoptadas para los diálogos tempranos y medios que abordan el problema socrático. [19]

Características

Las características textuales de interés para la atribución de autoría son, por un lado, el cálculo de las ocurrencias de expresiones o construcciones idiosincrásicas (por ejemplo, comprobar cómo utiliza el autor la interpuntuación o con qué frecuencia utiliza construcciones pasivas sin agente) y, por otro lado, son similares a las utilizadas para el análisis de legibilidad, como las medidas de variación léxica y variación sintáctica. [20] Dado que los autores a menudo tienen preferencias por ciertos temas, los experimentos de investigación en atribución de autoría eliminan principalmente palabras de contenido como sustantivos, adjetivos y verbos del conjunto de características, y solo conservan los elementos estructurales del texto para evitar sobreajustar sus modelos al tema en lugar de a las características del autor. [21] [22] Las características estilísticas a menudo se calculan como promedios sobre un texto o sobre todas las obras recopiladas de un autor, lo que produce medidas como la longitud promedio de las palabras o la longitud promedio de las oraciones. Esto permite que un modelo identifique a los autores que tienen una clara preferencia por oraciones con muchas palabras o concisas, pero oculta la variación: un autor con una mezcla de oraciones largas y cortas tendrá el mismo promedio que un autor con oraciones consistentes de longitud media. Para capturar dicha variación, algunos experimentos utilizan secuencias o patrones sobre observaciones en lugar de frecuencias promedio observadas, notando, por ejemplo, que un autor muestra una preferencia por un cierto patrón de énfasis o estrés, [23] [24] o que un autor tiende a seguir una secuencia de oraciones largas con una corta. [25] [26]

Uno de los primeros enfoques para la identificación de autoría, realizado por Mendenhall, puede decirse que consiste en agregar sus observaciones sin promediarlas. [27]

Los modelos de atribución de autoría más recientes utilizan modelos de espacio vectorial para capturar automáticamente lo que es específico del estilo de un autor, pero también se basan en una ingeniería de características juiciosa por las mismas razones que los modelos más tradicionales. [28] [29]

Estilometría adversarial

La estilometría adversarial es la práctica de alterar el estilo de escritura para reducir la posibilidad de que la estilometría descubra la identidad del autor o sus características. [30] Esta tarea también se conoce como ofuscación de autoría o anonimización de autoría. La estilometría plantea un desafío significativo para la privacidad en su capacidad de desenmascarar autores anónimos o vincular seudónimos a otras identidades de un autor, [31] lo que, por ejemplo, crea dificultades para denunciantes , [32] activistas, [33] y falsificadores y defraudadores . [34] Se espera que el riesgo para la privacidad aumente a medida que se desarrollen las técnicas de aprendizaje automático y los corpus de texto . [35]

Toda estilometría adversarial comparte la idea central de parafrasear fielmente el texto fuente de modo que el significado no cambie pero las señales estilísticas se oscurezcan. [36] [37] Una paráfrasis tan fiel es un ejemplo adversarial de un clasificador estilométrico. [38] Existen varios enfoques generales para esto, con cierta superposición: imitación , sustituir el estilo propio del autor por el de otro; traducción , aplicar traducción automática con la esperanza de que esto elimine el estilo característico en el texto fuente; y ofuscación , modificar deliberadamente el estilo de un texto para que no se parezca al del propio autor. [36]

Es posible ocultar el estilo manualmente, pero es laborioso; [39] en algunas circunstancias, es preferible o necesario. [40] Las herramientas automatizadas, ya sean semiautomáticas o totalmente automáticas, podrían ayudar a un autor. [39] La mejor manera de realizar la tarea y el diseño de dichas herramientas es una pregunta de investigación abierta. [41] [35] Si bien se ha demostrado que algunos enfoques pueden derrotar análisis estilométricos particulares, [42] particularmente aquellos que no tienen en cuenta el potencial de adversarialidad, [43] establecer la seguridad frente a análisis desconocidos es un problema. [44] Garantizar la fidelidad de la paráfrasis es un desafío crítico para las herramientas automatizadas. [35]

No se sabe con certeza si la práctica de la estilometría adversarial es detectable en sí misma. Algunos estudios han descubierto que determinados métodos produjeron señales en el texto de salida, pero un estilometrista que no esté seguro de qué métodos se pudieron haber utilizado puede no ser capaz de detectarlos de manera fiable. [35]

Investigación actual

La estilometría moderna utiliza computadoras para el análisis estadístico , inteligencia artificial y acceso al creciente corpus de textos disponibles a través de Internet . [45] Los sistemas de software como Signature [46] (software gratuito producido por Peter Millican de la Universidad de Oxford), JGAAP [47] (el Programa de Atribución de Autoría Gráfica de Java, software gratuito producido por el Dr. Patrick Juola de la Universidad Duquesne), stylo [48] [49] (un paquete R de código abierto para una variedad de análisis estilométricos, incluida la atribución de autoría, desarrollado por Maciej Eder, Jan Rybicki y Mike Kestemont) y Stylene [50] para holandés (software gratuito en línea del Prof. Walter Daelemans de la Universidad de Amberes y la Dra. Véronique Hoste de la Universidad de Gante) hacen que su uso sea cada vez más práctico, incluso para los no expertos.

Espacios y eventos académicos

Los métodos estilométricos se utilizan para varios temas académicos, como una aplicación de la lingüística, la lexicografía o el estudio literario, [1] en conjunto con el procesamiento del lenguaje natural y el aprendizaje automático, y se aplican a la detección de plagio, el análisis de autoría o la recuperación de información. [45]

Lingüística forense

La Asociación Internacional de Lingüistas Forenses (IAFL) organiza la Conferencia Bienal de la Asociación Internacional de Lingüistas Forenses (13ª edición en 2016 en Oporto ) y publica The International Journal of Speech, Language and the Law con la estilística forense como uno de sus temas centrales.

Aaaaa

La Asociación para el Avance de la Inteligencia Artificial (AAAI) ha organizado varios eventos sobre análisis subjetivo y estilístico del texto. [51] [52] [53]

CACEROLA

Talleres PAN (originalmente, análisis de plagio, identificación de autoría y detección de casi duplicados, luego, de manera más general, taller sobre descubrimiento de plagio, autoría y mal uso de software social) organizados desde 2007 principalmente en conjunto con conferencias de acceso a la información como ACM SIGIR , FIRE y CLEF . PAN formula tareas de desafío compartidas para la detección de plagio, [54] identificación de autoría, [55] identificación de género del autor, [56] perfil del autor , [57] detección de vandalismo, [58] y otras tareas de análisis de texto relacionadas, muchas de las cuales dependen de la estilometría.

Estudios de casos de interés

Datos y métodos

Dado que la estilometría tiene casos de uso descriptivos, utilizados para caracterizar el contenido de una colección, y casos de uso identificatorios, por ejemplo, identificar autores o categorías de textos, los métodos utilizados para analizar los datos y las características anteriores varían desde aquellos diseñados para clasificar elementos en conjuntos o para distribuir elementos en un espacio de variación de características. La mayoría de los métodos son de naturaleza estadística, como el análisis de conglomerados y el análisis discriminante , generalmente se basan en datos y características filológicos y son dominios de aplicación fructíferos para los métodos modernos de aprendizaje automático .

Mientras que en el pasado la estilometría enfatizaba los elementos más raros o más llamativos de un texto, las técnicas contemporáneas pueden aislar patrones de identificación incluso en partes comunes del discurso. La mayoría de los sistemas se basan en estadísticas léxicas, es decir, utilizan las frecuencias de palabras y términos en el texto para caracterizar el texto (o su autor). En este contexto, a diferencia de la recuperación de información , los patrones de ocurrencia observados de las palabras más comunes son más interesantes que los términos temáticos que son menos frecuentes. [91] [92]

El método estilométrico principal es el invariante del autor : una propiedad que comparten todos los textos, o al menos todos los textos lo suficientemente largos como para permitir un análisis que arroje resultados estadísticamente significativos, escritos por un autor determinado. Un ejemplo de invariante del autor es la frecuencia de las palabras funcionales utilizadas por el autor.

En uno de estos métodos, se analiza el texto para encontrar las 50 palabras más comunes. Luego, el texto se divide en fragmentos de 5000 palabras y cada uno de los fragmentos se analiza para encontrar la frecuencia de esas 50 palabras en ese fragmento. Esto genera un identificador único de 50 números para cada fragmento. Estos números colocan cada fragmento de texto en un punto en un espacio de 50 dimensiones. Este espacio de 50 dimensiones se aplana en un plano utilizando el análisis de componentes principales (PCA). Esto da como resultado una visualización de puntos que corresponden al estilo de un autor. Si dos obras literarias se colocan en el mismo plano, el patrón resultante puede mostrar si ambas obras fueron del mismo autor o de diferentes autores.

Estadísticas gaussianas

Los datos estilométricos se distribuyen de acuerdo con la ley de Zipf-Mandelbrot . La distribución es extremadamente irregular y leptocúrtica , por lo que los investigadores no pudieron usar estadísticas para resolver, por ejemplo, problemas de atribución de autoría. Sin embargo, el uso de estadísticas gaussianas es perfectamente posible aplicando la transformación de datos . [93]

Redes neuronales

Las redes neuronales , un caso especial de métodos de aprendizaje automático estadístico, se han utilizado para analizar la autoría de textos. Los textos de autoría indiscutible se utilizan para entrenar una red neuronal mediante procesos como la retropropagación , de modo que el error de entrenamiento se calcula y se utiliza para actualizar el proceso para aumentar la precisión. A través de un proceso similar a la regresión no lineal, la red obtiene la capacidad de generalizar su capacidad de reconocimiento a nuevos textos a los que aún no ha sido expuesta, clasificándolos con un grado de confianza establecido. Tales técnicas se aplicaron a las afirmaciones de larga data de colaboración de Shakespeare con sus contemporáneos John Fletcher y Christopher Marlowe , [94] [95] y confirmaron la opinión, basada en estudios más convencionales, de que tal colaboración había ocurrido de hecho.

Un estudio de 1999 demostró que un programa de redes neuronales alcanzó una precisión del 70% al determinar la autoría de poemas que aún no había analizado. Este estudio de la Vrije Universiteit examinó la identificación de poemas de tres autores holandeses utilizando únicamente secuencias de letras como "den". [96]

Un estudio utilizó redes de creencias profundas (DBN) para el modelo de verificación de autoría aplicable para la autenticación continua (CA). [97]

Un problema con este método de análisis es que la red puede volverse sesgada en función de su conjunto de entrenamiento, posiblemente seleccionando autores que la red ha analizado con más frecuencia. [96]

Algoritmos genéticos

El algoritmo genético es otra técnica de aprendizaje automático que se utiliza para la estilometría. Se trata de un método que comienza con un conjunto de reglas. Un ejemplo de regla podría ser: "Si pero aparece más de 1,7 veces en cada mil palabras, entonces el texto es del autor X". Se presenta el texto al programa y utiliza las reglas para determinar la autoría. Las reglas se prueban con un conjunto de textos conocidos y a cada regla se le asigna una puntuación de idoneidad. Las 50 reglas con las puntuaciones más bajas no se utilizan. A las 50 reglas restantes se les aplican pequeños cambios y se introducen 50 reglas nuevas. Esto se repite hasta que las reglas evolucionadas atribuyan los textos correctamente.

Pares raros

Un método para identificar el estilo se denomina "pares raros" y se basa en los hábitos individuales de colocación . El uso de ciertas palabras puede, para un autor en particular, estar asociado idiosincrásicamente con el uso de otras palabras predecibles. [ cita requerida ]

Atribución de autoría en mensajería instantánea

La difusión de Internet ha desplazado la atención de la atribución de autoría hacia textos en línea (páginas web, blogs, etc.), mensajes electrónicos (correos electrónicos, tweets, publicaciones, etc.) y otros tipos de información escrita que son mucho más cortos que un libro promedio, mucho menos formales y más diversos en términos de elementos expresivos como colores , diseño , fuentes , gráficos , emoticones , etc. Los esfuerzos para tener en cuenta dichos aspectos a nivel de estructura y sintaxis se informaron en. [98] Además, se introdujeron señales idiosincrásicas y específicas del contenido (por ejemplo, modelos de temas y herramientas de revisión gramatical) para revelar elecciones estilísticas deliberadas. [99]

Se han empleado características estilométricas estándar para categorizar el contenido de un chat mediante mensajería instantánea [100] o el comportamiento de los participantes [101] , pero los intentos de identificar a los participantes del chat son todavía escasos y tempranos. Además, se ha descuidado la similitud entre las conversaciones habladas y las interacciones del chat, a pesar de ser una diferencia importante entre los datos del chat y cualquier otro tipo de información escrita.

Véase también

Notas

  1. ^ ab Argamon, Shlomo , Kevin Burns y Shlomo Dubnov , eds. La estructura del estilo: enfoques algorítmicos para comprender la manera y el significado. Springer Science & Business Media, 2010.
  2. ^ Westcott, Richard (15 de junio de 2006). "Cómo convertir la música de éxito en una ciencia". BBC News .
  3. ^ Sethi, Ricky (7 de junio de 2016). "Usar computadoras para comprender mejor el arte". The Conversation . Consultado el 1 de diciembre de 2021 .
  4. ^ McIlroy-Young, Reid; Wang, Yu; Sen, Siddhartha; Kleinberg, Jon; Anderson, Ashton (2021). Detección del estilo de toma de decisiones individual: exploración de la estilometría conductual en ajedrez. 35.ª Conferencia sobre sistemas de procesamiento de información neuronal.
  5. ^ Chen, Hsinchun; Yang, Christopher C.; Chau, Michael; Li, Shu-Hsing (2009). Intelligence and Security Informatics: Pacific Asia Workshop, PAISI 2009, Bangkok, Tailandia, 27 de abril de 2009. Actas . Berlín: Springer Science & Business Media. p. 15. ISBN. 9783642013928.
  6. ^ Samuel Schoenbaum , Evidencia interna y autoría dramática isabelina; un ensayo sobre historia literaria y método, pág. 171.
  7. ^ Lutoslawski, W. (1898). "Principes de stylométrie appliqués à la cronologie des œuvres de Platon". Revue des Études Grecques . 11 (41): 61–81. doi : 10.3406/reg.1898.5847. ISSN  0035-2039.
  8. ^ Samuel Schoenbaum , Evidencia interna y autoría dramática isabelina; un ensayo sobre historia literaria y método, pág. 196.
  9. ^ F. Mosteller y D. Wallace (1964). Inferencia y autoría en disputa: El federalista . Reading, MA : Addison-Wesley .
  10. ^ Chaski, Carole (2012). Solan, Lawrence M; Tiersma, Peter M (eds.). Identificación del autor en el ámbito forense. Oxford University Press. doi :10.1093/oxfordhb/9780199572120.001.0001. ISBN 9780199572120. {{cite book}}: |journal=ignorado ( ayuda )
  11. ^ Chaski, Carole (22 de diciembre de 2005). Wecht, Cyril H.; Rago, John T. (eds.). Ciencia forense y derecho: aplicaciones investigativas en la justicia penal, civil y familiar. CRC Press. ISBN 978-1-4200-5811-6.
  12. ^ Michael MacPherson y Yoav Tirosh (2020). "Un análisis estilométrico de la saga Ljósvetninga". Gripla . 31 : 7–41.
  13. ^ Haukur Thorgeirsson (2018). "¿En qué medida son similares las sagas Heimskringla y Egils? Una aplicación del delta de Burrows a los textos islandeses". Revista Europea de Estudios Escandinavos . 48 (1): 1–18. doi : 10.1515/ejss-2018-0001 .
  14. ^ Sigurður Ingibergur Björnsson, Steingrímur Páll Kárason y Jón Karl Helgason (2021). ""La estilometría y las huellas dactilares descoloridas de los autores de sagas"". En busca del culpable: aspectos de la autoría medieval, editado por Lukas Rösli y Stefanie Gropper : 97–122. doi : 10.1515/9783110725339-005 . ISBN 9783110725339.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  15. ^ Claburn, Thomas (16 de marzo de 2018). «Para su información: las herramientas de inteligencia artificial pueden desenmascarar a los codificadores anónimos a partir de sus ejecutables binarios». The Register . Consultado el 2 de agosto de 2018 .
  16. ^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de n-gramas de caracteres como única evidencia intrínseca de plagio". Recursos lingüísticos y evaluación . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID  86630897.
  17. ^ Brizan, David (octubre de 2015). "Utilización de dinámicas de pulsaciones de teclas mejoradas lingüísticamente para predecir la cognición y la demografía de los mecanógrafos". Revista internacional de estudios humanos-computadoras . 82 : 57–68. doi :10.1016/j.ijhcs.2015.04.005.
  18. ^ Alican, Necip Fikri (2012). Repensando a Platón: una búsqueda cartesiana del Platón real . Ámsterdam: Rodopi. p. 183. ISBN 9789042035379.
  19. ^ Rowe, Christopher (2000). Historia de Cambridge del pensamiento político griego y romano. Cambridge, Reino Unido: Cambridge University Press. pág. 160. ISBN 0521481368.
  20. ^ Stamatatos, Efstathios (2009). "Un estudio de los métodos modernos de atribución de autoría". JASIST . 60 (3): 538–556. doi :10.1002/asi.21001. S2CID  6231242.
  21. ^ Stamatatos, Efstathios (2018). "Enmascaramiento de información relacionada con el tema para mejorar la atribución de autoría". JASIS . 69 (3).
  22. ^ Karlgren, Jussi; Esposito, Lewis; Gratton, Chantal; Kanerva, Pentti (2018). "Elaboración de perfiles de autoría sin utilizar información temática". Notas de trabajo de CLEF . CEUR-WS.
  23. ^ Corbara, Silvia; Moreo, Alejandro; Sebastiani, Fabrizio (2022). "Patrones de cantidad silábica como características rítmicas para la atribución de autoría latina". JASIST . 74 : 128–141. arXiv : 2110.14203 . doi :10.1002/asi.24660. S2CID  239998537.
  24. ^ Corbara, Silvia; Chulvi, Berta; Rosso, Paolo; Moreo, Alejandro (2022). "Características rítmicas y psicolingüísticas de las tareas de autoría en el Parlamento español: evaluación y análisis". La RI experimental se encuentra con el multilingüismo, la multimodalidad y la interacción . CLEF. Springer. págs. 79–92. doi :10.1007/978-3-031-13643-6_6.
  25. ^ Karlgren, Jussi; Eriksson, Gunnar (2007). "Autores, género y convención lingüística". Taller del SIGIR sobre análisis de plagio, identificación de autoría y detección de casi duplicados . SIGIR. PAN.
  26. ^ Eriksson, Linda (2014). Agregación secuencial de características textuales para la identificación de autores independientes del dominio (MSc). KTH Royal Institute of Technology.
  27. ^ Mendenhall, TC (1887). "Las curvas características de la composición". Science . 9 (214S): 237–246. doi :10.1126/science.ns-9.214S.237. PMID  17736020.
  28. ^ Chen, Beichen (2021). Incorporaciones para similitudes entre libros (PDF) (MSc). KTH Royal Institute of Technology.
  29. ^ Stamatatos, Efstathios; Kestemont, Mike; Kredens, Krzysztof; Pezik, Piotr; Heini, Annina (2022). "Descripción general de la tarea de verificación de autoría en PAN 2022". En Faggioli; Ferro; Potthast (eds.). CLEF 2022 Laboratorios y talleres, Cuadernos de notas. CEUR-WS . Consultado el 6 de septiembre de 2022 .
  30. ^ Neal et al. 2018, pág. 5.
  31. ^ Gröndahl y Asokan 2020a, pag. 3.
  32. ^ Kacmarcik y Gamon 2006, pág. 444.
  33. ^ Mahmood y otros, 2019, pág. 54.
  34. ^ Afroz, Brennan y Greenstadt 2012, pág. 461.
  35. ^ abcd Gröndahl y Asokan 2020a, pag. 28.
  36. ^ ab Neal et al. 2018, pág. 6.
  37. ^ Potthast, Hagen y Stein 2016, pág. 10.
  38. ^ Saedi y Dras 2020, pág. 181.
  39. ^ ab Gröndahl y Asokan 2020a, pág. 21-22.
  40. ^ Wang, Juola y Riddell 2022, pág. 2.
  41. ^ Neal et al. 2018, pág. 27.
  42. ^ Brennan, Afroz y Greenstadt 2012, pág. 2.
  43. ^ Zhai y otros. 2022, pág. 7373.
  44. ^ Emmery, Kádár y Chrupała 2021, p. 2388-2389.
  45. ^ ab Argamon, Shlomo , Jussi Karlgren y James G. Shanahan. Análisis estilístico del texto para el acceso a la información. Documentos del taller celebrado en conjunción con la 28.ª Conferencia Anual Internacional de la ACM sobre Investigación y Desarrollo en Recuperación de Información, del 13 al 19 de agosto de 2005, Salvador, Bahía, Brasil. Instituto Sueco de Ciencias de la Computación, 2005.
  46. ^ "El sistema estilométrico característico". PhiloComp . Consultado el 3 de enero de 2014 .
  47. ^ "JGAAP". JGAAP. 4 de septiembre de 2012. Consultado el 15 de octubre de 2012 .
  48. ^ ab "El paquete Stylus para R". Computational Stylistics Group. 2014-10-24. Archivado desde el original el 2014-12-21 . Consultado el 2014-10-24 .
  49. ^ Eder, Maciej; Rybicki, Jan; Kestemont, Mike (2016). "Estilometría con R: un paquete para análisis de texto computacional" (PDF) . R Journal . 8 (1): 107–121. doi : 10.32614/RJ-2016-007 .
  50. ^ Daelemans, Walter y Hoste, Véronique (2013). STYLENE: un entorno para la investigación de la estilometría y la legibilidad en neerlandés (informe técnico). Serie de informes técnicos CLiPS. ISSN  2033-3544.
  51. ^ Yan Qu, James G. Shanahan y Janyce Wiebe . "Explorando la actitud y el afecto en el texto: teorías y aplicaciones". Informe técnico SS-04-07 del Simposio de primavera de la AAAI. AAAI Press, Menlo Park, CA. 2004.
  52. ^ Jussi Karlgren , Björn Gambäck y Pentti Kanerva . "Adquisición (y uso) de conocimiento lingüístico (y mundial) para el acceso a la información". (2002). Simposio de primavera de la AAAI. Informe técnico SS-02-09. AAAI Press, Menlo Park, CA. 2002.
  53. ^ Shlomo Argamon , Shlomo Dubnov y Julie Jupp. "Estilo y significado en el lenguaje, el arte, la música y el diseño" (2004). Simposio de otoño de la AAAI. Informe técnico FS-04-07.
  54. ^ Potthast, Martin, Benno Stein, Alberto Barrón-Cedeño y Paolo Rosso. "Un marco de evaluación para la detección de plagio". En Actas de la 23.ª conferencia internacional sobre lingüística computacional: pósteres, págs. 997-1005. Asociación de Lingüística Computacional, 2010.
  55. ^ Stamatatos, Efstathios, Walter Daelemans, Ben Verhoeven, Patrick Juola, Aurelio López-López, Martin Potthast y Benno Stein. "Resumen de la Tarea de Identificación de Autores en el PAN 2014". En CLEF (Notas de trabajo), págs. 877–897. 2014.
  56. ^ Rangel, Francisco, Paolo Rosso, Martin Potthast y Benno Stein. "Resumen de la quinta tarea de elaboración de perfiles de autores en PAN 2017: Identificación de género y variedad lingüística en Twitter". Documentos de notas de trabajo del CLEF (2017).
  57. ^ Rangel Pardo, Francisco Manuel, Fabio Celli, Paolo Rosso, Martin Potthast, Benno Stein y Walter Daelemans. "Resumen de la tercera tarea de elaboración de perfiles de autores en PAN 2015". En CLEF 2015 Evaluation Labs and Workshop Working Notes Papers, págs. 1–8. 2015.
  58. ^ Potthast, Martin, Benno Stein y Teresa Holfeld. "Resumen de la 1.ª Competencia Internacional de Detección de Vandalismo en Wikipedia". En CLEF (Notebook Papers/LABs/Workshops). 2010.
  59. ^ Procesamiento de texto, análisis y generación de texto: tipología y atribución de texto. Actas del simposio Nobel 51. Editado por Sture Allén . Estocolmo: Almqvist & Wiksell internacional 1982. Data lingüística, 16. Simposio Nobel, 51. ISBN 91-22-00594-3 
  60. ^ Karlgren, Jussi (2003). "Helander: An Authorship Attribution Case" (Helander: un caso de atribución de autoría) . Consultado el 4 de octubre de 2017 .
  61. ^ Airoldi, Edoardo M .; Fienberg, Stephen E.; Skinner, Kiron K. (julio de 2007). "¿De quién son las ideas? ¿De quién son las palabras? Autoría de los discursos radiofónicos de Ronald Reagan" (PDF) . PS: Political Science & Politics . 40 (3): 501–506. CiteSeerX 10.1.1.190.5798 . doi :10.1017/S1049096507070874. S2CID  18730541. 
  62. ^ Autor desconocido por Gavin McNett Salon 2 de noviembre de 2000
  63. ^ Belluck, Pam (10 de abril de 1996). «En el caso Unabom, dolor para la familia del sospechoso». The New York Times . Archivado desde el original el 10 de agosto de 2017. Consultado el 5 de julio de 2008 .
  64. ^ "Estudio descubre que una obra de Shakespeare en disputa lleva la marca del maestro". Los Angeles Times . 2015-04-10 . Consultado el 2015-04-13 .
  65. ^ Boyd, Ryan L.; Pennebaker, James W. (2015). "¿Escribió Shakespeare la doble falsedad? Identificación de individuos mediante la creación de firmas psicológicas con análisis de texto". Psychological Science . 26 (5): 570–582. doi :10.1177/0956797614566658. PMID  25854277. S2CID  13022405.
  66. ^ Jackson, MacDonald P (27 de abril de 2016). ¿Quién escribió "La noche antes de Navidad"? Análisis de la cuestión Clement Clarke Moore vs. Henry Livingston . McFarland & Co. ISBN 978-1476664439.
  67. ^ Fuller, Simon; O'Sullivan, James (2017). "Estructura por encima del estilo: autoría colaborativa y el resurgimiento del capitalismo literario". Digital Humanities Quarterly . 11 (1) . Consultado el 20 de abril de 2017 .
  68. ^ Lane, Anthony (18 de junio de 2018). «La colaboración conmocionante de Bill Clinton y James Patterson». The New Yorker . Consultado el 7 de junio de 2018 .
  69. ^ "Por qué no hace falta escribir mucho para ser el autor más vendido del mundo". The Conversation . 3 de abril de 2017 . Consultado el 20 de abril de 2017 .
  70. ^ O'Sullivan, James (7 de junio de 2018). "Bill Clinton y James Patterson son coautores, pero ¿quién escribió el artículo?". The Guardian . Consultado el 7 de junio de 2018 .
  71. ^ Savoy, Jacques (2018). "¿Es Starnone realmente el autor detrás de Ferrante?". Digital Scholarship in the Humanities . 33 (4): 902–918. doi :10.1093/llc/fqy016.
  72. ^ Reuell, Peter: "Tú dices Juan, yo digo Pablo. Pero ¿qué dice la estilometría?"
  73. ^ Glickman, Mark; Brown, Jason; Song, Ryan (2019). "(A) Datos en la vida: atribución de autoría en canciones de Lennon-McCartney". Harvard Data Science Review . 1 (1). arXiv : 1906.05427 . doi : 10.1162/99608f92.130f856e . S2CID  189762434.
  74. ^ El proyecto ETSO.
  75. ^ "Un monstruo de la naturaleza llamado Lope" [Un monstruo de la naturaleza llamado Lope]. abc (en español). 2018-11-28 . Consultado el 11 de agosto de 2019 .
  76. ^ "Rastreadores digitales en el Siglo de Oro" [Rastreadores digitales en el Siglo de Oro]. El Norte de Castilla (en español). 2018-12-23 . Consultado el 11 de agosto de 2019 .
  77. ^ Real, La Tribuna de Ciudad (09 de julio de 2019). "Juan Ruiz de Alarcón aumenta su obra cinco siglos después" [Juan Ruiz de Alarcón aumenta su obra cinco siglos después]. La Tribuna de Ciudad Real (en español) . Consultado el 11 de agosto de 2019 .
  78. ^ Migueláñez, Daniel (28 de julio de 2019). "El Holmes de la filología". PSOE Chamberí . No. 6. pág. 8. Archivado desde el original el 18 de julio de 2020 . Consultado el 11 de agosto de 2019 .
  79. ^ "Sor Juana Inés centró las 42 Jornadas de Teatro Clásico". Lanza Digital (en español europeo). 2019-07-14 . Consultado el 11 de agosto de 2019 .
  80. ^ "'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón" ['La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón]. El Norte de Castilla (en español). 2019-07-10 . Consultado el 11 de agosto de 2019 .
  81. ^ "La inteligencia artificial ayuda a encontrar al destacado dramaturgo español Lope de Vega como autor de una obra a partir de un manuscrito escrito años después de su muerte". newsendip.com . 31 de enero de 2023 . Consultado el 8 de febrero de 2023 .
  82. ^ Jones, Sam (5 de febrero de 2023). «La inteligencia artificial descubre el trabajo perdido del titán de la «Edad de Oro» española». The Guardian . Consultado el 8 de febrero de 2023 .
  83. ^ Morales, Manuel (31 de enero de 2023). "La inteligencia artificial atribuye a Lope de Vega una obra anónima del fondo de manuscritos de la Biblioteca Nacional" El País (en español) . Consultado el 8 de febrero de 2023 .
  84. ^ McCarthy, Rachel; O'Sullivan, James (2020). "¿Quién escribió Cumbres borrascosas?". Digital Scholarship in the Humanities . 36 (2): 383–391. doi :10.1093/llc/fqaa031. hdl : 10468/10194 .
  85. ^ Ilsemann, Harmut (2020) "Phantom Marlowe: Paradigmenwechsel in Autorschaftsbestimmungen des englischen Renaissancedramas". Düren: Coctelera, ISBN 978-3-8440-7412-3
  86. ^ Ilsemann, Harmut (2020). "El corpus de Marlowe revisitado". Digital Scholarship in the Humanities . 36 (2): 333–360. doi :10.1093/llc/fqaa010.
  87. ^ Ilsemann, Harmut (2021). "Un breve suplemento a "The Marlowe Corpus Revisited" y Phantom Marlowe". Beca digital en humanidades . 37 (2): 462–468. doi :10.1093/llc/fqab078.
  88. ^ Rebora, Simone y Salgaro, Massimo (2022). "¿Es Felix Salten el autor de la novela Mutzenbacher (1906)? Sí y no" . Lengua y literatura: Revista internacional de estilística . 31 (2): 243–264. doi :10.1177/09639470221090384. S2CID  248135373.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  89. ^ AI avslöjar: Läckberg har antagligen spökskrivare – skjuter ned anklagelserna. Hufvudstadsbladet , 27 de septiembre de 2023 (en sueco).
  90. ^ "Läckberg om rykterna: 'Han petade i meningarna'". Hufvudstadsbladet (en sueco). Helsingfors. 21 de diciembre de 2023. p. 23.
  91. ^ Biber, Douglas. Variación en el habla y la escritura. Cambridge University Press, 1991.
  92. ^ Karlgren, Jussi ; Cutting, Douglass (1994). "Reconocimiento de géneros textuales con métricas simples mediante análisis discriminante". Actas de la 15.ª conferencia sobre lingüística computacional - . Vol. 2. pág. 1071. arXiv : cmp-lg/9410008 . Bibcode :1994cmp.lg...10008K. doi :10.3115/991250.991324. S2CID  1297432.
  93. ^ Van Droogenbroeck FJ, "Una reformulación esencial de la ley de Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas" (2019).
  94. ^ Matthews, Robert AJ; Merriam, Thomas V. N (1993). "Computación neuronal en estilometría I: una aplicación a las obras de Shakespeare y Fletcher". Computación literaria y lingüística . 8 (4): 203–209. doi :10.1093/llc/8.4.203.
  95. ^ Merriam, Thomas V. N; Matthews, Robert AJ (1994). "Computación neuronal en estilometría II: una aplicación a las obras de Shakespeare y Marlowe". Computación literaria y lingüística . 9 (1): 1–6. doi :10.1093/llc/9.1.1.
  96. ^ por JF Hoorn; SL Frank; W Kowalczyk; F van der Ham (3 de septiembre de 2012). "Identificación de poetas mediante redes neuronales utilizando secuencias de letras". Computación literaria y lingüística . 14 (3): 311–338. doi :10.1093/llc/14.3.311.
  97. ^ Brocardo, ML; Traore, I; Woungang, I; Obaidat, MS (2017). "Verificación de autoría utilizando sistemas de redes de creencias profundas". Int J Commun Syst . 30 (12): e3259. doi :10.1002/dac.3259. S2CID  40745740.
  98. ^ de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (1 de diciembre de 2001). "Extracción de contenido de correo electrónico para la identificación forense de autores". SIGMOD Rec . 30 (4): 55–64. CiteSeerX 10.1.1.408.4231 . doi :10.1145/604264.604272. ISSN  0163-5808. S2CID  1623521. 
  99. ^ Argamon, Shlomo; Koppel, Moshe; Pennebaker, James W.; Schler, Jonathan (1 de febrero de 2009). "Perfilado automático del autor de un texto anónimo". Commun. ACM . 52 (2): 119–123. CiteSeerX 10.1.1.136.9952 . doi :10.1145/1461928.1461959. ISSN  0001-0782. S2CID  5413411. 
  100. ^ "Clasificación de las comunicaciones de mensajería instantánea para análisis forense – TechRepublic". TechRepublic . Consultado el 26 de enero de 2016 .
  101. ^ Zhou, L.; Zhang, Dongsong (1 de enero de 2004). "¿Puede el comportamiento en línea revelar a los engañadores? Una investigación exploratoria del engaño en la mensajería instantánea". 37.ª Conferencia Internacional Anual de Hawái sobre Ciencias de Sistemas, 2004. Actas de la . pp. 9 pp.–. doi :10.1109/HICSS.2004.1265079. ISBN 978-0-7695-2056-8. Número de identificación del sujeto  7154702.

Referencias

Lectura adicional

Véase también la revista académica Literary and Linguistic Computing , ahora Digital Scholarship in the Humanities (publicada por la Universidad de Oxford ) y la revista Language Resources and Evaluation (anteriormente Computers and the Humanities ).

Enlaces externos