stringtranslate.com

estilometria

La estilometría es la aplicación del estudio del estilo lingüístico , generalmente al lenguaje escrito. [1] También se ha aplicado con éxito a la música, [2] a la pintura, [3] y al ajedrez. [4]

La estilometría se utiliza a menudo para atribuir autoría a documentos anónimos o en disputa. [5] Tiene aplicaciones tanto legales como académicas y literarias, que van desde la cuestión de la autoría de las obras de Shakespeare hasta la lingüística forense y tiene similitudes metodológicas con el análisis de la legibilidad del texto .

La estilometría se puede utilizar para desenmascarar a autores seudónimos o anónimos, o para revelar cierta información sobre el autor que no llega a una identificación completa. Los autores pueden utilizar la estilometría adversaria para resistir esta identificación eliminando sus propias características estilísticas sin cambiar el contenido significativo de sus comunicaciones. Puede frustrar análisis que no tengan en cuenta su posibilidad, pero la eficacia final de la estilometría en un entorno adverso es incierta: la identificación estilométrica puede no ser confiable, pero tampoco se puede garantizar la no identificación; La práctica de la estilometría adversaria en sí misma puede ser detectable.

Historia

La estilometría surgió de técnicas anteriores de análisis de textos en busca de evidencia de autenticidad, identidad del autor y otras cuestiones.

La práctica moderna de la disciplina recibió publicidad gracias al estudio de los problemas de autoría en el teatro del Renacimiento inglés. Los investigadores y lectores observaron que algunos dramaturgos de la época tenían patrones distintivos de preferencias lingüísticas e intentaron utilizar esos patrones para identificar autores de obras inciertas o colaborativas. Los primeros esfuerzos no siempre tuvieron éxito: en 1901, un investigador intentó utilizar la preferencia de John Fletcher por "⁠ ⁠'em", la forma contraccional de "them", como marcador para distinguir entre Fletcher y Philip Massinger en sus colaboraciones, pero empleó por error una edición de las obras de Massinger en la que el editor había ampliado todas las instancias de "⁠ ⁠'em" a "ellos". [6]

Los fundamentos de la estilometría fueron establecidos por el filósofo polaco Wincenty Lutosławski en Principes de stylométrie (1890). Lutosławski utilizó este método para desarrollar una cronología de los Diálogos de Platón . [7]

El desarrollo de las computadoras y sus capacidades para analizar grandes cantidades de datos potenció este tipo de esfuerzos en órdenes de magnitud. Sin embargo, la gran capacidad de las computadoras para el análisis de datos no garantizaba resultados de buena calidad. A principios de la década de 1960, el reverendo AQ Morton produjo un análisis por computadora de las catorce epístolas del Nuevo Testamento atribuidas a San Pablo, que indicó que seis autores diferentes habían escrito ese conjunto de trabajos. Una revisión de su método, aplicada a las obras de James Joyce , dio como resultado que Ulises , la novela de múltiples perspectivas y múltiples estilos de Joyce, fue compuesta por cinco individuos separados, ninguno de los cuales aparentemente tuvo participación alguna en la elaboración de la primera novela de Joyce. novela, Un retrato del artista joven . [8]

Sin embargo, con el tiempo y la práctica, los investigadores y académicos han perfeccionado sus métodos para obtener mejores resultados. Uno de los primeros éxitos notables fue la resolución de la autoría en disputa de doce de The Federalist Papers de Frederick Mosteller y David Wallace. [9] Si bien todavía hay preguntas sobre los supuestos y métodos iniciales (y, tal vez, siempre las habrá), pocos cuestionan ahora la premisa básica de que el análisis lingüístico de textos escritos puede producir información y conocimientos valiosos. (De hecho, esto era evidente incluso antes de la llegada de las computadoras: la aplicación exitosa de un análisis textual/lingüístico al canon de Fletcher por parte de Cyrus Hoy y otros arrojó resultados claros a finales de los años cincuenta y principios de los sesenta.)

Aplicaciones

Las aplicaciones de la estilometría incluyen estudios literarios, estudios históricos, estudios sociales, recuperación de información y muchos casos y estudios forenses. [10] [11] Recientemente, los debates de larga data sobre las sagas medievales islandesas anónimas han avanzado a través de su utilización. [12] [13] [14] También se puede aplicar al código de computadora [15] y a la detección de plagio intrínseco , que consiste en detectar plagio en función de los cambios de estilo de escritura dentro del documento. [16] La estilometría también se puede utilizar para predecir si alguien es un hablante nativo o no nativo de inglés según su velocidad de escritura . [17]

La estilometría como método es vulnerable a la distorsión del texto durante la revisión. [18] También está el caso del autor adoptando diferentes estilos a lo largo de su carrera como se demostró en el caso de Platón , quien eligió diferentes políticas estilísticas como las adoptadas para los diálogos tempranos y medios que abordan el problema socrático. [19]

Características

Las características textuales de interés para la atribución de autoría son, por un lado, calcular la ocurrencia de expresiones o construcciones idiosincrásicas (por ejemplo, verificar cómo el autor usa la interpunción o con qué frecuencia el autor usa construcciones pasivas sin agentes) y, por otro lado, son similares a las utilizadas para el análisis de legibilidad. como medidas de variación léxica y variación sintáctica. [20] Dado que los autores a menudo tienen preferencias por ciertos temas, los experimentos de investigación en atribución de autoría eliminan en su mayoría palabras de contenido como sustantivos, adjetivos y verbos del conjunto de características, conservando solo elementos estructurales del texto para evitar sobreajustar sus modelos al tema en lugar de características del autor. [21] [22] Las características estilísticas a menudo se calculan como promedios de un texto o de todas las obras recopiladas de un autor, lo que produce medidas como la longitud promedio de las palabras o la longitud promedio de las oraciones. Esto permite que un modelo identifique autores que tienen una clara preferencia por oraciones concisas o con muchas palabras, pero ocultan variaciones: un autor con una combinación de oraciones largas y cortas tendrá el mismo promedio que un autor con oraciones consistentes de longitud media. Para capturar dicha variación, algunos experimentos utilizan secuencias o patrones sobre las observaciones en lugar de frecuencias observadas promedio, observando, por ejemplo, que un autor muestra una preferencia por un determinado estrés o patrón de énfasis, [23] [24] o que un autor tiende a seguir una secuencia de frases largas con una corta. [25] [26]

Se puede decir que uno de los primeros enfoques para la identificación de la autoría, el de Mendenhall, agrega sus observaciones sin promediarlas. [27]

Los modelos de atribución de autoría más recientes utilizan modelos de espacio vectorial para capturar automáticamente lo que es específico del estilo de un autor, pero también se basan en una ingeniería de características juiciosa por las mismas razones que los modelos más tradicionales. [28] [29]

Estilometría adversaria

La estilometría adversaria es la práctica de alterar el estilo de escritura para reducir el potencial de la estilometría para descubrir la identidad del autor o sus características. [30] Esta tarea también se conoce como ofuscación de autoría o anonimización de autoría. La estilometría plantea un desafío importante para la privacidad en su capacidad para desenmascarar a autores anónimos o vincular seudónimos a otras identidades de un autor, [31] lo que, por ejemplo, crea dificultades para los denunciantes , [32] activistas, [33] y los estafadores y estafadores . [34] Se espera que el riesgo para la privacidad crezca a medida que se desarrollen las técnicas de aprendizaje automático y los corpus de texto . [35]

Toda estilometría contradictoria comparte la idea central de parafrasear fielmente el texto fuente de modo que el significado no cambie pero las señales estilísticas queden oscurecidas. [36] [37] Una paráfrasis tan fiel es un ejemplo contradictorio para un clasificador estilométrico. [38] Existen varios enfoques amplios para esto, con cierta superposición: imitación , sustitución del estilo del autor por el de otro; traducción , aplicando la traducción automática con la esperanza de que esto elimine el estilo característico en el texto fuente; y ofuscación , modificar deliberadamente el estilo de un texto para que no se parezca al del autor. [36]

Es posible oscurecer el estilo manualmente, pero es laborioso; [39] en algunas circunstancias, es preferible o necesario. [40] Las herramientas automatizadas, ya sean semiautomáticas o totalmente automáticas, podrían ayudar a un autor. [39] La mejor forma de realizar la tarea y el diseño de dichas herramientas es una cuestión de investigación abierta. [41] [35] Si bien se ha demostrado que algunos enfoques pueden derrotar análisis estilométricos particulares, [42] particularmente aquellos que no tienen en cuenta el potencial de confrontación, [43] establecer la seguridad frente a análisis desconocidos es un problema. . [44] Garantizar la fidelidad de la paráfrasis es un desafío crítico para las herramientas automatizadas. [35]

No está claro si la práctica de la estilometría adversa es detectable en sí misma. Algunos estudios han encontrado que métodos particulares produjeron señales en el texto de salida, pero un estilometrista que no está seguro de qué métodos se pudieron haber utilizado puede no ser capaz de detectarlas de manera confiable. [35]

La investigación actual

La estilometría moderna utiliza computadoras para análisis estadístico , inteligencia artificial y acceso al creciente corpus de textos disponibles a través de Internet . [45] Sistemas de software como Signature [46] (software gratuito producido por Peter Millican de la Universidad de Oxford), JGAAP [47] (el Programa de atribución de autoría gráfica de Java, software gratuito producido por el Dr. Patrick Juola de la Universidad de Duquesne), stylo [48] [ 49] (un paquete R de código abierto para una variedad de análisis estilométricos, incluida la atribución de autoría, desarrollado por Maciej Eder, Jan Rybicki y Mike Kestemont) y Stylene [50] para holandés (software gratuito en línea del profesor Walter Daelemans de la Universidad de Amberes y Dra. Véronique Hoste de la Universidad de Gante) hacen que su uso sea cada vez más practicable, incluso para los no expertos.

Sedes y eventos académicos

Los métodos estilométricos se utilizan para varios temas académicos, como una aplicación de la lingüística, la lexicografía o el estudio literario, [1] junto con el procesamiento del lenguaje natural y el aprendizaje automático, y se aplican a la detección de plagio, el análisis de autoría o la recuperación de información. [45]

Lingüística forense

La Asociación Internacional de Lingüistas Forenses (IAFL) organiza la Conferencia Bienal de la Asociación Internacional de Lingüistas Forenses (13.ª edición en 2016 en Oporto ) y publica la Revista Internacional del Habla, el Lenguaje y el Derecho con la estilística forense como uno de sus temas centrales.

AAAI

La Asociación para el Avance de la Inteligencia Artificial (AAAI) ha organizado varios eventos sobre análisis subjetivo y estilístico del texto. [51] [52] [53]

CACEROLA

Talleres PAN (originalmente, análisis de plagio, identificación de autoría y detección de casi duplicados, luego, de manera más general, talleres sobre cómo descubrir plagio, autoría y uso indebido de software social) organizados desde 2007 principalmente en conjunto con conferencias de acceso a la información como ACM SIGIR , FIRE y CLEF . PAN formula tareas de desafío compartido para la detección de plagio, [54] identificación de autoría, [55] identificación de género del autor, [56] elaboración de perfiles de autor , [57] detección de vandalismo, [58] y otras tareas de análisis de texto relacionadas, muchas de las cuales dependen de la estilometría. .

Estudios de casos de interés

Datos y métodos

Dado que la estilometría tiene casos de uso descriptivos, utilizados para caracterizar el contenido de una colección, y casos de uso identificatorios, por ejemplo, identificar autores o categorías de textos, los métodos utilizados para analizar los datos y características anteriores van desde aquellos creados para clasificar elementos en conjuntos o distribuir elementos en un espacio de variación de características. La mayoría de los métodos son de naturaleza estadística, como el análisis de conglomerados y el análisis discriminante , generalmente se basan en datos y características filológicas y son dominios de aplicación fructíferos para los métodos modernos de aprendizaje automático .

Mientras que en el pasado la estilometría enfatizaba los elementos más raros o llamativos de un texto, las técnicas contemporáneas pueden aislar patrones de identificación incluso en partes comunes del discurso. La mayoría de los sistemas se basan en estadísticas léxicas, es decir, utilizan las frecuencias de palabras y términos del texto para caracterizar el texto (o su autor). En este contexto, a diferencia de la recuperación de información , los patrones de aparición observados de las palabras más comunes son más interesantes que los términos temáticos que son menos frecuentes. [91] [92]

El método estilométrico primario es el invariante del escritor : una propiedad común a todos los textos, o al menos a todos los textos lo suficientemente largos como para admitir un análisis que arroje resultados estadísticamente significativos, escritos por un autor determinado. Un ejemplo de invariante del escritor es la frecuencia de las palabras funcionales utilizadas por el escritor.

En uno de esos métodos, se analiza el texto para encontrar las 50 palabras más comunes. Luego, el texto se divide en fragmentos de 5000 palabras y cada uno de los fragmentos se analiza para encontrar la frecuencia de esas 50 palabras en ese fragmento. Esto genera un identificador único de 50 números para cada fragmento. Estos números colocan cada fragmento de texto en un punto en un espacio de 50 dimensiones. Este espacio de 50 dimensiones se aplana en un plano mediante análisis de componentes principales (PCA). Esto da como resultado una visualización de puntos que corresponden al estilo de un autor. Si dos obras literarias se colocan en el mismo plano, el patrón resultante puede mostrar si ambas obras fueron del mismo autor o de autores diferentes.

Estadísticas gaussianas

Los datos estilométricos se distribuyen según la ley de Zipf-Mandelbrot . La distribución es extremadamente puntiaguda y leptocúrtica , razón por la cual los investigadores no pudieron utilizar estadísticas para resolver, por ejemplo, problemas de atribución de autoría. Sin embargo, el uso de la estadística gaussiana es perfectamente posible aplicando la transformación de datos . [93]

Redes neuronales

Las redes neuronales , un caso especial de métodos estadísticos de aprendizaje automático, se han utilizado para analizar la autoría de textos. Se utilizan textos de autoría indiscutible para entrenar una red neuronal mediante procesos como la retropropagación , de manera que el error de entrenamiento se calcula y se utiliza para actualizar el proceso para aumentar la precisión. A través de un proceso similar a la regresión no lineal, la red obtiene la capacidad de generalizar su capacidad de reconocimiento a nuevos textos a los que aún no ha estado expuesta, clasificándolos según un grado determinado de confianza. Tales técnicas se aplicaron a las antiguas afirmaciones de colaboración de Shakespeare con sus contemporáneos John Fletcher y Christopher Marlowe , [94] [95] y confirmaron la opinión, basada en estudios más convencionales, de que tal colaboración efectivamente había ocurrido.

Un estudio de 1999 demostró que un programa de red neuronal alcanzó un 70% de precisión al determinar la autoría de poemas que aún no había analizado. Este estudio de la Vrije Universiteit examinó la identificación de poemas de tres autores holandeses utilizando únicamente secuencias de letras como "den". [96]

Un estudio utilizó redes de creencia profunda (DBN) para el modelo de verificación de autoría aplicable a la autenticación continua (CA). [97]

Un problema con este método de análisis es que la red puede volverse sesgada según su conjunto de entrenamiento, posiblemente seleccionando autores que la red ha analizado con más frecuencia. [96]

Algoritmos genéticos

El algoritmo genético es otra técnica de aprendizaje automático utilizada para la estilometría. Se trata de un método que comienza con un conjunto de reglas. Una regla de ejemplo podría ser: "Si pero aparece más de 1,7 veces por cada mil palabras, entonces el texto es del autor X". El programa se presenta con texto y utiliza las reglas para determinar la autoría. Las reglas se comparan con un conjunto de textos conocidos y a cada regla se le asigna una puntuación de idoneidad. No se utilizan las 50 reglas con las puntuaciones más bajas. Las 50 reglas restantes reciben pequeños cambios y se introducen 50 reglas nuevas. Esto se repite hasta que las reglas evolucionadas atribuyan los textos correctamente.

pares raros

Un método para identificar el estilo se denomina "pares raros" y se basa en los hábitos individuales de colocación . El uso de ciertas palabras puede, para un autor en particular, estar asociado idiosincrásicamente con el uso de otras palabras predecibles.

Atribución de autoría en mensajería instantánea

La difusión de Internet ha desplazado la atención de la atribución de autoría hacia textos en línea (páginas web, blogs, etc.), mensajes electrónicos (correos electrónicos, tweets, publicaciones, etc.) y otros tipos de información escrita que son mucho más breves que un Libro promedio, mucho menos formal y más diverso en términos de elementos expresivos como colores , diseño , fuentes , gráficos , emoticones , etc. Se informaron esfuerzos para tener en cuenta estos aspectos tanto a nivel de estructura como de sintaxis . Además, se introdujeron señales idiosincrásicas y específicas del contenido (por ejemplo, modelos de temas y herramientas de revisión gramatical) para revelar elecciones estilísticas deliberadas. [99]

Se han empleado características estilométricas estándar para categorizar el contenido de un chat mediante mensajería instantánea , [100] o el comportamiento de los participantes, [101] pero los intentos de identificar a los participantes del chat son todavía pocos y tempranos. Además, se ha ignorado la similitud entre las conversaciones habladas y las interacciones de chat, siendo una diferencia importante entre los datos del chat y cualquier otro tipo de información escrita.

Ver también

Notas

  1. ^ ab Argamon, Shlomo , Kevin Burns y Shlomo Dubnov , eds. La estructura del estilo: enfoques algorítmicos para comprender la manera y el significado. Springer Science & Business Media, 2010.
  2. ^ Westcott, Richard (15 de junio de 2006). "Hacer de la música de éxito una ciencia". Noticias de la BBC .
  3. ^ Sethi, Ricky (7 de junio de 2016). "Usar las computadoras para comprender mejor el arte". La conversación . Consultado el 1 de diciembre de 2021 .
  4. ^ McIlroy-Young, Reid; Wang, Yu; Sen, Siddhartha; Kleinberg, Jon; Anderson, Ashton (2021). Detección del estilo individual de toma de decisiones: exploración de la estilometría conductual en el ajedrez. 35º Congreso sobre Sistemas de Procesamiento de Información Neural.
  5. ^ Chen, Hsinchun; Yang, Christopher C.; Chau, Michael; Li, Shu-Hsing (2009). Informática de inteligencia y seguridad: Taller de Asia Pacífico, PAISI 2009, Bangkok, Tailandia, 27 de abril de 2009. Actas . Berlín: Springer Science & Business Media. pag. 15.ISBN 9783642013928.
  6. Samuel Schoenbaum , Evidencia interna y autoría dramática isabelina; un ensayo sobre historia y método literarios, p. 171.
  7. ^ Lutoslawski, W. (1898). "Principes de stylométrie appliqués à la cronologie des œuvres de Platon". Revue des Études Grecques . 11 (41): 61–81. doi : 10.3406/reg.1898.5847. ISSN  0035-2039.
  8. Samuel Schoenbaum , Evidencia interna y autoría dramática isabelina; un ensayo sobre historia y método literarios, p. 196.
  9. ^ F. Mosteller y D. Wallace (1964). Inferencia y autoría en disputa: el federalista . Lectura, MA : Addison-Wesley .
  10. ^ Chaski, Carole (2012). Solan, Lorenzo M; Tiersma, Peter M (eds.). Identificación del autor en el ámbito forense. Prensa de la Universidad de Oxford. doi : 10.1093/oxfordhb/9780199572120.001.0001. ISBN 9780199572120. {{cite book}}: |journal=ignorado ( ayuda )
  11. ^ Chaski, Carole (22 de diciembre de 2005). Wecht, Cyril H.; Rago, John T. (eds.). Ciencias Forenses y Derecho: Aplicaciones Investigativas en Justicia Penal, Civil y de Familia. Prensa CRC. ISBN 978-1-4200-5811-6.
  12. ^ Michael MacPherson y Yoav Tirosh (2020). "Un análisis estilométrico de la saga Ljósvetninga". Gripla . 31 : 7–41.
  13. ^ Haukur Thorgeirsson (2018). "¿Qué tan similares son las sagas de Heimskringla y Egils? Una aplicación del delta de Burrows a los textos islandeses". Revista europea de estudios escandinavos . 48 (1): 1–18. doi : 10.1515/ejss-2018-0001 .
  14. ^ Sigurður Ingibergur Björnsson, Steingrímur Páll Kárason y Jón Karl Helgason (2021). ""La estilometría y las huellas dactilares descoloridas de los autores de sagas"". En busca del culpable: aspectos de la autoría medieval, editado por Lukas Rösli y Stefanie Gropper : 97–122. doi : 10.1515/9783110725339-005 . ISBN 9783110725339.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  15. ^ Claburn, Thomas (16 de marzo de 2018). "Para su información: las herramientas de inteligencia artificial pueden desenmascarar codificadores anónimos de sus ejecutables binarios". El registro . Consultado el 2 de agosto de 2018 .
  16. ^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de n-gramas de caracteres como única evidencia intrínseca de plagio". Evaluación y recursos lingüísticos . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID  86630897.
  17. ^ Brizan, David (octubre de 2015). "Utilizar una dinámica de pulsación de teclas mejorada lingüísticamente para predecir la cognición y la demografía del mecanógrafo". Revista internacional de estudios humanos-computadores . 82 : 57–68. doi :10.1016/j.ijhcs.2015.04.005.
  18. ^ Alican, Necip Fikri (2012). Repensar a Platón: una búsqueda cartesiana del verdadero Platón . Ámsterdam: Rodopi. pag. 183.ISBN 9789042035379.
  19. ^ Rowe, Christopher (2000). La historia de Cambridge del pensamiento político griego y romano. Cambridge, Reino Unido: Cambridge University Press. pag. 160.ISBN 0521481368.
  20. ^ Stamatatos, Efstathios (2009). "Un estudio de los métodos modernos de atribución de autoría". JASISTA . 60 (3): 538–556. doi :10.1002/asi.21001. S2CID  6231242.
  21. ^ Stamatatos, Efstathios (2018). "Enmascarar información relacionada con el tema para mejorar la atribución de autoría". JASIS . 69 (3).
  22. ^ Karlgren, Jussi; Espósito, Lewis; Gratton, Chantal; Kanerva, Pentti (2018). "Perfiles de autoría sin utilizar información de actualidad". Notas de trabajo CLEF . CEUR-WS.
  23. ^ Corbara, Silvia; Moreo, Alejandro; Sebastiani, Fabrizio (2022). "Patrones de cantidad silábica como rasgos rítmicos para la atribución de autoría latina". JASISTA . 74 : 128-141. arXiv : 2110.14203 . doi :10.1002/asi.24660. S2CID  239998537.
  24. ^ Corbara, Silvia; Chulvi, Berta; Rosso, Paolo; Moreo, Alejandro (2022). "Rasgos rítmicos y psicolingüísticos para las tareas de autoría en las Cortes Generales de España: Evaluación y análisis". "Las relaciones internacionales experimentales se encuentran con el multilingüismo, la multimodalidad y la interacción ". CLAVE. Saltador. págs. 79–92. doi :10.1007/978-3-031-13643-6_6.
  25. ^ Karlgren, Jussi; Eriksson, Gunnar (2007). "Autores, género y convención lingüística". Taller SIGIR sobre análisis de plagio, identificación de autoría y detección de casi duplicados . SIGIR. CACEROLA.
  26. ^ Eriksson, Linda (2014). Agregación secuencial de características textuales para la identificación de autor independiente del dominio (Maestría). KTH Real Instituto de Tecnología.
  27. ^ Mendenhall, TC (1887). "Las curvas características de la composición". Ciencia . 9 (214S): 237–246. doi : 10.1126/science.ns-9.214S.237. PMID  17736020.
  28. ^ Chen, Beichen (2021). Incrustaciones de similitudes de libros (PDF) (Maestría). KTH Real Instituto de Tecnología.
  29. ^ Stamatatos, Efstathios; Kestemont, Mike; Kredens, Krzysztof; Pezik, Piotr; Heini, Annina (2022). "Resumen de la tarea de verificación de autoría en el PAN 2022". En Faggioli; Ferro; Hanbury; Pottast (eds.). CLEF 2022 Laboratorios y talleres, Cuadernos. CEUR-WS . Consultado el 6 de septiembre de 2022 .
  30. ^ Neal y col. 2018, pág. 5.
  31. ^ Gröndahl y Asokan 2020a, pag. 3.
  32. ^ Kacmarcik y Gamon 2006, pág. 444.
  33. ^ Mahmood y col. 2019, pág. 54.
  34. ^ Afroz, Brennan y Greenstadt 2012, pág. 461.
  35. ^ abcd Gröndahl y Asokan 2020a, pag. 28.
  36. ^ ab Neal y col. 2018, pág. 6.
  37. ^ Potthast, Hagen y Stein 2016, pág. 10.
  38. ^ Saedi y Dras 2020, pag. 181.
  39. ^ ab Gröndahl y Asokan 2020a, pág. 21-22.
  40. ^ Wang, Juola y Riddell 2022, pag. 2.
  41. ^ Neal y col. 2018, pág. 27.
  42. ^ Brennan, Afroz y Greenstadt 2012, pág. 2.
  43. ^ Zhai y col. 2022, pág. 7373.
  44. ^ Emmery, Kádár y Chrupała 2021, p. 2388-2389.
  45. ^ ab Argamon, Shlomo , Jussi Karlgren y James G. Shanahan. Análisis estilístico del texto para el acceso a la información. Artículos del taller celebrado junto con la 28.ª Conferencia Anual Internacional ACM sobre Investigación y Desarrollo en Recuperación de Información, 13 al 19 de agosto de 2005, Salvador, Bahía, Brasil. Instituto Sueco de Informática, 2005.
  46. ^ "El sistema estilométrico característico". FiloComp . Consultado el 3 de enero de 2014 .
  47. ^ "JGAAP". JGAAP. 2012-09-04 . Consultado el 15 de octubre de 2012 .
  48. ^ ab "El paquete stylo para R". Grupo de Estilística Computacional. 2014-10-24. Archivado desde el original el 21 de diciembre de 2014 . Consultado el 24 de octubre de 2014 .
  49. ^ Eder, Maciej; Rybicki, enero; Kestemont, Mike (2016). "Estilometría con R: un paquete para análisis de texto computacional" (PDF) . Diario R. 8 (1): 107–121. doi : 10.32614/RJ-2016-007 .
  50. ^ Daelemans, Walter y Hoste, Véronique (2013). ESTILONO: un entorno para la investigación de estilometría y legibilidad para holandeses (informe técnico). Serie de informes técnicos de CLIPS. ISSN  2033-3544.
  51. ^ Yan Qu, James G. Shanahan y Janyce Wiebe . "Explorando la actitud y el afecto en el texto: teorías y aplicaciones". Informe técnico del Simposio de Primavera de AAAI SS-04-07. Prensa AAAI, Menlo Park, CA. 2004.
  52. ^ Jussi Karlgren , Björn Gambäck y Pentti Kanerva . "Adquirir (y utilizar) conocimientos lingüísticos (y mundiales) para acceder a la información". (2002). Simposio de primavera de AAAI. Informe técnico SS-02-09. Prensa AAAI, Menlo Park, CA. 2002.
  53. ^ Shlomo Argamon , Shlomo Dubnov y Julie Jupp. "Estilo y significado en el lenguaje, el arte, la música y el diseño" (2004). Simposio de otoño de AAAI. Informe técnico FS-04-07.
  54. ^ Potthast, Martín, Benno Stein, Alberto Barrón-Cedeño y Paolo Rosso. "Un marco de evaluación para la detección de plagio". En Actas de la 23ª conferencia internacional sobre lingüística computacional: carteles, págs. 997-1005. Asociación de Lingüística Computacional, 2010.
  55. ^ Stamatatos, Efstathios, Walter Daelemans, Ben Verhoeven, Patrick Juola, Aurelio López-López, Martin Potthast y Benno Stein. "Resumen de la Tarea de Identificación de Autores en el PAN 2014". En CLEF (Notas de trabajo), págs. 877–897. 2014.
  56. ^ Rangel, Francisco, Paolo Rosso, Martin Potthast y Benno Stein. "Descripción general de la quinta tarea de elaboración de perfiles de autor en pan 2017: identificación de variedad de género y lenguaje en Twitter". Documentos de notas de trabajo de la CLEF (2017).
  57. ^ Rangel Pardo, Francisco Manuel, Fabio Celli, Paolo Rosso, Martin Potthast, Benno Stein y Walter Daelemans. "Descripción general de la tercera tarea de elaboración de perfiles de autor en PAN 2015". En CLEF 2015 Laboratorios de evaluación y documentos de notas de trabajo de talleres, págs. 2015.
  58. ^ Potthast, Martín, Benno Stein y Teresa Holfeld. "Resumen del 1er Concurso Internacional sobre Detección de Vandalismo en Wikipedia". En CLEF (Artículos de cuaderno/LAB/Talleres). 2010.
  59. ^ Procesamiento de texto, análisis y generación de texto: tipología y atribución de texto. Actas del simposio Nobel 51. Editado por Sture Allén . Estocolmo: Almqvist & Wiksell internacional 1982. Data lingüística, 16. Simposio Nobel, 51. ISBN 91-22-00594-3 
  60. ^ Karlgren, Jussi (2003). "Helander: un caso de atribución de autoría" . Consultado el 4 de octubre de 2017 .
  61. ^ Airoldi, Edoardo M .; Fienberg, Stephen E.; Skinner, Kiron K. (julio de 2007). "¿De quién son las ideas? ¿De quién son las palabras? Autoría de los discursos de radio de Ronald Reagan" (PDF) . PD: Ciencias políticas y política . 40 (3): 501–506. CiteSeerX 10.1.1.190.5798 . doi :10.1017/S1049096507070874. S2CID  18730541. 
  62. ^ Autor desconocido por Gavin McNett Salon 2 de noviembre de 2000
  63. ^ Belluck, Pam (10 de abril de 1996). "En el caso Unabom, dolor para la familia del sospechoso". Los New York Times . Archivado desde el original el 10 de agosto de 2017 . Consultado el 5 de julio de 2008 .
  64. ^ "Un estudio encuentra que una obra de Shakespeare en disputa lleva la marca del maestro". Los Ángeles Times . 2015-04-10 . Consultado el 13 de abril de 2015 .
  65. ^ Boyd, Ryan L.; Pennebaker, James W. (2015). "¿Shakespeare escribió una doble falsedad? Identificación de individuos mediante la creación de firmas psicológicas con análisis de texto". Ciencia psicológica . 26 (5): 570–582. doi :10.1177/0956797614566658. PMID  25854277. S2CID  13022405.
  66. ^ Jackson, MacDonald P (27 de abril de 2016). ¿Quién escribió "La noche antes de Navidad"? Analizando el caso Clement Clarke Moore vs. Pregunta de Henry Livingston . McFarland & Co. ISBN 978-1476664439.
  67. ^ Más completo, Simón; O'Sullivan, James (2017). "Estructura sobre estilo: autoría colaborativa y renacimiento del capitalismo literario". Humanidades Digitales Trimestrales . 11 (1) . Consultado el 20 de abril de 2017 .
  68. ^ Lane, Anthony (18 de junio de 2018). "La conmovedora colaboración de Bill Clinton y James Patterson". El neoyorquino . Consultado el 7 de junio de 2018 .
  69. ^ "Por qué no es necesario escribir mucho para ser el autor más vendido del mundo". La conversación . 3 de abril de 2017 . Consultado el 20 de abril de 2017 .
  70. ^ O'Sullivan, James (7 de junio de 2018). "Bill Clinton y James Patterson son coautores, pero ¿quién escribió?". El guardián . Consultado el 7 de junio de 2018 .
  71. ^ Saboya, Jacques (2018). "¿Starnone es realmente el autor detrás de Ferrante?". Beca Digital en Humanidades . 33 (4): 902–918. doi :10.1093/llc/fqy016.
  72. ^ Reuell, Peter: "Tú dices John, yo digo Paul. Pero ¿qué dice la estilometría?"
  73. ^ Glickman, marca; Marrón, Jason; Canción, Ryan (2019). "(A) Datos en la vida: atribución de autoría en canciones de Lennon-McCartney". Revisión de ciencia de datos de Harvard . 1 (1). arXiv : 1906.05427 . doi : 10.1162/99608f92.130f856e . S2CID  189762434.
  74. ^ El proyecto ETSO.
  75. ^ "Un monstruo de la naturaleza llamado Lope" [Un monstruo de la naturaleza llamado Lope]. abc (en español). 2018-11-28 . Consultado el 11 de agosto de 2019 .
  76. ^ "Rastreadores digitales en el Siglo de Oro" [Rastreadores digitales en el Siglo de Oro]. El Norte de Castilla (en español). 2018-12-23 . Consultado el 11 de agosto de 2019 .
  77. ^ Real, La Tribuna de Ciudad (09 de julio de 2019). "Juan Ruiz de Alarcón aumenta su obra cinco siglos después" [Juan Ruiz de Alarcón aumenta su obra cinco siglos después]. La Tribuna de Ciudad Real (en español) . Consultado el 11 de agosto de 2019 .
  78. ^ Migueláñez, Daniel (28 de julio de 2019). "El Holmes de la filología". PSOE Chamberí . No. 6. pág. 8. Archivado desde el original el 18 de julio de 2020 . Consultado el 11 de agosto de 2019 .
  79. ^ "Sor Juana Inés centró las 42 Jornadas de Teatro Clásico". Lanza Digital (en español europeo). 2019-07-14 . Consultado el 11 de agosto de 2019 .
  80. ^ "'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón" ['La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón]. El Norte de Castilla (en español). 2019-07-10 . Consultado el 11 de agosto de 2019 .
  81. ^ "La inteligencia artificial ayuda a encontrar al destacado dramaturgo español Lope de Vega como autor de una obra de teatro a partir de un manuscrito escrito años después de su muerte". newsendip.com . 31 de enero de 2023 . Consultado el 8 de febrero de 2023 .
  82. ^ Jones, Sam (5 de febrero de 2023). "La inteligencia artificial descubre obra perdida del titán de la 'Edad de Oro' de España'". El guardián . Consultado el 8 de febrero de 2023 .
  83. ^ Morales, Manuel (31 de enero de 2023). "La inteligencia artificial atribuye a Lope de Vega una obra anónima del fondo de manuscritos de la Biblioteca Nacional" El País (en español) . Consultado el 8 de febrero de 2023 .
  84. ^ McCarthy, Raquel; O'Sullivan, James (2020). "¿Quién escribió Cumbres borrascosas?". Beca Digital en Humanidades . 36 (2): 383–391. doi : 10.1093/llc/fqaa031. hdl : 10468/10194 .
  85. ^ Ilsemann, Harmut (2020) "Phantom Marlowe: Paradigmenwechsel in Autorschaftsbestimmungen des englischen Renaissancedramas". Düren: Coctelera, ISBN 978-3-8440-7412-3
  86. ^ Ilsemann, Harmut (2020). "El corpus de Marlowe revisitado". Beca Digital en Humanidades . 36 (2): 333–360. doi : 10.1093/llc/fqaa010.
  87. ^ Ilsemann, Harmut (2021). "Un breve suplemento de" The Marlowe Corpus Revisited "y Phantom Marlowe". Beca Digital en Humanidades . 37 (2): 462–468. doi : 10.1093/llc/fqab078.
  88. ^ Rebora, Simone y Salgaro, Massimo (2022). "¿Es Felix Salten el autor de la novela de Mutzenbacher (1906)? Sí y no" . Lengua y Literatura: Revista Internacional de Estilística . 31 (2): 243–264. doi :10.1177/09639470221090384. S2CID  248135373.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  89. ^ AI avslöjar: Läckberg har antagligen spökskrivare – skjuter ned anklagelserna. Hufvudstadsbladet , 27 de septiembre de 2023 (en sueco).
  90. ^ "Läckberg om rykterna: 'Han petade i meningarna'". Hufvudstadsbladet (en sueco). Helsingfors. 21 de diciembre de 2023. p. 23.
  91. ^ Biber, Douglas. Variación a través del habla y la escritura. Prensa de la Universidad de Cambridge, 1991.
  92. ^ Karlgren, Jussi ; Corte, Douglass (1994). "Reconocimiento de géneros de texto con métricas simples mediante análisis discriminante". Actas de la 15ª conferencia sobre lingüística computacional - . vol. 2. pág. 1071. arXiv : cmp-lg/9410008 . Código Bib : 1994cmp.lg...10008K. doi :10.3115/991250.991324. S2CID  1297432. {{cite book}}: |journal=ignorado ( ayuda )
  93. ^ Van Droogenbroeck FJ, "Una reformulación esencial de la ley Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas" (2019) [1]
  94. ^ Matthews, Robert AJ; Merriam, Thomas VN (1993). "Computación neuronal en estilometría I: una aplicación a las obras de Shakespeare y Fletcher". Computación Literaria y Lingüística . 8 (4): 203–209. doi :10.1093/llc/8.4.203.
  95. ^ Merriam, Thomas VN; Matthews, Robert AJ (1994). "Computación neuronal en estilometría II: una aplicación a las obras de Shakespeare y Marlowe". Computación Literaria y Lingüística . 9 (1): 1–6. doi :10.1093/llc/9.1.1.
  96. ^ ab JF Hoorn; SL Frank; W Kowalczyk; F. van der Ham (3 de septiembre de 2012). "Identificación de redes neuronales de poetas mediante secuencias de letras". Computación Literaria y Lingüística . 14 (3): 311–338. doi :10.1093/llc/14.3.311.
  97. ^ Brocardo, ML; Traoré, yo; Woungang, yo; Obaidat, MS (2017). "Verificación de autoría mediante sistemas de redes de creencias profundas". Sistema Comunitario Int J. 30 (12): e3259. doi :10.1002/dac.3259. S2CID  40745740.
  98. ^ de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (1 de diciembre de 2001). "Extracción de contenido de correo electrónico para análisis forense de identificación de autores". Rec. SIGMOD . 30 (4): 55–64. CiteSeerX 10.1.1.408.4231 . doi :10.1145/604264.604272. ISSN  0163-5808. S2CID  1623521. 
  99. ^ Argamón, Shlomo; Koppel, Moshé; Pennebaker, James W.; Schler, Jonathan (1 de febrero de 2009). "Perfil automático del autor de un texto anónimo". Comunitario. ACM . 52 (2): 119-123. CiteSeerX 10.1.1.136.9952 . doi :10.1145/1461928.1461959. ISSN  0001-0782. S2CID  5413411. 
  100. ^ "Clasificación de comunicaciones de mensajería instantánea para análisis forense - TechRepublic". República Tecnológica . Consultado el 26 de enero de 2016 .
  101. ^ Zhou, L.; Zhang, Dongsong (1 de enero de 2004). "¿Puede el comportamiento en línea revelar a los engañadores? - una investigación exploratoria del engaño en la mensajería instantánea". 37ª Conferencia Internacional Anual de Hawaii sobre Ciencias de Sistemas, 2004. Actas de la . págs.9 págs.–. doi :10.1109/HICSS.2004.1265079. ISBN 978-0-7695-2056-8. S2CID  7154702.

Referencias

Otras lecturas

Véase también la revista académica Literary and Linguistic Computing , ahora Digital Scholarship in the Humanities (publicada por la Universidad de Oxford ) y la revista Language Resources and Assessment (anteriormente Computers and the Humanities ).

enlaces externos