stringtranslate.com

Detección de similitud de contenido

La detección de plagio o detección de similitud de contenido es el proceso de localizar instancias de plagio o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de computadoras y la llegada de Internet han hecho que sea más fácil plagiar el trabajo de otros. [1] [2]

La detección del plagio se puede llevar a cabo de diversas maneras. La detección humana es la forma más tradicional de identificar el plagio en un trabajo escrito. Esta puede ser una tarea larga y que requiere mucho tiempo para el lector [2] y también puede dar lugar a inconsistencias en la forma en que se identifica el plagio dentro de una organización. [3] El software de comparación de texto (TMS), que también se conoce como "software de detección de plagio" o software "antiplagio", se ha vuelto ampliamente disponible, tanto en forma de productos disponibles comercialmente como de software de código abierto [ ejemplos necesarios ] . El TMS en realidad no detecta el plagio per se, sino que encuentra pasajes específicos de texto en un documento que coinciden con el texto de otro documento.

Detección de plagio asistida por software

La detección de plagio asistida por computadora es una tarea de recuperación de información (IR) respaldada por sistemas IR especializados, a los que se les conoce como sistema de detección de plagio (PDS) o sistema de detección de similitud de documentos. Una revisión sistemática de la literatura de 2019 [4] presenta una descripción general de los métodos de detección de plagio de última generación.

En documentos de texto

Los sistemas de detección de similitudes textuales implementan uno de dos enfoques de detección genéricos, uno externo y el otro intrínseco. [5] Los sistemas de detección externa comparan un documento sospechoso con una colección de referencia, que es un conjunto de documentos que se supone que son genuinos. [6] Con base en un modelo de documento elegido y criterios de similitud predefinidos, la tarea de detección es recuperar todos los documentos que contienen texto que es similar en un grado por encima de un umbral elegido al texto del documento sospechoso. [7] Los PDS intrínsecos analizan únicamente el texto que se va a evaluar sin realizar comparaciones con documentos externos. Este enfoque tiene como objetivo reconocer cambios en el estilo de escritura único de un autor como un indicador de plagio potencial. [8] [9] Los PDS no son capaces de identificar plagio de manera confiable sin el juicio humano. Las similitudes y las características del estilo de escritura se calculan con la ayuda de modelos de documentos predefinidos y pueden representar falsos positivos. [10] [11] [12] [13] [14]

Eficacia de esas herramientas en entornos de educación superior

Se realizó un estudio para probar la eficacia de un software de detección de similitudes en un entorno de educación superior. En una parte del estudio, se asignó a un grupo de estudiantes la tarea de escribir un trabajo. A estos estudiantes se les informó primero sobre el plagio y de que su trabajo se iba a ejecutar a través de un sistema de detección de similitudes de contenido. A un segundo grupo de estudiantes se le asignó la tarea de escribir un trabajo sin ninguna información sobre el plagio. Los investigadores esperaban encontrar tasas más bajas en el primer grupo, pero encontraron aproximadamente las mismas tasas de plagio en ambos grupos. [15]

Aproches

La figura siguiente representa una clasificación de todos los métodos de detección que se utilizan actualmente para la detección de similitud de contenido asistida por computadora. Los métodos se caracterizan por el tipo de evaluación de similitud que realizan: global o local. Los métodos de evaluación de similitud global utilizan las características tomadas de partes más grandes del texto o del documento en su totalidad para calcular la similitud, mientras que los métodos locales solo examinan segmentos de texto preseleccionados como entrada. [ cita requerida ]

Clasificación de los métodos de detección de plagio asistidos por ordenador [16]
Toma de huellas dactilares

La toma de huellas dactilares es actualmente el método más utilizado para la detección de similitudes de contenido. Este método forma resúmenes representativos de documentos seleccionando un conjunto de múltiples subcadenas ( n-gramas ) de ellos. Los conjuntos representan las huellas dactilares y sus elementos se denominan minucias. [17] [18] Un documento sospechoso se comprueba en busca de plagio calculando su huella dactilar y consultando las minucias con un índice precalculado de huellas dactilares para todos los documentos de una colección de referencia. Las minucias que coinciden con las de otros documentos indican segmentos de texto compartidos y sugieren plagio potencial si superan un umbral de similitud elegido. [19] Los recursos computacionales y el tiempo son factores limitantes para la toma de huellas dactilares, por lo que este método normalmente solo compara un subconjunto de minucias para acelerar el cálculo y permitir verificaciones en colecciones muy grandes, como Internet. [17]

Coincidencia de cadenas

La comparación de cadenas es un enfoque muy utilizado en informática. Cuando se aplica al problema de la detección de plagio, se comparan documentos para detectar superposiciones textuales. Se han propuesto numerosos métodos para abordar esta tarea, algunos de los cuales se han adaptado a la detección de plagio externo. La comprobación de un documento sospechoso en este contexto requiere el cálculo y el almacenamiento de representaciones comparables de manera eficiente para todos los documentos de la colección de referencia para compararlos por pares. En general, se han utilizado modelos de documentos de sufijos, como árboles de sufijos o vectores de sufijos, para esta tarea. No obstante, la comparación de subcadenas sigue siendo computacionalmente costosa, lo que la convierte en una solución no viable para comprobar grandes colecciones de documentos. [20] [21] [22]

Bolsa de palabras

El análisis de bolsa de palabras representa la adopción de la recuperación del espacio vectorial , un concepto tradicional de IR, en el dominio de la detección de similitud de contenido. Los documentos se representan como uno o varios vectores, por ejemplo, para diferentes partes del documento, que se utilizan para cálculos de similitud por pares. El cálculo de similitud puede entonces basarse en la medida de similitud tradicional del coseno o en medidas de similitud más sofisticadas. [23] [24] [25]

Análisis de citas

La detección de plagio basada en citas (CbPD) [26] se basa en el análisis de citas y es el único enfoque para la detección de plagio que no se basa en la similitud textual. [27] CbPD examina la información de citas y referencias en textos para identificar patrones similares en las secuencias de citas. Como tal, este enfoque es adecuado para textos científicos u otros documentos académicos que contienen citas. El análisis de citas para detectar plagio es un concepto relativamente joven. No ha sido adoptado por software comercial, pero existe un primer prototipo de un sistema de detección de plagio basado en citas. [28] El orden similar y la proximidad de las citas en los documentos examinados son los principales criterios utilizados para calcular las similitudes de los patrones de citas. Los patrones de citas representan subsecuencias que contienen de forma no exclusiva citas compartidas por los documentos comparados. [27] [29] También se consideran factores, incluido el número absoluto o la fracción relativa de citas compartidas en el patrón, así como la probabilidad de que las citas coexistan en un documento, para cuantificar el grado de similitud de los patrones. [27] [29] [30] [31]

Estilometría

La estilometría incluye métodos estadísticos para cuantificar el estilo de escritura único de un autor [32] [33] y se utiliza principalmente para la atribución de autoría o la detección de plagio intrínseco. [34] La detección de plagio por atribución de autoría requiere verificar si el estilo de escritura del documento sospechoso, que supuestamente está escrito por un determinado autor, coincide con el de un corpus de documentos escritos por el mismo autor. La detección de plagio intrínseco, por otro lado, descubre el plagio basándose en evidencias internas en el documento sospechoso sin compararlo con otros documentos. Esto se realiza construyendo y comparando modelos estilométricos para diferentes segmentos de texto del documento sospechoso, y los pasajes que son estilísticamente diferentes de otros se marcan como potencialmente plagiados/infringidos. [8] Aunque son fáciles de extraer, se ha demostrado que los n-gramas de caracteres están entre las mejores características estilométricas para la detección de plagio intrínseco. [35]

Redes neuronales

Los enfoques más recientes para evaluar la similitud de contenido utilizando redes neuronales han logrado una precisión significativamente mayor, pero tienen un gran costo computacional. [36] Los enfoques de redes neuronales tradicionales incorporan ambas piezas de contenido en incorporaciones de vectores semánticos para calcular su similitud, que a menudo es su similitud de coseno. Los métodos más avanzados realizan predicciones de similitud o clasificaciones de extremo a extremo utilizando la arquitectura Transformer . [37] [38] La detección de paráfrasis se beneficia particularmente de modelos preentrenados altamente parametrizados.

Actuación

Las evaluaciones comparativas de los sistemas de detección de similitud de contenido [6] [39] [40] [41] [42] [43] indican que su rendimiento depende del tipo de plagio presente (véase la figura). A excepción del análisis de patrones de citas, todos los enfoques de detección se basan en la similitud textual. Por lo tanto, es sintomático que la precisión de la detección disminuya cuanto más se ocultan los casos de plagio.

Rendimiento de detección de los métodos de detección de plagio asistidos por computadora según el tipo de plagio presente

Las copias literales, también conocidas como plagio de copiar y pegar o infracción flagrante de derechos de autor, o casos de plagio modestamente disfrazados pueden detectarse con alta precisión mediante PDS externos actuales si la fuente es accesible para el software. En particular, los procedimientos de coincidencia de subcadenas logran un buen rendimiento para el plagio de copiar y pegar, ya que comúnmente utilizan modelos de documentos sin pérdida, como árboles de sufijos . El rendimiento de los sistemas que utilizan huellas dactilares o análisis de bolsa de palabras para detectar copias depende de la pérdida de información incurrida por el modelo de documento utilizado. Al aplicar estrategias flexibles de fragmentación y selección, son más capaces de detectar formas moderadas de plagio disfrazado en comparación con los procedimientos de coincidencia de subcadenas.

La detección de plagio intrínseco mediante estilometría puede superar los límites de similitud textual hasta cierto punto al comparar la similitud lingüística. Dado que las diferencias estilísticas entre los segmentos plagiados y los originales son significativas y se pueden identificar de manera confiable, la estilometría puede ayudar a identificar plagio encubierto y parafraseado . Es probable que las comparaciones estilométricas fallen en los casos en que los segmentos están fuertemente parafraseados hasta el punto en que se asemejan más al estilo de escritura personal del plagiador o si un texto fue compilado por varios autores. Los resultados de las Competencias Internacionales sobre Detección de Plagio celebradas en 2009, 2010 y 2011, [6] [42] [43] así como los experimentos realizados por Stein, [34] indican que el análisis estilométrico parece funcionar de manera confiable solo para longitudes de documentos de varios miles o decenas de miles de palabras, lo que limita la aplicabilidad del método a los entornos de detección de plagio asistido por computadora.

Cada vez se realizan más investigaciones sobre métodos y sistemas capaces de detectar el plagio traducido. En la actualidad, la detección de plagio en varios idiomas (CLPD) no se considera una tecnología madura [44] y los sistemas respectivos no han podido lograr resultados de detección satisfactorios en la práctica. [41]

La detección de plagio basada en citas mediante el análisis de patrones de citas es capaz de identificar paráfrasis y traducciones más sólidas con mayores tasas de éxito en comparación con otros enfoques de detección, porque es independiente de las características textuales. [27] [30] Sin embargo, dado que el análisis de patrones de citas depende de la disponibilidad de suficiente información sobre las citas, se limita a los textos académicos. Sigue siendo inferior a los enfoques basados ​​en texto en la detección de pasajes plagiados más cortos, que son típicos de los casos de plagio de copiar y pegar o mezclar y pegar; este último se refiere a mezclar fragmentos ligeramente alterados de diferentes fuentes. [45]

Software

El diseño de software de detección de similitud de contenido para su uso con documentos de texto se caracteriza por una serie de factores: [46]

La mayoría de los sistemas de detección de plagio a gran escala utilizan grandes bases de datos internas (además de otros recursos) que crecen con cada documento adicional que se envía para su análisis. Sin embargo, algunos consideran que esta característica constituye una violación de los derechos de autor de los estudiantes . [ cita requerida ]

En código fuente

El plagio de código fuente informático también es frecuente y requiere herramientas diferentes a las que se utilizan para comparar textos en documentos. Se han dedicado importantes investigaciones al plagio de código fuente académico. [47]

Un aspecto distintivo del plagio de código fuente es que no existen fábricas de ensayos , como las que se pueden encontrar en el plagio tradicional. Dado que la mayoría de las tareas de programación esperan que los estudiantes escriban programas con requisitos muy específicos, es muy difícil encontrar programas existentes que ya los cumplan. Dado que integrar código externo suele ser más difícil que escribirlo desde cero, la mayoría de los estudiantes que plagian optan por hacerlo con sus compañeros.

Según Roy y Cordy, [48] los algoritmos de detección de similitud de código fuente se pueden clasificar como basados ​​en:

La clasificación anterior se desarrolló para la refactorización de código , y no para la detección de plagio académico (un objetivo importante de la refactorización es evitar el código duplicado , conocido como clones de código en la literatura). Los enfoques anteriores son efectivos contra diferentes niveles de similitud; la similitud de bajo nivel se refiere a texto idéntico, mientras que la similitud de alto nivel puede deberse a especificaciones similares. En un entorno académico, cuando se espera que todos los estudiantes codifiquen según las mismas especificaciones, se espera completamente un código funcionalmente equivalente (con una similitud de alto nivel), y solo la similitud de bajo nivel se considera como prueba de trampa.

Diferencia entre plagio y derechos de autor

El plagio y los derechos de autor son conceptos esenciales en la escritura académica y creativa que los escritores, investigadores y estudiantes deben comprender. Aunque pueden parecer similares, no lo son; se pueden utilizar diferentes estrategias para abordar cada uno de ellos. [49]

Algoritmos

Se han propuesto varios algoritmos diferentes para detectar código duplicado. Por ejemplo:

Complicaciones en el uso de software de comparación de textos para la detección de plagio

Se han documentado diversas complicaciones con el uso de software de comparación de textos cuando se utiliza para la detección de plagio. Una de las preocupaciones más frecuentes documentadas se centra en la cuestión de los derechos de propiedad intelectual. El argumento básico es que los materiales deben añadirse a una base de datos para que el TMS determine de forma efectiva una coincidencia, pero añadir los materiales de los usuarios a dicha base de datos puede infringir sus derechos de propiedad intelectual. La cuestión se ha planteado en varios casos judiciales.

Una complicación adicional del uso de TMS es que el software solo encuentra coincidencias precisas con otros textos. No detecta, por ejemplo, trabajos mal parafraseados o la práctica de plagiar mediante el uso de suficientes sustituciones de palabras para eludir al software de detección, lo que se conoce como rogeting .

Véase también

Referencias

  1. ^ Culwin, Fintan; Lancaster, Thomas (2001). «Plagio, prevención, disuasión y detección». CiteSeerX  10.1.1.107.178 . Archivado desde el original el 18 de abril de 2021 . Consultado el 11 de noviembre de 2022 – a través de The Higher Education Academy .
  2. ^ ab Bretag, T., & Mahmud, S. (2009). Un modelo para determinar el plagio estudiantil: detección electrónica y juicio académico. Journal of University Teaching & Learning Practice, 6 (1). Recuperado de http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. ^ Macdonald, R., y Carroll, J. (2006). Plagio: un problema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536
  4. ^ Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 de octubre de 2019). "Detección de plagio académico: una revisión sistemática de la literatura". Encuestas de informática de la ACM . 52 (6): 1–42. doi : 10.1145/3345317 .
  5. ^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (diciembre de 2007), "Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07" (PDF) , SIGIR Forum , 41 (2): 68, doi :10.1145/1328964.1328976, S2CID  6379659, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  6. ^ abc Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Panorama del 1.º Concurso Internacional de Detección de Plagio", PAN09 - 3.º Taller sobre Detección de Plagio, Autoría y Uso Indebido de Software Social y 1.º Concurso Internacional de Detección de Plagio (PDF) , Actas del Taller CEUR, vol. 502, pp. 1–9, ISSN  1613-0073, archivado desde el original (PDF) el 2 de abril de 2012
  7. ^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), "Estrategias para recuperar documentos plagiados", Actas de la 30.ª Conferencia anual internacional ACM SIGIR (PDF) , ACM, págs. 825-826, doi :10.1145/1277741.1277928, ISBN 978-1-59593-597-7, S2CID  3898511, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  8. ^ de Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, Londres, Reino Unido, 10-12 de abril de 2006, Actas (PDF) , Lecture Notes in Computer Science, vol. 3936, Springer, págs. 565-569, CiteSeerX 10.1.1.110.5366 , doi :10.1007/11735106_66, ISBN  978-3-540-33347-0, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  9. ^ Bensalem, Imene (2020). "Detección de plagio intrínseco: una encuesta". Detección de plagio: un enfoque en el enfoque intrínseco y la evaluación en la lengua árabe (tesis doctoral) . Universidad Constantina 2. doi :10.13140/RG.2.2.25727.84641.
  10. ^ Bao, Jun-Peng; Malcolm, James A. (2006), "Text similarity in academic conference papers", Actas de la 2.ª Conferencia Internacional sobre Plagio (PDF) , Northumbria University Press, archivado desde el original (PDF) el 16 de septiembre de 2018 , consultado el 7 de octubre de 2011
  11. ^ Clough, Paul (2000), Plagio en lenguajes naturales y de programación: una visión general de las herramientas y tecnologías actuales (PDF) (Informe técnico), Departamento de Ciencias de la Computación, Universidad de Sheffield, archivado desde el original (PDF) el 18 de agosto de 2011
  12. ^ Culwin, Fintan; Lancaster, Thomas (2001), "Cuestiones de plagio en la educación superior" (PDF) , Vine , 31 (2): 36–41, doi :10.1108/03055720010804005, archivado desde el original (PDF) el 5 de abril de 2012
  13. ^ Lancaster, Thomas (2003), Detección eficaz y eficiente del plagio (tesis doctoral), Facultad de Informática, Sistemas de Información y Matemáticas, Universidad de South Bank
  14. ^ Maurer, Hermann; Zaka, Bilal (2007), "Plagio: un problema y cómo combatirlo", Actas de la Conferencia Mundial sobre Multimedia Educativa, Hipermedia y Telecomunicaciones 2007, AACE, págs. 4451–4458, ISBN 9781880094624
  15. ^ Youmans, Robert J. (noviembre de 2011). "¿Reduce el plagio la adopción de software de detección de plagio en la educación superior?". Estudios en Educación Superior . 36 (7): 749–761. doi :10.1080/03075079.2010.523457. S2CID  144143548.
  16. ^ Meuschke, Norman; Gipp, Bela (2013), "Estado del arte en la detección del plagio académico" (PDF) , International Journal for Educational Integrity , 9 (1): 50–71, doi :10.5281/zenodo.3482941 , consultado el 15 de febrero de 2024
  17. ^ ab Hoad, Timothy; Zobel, Justin (2003), "Métodos para identificar documentos plagiados y versionados" (PDF) , Journal of the American Society for Information Science and Technology , 54 (3): 203–215, CiteSeerX 10.1.1.18.2680 , doi :10.1002/asi.10170, archivado desde el original (PDF) el 30 de abril de 2015 , consultado el 14 de octubre de 2014 
  18. ^ Stein, Benno (julio de 2005), "Fuzzy-Fingerprints for Text-Based Information Retrieval", Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF) , Springer, Know-Center, pp. 572–579, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  19. ^ Brin, Sergey; Davis, James; Garcia-Molina, Hector (1995), "Mecanismos de detección de copias para documentos digitales", Actas de la Conferencia internacional ACM SIGMOD de 1995 sobre gestión de datos (PDF) , ACM, págs. 398–409, CiteSeerX 10.1.1.49.1567 , doi :10.1145/223784.223855, ISBN  978-1-59593-060-6, S2CID  8652205, archivado desde el original (PDF) el 18 de agosto de 2016 , consultado el 7 de octubre de 2011
  20. ^ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Sistema de detección de superposición de documentos para bibliotecas digitales distribuidas", Actas de la quinta conferencia de la ACM sobre bibliotecas digitales (PDF) , ACM, págs. 226-227, doi :10.1145/336597.336667, ISBN 978-1-58113-231-1, S2CID  5796686, archivado desde el original (PDF) el 15 de abril de 2012 , consultado el 7 de octubre de 2011
  21. ^ Baker, Brenda S. (febrero de 1993), On Finding Duplication in Strings and Software (Informe técnico), AT&T Bell Laboratories, NJ, archivado desde el original (gs) el 30 de octubre de 2007
  22. ^ Khmelev, Dmitry V.; Teahan, William J. (2003), "Una medida basada en la repetición para la verificación de colecciones de texto y para la categorización de textos", SIGIR'03: Actas de la 26.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información , ACM, págs. 104-110, CiteSeerX 10.1.1.9.6155 , doi :10.1145/860435.860456, ISBN  978-1581136463, Número de identificación del sujeto  7316639
  23. ^ Si, Antonio; Leong, Hong Va; Lau, Rynson WH (1997), "CHECK: Un sistema de detección de plagio de documentos", SAC '97: Actas del simposio ACM de 1997 sobre informática aplicada (PDF) , ACM, págs. 70–77, doi :10.1145/331697.335176, ISBN 978-0-89791-850-3, Número de identificación del sujeto  15273799
  24. ^ Dreher, Heinz (2007), "Análisis conceptual automático para la detección de plagio" (PDF) , Información y más allá: la revista de cuestiones de información científica y tecnología de la información , 4 : 601–614, doi : 10.28945/974
  25. ^ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), "Detección de plagio externo e intrínseco mediante modelos de espacio vectorial", PAN09 - 3er taller sobre detección de plagio, autoría y uso indebido de software social y 1er concurso internacional sobre detección de plagio (PDF) , Actas del taller CEUR, vol. 502, págs. 47–55, ISSN  1613-0073, archivado desde el original (PDF) el 2 de abril de 2012
  26. ^ Gipp, Bela (2014), Detección de plagio basada en citas, Springer Vieweg Research, ISBN 978-3-658-06393-1
  27. ^ abcd Gipp, Bela; Beel, Jöran (junio de 2010), "Detección de plagio basada en citas: un nuevo enfoque para identificar obras plagiadas de forma independiente del lenguaje", Actas de la 21.ª Conferencia de la ACM sobre hipertexto e hipermedia (HT'10) (PDF) , ACM, pp. 273–274, doi :10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, S2CID  2668037, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 21 de octubre de 2011
  28. ^ Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julio de 2013), "Demostración del análisis de patrones de citas para la detección de plagio", Actas de la 36.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (PDF) , ACM, pág. 1119, doi :10.1145/2484028.2484214, ISBN 9781450320344, S2CID2106222 ​
  29. ^ ab Gipp, Bela; Meuschke, Norman (septiembre de 2011), "Algoritmos de coincidencia de patrones de citas para la detección de plagio basada en citas: mosaico de citas voraces, fragmentación de citas y secuencia de citas comunes más larga", Actas del 11.º Simposio de la ACM sobre ingeniería de documentos (DocEng2011) (PDF) , ACM, págs. 249–258, doi :10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, S2CID  207190305, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
  30. ^ ab Gipp, Bela; Meuschke, Norman; Beel, Jöran (junio de 2011), "Evaluación comparativa de enfoques de detección de plagio basados ​​en texto y citas utilizando GuttenPlag", Actas de la 11.ª Conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales (JCDL'11) (PDF) , ACM, págs. 255–258, CiteSeerX 10.1.1.736.4865 , doi :10.1145/1998076.1998124, ISBN  978-1-4503-0744-4, S2CID  3683238, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
  31. ^ Gipp, Bela; Beel, Jöran (julio de 2009), "Análisis de proximidad de citas (CPA): un nuevo enfoque para identificar trabajos relacionados basado en el análisis de cocitaciones", Actas de la 12.ª Conferencia Internacional sobre Cienciometría e Informetría (ISSI'09) (PDF) , Sociedad Internacional de Cienciometría e Informetría, pp. 571–575, ISSN  2175-1935, archivado desde el original (PDF) el 13 de septiembre de 2012 , consultado el 7 de octubre de 2011
  32. ^ Holmes, David I. (1998), "La evolución de la estilometría en los estudios de humanidades", Literary and Linguistic Computing , 13 (3): 111–117, doi :10.1093/llc/13.3.111
  33. ^ Juola, Patrick (2006), "Authorship Attribution" (PDF) , Foundations and Trends in Information Retrieval , 1 (3): 233–334, CiteSeerX 10.1.1.219.1605 , doi :10.1561/1500000005, ISSN  1554-0669, archivado desde el original (PDF) el 24 de octubre de 2020 , consultado el 7 de octubre de 2011 
  34. ^ ab Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF) , Language Resources and Evaluation , 45 (1): 63–82, doi :10.1007/s10579-010-9115-y, ISSN  1574-020X, S2CID  13426762, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  35. ^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de n-gramas de caracteres como única evidencia intrínseca de plagio". Recursos lingüísticos y evaluación . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID  86630897.
  36. ^ Reimers, Nils; Gurevych, Iryna (2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". arXiv : 1908.10084 [cs.CL].
  37. ^ Lan, Wuwei; Xu, Wei (2018). "Modelos de redes neuronales para identificación de paráfrasis, similitud textual semántica, inferencia de lenguaje natural y respuesta a preguntas". Actas de la 27.ª Conferencia Internacional sobre Lingüística Computacional . Santa Fe, Nuevo México, EE. UU.: Association for Computational Linguistics: 3890–3902. arXiv : 1806.04330 .
  38. ^ Wahle, Jan Philip; Ruas, Terry; Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (2022), Smits, Malte (ed.), "Identificación del plagio parafraseado por máquina", Información para un mundo mejor: moldeando el futuro global , Lecture Notes in Computer Science, vol. 13192, Cham: Springer International Publishing, págs. 393–413, arXiv : 2103.11909 , doi :10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, S2CID  232307572 , consultado el 6 de octubre de 2022
  39. ^ Portal Plagiat - Softwaretest 2004 (en alemán), HTW University of Applied Sciences Berlin, archivado desde el original el 25 de octubre de 2011 , consultado el 6 de octubre de 2011
  40. ^ Portal Plagiat - Softwaretest 2008 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
  41. ^ de Portal Plagiat - Softwaretest 2010 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
  42. ^ ab Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Overview of the 2nd International Competition on Plagiarism Detection", Cuaderno de notas de los laboratorios y talleres CLEF 2010, 22-23 de septiembre, Padua, Italia (PDF) , archivado desde el original (PDF) el 3 de abril de 2012 , consultado el 7 de octubre de 2011
  43. ^ ab Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Overview of the 3rd International Competition on Plagiarism Detection", Cuaderno de notas de los LABs y talleres de CLEF 2011, 19-22 de septiembre, Ámsterdam, Países Bajos (PDF) , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
  44. ^ Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Cross-Language Plagiarism Detection" (PDF) , Language Resources and Evaluation , 45 (1): 45–62, doi :10.1007/s10579-009-9114-z, hdl : 10251/37479 , ISSN  1574-020X, S2CID  14942239, archivado desde el original (PDF) el 26 de noviembre de 2013 , consultado el 7 de octubre de 2011
  45. ^ Weber-Wulff, Debora (junio de 2008), "Sobre la utilidad del software de detección de plagio", en Actas de la 3.ª Conferencia Internacional sobre Plagio, Newcastle Upon Tyne (PDF) , archivado desde el original (PDF) el 1 de octubre de 2013 , consultado el 29 de septiembre de 2013
  46. ^ Cómo comprobar si el texto contiene plagio
  47. ^ "Prevención y detección de plagio: recursos en línea sobre plagio de código fuente" Archivado el 15 de noviembre de 2012 en Wayback Machine . Academia de Educación Superior , Universidad del Ulster .
  48. ^ Roy, Chanchal Kumar; Cordy, James R. (26 de septiembre de 2007). "Una encuesta sobre la investigación en detección de clones de software". Facultad de Informática, Queen's University, Canadá .
  49. ^ Prasad, Suhani. "Plagio y derechos de autor". CheckForPlag .{{cite web}}: CS1 maint: estado de la URL ( enlace )
  50. ^ Brenda S. Baker . Un programa para identificar código duplicado. Computing Science and Statistics, 24:49–57, 1992.
  51. ^ Ira D. Baxter, et al. Detección de clones mediante árboles de sintaxis abstracta
  52. ^ Detección visual de código duplicado Archivado el 29 de junio de 2006 en Wayback Machine por Matthias Rieger y Stephane Ducasse.
  53. ^ Yuan, Y. y Guo, Y. CMCD: Detección de clones de código basada en matriz de recuento, en 2011, 18.ª Conferencia de ingeniería de software de Asia y el Pacífico. IEEE, diciembre de 2011, págs. 250-257.
  54. ^ Chen, X., Wang, AY y Tempero, ED (2014). Estudios de detección de clones de código replicados y reproducidos. En ACSC (pp. 105-114).
  55. ^ Bulychev, Peter y Marius Minea. "Detección de código duplicado mediante antiunificación". Actas del Coloquio de primavera/verano para jóvenes investigadores sobre ingeniería de software. No. 2. Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук, 2008.

Literatura