Detección de similitud de contenido

La detección de plagio o detección de similitud de contenido es el proceso de localizar instancias de plagio o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de computadoras y la llegada de Internet han hecho que sea más fácil plagiar el trabajo de otros. ^[1]^[2]

La detección del plagio se puede llevar a cabo de diversas maneras. La detección humana es la forma más tradicional de identificar el plagio en un trabajo escrito. Esta puede ser una tarea larga y que requiere mucho tiempo para el lector ^[2] y también puede dar lugar a inconsistencias en la forma en que se identifica el plagio dentro de una organización. ^[3] El software de comparación de texto (TMS), que también se conoce como "software de detección de plagio" o software "antiplagio", se ha vuelto ampliamente disponible, tanto en forma de productos disponibles comercialmente como de software de código abierto ^{[ ejemplos necesarios ]} . El TMS en realidad no detecta el plagio per se, sino que encuentra pasajes específicos de texto en un documento que coinciden con el texto de otro documento.

Detección de plagio asistida por software

La detección de plagio asistida por computadora es una tarea de recuperación de información (IR) respaldada por sistemas IR especializados, a los que se les conoce como sistema de detección de plagio (PDS) o sistema de detección de similitud de documentos. Una revisión sistemática de la literatura de 2019 ^[4] presenta una descripción general de los métodos de detección de plagio de última generación.

En documentos de texto

Los sistemas de detección de similitudes textuales implementan uno de dos enfoques de detección genéricos, uno externo y el otro intrínseco. ^[5] Los sistemas de detección externa comparan un documento sospechoso con una colección de referencia, que es un conjunto de documentos que se supone que son genuinos. ^[6] Con base en un modelo de documento elegido y criterios de similitud predefinidos, la tarea de detección es recuperar todos los documentos que contienen texto que es similar en un grado por encima de un umbral elegido al texto del documento sospechoso. ^[7] Los PDS intrínsecos analizan únicamente el texto que se va a evaluar sin realizar comparaciones con documentos externos. Este enfoque tiene como objetivo reconocer cambios en el estilo de escritura único de un autor como un indicador de plagio potencial. ^[8]^[9] Los PDS no son capaces de identificar plagio de manera confiable sin el juicio humano. Las similitudes y las características del estilo de escritura se calculan con la ayuda de modelos de documentos predefinidos y pueden representar falsos positivos. ^[10]^[11]^[12]^[13]^[14]

Eficacia de esas herramientas en entornos de educación superior

Se realizó un estudio para probar la eficacia de un software de detección de similitudes en un entorno de educación superior. En una parte del estudio, se asignó a un grupo de estudiantes la tarea de escribir un trabajo. A estos estudiantes se les informó primero sobre el plagio y de que su trabajo se iba a ejecutar a través de un sistema de detección de similitudes de contenido. A un segundo grupo de estudiantes se le asignó la tarea de escribir un trabajo sin ninguna información sobre el plagio. Los investigadores esperaban encontrar tasas más bajas en el primer grupo, pero encontraron aproximadamente las mismas tasas de plagio en ambos grupos. ^[15]

Aproches

La figura siguiente representa una clasificación de todos los métodos de detección que se utilizan actualmente para la detección de similitud de contenido asistida por computadora. Los métodos se caracterizan por el tipo de evaluación de similitud que realizan: global o local. Los métodos de evaluación de similitud global utilizan las características tomadas de partes más grandes del texto o del documento en su totalidad para calcular la similitud, mientras que los métodos locales solo examinan segmentos de texto preseleccionados como entrada. ^{[ cita requerida ]}

Toma de huellas dactilares

La toma de huellas dactilares es actualmente el método más utilizado para la detección de similitudes de contenido. Este método forma resúmenes representativos de documentos seleccionando un conjunto de múltiples subcadenas ( n-gramas ) de ellos. Los conjuntos representan las huellas dactilares y sus elementos se denominan minucias. ^[17]^[18] Un documento sospechoso se comprueba en busca de plagio calculando su huella dactilar y consultando las minucias con un índice precalculado de huellas dactilares para todos los documentos de una colección de referencia. Las minucias que coinciden con las de otros documentos indican segmentos de texto compartidos y sugieren plagio potencial si superan un umbral de similitud elegido. ^[19] Los recursos computacionales y el tiempo son factores limitantes para la toma de huellas dactilares, por lo que este método normalmente solo compara un subconjunto de minucias para acelerar el cálculo y permitir verificaciones en colecciones muy grandes, como Internet. ^[17]

Coincidencia de cadenas

La comparación de cadenas es un enfoque muy utilizado en informática. Cuando se aplica al problema de la detección de plagio, se comparan documentos para detectar superposiciones textuales. Se han propuesto numerosos métodos para abordar esta tarea, algunos de los cuales se han adaptado a la detección de plagio externo. La comprobación de un documento sospechoso en este contexto requiere el cálculo y el almacenamiento de representaciones comparables de manera eficiente para todos los documentos de la colección de referencia para compararlos por pares. En general, se han utilizado modelos de documentos de sufijos, como árboles de sufijos o vectores de sufijos, para esta tarea. No obstante, la comparación de subcadenas sigue siendo computacionalmente costosa, lo que la convierte en una solución no viable para comprobar grandes colecciones de documentos. ^[20]^[21]^[22]

Bolsa de palabras

El análisis de bolsa de palabras representa la adopción de la recuperación del espacio vectorial , un concepto tradicional de IR, en el dominio de la detección de similitud de contenido. Los documentos se representan como uno o varios vectores, por ejemplo, para diferentes partes del documento, que se utilizan para cálculos de similitud por pares. El cálculo de similitud puede entonces basarse en la medida de similitud tradicional del coseno o en medidas de similitud más sofisticadas. ^[23]^[24]^[25]

Análisis de citas

La detección de plagio basada en citas (CbPD) ^[26] se basa en el análisis de citas y es el único enfoque para la detección de plagio que no se basa en la similitud textual. ^[27] CbPD examina la información de citas y referencias en textos para identificar patrones similares en las secuencias de citas. Como tal, este enfoque es adecuado para textos científicos u otros documentos académicos que contienen citas. El análisis de citas para detectar plagio es un concepto relativamente joven. No ha sido adoptado por software comercial, pero existe un primer prototipo de un sistema de detección de plagio basado en citas. ^[28] El orden similar y la proximidad de las citas en los documentos examinados son los principales criterios utilizados para calcular las similitudes de los patrones de citas. Los patrones de citas representan subsecuencias que contienen de forma no exclusiva citas compartidas por los documentos comparados. ^[27]^[29] También se consideran factores, incluido el número absoluto o la fracción relativa de citas compartidas en el patrón, así como la probabilidad de que las citas coexistan en un documento, para cuantificar el grado de similitud de los patrones. ^[27]^[29]^[30]^[31]

Estilometría

La estilometría incluye métodos estadísticos para cuantificar el estilo de escritura único de un autor ^[32]^[33] y se utiliza principalmente para la atribución de autoría o la detección de plagio intrínseco. ^[34] La detección de plagio por atribución de autoría requiere verificar si el estilo de escritura del documento sospechoso, que supuestamente está escrito por un determinado autor, coincide con el de un corpus de documentos escritos por el mismo autor. La detección de plagio intrínseco, por otro lado, descubre el plagio basándose en evidencias internas en el documento sospechoso sin compararlo con otros documentos. Esto se realiza construyendo y comparando modelos estilométricos para diferentes segmentos de texto del documento sospechoso, y los pasajes que son estilísticamente diferentes de otros se marcan como potencialmente plagiados/infringidos. ^[8] Aunque son fáciles de extraer, se ha demostrado que los n-gramas de caracteres están entre las mejores características estilométricas para la detección de plagio intrínseco. ^[35]

Redes neuronales

Los enfoques más recientes para evaluar la similitud de contenido utilizando redes neuronales han logrado una precisión significativamente mayor, pero tienen un gran costo computacional. ^[36] Los enfoques de redes neuronales tradicionales incorporan ambas piezas de contenido en incorporaciones de vectores semánticos para calcular su similitud, que a menudo es su similitud de coseno. Los métodos más avanzados realizan predicciones de similitud o clasificaciones de extremo a extremo utilizando la arquitectura Transformer . ^[37]^[38] La detección de paráfrasis se beneficia particularmente de modelos preentrenados altamente parametrizados.

Actuación

Las evaluaciones comparativas de los sistemas de detección de similitud de contenido ^[6]^[39]^[40]^[41]^[42]^[43] indican que su rendimiento depende del tipo de plagio presente (véase la figura). A excepción del análisis de patrones de citas, todos los enfoques de detección se basan en la similitud textual. Por lo tanto, es sintomático que la precisión de la detección disminuya cuanto más se ocultan los casos de plagio.

Las copias literales, también conocidas como plagio de copiar y pegar o infracción flagrante de derechos de autor, o casos de plagio modestamente disfrazados pueden detectarse con alta precisión mediante PDS externos actuales si la fuente es accesible para el software. En particular, los procedimientos de coincidencia de subcadenas logran un buen rendimiento para el plagio de copiar y pegar, ya que comúnmente utilizan modelos de documentos sin pérdida, como árboles de sufijos . El rendimiento de los sistemas que utilizan huellas dactilares o análisis de bolsa de palabras para detectar copias depende de la pérdida de información incurrida por el modelo de documento utilizado. Al aplicar estrategias flexibles de fragmentación y selección, son más capaces de detectar formas moderadas de plagio disfrazado en comparación con los procedimientos de coincidencia de subcadenas.

La detección de plagio intrínseco mediante estilometría puede superar los límites de similitud textual hasta cierto punto al comparar la similitud lingüística. Dado que las diferencias estilísticas entre los segmentos plagiados y los originales son significativas y se pueden identificar de manera confiable, la estilometría puede ayudar a identificar plagio encubierto y parafraseado . Es probable que las comparaciones estilométricas fallen en los casos en que los segmentos están fuertemente parafraseados hasta el punto en que se asemejan más al estilo de escritura personal del plagiador o si un texto fue compilado por varios autores. Los resultados de las Competencias Internacionales sobre Detección de Plagio celebradas en 2009, 2010 y 2011, ^[6]^[42]^[43] así como los experimentos realizados por Stein, ^[34] indican que el análisis estilométrico parece funcionar de manera confiable solo para longitudes de documentos de varios miles o decenas de miles de palabras, lo que limita la aplicabilidad del método a los entornos de detección de plagio asistido por computadora.

Cada vez se realizan más investigaciones sobre métodos y sistemas capaces de detectar el plagio traducido. En la actualidad, la detección de plagio en varios idiomas (CLPD) no se considera una tecnología madura ^[44] y los sistemas respectivos no han podido lograr resultados de detección satisfactorios en la práctica. ^[41]

La detección de plagio basada en citas mediante el análisis de patrones de citas es capaz de identificar paráfrasis y traducciones más sólidas con mayores tasas de éxito en comparación con otros enfoques de detección, porque es independiente de las características textuales. ^[27]^[30] Sin embargo, dado que el análisis de patrones de citas depende de la disponibilidad de suficiente información sobre las citas, se limita a los textos académicos. Sigue siendo inferior a los enfoques basados en texto en la detección de pasajes plagiados más cortos, que son típicos de los casos de plagio de copiar y pegar o mezclar y pegar; este último se refiere a mezclar fragmentos ligeramente alterados de diferentes fuentes. ^[45]

Software

El diseño de software de detección de similitud de contenido para su uso con documentos de texto se caracteriza por una serie de factores: ^[46]

La mayoría de los sistemas de detección de plagio a gran escala utilizan grandes bases de datos internas (además de otros recursos) que crecen con cada documento adicional que se envía para su análisis. Sin embargo, algunos consideran que esta característica constituye una violación de los derechos de autor de los estudiantes . ^{[ cita requerida ]}

En código fuente

El plagio de código fuente informático también es frecuente y requiere herramientas diferentes a las que se utilizan para comparar textos en documentos. Se han dedicado importantes investigaciones al plagio de código fuente académico. ^[47]

Un aspecto distintivo del plagio de código fuente es que no existen fábricas de ensayos , como las que se pueden encontrar en el plagio tradicional. Dado que la mayoría de las tareas de programación esperan que los estudiantes escriban programas con requisitos muy específicos, es muy difícil encontrar programas existentes que ya los cumplan. Dado que integrar código externo suele ser más difícil que escribirlo desde cero, la mayoría de los estudiantes que plagian optan por hacerlo con sus compañeros.

Según Roy y Cordy, ^[48] los algoritmos de detección de similitud de código fuente se pueden clasificar como basados en:

Cadenas: busca coincidencias textuales exactas de segmentos, por ejemplo, secuencias de cinco palabras. Es rápido, pero puede confundirse al cambiar el nombre de los identificadores.
Tokens: como con las cadenas, pero utilizando un analizador léxico para convertir el programa en tokens primero. Esto descarta espacios en blanco, comentarios y nombres de identificadores, lo que hace que el sistema sea más robusto frente a reemplazos de texto simples. La mayoría de los sistemas de detección de plagio académico funcionan en este nivel, utilizando diferentes algoritmos para medir la similitud entre secuencias de tokens.
Árboles de análisis : construya y compare árboles de análisis. Esto permite detectar similitudes de nivel superior. Por ejemplo, la comparación de árboles puede normalizar declaraciones condicionales y detectar construcciones equivalentes como similares entre sí.
Gráficos de dependencia de programas (PDG): un PDG captura el flujo de control real en un programa y permite localizar equivalencias de nivel mucho más alto, con un mayor costo en complejidad y tiempo de cálculo.
Métricas: las métricas capturan "puntajes" de segmentos de código según ciertos criterios; por ejemplo, "la cantidad de bucles y condicionales" o "la cantidad de variables diferentes utilizadas". Las métricas son fáciles de calcular y se pueden comparar rápidamente, pero también pueden dar lugar a falsos positivos: dos fragmentos con los mismos puntajes en un conjunto de métricas pueden hacer cosas completamente diferentes.
Los enfoques híbridos (por ejemplo, árboles de análisis + árboles de sufijos) pueden combinar la capacidad de detección de los árboles de análisis con la velocidad que ofrecen los árboles de sufijos, un tipo de estructura de datos de coincidencia de cadenas.

La clasificación anterior se desarrolló para la refactorización de código , y no para la detección de plagio académico (un objetivo importante de la refactorización es evitar el código duplicado , conocido como clones de código en la literatura). Los enfoques anteriores son efectivos contra diferentes niveles de similitud; la similitud de bajo nivel se refiere a texto idéntico, mientras que la similitud de alto nivel puede deberse a especificaciones similares. En un entorno académico, cuando se espera que todos los estudiantes codifiquen según las mismas especificaciones, se espera completamente un código funcionalmente equivalente (con una similitud de alto nivel), y solo la similitud de bajo nivel se considera como prueba de trampa.

Diferencia entre plagio y derechos de autor

El plagio y los derechos de autor son conceptos esenciales en la escritura académica y creativa que los escritores, investigadores y estudiantes deben comprender. Aunque pueden parecer similares, no lo son; se pueden utilizar diferentes estrategias para abordar cada uno de ellos. ^[49]

Algoritmos

Se han propuesto varios algoritmos diferentes para detectar código duplicado. Por ejemplo:

Algoritmo de Baker . ^[50]
Algoritmo de búsqueda de cadenas de Rabin-Karp .
Uso de árboles de sintaxis abstracta . ^[51]
Detección visual de clones. ^[52]
Detección de clones mediante matriz de recuento. ^[53]^[54]
Hashing sensible a la localidad
Anti-unificación ^[55]

Complicaciones en el uso de software de comparación de textos para la detección de plagio

Se han documentado diversas complicaciones con el uso de software de comparación de textos cuando se utiliza para la detección de plagio. Una de las preocupaciones más frecuentes documentadas se centra en la cuestión de los derechos de propiedad intelectual. El argumento básico es que los materiales deben añadirse a una base de datos para que el TMS determine de forma efectiva una coincidencia, pero añadir los materiales de los usuarios a dicha base de datos puede infringir sus derechos de propiedad intelectual. La cuestión se ha planteado en varios casos judiciales.

Una complicación adicional del uso de TMS es que el software solo encuentra coincidencias precisas con otros textos. No detecta, por ejemplo, trabajos mal parafraseados o la práctica de plagiar mediante el uso de suficientes sustituciones de palabras para eludir al software de detección, lo que se conoce como rogeting .

Véase también

Software de detección de inteligencia artificial : software para detectar contenido generado por IA
Categoría:Detectores de plagio
Comparación de software antiplagio
Hashing sensible a la localidad : técnica algorítmica que utiliza hash
Búsqueda del vecino más cercano : problema de optimización en informática
Detección de paráfrasis : generación o reconocimiento automático de texto parafraseado
Complejidad de Kolmogorov#Compresión : se utiliza para estimar la similitud entre secuencias de tokens en varios sistemas
Detección de copia de vídeo

Referencias

^ Culwin, Fintan; Lancaster, Thomas (2001). «Plagio, prevención, disuasión y detección». CiteSeerX 10.1.1.107.178 . Archivado desde el original el 18 de abril de 2021 . Consultado el 11 de noviembre de 2022 – a través de The Higher Education Academy .
^ ab Bretag, T., & Mahmud, S. (2009). Un modelo para determinar el plagio estudiantil: detección electrónica y juicio académico. Journal of University Teaching & Learning Practice, 6 (1). Recuperado de http://ro.uow.edu.au/jutlp/vol6/iss1/6
^ Macdonald, R., y Carroll, J. (2006). Plagio: un problema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536
^ Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 de octubre de 2019). "Detección de plagio académico: una revisión sistemática de la literatura". Encuestas de informática de la ACM . 52 (6): 1–42. doi : 10.1145/3345317 .
^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (diciembre de 2007), "Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07" (PDF) , SIGIR Forum , 41 (2): 68, doi :10.1145/1328964.1328976, S2CID 6379659, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ abc Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Panorama del 1.º Concurso Internacional de Detección de Plagio", PAN09 - 3.º Taller sobre Detección de Plagio, Autoría y Uso Indebido de Software Social y 1.º Concurso Internacional de Detección de Plagio (PDF) , Actas del Taller CEUR, vol. 502, pp. 1–9, ISSN 1613-0073, archivado desde el original (PDF) el 2 de abril de 2012
^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), "Estrategias para recuperar documentos plagiados", Actas de la 30.ª Conferencia anual internacional ACM SIGIR (PDF) , ACM, págs. 825-826, doi :10.1145/1277741.1277928, ISBN 978-1-59593-597-7, S2CID 3898511, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ de Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, Londres, Reino Unido, 10-12 de abril de 2006, Actas (PDF) , Lecture Notes in Computer Science, vol. 3936, Springer, págs. 565-569, CiteSeerX 10.1.1.110.5366 , doi :10.1007/11735106_66, ISBN 978-3-540-33347-0, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Bensalem, Imene (2020). "Detección de plagio intrínseco: una encuesta". Detección de plagio: un enfoque en el enfoque intrínseco y la evaluación en la lengua árabe (tesis doctoral) . Universidad Constantina 2. doi :10.13140/RG.2.2.25727.84641.
^ Bao, Jun-Peng; Malcolm, James A. (2006), "Text similarity in academic conference papers", Actas de la 2.ª Conferencia Internacional sobre Plagio (PDF) , Northumbria University Press, archivado desde el original (PDF) el 16 de septiembre de 2018 , consultado el 7 de octubre de 2011
^ Clough, Paul (2000), Plagio en lenguajes naturales y de programación: una visión general de las herramientas y tecnologías actuales (PDF) (Informe técnico), Departamento de Ciencias de la Computación, Universidad de Sheffield, archivado desde el original (PDF) el 18 de agosto de 2011
^ Culwin, Fintan; Lancaster, Thomas (2001), "Cuestiones de plagio en la educación superior" (PDF) , Vine , 31 (2): 36–41, doi :10.1108/03055720010804005, archivado desde el original (PDF) el 5 de abril de 2012
^ Lancaster, Thomas (2003), Detección eficaz y eficiente del plagio (tesis doctoral), Facultad de Informática, Sistemas de Información y Matemáticas, Universidad de South Bank
^ Maurer, Hermann; Zaka, Bilal (2007), "Plagio: un problema y cómo combatirlo", Actas de la Conferencia Mundial sobre Multimedia Educativa, Hipermedia y Telecomunicaciones 2007, AACE, págs. 4451–4458, ISBN 9781880094624
^ Youmans, Robert J. (noviembre de 2011). "¿Reduce el plagio la adopción de software de detección de plagio en la educación superior?". Estudios en Educación Superior . 36 (7): 749–761. doi :10.1080/03075079.2010.523457. S2CID 144143548.
^ Meuschke, Norman; Gipp, Bela (2013), "Estado del arte en la detección del plagio académico" (PDF) , International Journal for Educational Integrity , 9 (1): 50–71, doi :10.5281/zenodo.3482941 , consultado el 15 de febrero de 2024
^ ab Hoad, Timothy; Zobel, Justin (2003), "Métodos para identificar documentos plagiados y versionados" (PDF) , Journal of the American Society for Information Science and Technology , 54 (3): 203–215, CiteSeerX 10.1.1.18.2680 , doi :10.1002/asi.10170, archivado desde el original (PDF) el 30 de abril de 2015 , consultado el 14 de octubre de 2014
^ Stein, Benno (julio de 2005), "Fuzzy-Fingerprints for Text-Based Information Retrieval", Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF) , Springer, Know-Center, pp. 572–579, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Brin, Sergey; Davis, James; Garcia-Molina, Hector (1995), "Mecanismos de detección de copias para documentos digitales", Actas de la Conferencia internacional ACM SIGMOD de 1995 sobre gestión de datos (PDF) , ACM, págs. 398–409, CiteSeerX 10.1.1.49.1567 , doi :10.1145/223784.223855, ISBN 978-1-59593-060-6, S2CID 8652205, archivado desde el original (PDF) el 18 de agosto de 2016 , consultado el 7 de octubre de 2011
^ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Sistema de detección de superposición de documentos para bibliotecas digitales distribuidas", Actas de la quinta conferencia de la ACM sobre bibliotecas digitales (PDF) , ACM, págs. 226-227, doi :10.1145/336597.336667, ISBN 978-1-58113-231-1, S2CID 5796686, archivado desde el original (PDF) el 15 de abril de 2012 , consultado el 7 de octubre de 2011
^ Baker, Brenda S. (febrero de 1993), On Finding Duplication in Strings and Software (Informe técnico), AT&T Bell Laboratories, NJ, archivado desde el original (gs) el 30 de octubre de 2007
^ Khmelev, Dmitry V.; Teahan, William J. (2003), "Una medida basada en la repetición para la verificación de colecciones de texto y para la categorización de textos", SIGIR'03: Actas de la 26.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información , ACM, págs. 104-110, CiteSeerX 10.1.1.9.6155 , doi :10.1145/860435.860456, ISBN 978-1581136463, Número de identificación del sujeto 7316639
^ Si, Antonio; Leong, Hong Va; Lau, Rynson WH (1997), "CHECK: Un sistema de detección de plagio de documentos", SAC '97: Actas del simposio ACM de 1997 sobre informática aplicada (PDF) , ACM, págs. 70–77, doi :10.1145/331697.335176, ISBN 978-0-89791-850-3, Número de identificación del sujeto 15273799
^ Dreher, Heinz (2007), "Análisis conceptual automático para la detección de plagio" (PDF) , Información y más allá: la revista de cuestiones de información científica y tecnología de la información , 4 : 601–614, doi : 10.28945/974
^ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), "Detección de plagio externo e intrínseco mediante modelos de espacio vectorial", PAN09 - 3er taller sobre detección de plagio, autoría y uso indebido de software social y 1er concurso internacional sobre detección de plagio (PDF) , Actas del taller CEUR, vol. 502, págs. 47–55, ISSN 1613-0073, archivado desde el original (PDF) el 2 de abril de 2012
^ Gipp, Bela (2014), Detección de plagio basada en citas, Springer Vieweg Research, ISBN 978-3-658-06393-1
^ abcd Gipp, Bela; Beel, Jöran (junio de 2010), "Detección de plagio basada en citas: un nuevo enfoque para identificar obras plagiadas de forma independiente del lenguaje", Actas de la 21.ª Conferencia de la ACM sobre hipertexto e hipermedia (HT'10) (PDF) , ACM, pp. 273–274, doi :10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, S2CID 2668037, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 21 de octubre de 2011
^ Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julio de 2013), "Demostración del análisis de patrones de citas para la detección de plagio", Actas de la 36.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (PDF) , ACM, pág. 1119, doi :10.1145/2484028.2484214, ISBN 9781450320344, S2CID2106222
^ ab Gipp, Bela; Meuschke, Norman (septiembre de 2011), "Algoritmos de coincidencia de patrones de citas para la detección de plagio basada en citas: mosaico de citas voraces, fragmentación de citas y secuencia de citas comunes más larga", Actas del 11.º Simposio de la ACM sobre ingeniería de documentos (DocEng2011) (PDF) , ACM, págs. 249–258, doi :10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, S2CID 207190305, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
^ ab Gipp, Bela; Meuschke, Norman; Beel, Jöran (junio de 2011), "Evaluación comparativa de enfoques de detección de plagio basados en texto y citas utilizando GuttenPlag", Actas de la 11.ª Conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales (JCDL'11) (PDF) , ACM, págs. 255–258, CiteSeerX 10.1.1.736.4865 , doi :10.1145/1998076.1998124, ISBN 978-1-4503-0744-4, S2CID 3683238, archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
^ Gipp, Bela; Beel, Jöran (julio de 2009), "Análisis de proximidad de citas (CPA): un nuevo enfoque para identificar trabajos relacionados basado en el análisis de cocitaciones", Actas de la 12.ª Conferencia Internacional sobre Cienciometría e Informetría (ISSI'09) (PDF) , Sociedad Internacional de Cienciometría e Informetría, pp. 571–575, ISSN 2175-1935, archivado desde el original (PDF) el 13 de septiembre de 2012 , consultado el 7 de octubre de 2011
^ Holmes, David I. (1998), "La evolución de la estilometría en los estudios de humanidades", Literary and Linguistic Computing , 13 (3): 111–117, doi :10.1093/llc/13.3.111
^ Juola, Patrick (2006), "Authorship Attribution" (PDF) , Foundations and Trends in Information Retrieval , 1 (3): 233–334, CiteSeerX 10.1.1.219.1605 , doi :10.1561/1500000005, ISSN 1554-0669, archivado desde el original (PDF) el 24 de octubre de 2020 , consultado el 7 de octubre de 2011
^ ab Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF) , Language Resources and Evaluation , 45 (1): 63–82, doi :10.1007/s10579-010-9115-y, ISSN 1574-020X, S2CID 13426762, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de n-gramas de caracteres como única evidencia intrínseca de plagio". Recursos lingüísticos y evaluación . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID 86630897.
^ Reimers, Nils; Gurevych, Iryna (2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". arXiv : 1908.10084 [cs.CL].
^ Lan, Wuwei; Xu, Wei (2018). "Modelos de redes neuronales para identificación de paráfrasis, similitud textual semántica, inferencia de lenguaje natural y respuesta a preguntas". Actas de la 27.ª Conferencia Internacional sobre Lingüística Computacional . Santa Fe, Nuevo México, EE. UU.: Association for Computational Linguistics: 3890–3902. arXiv : 1806.04330 .
^ Wahle, Jan Philip; Ruas, Terry; Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (2022), Smits, Malte (ed.), "Identificación del plagio parafraseado por máquina", Información para un mundo mejor: moldeando el futuro global , Lecture Notes in Computer Science, vol. 13192, Cham: Springer International Publishing, págs. 393–413, arXiv : 2103.11909 , doi :10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, S2CID 232307572 , consultado el 6 de octubre de 2022
^ Portal Plagiat - Softwaretest 2004 (en alemán), HTW University of Applied Sciences Berlin, archivado desde el original el 25 de octubre de 2011 , consultado el 6 de octubre de 2011
^ Portal Plagiat - Softwaretest 2008 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
^ de Portal Plagiat - Softwaretest 2010 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
^ ab Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Overview of the 2nd International Competition on Plagiarism Detection", Cuaderno de notas de los laboratorios y talleres CLEF 2010, 22-23 de septiembre, Padua, Italia (PDF) , archivado desde el original (PDF) el 3 de abril de 2012 , consultado el 7 de octubre de 2011
^ ab Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Overview of the 3rd International Competition on Plagiarism Detection", Cuaderno de notas de los LABs y talleres de CLEF 2011, 19-22 de septiembre, Ámsterdam, Países Bajos (PDF) , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Cross-Language Plagiarism Detection" (PDF) , Language Resources and Evaluation , 45 (1): 45–62, doi :10.1007/s10579-009-9114-z, hdl : 10251/37479 , ISSN 1574-020X, S2CID 14942239, archivado desde el original (PDF) el 26 de noviembre de 2013 , consultado el 7 de octubre de 2011
^ Weber-Wulff, Debora (junio de 2008), "Sobre la utilidad del software de detección de plagio", en Actas de la 3.ª Conferencia Internacional sobre Plagio, Newcastle Upon Tyne (PDF) , archivado desde el original (PDF) el 1 de octubre de 2013 , consultado el 29 de septiembre de 2013
^ Cómo comprobar si el texto contiene plagio
^ "Prevención y detección de plagio: recursos en línea sobre plagio de código fuente" Archivado el 15 de noviembre de 2012 en Wayback Machine . Academia de Educación Superior , Universidad del Ulster .
^ Roy, Chanchal Kumar; Cordy, James R. (26 de septiembre de 2007). "Una encuesta sobre la investigación en detección de clones de software". Facultad de Informática, Queen's University, Canadá .
^ Prasad, Suhani. "Plagio y derechos de autor". CheckForPlag .{{cite web}}: CS1 maint: estado de la URL ( enlace )
^ Brenda S. Baker . Un programa para identificar código duplicado. Computing Science and Statistics, 24:49–57, 1992.
^ Ira D. Baxter, et al. Detección de clones mediante árboles de sintaxis abstracta
^ Detección visual de código duplicado Archivado el 29 de junio de 2006 en Wayback Machine por Matthias Rieger y Stephane Ducasse.
^ Yuan, Y. y Guo, Y. CMCD: Detección de clones de código basada en matriz de recuento, en 2011, 18.ª Conferencia de ingeniería de software de Asia y el Pacífico. IEEE, diciembre de 2011, págs. 250-257.
^ Chen, X., Wang, AY y Tempero, ED (2014). Estudios de detección de clones de código replicados y reproducidos. En ACSC (pp. 105-114).
^ Bulychev, Peter y Marius Minea. "Detección de código duplicado mediante antiunificación". Actas del Coloquio de primavera/verano para jóvenes investigadores sobre ingeniería de software. No. 2. Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук, 2008.

Literatura

Carroll, J. (2002). Un manual para prevenir el plagio en la educación superior . Oxford: Centro de Oxford para el Desarrollo del Personal y el Aprendizaje, Universidad Oxford Brookes. (96 págs.), ISBN 1873576560
Zeidman, B. (2011). Manual del detective de propiedad intelectual de software . Prentice Hall. (480 págs.), ISBN 0137035330