El detector de duplicados es una herramienta que se utiliza para comparar dos páginas web cualesquiera e identificar texto que se ha copiado de una a otra. Puede comparar dos páginas de Wikipedia entre sí, dos versiones de una página de Wikipedia entre sí, una página de Wikipedia (revisión actual o antigua) con una página externa o dos páginas externas entre sí. El detector de duplicados localiza pasajes en los que el texto de las dos páginas es el mismo. El número de palabras que se deben comparar es variable, pero se establece de forma predeterminada en 2.
La herramienta se utiliza frecuentemente para comprobar problemas de derechos de autor en Wikipedia, pero también se puede utilizar de otras maneras, como para ayudar a localizar citas en una biografía de personas vivas tomadas de un PDF grande para comprobar su precisión .
La herramienta se utiliza proporcionando las URL de dos sitios web para comparar (o, si se utiliza la versión avanzada, cargando cualquiera de los documentos desde su computadora). Admite documentos de texto, HTML y PDF . Para otros tipos de documentos, verifique la caché de Google para encontrar una versión HTML haciendo una búsqueda en Google de "cache:URL". Para que la herramienta funcione más rápido con documentos muy grandes, aumente la cantidad mínima de palabras a al menos 3. Para los documentos fuente que contienen números dispersos, es posible que deba marcar "Eliminar números" para obtener las mejores coincidencias. Tiene la opción de eliminar las citas de las coincidencias.
El detector de duplicados puede ver el texto de un artículo oculto por plantillas como {{ copyvio }} , ya que el texto aún se encuentra en la fuente de la página HTML, pero no puede ver el texto que se ha eliminado. En este caso, debe utilizar la URL de una revisión anterior.
El detector de duplicados es el mejor para encontrar duplicaciones literales y las cadenas de números más grandes son indicativas de pasajes extensos copiados textualmente. También se puede utilizar para ayudar a detectar paráfrasis cercanas. Siempre se requiere el juicio humano. Si las coincidencias de texto se iluminan, los pasajes con texto idéntico se pueden leer y comparar para ver si los pasajes copiados no son creativos y se encuentran en un texto que, en general, está suficientemente reescrito. Wikipedia:Parafraseo cercano ofrece algunas pautas para determinar cuándo una reescritura es suficiente; junto con Wikipedia:Plagio , puede ayudar a identificar cuándo el contenido no es creativo. El contenido coincidente se puede manejar de varias formas. Por ejemplo, si la fuente es de dominio público o tiene una licencia compatible , puede usarse tal como está si la atribución se maneja de acuerdo con los requisitos de licencia y Wikipedia:Plagio. Si no es así, es posible que la página deba revisarse o al menos marcarse como {{ parafraseo cercano }} , si no se maneja de acuerdo con WP:CV101 .
El código fuente PHP para Duplication Detector está disponible bajo la Licencia BSD Simplificada .