Bot de edición de Wikipedia dirigido por ThaddeusB
Actualización (23/12/14) : Estoy trabajando para que el BOT vuelva a funcionar. Parece que hay algunos problemas técnicos con WebCite (las solicitudes dan mensajes de tiempo de espera, pero en realidad se completan) en este momento. Estoy trabajando en una solución alternativa para mi código. -- ThaddeusB ( discusión ) 18:58, 23 de diciembre de 2014 (UTC)
El objetivo de WebCiteBOT es combatir la pérdida de enlaces citando automáticamente las URL recién agregadas. Está escrito en Perl y se ejecuta automáticamente con solo una supervisión ocasional.
En User:WebCiteBOT/Logs/ se puede encontrar un registro completo de la actividad del bot, organizado por fecha. En User:WebCiteBOT/Stats se pueden encontrar algunas estadísticas interesantes relacionadas con su funcionamiento .
Operación: WebCiteBOT monitorea el feed de adición de URL en el canal IRC #wikipedia-en-spam y toma nota de la hora de cada adición, pero no toma ninguna acción inmediata. Después de que hayan pasado 48 horas (o más), vuelve y verifica el artículo para ver si el nuevo enlace todavía está en su lugar y si se usa como referencia (es decir, no como un enlace externo). Estas precauciones ayudan a prevenir el archivo de spam o URL innecesarias.
Los artículos que han sido etiquetados/nominados para su eliminación se omiten hasta que se resuelva el problema.
Para cada referencia válida que encuentra, WebCiteBOT primero verifica su base de datos para ver si se realizó un archivo reciente. Si no es así, verifica la funcionalidad del enlace. Los enlaces válidos se envían para archivar en WebCitation.org, mientras que los enlaces inactivos se etiquetan con {{ dead link }} . Después de que el intento de archivado haya tenido tiempo de completarse, el bot verifica el estado del archivo y actualiza la página de Wikipedia correspondiente si el archivo se completó correctamente. También intentará agregar el título, el autor y otros metadatos que no fueron suministrados por la persona que agregó el enlace.
Características aún no implementadas:
- Capacidad de archivar todos los enlaces en una página específica a pedido
- Cree una base de datos de sitios "problemáticos" para ahorrar tiempo
Etiquetar enlaces no válidos con {{ dead link }} (implementado el 6 de junio de 2009)- Captura más robusta de metadatos; crear una base de datos de metadatos suministrados por humanos para ayudar al bot a determinar ciertos elementos ( actualización: el bot ahora captura datos ingresados por humanos para cada página que carga para crear esta base de datos)
- Intentar localizar el archivo de enlaces más antiguos al actualizar una página ( tal vez )
Problemas conocidos/limitaciones:
- Algunas adiciones de enlaces no se informan a #wikipedia-en-spam (probablemente porque hay demasiadas ediciones para que el robot de informes las examine todas) y, por lo tanto, WebCiteBOT no las detecta.
- El robot de notificación de enlaces "descodificará" los caracteres que estén codificados en la URL (por ejemplo, "%80%99"), lo que hará que mi robot no pueda encontrar el enlace en el wikitexto y lo notifique como "eliminado". (El 26 de febrero de 2012 se agregó una solución alternativa al código para "salvar" algunos de estos).
- WebCiteBOT no puede distinguir entre las nuevas incorporaciones y las incorporaciones causadas por reversiones y similares. Por lo tanto, a veces un enlace "nuevo" es en realidad bastante antiguo y la versión archivada puede no coincidir con la versión que vio el editor original.
- WebCitation.org no archiva algunas páginas debido a restricciones de robots . Una pequeña cantidad de páginas adicionales se archivan incorrectamente. (WebCiteBOT normalmente detecta estas páginas y no las enlaza).
- WebCiteBOT no sigue las redirecciones. Esto significa que si se mueve una página después de agregar un enlace, pero antes de que el robot la vea, se informará que "(enlace) ha sido eliminado". No tengo claro si seguir las redirecciones sería un comportamiento deseable o no.
No dudes en hacer una sugerencia para mejorar el bot.
Preguntas frecuentes
P. Acabo de agregar una nueva URL a [[alguna página]]; ¿qué debo hacer ahora?
- A. No tienes que hacer nada. El bot monitorea constantemente un canal de IRC que informa sobre la mayoría de los enlaces agregados. Almacena todos los enlaces informados allí y los archiva después de 2 o 3 días. Actualmente se está desarrollando una función que permitirá archivar a pedido enlaces muy sensibles al tiempo, pero por ahora depende completamente del canal de IRC.
P. ¿Por qué no se archivó [http://somepage.com/somefile.htm]?
- A. La razón más común es que el sitio web en cuestión tiene una restricción de robots que les pide a los robots que no almacenen en caché su contenido. Sin embargo, también existen otras posibilidades (consulte la sección de limitaciones conocidas más arriba).
P. ¿Por qué hay caracteres UTF8 incorrectos en el registro?
- A. Lamentablemente, el canal de IRC en el que se basa el bot a veces confunde caracteres de dos bytes. WebCiteBOT ha sido programado para probar un título alternativo en el que los caracteres "confundidos" se corrigen basándose en patrones comunes si el primer título que prueba no existe. Solo puede hacer esto después de comprobar primero el título tal como se proporciona, ya que a veces los títulos que parecen confusos en realidad no lo están. El registro siempre refleja el primer título probado, pero la operación real del bot utiliza el título corregido cuando puede averiguarlo.
Reconocimiento