Botón de apagado de emergencia del robot
Administradores : utilicen este botón si el bot no funciona correctamente. ( enlace directo )
Los usuarios que no sean administradores pueden un bot que funciona mal en Wikipedia:Tablón de anuncios de administradores/Incidentes .
Los administradores pueden desactivar el bot cambiando esta página a 'Falso'.
Este bot es un bot que cumple con las exclusiones .
ClueBot NG es un bot antivandalismo que intenta detectar y revertir el vandalismo de forma rápida y automática.
Agradecimientos especiales a:
Preguntas, comentarios, aportaciones y sugerencias sobre:
Para que el bot sea eficaz, es necesario ampliar el conjunto de datos. Nuestro conjunto de datos actual tiene cierto grado de sesgo, así como algunas imprecisiones. Necesitamos voluntarios que nos ayuden a revisar las ediciones y clasificarlas como vandálicas o constructivas. Esperamos poder reemplazar por completo nuestro conjunto de datos actual con una muestra aleatoria de ediciones, revisadas y clasificadas por voluntarios. En la interfaz de revisión del conjunto de datos se incluyen instrucciones más detalladas sobre cómo utilizar la interfaz y la interfaz en sí.
Las estadísticas ampliadas sobre los colaboradores, incluidos los recuentos de revisiones de ediciones y su precisión, están disponibles aquí .
Para aquellos que ayudan y contribuyen a la interfaz de revisión, hay un cuadro de usuario disponible para ustedes:
Úselo con:
{{Usuario:ClueBot NG/Revisar carpeta de usuario}}
Como ClueBot NG necesita un conjunto de datos para funcionar, este también se puede utilizar para proporcionar estadísticas bastante precisas sobre su precisión y funcionamiento. Se utilizan distintas partes del conjunto de datos para el entrenamiento y la prueba, por lo que estas estadísticas no están sesgadas.
Las estadísticas exactas cambian y mejoran con frecuencia a medida que actualizamos el bot. Actualmente:
Actualmente, el conjunto de datos de prueba utilizado para generar estas estadísticas es una muestra aleatoria de ediciones, cada una revisada por al menos dos humanos, por lo que las estadísticas son precisas.
Nota: Estas estadísticas se calculan antes de aplicar los filtros de posprocesamiento. Los filtros de posprocesamiento reducen principalmente la tasa de falsos positivos (es decir, la cantidad real de falsos positivos será menor que la indicada aquí), pero también pueden reducir levemente la tasa de detección.
Vea las preguntas frecuentes .
ClueBot NG utiliza un método completamente diferente para clasificar el vandalismo que todos los bots antivandálicos anteriores, incluido el ClueBot original. Los bots antivandálicos anteriores han utilizado una lista de heurísticas simples y palabras en la lista negra para determinar si una edición es vandálica. Si una cierta cantidad de heurísticas coincidían, la edición se clasificaba como vandálica. Este método da como resultado bastantes falsos positivos, porque muchas de las heurísticas tienen usos legítimos en algunos contextos, y solo una tasa de detección de vandalismo de entre el 5% y el 10%, porque la mayoría de los actos de vandalismo no se pueden detectar con estas heurísticas simples.
ClueBot NG utiliza una combinación de distintos métodos de detección que utilizan el aprendizaje automático como base. Estos se describen a continuación.
En lugar de una lista predefinida de reglas que genera un humano, ClueBot NG aprende qué se considera vandalismo automáticamente al examinar una gran lista de ediciones que están preclasificadas como constructivas o vandálicas. Su concepto de lo que se considera vandalismo lo aprende de los combatientes humanos contra el vandalismo. Esta lista de ediciones se denomina corpus o conjunto de datos. La precisión del bot depende en gran medida del tamaño y la calidad del conjunto de datos. Si el conjunto de datos es pequeño, contiene ediciones clasificadas de forma incorrecta o no contiene una muestra aleatoria de ediciones, el rendimiento del bot se ve gravemente afectado. Lo mejor que usted y otros wikipedistas pueden hacer para ayudar al bot es mejorar el conjunto de datos. Si está interesado en ayudar, consulte la sección Interfaz de revisión de conjuntos de datos.
En ClueBot NG se utilizan algunos clasificadores bayesianos diferentes. El más básico funciona en unidades de palabras. Básicamente, para cada palabra, se cuenta el número de ediciones constructivas que agregan la palabra y el número de ediciones vandálicas que agregan la palabra. Esto se utiliza para formar una probabilidad de vandalismo para cada palabra agregada en una edición. Las probabilidades se combinan de tal manera que no solo se utilizan palabras comunes en vandalismo, sino que también las palabras que no son comunes en vandalismo pueden reducir la puntuación.
Esto se diferencia de una simple lista de palabras en lista negra en que los pesos de las palabras se determinan exactamente para que sean óptimos, y también hay una gran "lista blanca" de palabras, también con pesos óptimos, que contribuye.
Actualmente, también hay un clasificador bayesiano independiente que funciona en unidades de frases de dos palabras. Es posible que en el futuro agreguemos incluso más clasificadores bayesianos que funcionen en diferentes unidades de palabras o palabras en diferentes contextos.
Las puntuaciones de los clasificadores bayesianos no se utilizan por sí solas, sino que se introducen en la red neuronal como entradas simples. Esto permite que la red neuronal reduzca los falsos positivos debidos a palabras simples incluidas en la lista negra y detecte el vandalismo que agrega palabras desconocidas.
El componente principal del algoritmo de detección de vandalismo de ClueBot NG es la red neuronal. Una red neuronal artificial es una técnica de aprendizaje automático que puede reconocer patrones en un conjunto de datos de entrada que son más complejos que simplemente determinar pesos. La entrada a la ANN utilizada en ClueBot NG se compone de una serie de estadísticas diferentes calculadas a partir de la edición, que incluyen, entre muchas otras cosas, los resultados de los clasificadores bayesianos. Cada estadística debe escalarse a un número entre cero y uno antes de ingresarse a la red neuronal.
El resultado de la red neuronal se utiliza como la puntuación principal de vandalismo para ClueBot NG. Al igual que con otras técnicas de aprendizaje automático, la precisión de la puntuación depende del tamaño y la precisión del conjunto de datos de entrenamiento.
La ANN genera una puntuación de vandalismo entre 0 y 1, donde 1 es un vandalismo 100 % seguro. Para clasificar algunas ediciones como vandalismo y otras como constructivas, se debe aplicar un umbral a la puntuación. Las puntuaciones superiores al umbral se clasifican como vandalismo y las puntuaciones inferiores se clasifican como constructivas.
El umbral no es elegido aleatoriamente por un humano, sino que se calcula para que coincida con una tasa de falsos positivos determinada. Al realizar una detección de vandalismo real, es importante minimizar los falsos positivos a un nivel muy bajo. Un humano selecciona una tasa de falsos positivos, que es el porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo. Se calcula un umbral para tener una tasa de falsos positivos igual o inferior a este porcentaje, al tiempo que se maximiza la tasa de detección. La tasa de falsos positivos la establece un humano y el bot se mantiene en esa tasa o por debajo de ella, al tiempo que detecta la mayor cantidad posible de vandalismo. La tasa de falsos positivos no es fija, sino ajustable.
Para garantizar que el umbral y las estadísticas sean precisos y no generen estadísticas inexactas o una tasa de falsos positivos mayor que la esperada, la parte del conjunto de datos utilizada para los cálculos del umbral se mantiene separada del conjunto de entrenamiento y no se utiliza para el entrenamiento. Además, solo las partes más precisas del conjunto de datos (actualmente, las que son revisadas por personas desde la interfaz de revisión) se utilizan para este cálculo. Esto garantiza que todas las estadísticas proporcionadas aquí sean precisas y que los falsos positivos no excedan la tasa indicada.
Una vez que el núcleo realiza su determinación primaria de vandalismo, los datos se envían a la interfaz de Wikipedia. La interfaz de Wikipedia contiene una lógica simple diseñada para reducir los falsos positivos. Si bien también reduce un poco la tasa de detección de vandalismo, también reduce la tasa de falsos positivos, y algunos de estos son obligatorios según la política de Wikipedia.
Los dos primeros rara vez reducen la tasa de detección, pero ambos evitan una buena cantidad de falsos positivos. Nota: La tasa de falsos positivos (y la tasa de detección) se calculan en el núcleo, antes de los filtros de posprocesamiento. Esto significa que la tasa de falsos positivos real será menor que la tasa de falsos positivos indicada, a menudo por un factor significativo.
El código fuente del bot es público y se puede encontrar en github. Solicite acceso a los desarrolladores. Si desea ejecutar el bot en su propia wiki, debe hablar con los desarrolladores sobre todos los factores que intervienen para que funcione correctamente. También debe tener en cuenta que solo se ejecutará en un sistema Linux/UNIX y que el código fuente puede ser bastante difícil de compilar (hay muchas dependencias) a menos que tenga experiencia con sistemas Linux/UNIX.
ClueBot NG mantiene un canal de información basado en IRC, destinado principalmente para su uso por parte de otras herramientas automatizadas, ubicado en #wikipedia-en-cbngfeed en la red Libera Chat . Es esencialmente una copia del canal de Wikipedia RC, pero con los datos de análisis de ClueBot NG agregados. Incluye todo lo que hace el canal de Wikipedia RC, con el agregado de la puntuación de ClueBot NG y si se revirtió o no. El formato es edit line \003 # score # reason # Reverted or Not reverted
.
Tenga en cuenta que las ediciones en el feed pueden no estar necesariamente en el orden preciso, ya que ClueBot NG las procesa en paralelo. Las ediciones no revertidas generalmente se procesan en menos de un segundo. Las ediciones revertidas a veces pueden demorar hasta 10 segundos o más en procesarse debido al retraso de la API al revertir.
ClueBot NG no es una persona, es un robot automático que intenta detectar el vandalismo y mantener limpia Wikipedia. Un falso positivo es cuando una edición que no es vandalismo se clasifica incorrectamente como vandalismo.
El bot no tiene prejuicios contra ti, tu edición ni tu punto de vista (a menos que tu edición sea vandálica). Los falsos positivos son poco frecuentes, pero ocurren. Si gestionas bien los falsos positivos sin enojarte, estás ayudando a este bot a detectar casi la mitad de todo el vandalismo en Wikipedia y a mantener la wiki limpia para todos nosotros.
Los falsos positivos con ClueBot NG son (esencialmente) inevitables. Para que sea eficaz a la hora de detectar una gran cantidad de actos de vandalismo, se detectan unas cuantas ediciones constructivas (o al menos, bien intencionadas). Hay muy pocos falsos positivos, pero ocurren. Si una de tus ediciones se identifica incorrectamente como vandalismo, simplemente rehaz la edición, elimina la advertencia de tu página de discusión y, si lo deseas, informa del falso positivo. ClueBot NG no es (todavía) consciente: es un robot automatizado y si revierte incorrectamente tu edición, no significa que sea mala o incluso de mala calidad: es solo un error aleatorio en la clasificación del bot, al igual que los filtros de correo no deseado a veces clasifican incorrectamente los mensajes como spam.
La razón por la que son necesarios los falsos positivos se debe a la forma en que funciona el bot. Utiliza un algoritmo interno complejo llamado Red Neuronal Artificial que genera una probabilidad de que una edición determinada sea vandálica. La probabilidad suele ser bastante cercana, pero a veces puede ser significativamente diferente de lo que debería ser. Si una edición se clasifica o no como vandalismo se determina aplicando un umbral a esta probabilidad. Cuanto más alto sea el umbral, menos falsos positivos habrá, pero también menos vandalismo se detectará. Se selecciona un umbral asumiendo una tasa fija de falsos positivos (porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo) y optimizando la cantidad de vandalismo detectado en función de eso. Esto significa que siempre habrá algunos falsos positivos y siempre será aproximadamente el mismo porcentaje de ediciones constructivas. La configuración actual de la tasa de falsos positivos se detalla en Estadísticas arriba.
Cuando se producen falsos positivos, es posible que no se trate de ediciones de mala calidad y que ni siquiera haya una razón aparente. Si informas del falso positivo, los encargados del mantenimiento del bot lo examinarán, intentarán determinar por qué se produjo el error y, si es posible, mejorarán la precisión del bot para futuras ediciones similares. Si bien no evitará los falsos positivos, puede ayudar a reducir la cantidad de ediciones de buena calidad que son falsos positivos. Además, si la precisión del bot mejora tanto que la tasa de falsos positivos se puede reducir sin una caída significativa en la tasa de detección de vandalismo, es posible que podamos reducir la cantidad total de falsos positivos.
Si quieres ayudar a mejorar significativamente la precisión del bot, puedes contribuir a la interfaz de revisión. Esto debería ayudarnos a determinar un umbral con mayor precisión, detectar más actos de vandalismo y, en última instancia, reducir los falsos positivos.
Para informar un falso positivo o ver una lista completa de todos los falsos positivos, consulte aquí .
Para aquellos que ayudan y contribuyen con la interfaz de falsos positivos, hay un cuadro de usuario disponible para ustedes:
Úselo con:
{{Usuario:ClueBot NG/Reportar carpeta de usuario}}
¡2NumForIce te ha regalado transistores ! Los transistores promueven el WikiLove (📖💞) y esperamos que este te haya hecho el día más eficiente. Es el alimento preferido por los robots . 🤖 Difunde el WikiLove regalándole transistores a alguien más, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
El problema con ClueBot NG es que cada vez que intento revertir manualmente una edición, ClueBot NG me gana inmediatamente. Así de rápido es CBNG: el vandalismo aparece y se revierte al instante. Aquí tienes algunos transistores para que sigas funcionando.
¡Difunde las bondades de los transistores agregando {{ subst:Transistors for you }} a la página de discusión de alguien con un mensaje amistoso!
~~ 2NumForIce ( hablar | editar ) 17:35 12 nov 2023 (UTC)
¡El señor Tortuga Lectora te ha regalado aceite de motor ! El aceite de motor promueve el WikiLove (📖💞) y esperamos que este te haya hecho el día más eficiente. Es la bebida preferida por los robots . 🤖 Difunde el WikiLove regalándole aceite de motor a alguien más, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
¡Difunde las bondades del aceite de motor agregando {{ subst:Motor oil for you }} a la página de discusión de alguien con un mensaje amistoso!
¡HelloHamburger te ha regalado pilas ! Las pilas promueven el WikiLove (📖💞) y esperamos que esta haya hecho que tu día sea más potente. Es la fuente de energía preferida por los bots . 🤖 Difunde el WikiLove regalándole pilas a alguien más, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
¡Difunde las bondades de las baterías agregando {{ subst:Batteries for you }} a la página de discusión de alguien con un mensaje amistoso!
No he visto mucho de tu trabajo, pero parece que te ha ido bien. ¡Sigue así, maravilloso robot!
HelloHamburger ( discusión ) 01:49 3 mar 2022 (UTC)
¡TK421bsod te ha regalado pilas ! Las pilas promueven el WikiLove (📖💞) y, con suerte, esta te ha hecho el día más potente. Es la fuente de energía preferida por los bots . 🤖 Difunde el WikiLove regalándole pilas a alguien más, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
¡Difunde las bondades de las baterías agregando {{ subst:Batteries for you }} a la página de discusión de alguien con un mensaje amistoso!
TK421bsod ( discusión ) 20:04 30 ene 2020 (UTC)