Botón de apagado de emergencia del robot
Administradores : utilice este botón si el bot no funciona correctamente. ( enlace directo )
Los no administradores pueden un robot que no funciona correctamente en Wikipedia: tablón de anuncios de administradores/Incidentes .
Los administradores pueden desactivar el bot cambiando esta página a "Falso".
Este bot es un bot que cumple con las exclusiones .
ClueBot NG es un bot antivandalismo que intenta detectar y revertir el vandalismo de forma rápida y automática.
Agradecimientos especiales a:
Preguntas, comentarios, aportes y sugerencias sobre:
Para que el bot sea eficaz, es necesario ampliar el conjunto de datos. Nuestro conjunto de datos actual tiene cierto grado de sesgo, así como algunas imprecisiones. Necesitamos voluntarios para ayudar a revisar las ediciones y clasificarlas como vandálicas o constructivas. Esperamos eventualmente reemplazar completamente nuestro conjunto de datos actual con una muestra aleatoria de ediciones, revisadas y clasificadas por voluntarios. En la interfaz de revisión del conjunto de datos se encuentran instrucciones más detalladas sobre cómo utilizar la interfaz y la interfaz misma.
Las estadísticas ampliadas sobre los contribuyentes, incluido el recuento de revisiones de edición y la precisión, están disponibles aquí .
Para aquellos que ayudan y contribuyen a la interfaz de revisión, hay una casilla de usuario disponible:
Úselo con:
{{Usuario:ClueBot NG/Revisar carpeta de usuario}}
Como ClueBot NG requiere un conjunto de datos para funcionar, el conjunto de datos también se puede utilizar para proporcionar estadísticas bastante precisas sobre su exactitud y funcionamiento. Se utilizan diferentes partes del conjunto de datos para el entrenamiento y las pruebas, por lo que estas estadísticas no están sesgadas.
Las estadísticas exactas cambian y mejoran con frecuencia a medida que actualizamos el bot. Actualmente:
Actualmente, el conjunto de datos de prueba utilizado para generar estas estadísticas es una muestra aleatoria de ediciones, cada una revisada por al menos dos humanos, por lo que las estadísticas son precisas.
Nota: Estas estadísticas se calculan antes de los filtros de posprocesamiento. Los filtros de posprocesamiento reducen principalmente la tasa de falsos positivos (es decir, el número real de falsos positivos será menor que el indicado aquí), pero también pueden reducir ligeramente la tasa de captura.
Consulte las preguntas frecuentes .
ClueBot NG utiliza un método completamente diferente para clasificar el vandalismo que todos los robots antivandálicos anteriores, incluido el ClueBot original. Los robots antivandálicos anteriores han utilizado una lista de heurísticas simples y palabras incluidas en la lista negra para determinar si una edición es vandalismo. Si coincidían un cierto número de heurísticas, la edición se clasificaba como vandalismo. Este método da como resultado bastantes falsos positivos, porque muchas de las heurísticas tienen usos legítimos en algunos contextos, y solo una tasa de detección de vandalismo de entre el 5% y el 10%, porque la mayor parte del vandalismo no puede detectarse con estas heurísticas simples.
ClueBot NG utiliza una combinación de diferentes métodos de detección que utilizan el aprendizaje automático como núcleo. Estos se describen a continuación.
En lugar de una lista predefinida de reglas que genera un humano, ClueBot NG aprende automáticamente lo que se considera vandalismo examinando una gran lista de ediciones que están preclasificadas como constructivas o vandalismo. Su concepto de lo que se considera vandalismo lo aprenden los combatientes vándalos humanos. Esta lista de ediciones se denomina corpus o conjunto de datos. La precisión del bot depende en gran medida del tamaño y la calidad del conjunto de datos. Si el conjunto de datos es pequeño, contiene ediciones clasificadas de manera inexacta o no contiene una muestra aleatoria de ediciones, el rendimiento del bot se ve gravemente obstaculizado. Lo mejor que usted y otros wikipedistas pueden hacer para ayudar al robot es mejorar el conjunto de datos. Si está interesado en ayudar, consulte la sección Interfaz de revisión del conjunto de datos.
En ClueBot NG se utilizan algunos clasificadores bayesianos diferentes. El más básico funciona en unidades de palabras. Básicamente, para cada palabra, se cuenta el número de ediciones constructivas que añaden la palabra y el número de ediciones vandálicas que añaden la palabra. Esto se utiliza para formar una probabilidad de vandalismo para cada palabra agregada en una edición. Las probabilidades se combinan de tal manera que no solo se utilizan palabras comunes en vandalismo, sino que también palabras que no son comunes en vandalismo pueden reducir la puntuación.
Esto difiere de una simple lista de palabras en la lista negra en que los pesos de las palabras se determinan exactamente como óptimos, y también hay una gran "lista blanca" de palabras, también con pesos óptimos, que contribuye.
Actualmente, también existe un clasificador bayesiano independiente que funciona en unidades de frases de 2 palabras. Es posible que en el futuro agreguemos aún más clasificadores bayesianos que funcionen en diferentes unidades de palabras o palabras en diferentes contextos.
No se utilizan puntuaciones de los clasificadores bayesianos únicamente. En cambio, se introducen en la red neuronal como simples entradas. Esto permite a la red neuronal reducir los falsos positivos debido a simples palabras en la lista negra y detectar vandalismo que agrega palabras desconocidas.
El componente principal del algoritmo de detección de vandalismo de ClueBot NG es la red neuronal. Una red neuronal artificial es una técnica de aprendizaje automático que puede reconocer patrones en un conjunto de datos de entrada que son más complejos que simplemente determinar pesos. La entrada a la ANN utilizada en ClueBot NG se compone de una serie de estadísticas diferentes calculadas a partir de la edición, que incluyen, entre muchas otras cosas, los resultados de los clasificadores bayesianos. Cada estadística debe escalarse a un número entre cero y uno antes de ingresarse a la red neuronal.
La salida de la red neuronal se utiliza como puntuación principal de vandalismo para ClueBot NG. Al igual que con otras técnicas de aprendizaje automático, la precisión de la puntuación depende del tamaño y la precisión del conjunto de datos de entrenamiento.
La ANN genera una puntuación de vandalismo entre 0 y 1, donde 1 es vandalismo 100% seguro. Para clasificar algunas ediciones como vandalismo y otras como constructivas, se debe aplicar un umbral a la partitura. Las puntuaciones por encima del umbral se clasifican como vandalismo y las puntuaciones por debajo del umbral se clasifican como constructivas.
El umbral no lo elige un ser humano al azar, sino que se calcula para que coincida con una tasa determinada de falsos positivos. Al realizar una detección real de vandalismo, es importante minimizar los falsos positivos a un nivel muy bajo. Un humano selecciona una tasa de falsos positivos, que es el porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo. Se calcula un umbral para tener una tasa de falsos positivos igual o inferior a este porcentaje, mientras se maximiza la tasa de captura. La tasa de falsos positivos la establece un humano, y el robot se mantiene en esa tasa de falsos positivos o por debajo de ella, mientras detecta la mayor cantidad de vandalismo posible. La tasa de falsos positivos no es fija, sino ajustable.
Para asegurarse de que el umbral y las estadísticas sean precisos y no proporcionen estadísticas inexactas o una tasa de falsos positivos más alta de lo esperado, la parte del conjunto de datos utilizada para los cálculos del umbral se mantiene separada del conjunto de entrenamiento y no se usa para el entrenamiento. Además, para este cálculo solo se utilizan las partes más precisas del conjunto de datos (actualmente, las que son revisadas por humanos desde la interfaz de revisión). Esto garantiza que todas las estadísticas proporcionadas aquí sean precisas y que los falsos positivos no superen la tasa indicada.
Después de que el núcleo toma su determinación principal de vandalismo, los datos se envían a la interfaz de Wikipedia. La interfaz de Wikipedia contiene una lógica simple diseñada para reducir los falsos positivos. Aunque también reduce ligeramente la tasa de captura de vandalismo, también reduce la tasa de falsos positivos, y algunos de estos son obligatorios por la política de Wikipedia.
Los dos primeros rara vez reducen la tasa de captura, pero ambos evitan un buen número de falsos positivos. Nota: La tasa de falsos positivos (y la tasa de captura) se calculan en el núcleo, antes de los filtros de posprocesamiento. Esto significa que la tasa real de falsos positivos será menor que la tasa de falsos positivos declarada, a menudo por un factor significativo.
El código fuente del bot es público y se puede encontrar en github. Solicite acceso a los desarrolladores. Si desea ejecutar el bot usted mismo en su propia wiki, debe discutir con los desarrolladores todos los factores involucrados para que funcione correctamente. También debe tener en cuenta que sólo se ejecutará en un sistema Linux/UNIX y que el código fuente puede ser bastante difícil de compilar (muchas dependencias) a menos que tenga experiencia con sistemas Linux/UNIX.
ClueBot NG mantiene una fuente de datos basada en IRC, destinada principalmente a ser utilizada por otras herramientas automatizadas, ubicada en #wikipedia-en-cbngfeed en la red Libera Chat . Es esencialmente una copia del feed de Wikipedia RC, pero con los datos de análisis de ClueBot NG agregados. Incluye todo lo que hace el feed de Wikipedia RC, con la adición de la puntuación de ClueBot NG y si se revirtió o no. El formato es edit line \003 # score # reason # Reverted or Not reverted
.
Tenga en cuenta que las ediciones en el feed pueden no estar necesariamente en el orden preciso, porque ClueBot NG las procesa en paralelo. Las ediciones no revertidas suelen procesarse en menos de un segundo. Las ediciones revertidas a veces pueden tardar hasta 10 segundos o más en procesarse debido al retraso de la API al revertirlas.
ClueBot NG no es una persona, es un robot automático que intenta detectar vandalismo y mantener limpia Wikipedia. Un falso positivo se produce cuando una edición que no es vandalismo se clasifica incorrectamente como vandalismo.
El bot no tiene prejuicios contra usted, su edición o su punto de vista (a menos que su edición sea vandalismo). Los falsos positivos son raros, pero ocurren. Al manejar bien los falsos positivos sin enojarse, está ayudando a este robot a detectar casi la mitad de todo el vandalismo en Wikipedia y a mantener la wiki limpia para todos nosotros.
Los falsos positivos con ClueBot NG son (esencialmente) inevitables. Para que sea eficaz a la hora de detectar una gran cantidad de vandalismo, se detectan algunas ediciones constructivas (o al menos bien intencionadas). Hay muy pocos falsos positivos, pero ocurren. Si una de sus ediciones se identifica incorrectamente como vandalismo, simplemente rehaga la edición, elimine la advertencia de su página de discusión y, si lo desea, informe el falso positivo. ClueBot NG no es (todavía) sensible: es un robot automatizado, y si revierte incorrectamente su edición, no significa que su edición sea mala o incluso deficiente; es solo un error aleatorio en la clasificación del bot, al igual que el correo electrónico. Los filtros de spam a veces clasifican incorrectamente los mensajes como spam.
La razón por la que los falsos positivos son necesarios se debe a cómo funciona el bot. Utiliza un algoritmo interno complejo llamado Red Neural Artificial que genera una probabilidad de que una edición determinada sea vandalismo. La probabilidad suele ser bastante cercana, pero a veces puede ser significativamente diferente de lo que debería ser. Si una edición se clasifica o no como vandalismo se determina aplicando un umbral a esta probabilidad. Cuanto más alto es el umbral, menos falsos positivos se detectan, pero también menos vandalismo. Se selecciona un umbral asumiendo una tasa fija de falsos positivos (porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo) y optimizando la cantidad de vandalismo detectado en función de eso. Esto significa que siempre habrá algunos falsos positivos y siempre habrá aproximadamente el mismo porcentaje de ediciones constructivas. La configuración actual de la tasa de falsos positivos se enumera en Estadísticas arriba.
Cuando se producen falsos positivos, es posible que no sean ediciones de mala calidad y que ni siquiera haya una razón aparente. Si informa el falso positivo, los mantenedores del bot lo examinarán, intentarán determinar por qué ocurrió el error y, si es posible, mejorarán la precisión del bot para futuras ediciones similares. Si bien no evitará los falsos positivos, puede ayudar a reducir la cantidad de ediciones de buena calidad que son falsos positivos. Además, si la precisión del robot mejora tanto que la tasa de falsos positivos se puede reducir sin una caída significativa en la tasa de captura de vandalismo, es posible que podamos reducir la cantidad total de falsos positivos.
Si desea ayudar a mejorar significativamente la precisión del bot, puede marcar la diferencia contribuyendo a la interfaz de revisión. Esto debería ayudarnos a determinar con mayor precisión un umbral, detectar más vandalismo y, finalmente, reducir los falsos positivos.
Para informar un falso positivo o ver una lista completa de todos los falsos positivos, consulte aquí .
Para aquellos que ayudan y contribuyen a la interfaz de falsos positivos, hay una casilla de usuario disponible:
Úselo con:
{{Usuario:ClueBot NG/Reportar carpeta de usuario}}
¡2NumForIce te ha regalado transistores ! Los transistores promueven WikiLove (📖💞) y espero que este haya hecho que tu día sea más eficiente. Es la comida preferida por los bots . 🤖 Difunda WikiLove dándole transistores a otra persona, ya sea alguien con quien haya tenido guerras de robots en el pasado o un buen amigo.
El problema con ClueBot NG es que cada vez que intento revertir manualmente una edición, ClueBot NG inmediatamente me gana. Así de rápido es el CBNG; El vandalismo aparece y se revierte instantáneamente. Aquí tienes algunos transistores para que sigas funcionando.
Difunda las bondades de los transistores agregando {{ subst:Transistors for you }} a la página de discusión de alguien con un mensaje amigable.
~~ 2NumForIce ( hablar | ediciones ) 17:35, 12 de noviembre de 2023 (UTC)
¡El señor Reading Turtle te ha dado aceite de motor ! El aceite de motor promueve WikiLove (📖💞) y espero que este haya hecho que tu día sea más eficiente. Es la bebida preferida por los bots . 🤖 Difunda WikiLove dándole aceite de motor a otra persona, ya sea alguien con quien haya tenido guerras de robots en el pasado o un buen amigo.
Difunda las bondades del aceite de motor agregando {{ subst:Aceite de motor para usted }} a la página de discusión de alguien con un mensaje amigable.
¡HelloHamburger te ha puesto pilas ! Las baterías promocionan WikiLove (📖💞) y espero que esta haya hecho que tu día sea más poderoso. Es la fuente de energía preferida por los bots . 🤖 Difunde WikiLove dándole pilas a otra persona, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
Difunda las bondades de las baterías agregando {{ subst:Batteries for you }} a la página de discusión de alguien con un mensaje amigable.
No he visto mucho de tu trabajo, pero parece que lo has estado haciendo bien. ¡Sigue con el buen trabajo, maravilloso chico robot!
HelloHamburger ( discusión ) 01:49, 3 de marzo de 2022 (UTC)
¡TK421bsod te ha dado pilas ! Las baterías promocionan WikiLove (📖💞) y espero que esta haya hecho que tu día sea más poderoso. Es la fuente de energía preferida por los bots . 🤖 Difunde WikiLove dándole pilas a otra persona, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
Difunda las bondades de las baterías agregando {{ subst:Batteries for you }} a la página de discusión de alguien con un mensaje amigable.
TK421bsod ( discusión ) 20:04, 30 de enero de 2020 (UTC)