stringtranslate.com

Wikipedia:STiki

STiki es una herramienta disponible para usuarios de confianza que se utiliza para detectar y revertir vandalismo , spam y otros tipos de ediciones no constructivas realizadas en Wikipedia. STiki elige ediciones para mostrar a los usuarios finales; si una edición mostrada se juzga como vandalismo, spam, etc., STiki agiliza el proceso de reversión y advertencia. STiki facilita la colaboración en la reversión del vandalismo; una lista almacenada centralmente de ediciones para ser inspeccionadas se sirve a los usuarios de STiki para reducir el esfuerzo redundante. STiki no es un bot de Wikipedia : es una herramienta de enrutamiento inteligente que dirige a los usuarios humanos al vandalismo potencial para su clasificación definitiva.

Hasta la fecha, STiki se ha utilizado para revertir 1.265.447 ediciones que sus usuarios han identificado como vandalismo, spam o de otro modo no constructivas (consulte la tabla de clasificación y los hitos del editor ).

Descargar

Interfaz gráfica de usuario (GUI) de interfaz gráfica de usuario , distribuida como un archivo ejecutable *.JAR . Después de descomprimirlo, haga doble clic en el archivo *.JAR para iniciarlo (Windows, OS X) o ejecute el comando de terminal "java -jar STiki_exec_[date].jar" (Unix).
STiki sigue en desarrollo activo, tanto en la interfaz gráfica de usuario como en los sistemas de puntuación del backend. Vuelva a visitarnos con frecuencia para ver versiones actualizadas.
Código fuente completo para la interfaz gráfica de usuario y el servidor back-end. No se incluyen las dependencias de bibliotecas ( IRC y JDBC ).
También disponible estáticamente: STiki Source (2,0 mB) --- Componente de procesamiento de enlaces (114 kB; puede tener código API obsoleto o roto).
Tenga en cuenta que esto también contiene el código fuente de la herramienta WikiAudit .

Usando STiki

STiki solo puede ser utilizado por editores con una cuenta de Wikipedia . Además, la cuenta debe cumplir con algunos requisitos para reducir la probabilidad de que los usuarios identifiquen erróneamente el vandalismo . La cuenta debe tener cualquiera de los siguientes: (1) el permiso/derecho de reversión , (2) al menos 1000 ediciones de artículos (en el espacio de nombres de artículos , no en páginas de discusión/usuario), o (3) permiso especial a través de la página de discusión . Enfatizamos que los usuarios deben asumir la responsabilidad de sus acciones con STiki.

Después de iniciar sesión, los usuarios interactúan principalmente con la herramienta GUI clasificando las ediciones en una de cuatro categorías:

La interfaz de usuario de STiki muestra una incidencia de vandalismo . Los botones para clasificar las ediciones están a la izquierda. Los enlaces para una investigación más profunda están cerca de la parte inferior en "última reversión" y "propiedades de la edición". El cuadro de texto en la esquina inferior izquierda permite al usuario modificar el resumen de la edición que queda al revertir.

Incertidumbre sobre la constructividad: si un usuario no está seguro de si una edición es constructiva, la solución más rápida suele ser realizar una búsqueda en la web ( por ejemplo , con Google); esto puede revelar si algún "hecho" es cierto. Por supuesto, los usuarios de STiki deben considerar la confiabilidad de la fuente encontrada. Si no se puede encontrar una fuente confiable, la respuesta correcta puede ser agregar una etiqueta {{ Citation needed }} o {{ Verify credentials }} , utilizando la interfaz wiki normal. Cuando se ha eliminado contenido, el sentido común suele ser la mejor guía. ¿El texto eliminado tiene citas? (Tenga en cuenta que verificar las citas en sí puede ser necesario en contenido sobre personas vivas ). ¿Cuál es el resumen de la edición? ¿Tiene sentido esa explicación? ¿Se discute en la página de discusión? Independientemente del problema, cualquier cosa que requiera experiencia específica del dominio para resolverse probablemente se clasifique mejor como "inocente" o "pasa".

Incertidumbre sobre la mala fe : puede resultar complicado diferenciar entre vandalismo y ediciones de buena fe que, no obstante, son poco constructivas. Las ediciones de prueba deben clasificarse como "vandalismo", ya que las advertencias iniciales y los comentarios de edición se adaptan a este caso. Si la edición no constructiva o el resumen de la edición indican inexperiencia en Wikipedia, puede ser mejor etiquetar la edición como "de buena fe" y dejar un mensaje en la página de discusión del nuevo usuario, ofreciendo ayuda. Más allá de eso, el sentido común suele ser la mejor guía. Considere el artículo en cuestión. ¿Es algo en lo que podrían estar interesados ​​los editores jóvenes? ¿Hay algo de verdad en lo que se dice (a falta de formato, lenguaje y cuestiones organizativas)?

Investigación más profunda : A veces, una reversión ("vandalismo" o "buena fe") no reparará todos los problemas presentados en un diff o el diff no contiene suficiente evidencia para hacer una clasificación definitiva. En estos casos, use los hipervínculos (texto subrayado en azul) para abrir páginas relevantes en el navegador web predeterminado. Esto es útil, por ejemplo, para: (1) ver la página de discusión del artículo para ver si se discutió algún problema, (2) hacer cambios usando la interfaz normal y (3) usar otras herramientas como Popups , Twinkle y wikEdDiff .

Cuando regrese a la herramienta STiki, deberá clasificar la edición. Si utilizó la interfaz del navegador para editar el artículo, presionar "vandalismo" o "revertir de buena fe" no revertirá los cambios ni tendrá ningún efecto directo en Wikipedia. Clasifique la edición mostrada lo mejor que pueda. Realizar tales clasificaciones ayudará a STiki a identificar ediciones similares en el futuro.

Consejos de interfaz : STiki tiene teclas de acceso rápido para facilitar la interacción del usuario con la herramienta. Después de que una edición individual haya sido clasificada con el mouse (dando el "foco" al panel de botones), las teclas , , y marcarán las ediciones como "vandalismo", "buena fe", "aprobado" e "inocente" respectivamente. Mientras está en el mismo modo, las teclas Re Pág, Av Pág , Flecha arriba (↑) y Flecha abajo (↓) también desplazarán el navegador de diferencias. Tenga en cuenta también que los hipervínculos que aparecen en las diferencias se pueden abrir en su navegador web, suponiendo que la opción "Activar enlaces externos" (en la pestaña "Opciones") esté activada. STiki almacena sus configuraciones en un archivo llamado , por lo que es posible editar rápidamente sus configuraciones allí.VGPI.STiki.props.xml

Comparación con otras herramientas

Las siguientes características hacen que STiki sea único:

Editar priorización

STiki ordena las ediciones que se mostrarán a los usuarios finales en colas de prioridad. La prioridad que tiene una edición se basa en su evaluación por un sistema de puntuación antidaño. Diferentes sistemas producen diferentes puntuaciones/colas, y los usuarios pueden seleccionar explícitamente una cola a la que acceder mediante el menú "Cola de revisión". Todos los enfoques se basan en el aprendizaje automático , del cual hay dos enfoques activos y dos inactivos:

Cuando STiki experimenta un uso considerable, la frecuencia de vandalismo detectado en una cola puede reducirse significativamente, un fenómeno llamado "agotamiento de la cola". En tales casos, puede ser conveniente probar una cola alternativa. Los usuarios también deben reconocer que existe una cantidad finita de vandalismo en Wikipedia. Cuantas más personas utilicen STiki, menor será el porcentaje que verá cada usuario. Esto no significa que STiki esté funcionando "mal", sino que la enciclopedia está funcionando "bien".

Puntuación y orígenes de los metadatos

Aquí destacamos un sistema de puntuación particular, basado en el aprendizaje automático sobre las propiedades de los metadatos. Este sistema fue desarrollado por los mismos autores que la interfaz gráfica de usuario de STiki, fue el único sistema que se envió con las primeras versiones y comparte una base de código/distribución con la interfaz gráfica de usuario de STiki. Este sistema también le dio a todo el paquete de software su nombre (derivado de Procesamiento temporal de Space en Wikipedia ) , aunque este significado acrónimo ahora se minimiza.

El "sistema de metadatos" examina sólo cuatro campos de una edición al puntuar: (1) marca de tiempo, (2) editor, (3) artículo y (4) comentario de revisión. Estos campos se utilizan para calcular características relacionadas con el estado de registro del editor, la hora del día de la edición, el día de la semana de la edición, el origen geográfico , el historial de la página, las membresías de la categoría, la longitud del comentario de revisión, etc. Estas señales se envían a un clasificador ADTree para llegar a las probabilidades de vandalismo. Los modelos ML se entrenan sobre las clasificaciones proporcionadas en el frontend de STiki. Se puede encontrar una discusión más rigurosa de la técnica en una publicación de EUROSEC 2010.

Se ha desarrollado una API para brindar a otros investigadores y desarrolladores acceso a las características de los metadatos sin procesar y a las probabilidades de vandalismo resultantes. Un archivo README describe los detalles de la API.

El artículo fue un intento académico de demostrar que las propiedades del lenguaje no eran necesarias para detectar el vandalismo en Wikipedia. Tuvo éxito en ese sentido, pero desde entonces el sistema se ha relajado para un uso de propósito general. Por ejemplo, el motor ahora incluye algunas características de lenguaje simples. Además, se tomó la decisión de integrar otros sistemas de puntuación en la interfaz gráfica de usuario.

Arquitectura

Diagrama de flujo de trabajo de STiki

STiki utiliza una arquitectura servidor/cliente :

1. Procesamiento de back-end que supervisa todos los cambios recientes en Wikipedia y calcula/obtiene la probabilidad de que cada uno sea vandálico. Este motor calcula puntuaciones para el Sistema de Puntuación de Metadatos y utiliza API/fuentes para recuperar las puntuaciones calculadas por sistemas de terceros. Las ediciones llenan una serie de colas de prioridad interconectadas, donde las puntuaciones de vandalismo son la prioridad. El mantenimiento de la cola garantiza que solo la edición más reciente de un artículo sea elegible para ser vista. El trabajo de back-end se realiza en los servidores de STiki (alojados en la Universidad de Pensilvania ), que dependen en gran medida de una base de datos MySQL .

2. Interfaz gráfica de usuario que muestra las diferencias que el back end ha determinado que probablemente contienen vandalismo a los usuarios humanos y solicita una clasificación definitiva. La interfaz de usuario de STiki es una aplicación de escritorio Java . Agiliza el proceso de revertir ediciones deficientes y emitir advertencias/ avisos AIV a los editores culpables. La interfaz está diseñada para permitir una revisión rápida. Además, el proceso de clasificación establece un ciclo de retroalimentación para mejorar los algoritmos de detección.

Trabajos relacionados y cooperación

Los autores de STiki se comprometen a trabajar para encontrar soluciones colaborativas al vandalismo. Para ello, hay disponible una API para las puntuaciones calculadas internamente de STiki. También se publica una transmisión en directo de las puntuaciones en el canal "#arm-stiki-scores" del servidor de IRC "armstrong.cis.upenn.edu". Además, todo el código de STiki es de código abierto.

En el transcurso de nuestra investigación, hemos recopilado grandes cantidades de datos, tanto de forma pasiva en relación con Wikipedia como a través del uso activo de la herramienta STiki por parte de los usuarios. Nos interesa compartir estos datos con otros investigadores. Por último, las distribuciones de STiki contienen un programa llamado Offline Review Tool (ORT), que permite revisar y anotar rápidamente un conjunto de ediciones proporcionadas por el usuario. Creemos que esta herramienta resultará útil para los investigadores que se dedican a la creación de corpus.

Créditos y más información

Andrew G. West ( west.andrew.g ) escribió STiki mientras era estudiante de doctorado en informática en la Universidad de Pensilvania , bajo la dirección de Insup Lee. El artículo académico que dio forma a la metodología STiki fue escrito en coautoría por Sampath Kannan e Insup Lee. El trabajo fue financiado en parte por ONR -MURI-N00014-07-1-0907.

Además del artículo académico ya comentado, se han publicado varios artículos y publicaciones específicos sobre STiki que pueden resultar útiles para los desarrolladores de programas antivandálicos. El software STiki se presentó en una demostración de WikiSym 2010, y un póster de WikiSym 2010 visualiza este contenido y proporciona algunas estadísticas de reversión de STiki. STiki también se presentó en Wikimania 2010, con las siguientes diapositivas de presentación. Un artículo adicional (no revisado por pares) examina STiki y las técnicas antivandálicas en relación con el problema más amplio de la confianza en las aplicaciones colaborativas. Por último, el ecosistema antidaños y la contribución técnica de STiki se resumieron en la tesis doctoral del desarrollador. Ese trabajo es novedoso porque analiza aproximadamente un millón de acciones de clasificación de STiki para aprender sobre los aspectos humanos y sociales del proceso de patrullaje.

Más allá de STiki de manera aislada, un artículo de CICLing 2011 examinó la técnica de puntuación de metadatos de STiki en relación con (y en combinación con) las características de NLP y persistencia de contenido (los dos finalistas de la Competencia PAN 2010) y estableció nuevas líneas de base de desempeño en el proceso. También se realizó una edición de 2011 de la competencia PAN-CLEF que requirió el procesamiento de múltiples lenguajes naturales; la propuesta de STiki ganó en todas las tareas. Una presentación de Wikimania 2011 examinó el rápido progreso antivandálico (tanto académico como en wiki) del período 2010-2011. Finalmente, un boletín de investigación publicado por EDUCAUSE analiza el problema del daño a Wikipedia/wiki desde una perspectiva organizacional y de educación superior, con especial énfasis en la protección del bienestar institucional.

Las consultas no abordadas en estos escritos deberán dirigirse a los autores de STiki.

Buzones de usuario, premios y miscelánea

Casillas de usuario

Para aquellos que quieran mostrar su apoyo a STiki a través de un cuadro de usuario , se han creado/puesto a disposición los siguientes:

Otra información

Otras imágenes, anuncios, material promocional y estadísticas de STiki:

  • Algunas estadísticas sobre la cuota de mercado de STiki
Premios