stringtranslate.com

Wikipedia: STiki

STiki es una herramienta disponible para usuarios confiables que se utiliza para detectar y revertir vandalismo , spam y otros tipos de ediciones no constructivas realizadas en Wikipedia. STiki elige ediciones para mostrarlas a los usuarios finales; Si una edición mostrada se considera vandalismo, spam, etc., STiki agiliza el proceso de reversión y advertencia. STiki facilita la colaboración para revertir el vandalismo; Se proporciona a los usuarios de STiki una lista almacenada centralmente de ediciones a inspeccionar para reducir el esfuerzo redundante. STiki no es un bot de Wikipedia : es una herramienta de enrutamiento inteligente que dirige a los usuarios humanos hacia posibles actos de vandalismo para una clasificación definitiva.

Hasta la fecha, STiki se ha utilizado para revertir 1.265.447 ediciones que sus usuarios han identificado como vandalismo, spam o de otro modo no constructivas (consulte la tabla de clasificación y los hitos del editor ).

Descargar

GUI de interfaz de usuario , distribuida como un ejecutable *.JAR . Después de descomprimirlo, haga doble clic en el archivo *.JAR para iniciarlo (Windows, OS X), o ejecute el comando de terminal "java -jar STiki_exec_[fecha].jar" (Unix).
STiki permanece en desarrollo activo, tanto en lo que respecta a la GUI de front-end como a los sistemas de puntuación de back-end. Vuelva a consultar con frecuencia para obtener versiones actualizadas.
Fuente completa para la GUI y el servidor back-end. Las dependencias de la biblioteca ( IRC y JDBC ) no están incluidas.
También disponible de forma estática: STiki Source (2,0 mB) --- Componente de procesamiento de enlaces (114 kB; puede tener un código API obsoleto o roto).
Tenga en cuenta que esto también contiene la fuente de la herramienta WikiAudit .

Usando STiki

STiki sólo puede ser utilizado por editores con una cuenta de Wikipedia . Además, la cuenta debe cumplir algunos requisitos para reducir la probabilidad de que los usuarios identifiquen erróneamente el vandalismo . La cuenta debe tener cualquiera de: (1) el permiso/derecho de reversión , (2) al menos 1000 ediciones de artículos (en el espacio de nombres del artículo , no para hablar/páginas de usuario), o (3) permiso especial a través de la página de discusión . Hacemos hincapié en que los usuarios deben asumir la responsabilidad de sus acciones con STiki.

Después de iniciar sesión, los usuarios interactúan principalmente con la herramienta GUI clasificando las ediciones en una de cuatro categorías:

La interfaz de usuario de STiki muestra una incidencia de vandalismo . Los botones para clasificar las ediciones están a la izquierda. Los enlaces para una investigación más profunda se encuentran cerca del final en "última reversión" y "editar propiedades". El cuadro de texto en la esquina inferior izquierda permite al usuario modificar el resumen de edición que queda al revertir.

Incertidumbre sobre la constructividad: si un usuario no está seguro de si una edición es constructiva, la solución más rápida suele ser realizar una búsqueda en la web ( por ejemplo, con Google); esto puede revelar si algún "hecho" es cierto. Por supuesto, los usuarios de STiki deben considerar la confiabilidad de la fuente encontrada. Si no se puede encontrar una fuente confiable, la respuesta correcta puede ser agregar una etiqueta {{ Citación necesaria }} o {{ Verificar credibilidad }}, utilizando la interfaz wiki normal. Cuando se ha eliminado contenido, el sentido común suele ser la mejor guía. ¿El texto eliminado tiene citas? (Tenga en cuenta que puede ser necesario verificar las citas en sí en el contenido relacionado con personas vivas ). ¿Qué es el resumen de edición? ¿Tiene sentido esa explicación? ¿Se discute en la página de discusión? Independientemente del problema, cualquier cosa que requiera experiencia en un dominio específico para resolverse probablemente sea mejor clasificarla como "inocente" o "aprobada".

Incertidumbre sobre la malicia : puede resultar complicado diferenciar entre vandalismo y ediciones de buena fe que, sin embargo, no son constructivas. Las ediciones de prueba deben clasificarse como "vandalismo", ya que las advertencias iniciales y los comentarios de edición se adaptan a este caso. Si la edición no constructiva o el resumen de la edición indican inexperiencia en Wikipedia, puede ser mejor etiquetar la edición como "buena fe" y dejar un mensaje en la página de discusión del nuevo usuario, ofreciéndose a ayudar. Más allá de eso, el sentido común suele ser la mejor guía. Considere el artículo en cuestión. ¿Es algo que podría interesarles a los editores jóvenes? ¿Hay algo de verdad en lo que se dice (ausencia de formato, lenguaje y cuestiones organizativas)?

Investigación más profunda : a veces una reversión ("vandalismo" o "buena fe") no solucionará todos los problemas presentados en una diferencia o la diferencia no contiene suficiente evidencia para hacer una clasificación definitiva. En estos casos, utilice los hipervínculos (texto subrayado en azul) para abrir páginas relevantes en el navegador web predeterminado. Esto es útil, por ejemplo, para: (1) ver la página de discusión del artículo para ver si se discutió algún tema, (2) realizar cambios usando la interfaz normal y (3) usar otras herramientas como Popups , Twinkle y wikEdDiff .

Cuando regrese a la herramienta STiki, aún necesitará clasificar la edición. Si utilizó la interfaz del navegador para editar el artículo, presionar "vandalismo" o "revertir de buena fe" no revertirá sus cambios ni tendrá ningún efecto directo en Wikipedia. Clasifica la edición mostrada lo mejor que puedas. Hacer tales clasificaciones ayudará a STiki a identificar ediciones similares en el futuro.

Consejos de interfaz : STiki tiene teclas de acceso rápido para facilitar la interacción del usuario con la herramienta. Después de que una sola edición haya sido clasificada con el mouse (dándole al panel de botones "enfoque"), las teclas , y marcarán las ediciones como "vandalismo", "buena fe", "aprobada" e "inocente" respectivamente . Mientras está en el mismo modo, las teclas Re Pág, Av Pág , Flecha arriba ( ↑) y Flecha abajo (↓) también desplazarán el navegador de diferencias. También tenga en cuenta que los hipervínculos que aparecen en diferencias se pueden abrir en su navegador web, suponiendo que la opción "Activar enlaces externos" (en la pestaña "Opciones") esté activada. STiki almacena su configuración en un archivo llamado , por lo que es posible editarla rápidamente allí.VGPI.STiki.props.xml

Comparación con otras herramientas.

Las siguientes características distinguen a STiki:

Editar priorización

STiki ordena que las ediciones se muestren a los usuarios finales en colas de prioridad. La prioridad que toma una edición se basa en su evaluación mediante un sistema de puntuación antidaños. Diferentes sistemas producen diferentes puntuaciones/colas, y los usuarios pueden seleccionar explícitamente una cola para acceder usando el menú "Rev. Queue". Todos los enfoques se basan en el aprendizaje automático , de los cuales hay dos enfoques activos y dos inactivos:

Cuando STiki experimenta un uso considerable, la frecuencia de vandalismo encontrado en una cola puede reducirse significativamente, un fenómeno llamado "agotamiento de la cola". En tales casos, puede ser conveniente probar una cola alternativa. Los usuarios también deben reconocer que hay una cantidad limitada de vandalismo en Wikipedia. Cuantas más personas utilicen STiki, menor será el porcentaje que verá un usuario. Esto no significa que a STiki le esté yendo "mal"; significa que a la enciclopedia le está yendo "bien".

Puntuación y orígenes de metadatos

Aquí destacamos un sistema de puntuación particular, basado en el aprendizaje automático sobre las propiedades de los metadatos. Este sistema fue desarrollado por los mismos autores que la interfaz gráfica de usuario de STiki, fue el único sistema incluido en las primeras versiones y comparte una base de código/distribución con la GUI de STiki. Este sistema también dio su nombre a todo el paquete de software (derivado de S patio Temporal Processing en Wikipedia ), aunque ahora se le resta importancia a este significado acrónimo.

El "sistema de metadatos" examina sólo cuatro campos de una edición al calificar: (1) marca de tiempo, (2) editor, (3) artículo y (4) comentario de revisión. Estos campos se utilizan para calcular características relacionadas con el estado de registro del editor, editar la hora del día, editar el día de la semana, origen geográfico , historial de la página, membresías en categorías, longitud de los comentarios de revisión , etc. Estas señales se envían a un clasificador ADTree para llegar a las probabilidades de vandalismo. Los modelos de ML se entrenan según las clasificaciones proporcionadas en la interfaz de STiki. Se puede encontrar una discusión más rigurosa de la técnica en una publicación de EUROSEC 2010.

Se ha desarrollado una API para brindar a otros investigadores/desarrolladores acceso a las funciones de metadatos sin procesar y las probabilidades de vandalismo resultantes. Un archivo README describe los detalles de la API.

El artículo fue un intento académico de demostrar que las propiedades del lenguaje no eran necesarias para detectar el vandalismo en Wikipedia. Tuvo éxito en este sentido, pero desde entonces el sistema se ha relajado para un uso general. Por ejemplo, el motor ahora incluye algunas características de lenguaje simples. Además, se tomó la decisión de integrar otros sistemas de puntuación en la interfaz gráfica de usuario.

Arquitectura

Diagrama de flujo de trabajo de STiki

STiki utiliza una arquitectura servidor/cliente :

1. Procesamiento de back-end que observa todos los cambios recientes en Wikipedia y calcula/obtiene la probabilidad de que cada uno sea vandalismo. Este motor calcula puntuaciones para el sistema de puntuación de metadatos y utiliza API/fuentes para recuperar las puntuaciones calculadas por sistemas de terceros. Las ediciones pueblan una serie de colas de prioridad interconectadas, donde las puntuaciones de vandalismo son la prioridad. El mantenimiento de la cola garantiza que solo la edición más reciente de un artículo sea elegible para ser vista. El trabajo de back-end se realiza en los servidores de STiki (alojados en la Universidad de Pensilvania ), y depende en gran medida de una base de datos MySQL .

2. GUI de front-end que muestra diferencias , que el back-end ha determinado que probablemente contienen vandalismo, a los usuarios humanos y solicita una clasificación definitiva. La interfaz de usuario de STiki es una aplicación de escritorio Java . Agiliza el proceso de revertir ediciones deficientes y emitir advertencias/ avisos AIV a los editores culpables. La interfaz está diseñada para permitir una revisión rápida. Además, el proceso de clasificación establece un circuito de retroalimentación para mejorar los algoritmos de detección.

Trabajo relacionado y cooperación.

Los autores de STiki están comprometidos a trabajar para encontrar soluciones colaborativas al vandalismo. Para ello, hay disponible una API para las puntuaciones calculadas internamente de STiki. También se publica una transmisión en vivo de las partituras en el canal "#arm-stiki-scores" en el servidor IRC "armstrong.cis.upenn.edu". Además, todo el código STiki es de código abierto.

En el curso de nuestra investigación, hemos recopilado grandes cantidades de datos, tanto de forma pasiva con respecto a Wikipedia como a través del uso activo de la herramienta STiki por parte de los usuarios. Estamos interesados ​​en compartir estos datos con otros investigadores. Finalmente, las distribuciones de STiki contienen un programa llamado Offline Review Tool (ORT), que permite revisar y anotar rápidamente un conjunto de ediciones proporcionadas por el usuario. Creemos que esta herramienta resultará útil para los investigadores que crean corpus.

Créditos y más información

STiki fue escrito por Andrew G. West ( west.andrew.g ) mientras era estudiante de doctorado en informática en la Universidad de Pensilvania , bajo la dirección de Insup Lee. Sampath Kannan e Insup Lee fueron coautores del artículo académico que dio forma a la metodología STiki. El trabajo fue apoyado en parte por ONR -MURI-N00014-07-1-0907.

Además del artículo académico ya discutido, ha habido varios artículos/publicaciones específicas de STiki que pueden resultar útiles para los desarrolladores antivandalismo. El software STiki se presentó en una demostración de WikiSym 2010, y un póster de WikiSym 2010 visualiza este contenido y proporciona algunas estadísticas de reversión de STiki. STiki también se presentó en Wikimania 2010, con las siguientes diapositivas de presentación. Un escrito adicional (no revisado por pares) examina STiki y las técnicas antivandalismo en su relación con la cuestión más amplia de la confianza en las aplicaciones colaborativas. Finalmente, el ecosistema antidaños y la contribución técnica de STiki se resumieron en la tesis doctoral del desarrollador. Ese trabajo es novedoso al analizar ~1 millón de acciones de clasificación STiki para aprender sobre los aspectos humanos/sociales del proceso de patrullaje.

Más allá de STiki de forma aislada, un artículo de CICLing 2011 examinó la técnica de puntuación de metadatos de STiki en relación (y en combinación con) PNL y características de persistencia de contenido (los 2 primeros clasificados de la Competencia PAN 2010) – y estableció nuevas líneas de base de rendimiento en el proceso. También se llevó a cabo una edición de 2011 del concurso PAN-CLEF y requirió el procesamiento de múltiples lenguajes naturales; la entrada STiki ganó en todas las tareas. Una presentación de Wikimania 2011 examinó el rápido progreso antivandálico (tanto académico como en wiki) del período 2010-2011. Finalmente, un boletín de investigación publicado por EDUCAUSE analiza la cuestión del daño de Wikipedia/wiki desde una perspectiva organizacional y de educación superior con especial énfasis en la protección del bienestar institucional.

Las consultas no abordadas en estos escritos deben dirigirse a los autores de STiki.

Cajas de usuario, premios y miscelánea

Cajas de usuario

Para aquellos que quieran mostrar su apoyo a STiki a través de una casilla de usuario , se ha creado/puesto a disposición lo siguiente:

Otra información

Otras imágenes, anuncios, material promocional y estadísticas de STiki:

  • Algunas estadísticas sobre la cuota de mercado de STiki
Premios