Wikipedia:Uso de modelos de lenguaje de redes neuronales en Wikipedia

Con el auge del aprendizaje automático , las discusiones sobre Wikipedia y los modelos de IA se están volviendo cada vez más acaloradas. A partir de diciembre de 2022, con el lanzamiento gratuito de ChatGPT para el público, la IA ha demostrado su potencial para mejorar o alterar enormemente Wikipedia. Está claro que se necesita investigación para informar las discusiones en torno a las posibles políticas de IA, por lo que creé esta página para catalogar mis observaciones sobre ChatGPT y su uso potencial en función de sus capacidades. Y sí, esta página está escrita íntegramente por editores humanos.

AVISO: No utilice redes neuronales para generar contenido, úselas para que lo ayuden a crear contenido. Especialmente en el contexto de las redes neuronales, la confianza en el resultado no significa validez .

Directrices propuestas

Basándome en mi investigación, propongo las siguientes pautas sobre cómo alinear los modelos de redes neuronales con nuestro objetivo de crear una enciclopedia. Algunas de las pautas son obvias desde el punto de vista del sentido común, pero creo que vale la pena escribirlas.

No se puede pedir a las redes neuronales que escriban contenido original y busquen fuentes, ya que estas redes neuronales no saben qué es correcto y qué es incorrecto. Agregar este tipo de contenido pondría en peligro las políticas WP:OR y WP:RS de Wikipedia . Incluso si está muy editado por humanos, busque otras alternativas que no utilicen el contenido original de la red neuronal.
Puedes utilizar estas redes neuronales como asesor de redacción, es decir, pedir esquemas, preguntar cómo mejorar el párrafo, pedir críticas sobre el texto, etc. Sin embargo, debes tener en cuenta que la información que te brindan puede ser poco fiable y completamente errónea. Utiliza la debida diligencia y el sentido común al elegir si incorporar o no la sugerencia de la red neuronal.
Puede utilizar estas redes neuronales para corregir y parafrasear, pero tenga en cuenta que es posible que no detecten correctamente los errores gramaticales ni mantengan intacta la información clave. Sea diligente y edite en profundidad la respuesta de la red neuronal.
Sea diligente al crear indicaciones para redes neuronales. Las indicaciones diseñadas para Wikipedia deben usar oraciones naturales y ser lo más descriptivas posible, e incluir palabras clave como "enciclopédico", "mantener el significado intacto", etc. para minimizar la posibilidad de que la IA agregue contenido original.
Usted es responsable de asegurarse de que el uso de la red neuronal no afecte a Wikipedia. Por lo tanto, debe indicar en el resumen de la edición si la edición utiliza la red neuronal o no y para qué se utiliza.

Usos potenciales

Monitoreo y señalización de ediciones

Sería posible al menos detectar la legibilidad simple o las ediciones de trolls si un bot patrulla los artículos y su historial e intenta detectar cualquier edición extraña. El mensaje no tiene que estar solo en inglés, puedes indicarles a los LLM que en algunos casos generen el texto en JSON, lo que también permitiría cierta automatización.

Lo que esto significa es que puedes hacer que un bot escanee periódicamente artículos de interés y luego los marque automáticamente si superan un cierto umbral de sospecha.

Planificación de un artículo

No es de extrañar que el bot pueda dar respuestas coherentes, ya que se basa en el modelo GPT-3 anterior . Como muchos han señalado, el contenido original de los modelos de IA no se debe importar directamente a Wikipedia debido a cuestiones de fuentes y precisión. Sin embargo, estoy muy impresionado por el hecho de que el bot conozca nuestras políticas internas y brinde un esquema razonable sobre cómo se puede estructurar un artículo de Wikipedia. Parece que ChatGPT usa las páginas de políticas de Wikipedia además de los artículos para su conjunto de datos.

Según los resultados, los modelos de IA parecen ser una herramienta de lluvia de ideas muy poderosa y, a través de la ingeniería rápida , estas IA permiten una cantidad impresionante de refinamiento del plan. La IA también puede ser una gran herramienta como indicador de posibles fuentes y puede recordar a los editores la política de contenido de Wikipedia (NPOV, RS, etc.). Aunque el contenido original de la IA no es adecuado para Wikipedia como importación, los editores pueden usarlo como inspiración para ideas de investigación. En el futuro, cuando Abstract Wikipedia se convierta en algo, las herramientas de IA pueden ser de gran ayuda para organizar la información para la etapa de planificación del artículo. Esta investigación es un poco limitada debido al hecho de que el artículo SpaceX Starship ya existía cuando se entrenó a la IA.

Corrección de párrafos

La edición de textos de Wikipedia con IA a partir de 2022 puede reducir ligeramente el trabajo que deben realizar los correctores. Sin embargo, la supervisión humana es fundamental cuando se utilizan estas herramientas. Esta tarea depende en gran medida de la ingeniería de indicaciones para que la IA ofrezca resultados satisfactorios. En mi caso, me conformé con la indicación "¿Puedes editar este párrafo de Wikipedia manteniendo el tono y la información lo más intactos posible?" seguida del párrafo sin citas en texto sin formato. Parece que hay margen de mejora para la indicación, ya que ChatGPT puede ocasionalmente ofrecer textos con oraciones interminables o errores gramaticales, pero aparte de eso, el texto suele ser más claro después de una ejecución por parte de la IA.

Aunque la IA es conservadora a la hora de eliminar información y detalles, la longitud del texto suele disminuir bastante a medida que elimina frases redundantes. La IA también es buena a la hora de reordenar frases para que el texto sea más coherente, pero a costa de cometer errores gramaticales y oscurecer el significado. En artículos más desarrollados, la IA parece hacer más correcciones menores al texto y es menos propensa a eliminar contenido. En mi opinión, ChatGPT se puede utilizar en Wikipedia como un verificador de coherencia, siempre que se tenga cuidado de no perder información crítica.

Yo ^{[¿ quién? ]} he publicado los siguientes textos generados por IA ^{[ ¿cuál? ]} en Wikipedia después de modificarlos en gran medida. En general, creo que ChatGPT puede reducir la cantidad de trabajo de edición necesario, aunque quizás no en la medida en que algunas personas pueden pensar. Es más preciso considerar la respuesta de la IA como una "segunda opinión" sobre qué editar, en lugar de una respuesta autorizada.

Acortar una sección hinchada

Basándome en el resultado optimista de User:JPxG al utilizar ChatGPT para condensar resúmenes de tramas , intenté condensar secciones en general, algo de lo que son culpables algunos artículos de Wikipedia:Vital . Descubrí que ChatGPT es propenso al problema de " basura que entra, basura que sale "; si el texto contiene mucha basura y no suficientes detalles útiles, entonces puede intentar volver a empaquetar esa basura en el resultado, a pesar de que se le haya dicho explícitamente que no lo haga.

Traducción

En 2023, un Translatathon descubrió que los chatbots y Bing Translate, que utilizan modelos de lenguaje grandes, podían generar borradores de artículos en otro idioma. Las traducciones no deberían publicarse sin revisión.

Posibles peligros

Solicitar citas

Tenga mucho cuidado al pedirle a ChatGPT fuentes específicas. Es probable que su modelo neuronal responda con citas que parezcan muy persuasivas, pero por lo general no se debe confiar en ellas sin un examen detallado. A veces, el bot incluirá un autor real junto con un artículo o título de libro ficticio que parece auténtico pero no lo es, y a veces tanto el autor como el título son inventados. Por otro lado, se conocen los principales autores y obras, por lo que si le preguntas sobre lingüística chomskiana , sabrá sobre Aspectos de la teoría de la sintaxis y otras obras.

Esto también se aplica a Perplexity AI y otros motores de búsqueda "conversacionales" de IA como Microsoft Bing con integración ChatGPT , YouChat y otros modelos que afirman responder a preguntas complejas, pero por una razón diferente: citan fuentes poco confiables (algunas, si no la mayoría, de las cuales figuran en la lista de fuentes perennes ), la propia Wikipedia y/o incluso sitios incluidos en la lista negra .

Más ejemplos

Mayor riesgo

Plantillas, módulos y software externo. Los LLM pueden escribir código que funciona muy bien, a menudo sin ninguna modificación posterior. Como con cualquier código (incluido el que encuentre en Stack Exchange ), debe asegurarse de comprender lo que está haciendo antes de ejecutarlo: los errores pueden causar un comportamiento no deseado . Se requiere sentido común; como con toda programación, no debe poner grandes fragmentos de código en producción si no los ha probado de antemano, no comprende cómo funcionan o no está preparado para revertir rápidamente sus cambios.
Corrección de textos de artículos existentes. En este caso, existen los mismos problemas que con la creación de contenido asistida por LLM: en lugar de una corrección de textos pura, los LLM pueden cambiar el significado e introducir errores . Los editores experimentados pueden pedirle a un LLM que mejore la gramática, el flujo o el tono de un texto de artículo preexistente. En lugar de tomar el resultado y pegarlo directamente en Wikipedia, debe comparar las sugerencias del LLM con el texto original y revisar minuciosamente cada cambio para comprobar su corrección, precisión y neutralidad.
Resumir una fuente confiable. Esto es inherentemente riesgoso, debido a la probabilidad de que un LLM introduzca una investigación original o un sesgo que no estaba presente en la fuente , así como el riesgo de que el resumen pueda ser una paráfrasis excesivamente cercana , lo que constituiría plagio . Debe asegurarse de manera proactiva de que dicho resumen cumpla con todas las políticas.
Resumir el artículo en sí (expansión de la introducción). Las secciones de introducción no son más que descripciones generales concisas, es decir, resúmenes , del contenido del cuerpo del artículo, y el resumen de texto es una de las capacidades principales de los LLM para las que fueron diseñados. Sin embargo, pegar el resultado de los LLM para expandir la introducción sigue siendo inherentemente riesgoso debido al riesgo de introducir errores y sesgos que no están presentes en el cuerpo . ^[a] Es mejor utilizar un LLM solo para generar ideas para la expansión de la introducción y crear las mejoras reales usted mismo.

Menor riesgo

A pesar de las limitaciones antes mencionadas de los LLM, se supone que los editores experimentados pueden compensar las deficiencias de los LLM con una cantidad razonable de esfuerzo para crear ediciones compatibles con algunos escenarios:

Tablas y HTML. Debido a que sus datos de entrenamiento incluyen una gran cantidad de código informático (incluido wikitexto y HTML), pueden hacer cosas como modificar tablas (incluso interpretar correctamente descripciones verbales de esquemas de color en un conjunto razonable de códigos de color HTML en tablas con formato completo). Si hace esto, debe tener cuidado para asegurarse de que el código que obtenga realmente represente una tabla funcional, o una plantilla, o lo que haya solicitado, y que los números en la tabla realmente sean correctos (los errores ocurren ocasionalmente).
Generar ideas para ampliar el artículo. Cuando se les pregunta "¿qué incluiría una entrada de enciclopedia sobre XYZ?", los LLM pueden pensar en subtemas que un artículo no cubre actualmente. No todas estas ideas serán válidas o tendrán la importancia suficiente para su inclusión , por lo que se requiere un juicio reflexivo. Como se indicó anteriormente, los resultados de LLM no deben usarse textualmente para ampliar un artículo.
Pedirle a un LLM su opinión sobre un artículo existente. Nunca se debe tomar esta opinión al pie de la letra. El hecho de que un LLM diga algo no significa que sea cierto. Sin embargo, esta opinión puede ser útil si aplica su propio criterio a cada sugerencia.

Contramedidas

Una de las principales preocupaciones sobre el uso de estos modelos de lenguaje es que alguien podría no ser capaz de detectar si el texto es original o está escrito por IA.

Herramientas de detección

Existen varias herramientas disponibles en línea que prometen detectar si un texto determinado fue generado por IA. Sin embargo, a partir de febrero de 2023, se consideraba que "definitivamente no eran lo suficientemente buenas" para usarlas en decisiones importantes, debido a los frecuentes falsos positivos y falsos negativos (y a menudo están destinadas a modelos obsoletos como el GPT-2 de 2019 ).

Notas

^ En especial, no se debe asumir que un mensaje de "escribir/expandir la sección principal del artículo X de Wikipedia" generará un resumen genuino; las aplicaciones basadas en LLM que no pueden buscar cosas en Internet (la norma a principios de 2023) pueden no saber cuál es el contenido exacto del artículo para poder resumirlo, e incluso si ha sido parte de su corpus, no parecen funcionar de tal manera que puedan aislar todo el artículo del resto del corpus, para derivar el resultado exclusivamente del contenido de un artículo.

Véase también

Wikipedia:Grandes modelos lingüísticos , propuesta preliminar para una guía de Wikipedia sobre el uso de modelos lingüísticos
Wikipedia:Inteligencia artificial , un ensayo sobre el uso de la inteligencia artificial en los proyectos Wikipedia y Wikimedia
Versión inicial del título de la obra de arte , un artículo sobreviviente desarrollado a partir de la producción original de LLM (antes de que se desarrollara esta página)
https://monjado.com/revisión-completa-de-zimmwriter-is-it-worth-it/

Manifestaciones

Usuario: demostración de JPxG/LLM (marcado de wikitexto, rotación de tablas, análisis de referencias, sugerencias de mejora de artículos, resumen de gráficos, expansión basada en referencias y cuadros de información, reparación de proselina, etiquetado de texto no citado, formato de tablas y esquemas de color)
Usuario: Fuzheado/ChatGPT (código PyWikiBot, escritura desde cero, análisis de Wikidata, análisis de CSV)
Usuario:DraconicDark/ChatGPT (líder de la expansión)