stringtranslate.com

Wikipedia:Uso de modelos de lenguaje de redes neuronales en Wikipedia

GPT-3 intenta escribir un párrafo enciclopédico sobre la escasez de agua en Yemen

Con el auge del aprendizaje automático , las discusiones sobre Wikipedia y los modelos de IA se están volviendo cada vez más acaloradas. A partir de diciembre de 2022, con el lanzamiento gratuito de ChatGPT para el público, la IA ha demostrado su potencial para mejorar o alterar enormemente Wikipedia. Está claro que se necesita investigación para informar las discusiones en torno a las posibles políticas de IA, por lo que creé esta página para catalogar mis observaciones sobre ChatGPT y su uso potencial en función de sus capacidades. Y sí, esta página está escrita íntegramente por editores humanos.

AVISO: No utilice redes neuronales para generar contenido, úselas para que lo ayuden a crear contenido. Especialmente en el contexto de las redes neuronales, la confianza en el resultado no significa validez .

Directrices propuestas

Basándome en mi investigación, propongo las siguientes pautas sobre cómo alinear los modelos de redes neuronales con nuestro objetivo de crear una enciclopedia. Algunas de las pautas son obvias desde el punto de vista del sentido común, pero creo que vale la pena escribirlas.

  1. No se puede pedir a las redes neuronales que escriban contenido original y busquen fuentes, ya que estas redes neuronales no saben qué es correcto y qué es incorrecto. Agregar este tipo de contenido pondría en peligro las políticas WP:OR y WP:RS de Wikipedia . Incluso si está muy editado por humanos, busque otras alternativas que no utilicen el contenido original de la red neuronal.
  2. Puedes utilizar estas redes neuronales como asesor de redacción, es decir, pedir esquemas, preguntar cómo mejorar el párrafo, pedir críticas sobre el texto, etc. Sin embargo, debes tener en cuenta que la información que te brindan puede ser poco fiable y completamente errónea. Utiliza la debida diligencia y el sentido común al elegir si incorporar o no la sugerencia de la red neuronal.
  3. Puede utilizar estas redes neuronales para corregir y parafrasear, pero tenga en cuenta que es posible que no detecten correctamente los errores gramaticales ni mantengan intacta la información clave. Sea diligente y edite en profundidad la respuesta de la red neuronal.
  4. Sea diligente al crear indicaciones para redes neuronales. Las indicaciones diseñadas para Wikipedia deben usar oraciones naturales y ser lo más descriptivas posible, e incluir palabras clave como "enciclopédico", "mantener el significado intacto", etc. para minimizar la posibilidad de que la IA agregue contenido original.
  5. Usted es responsable de asegurarse de que el uso de la red neuronal no afecte a Wikipedia. Por lo tanto, debe indicar en el resumen de la edición si la edición utiliza la red neuronal o no y para qué se utiliza.

Usos potenciales

Monitoreo y señalización de ediciones

Sería posible al menos detectar la legibilidad simple o las ediciones de trolls si un bot patrulla los artículos y su historial e intenta detectar cualquier edición extraña. El mensaje no tiene que estar solo en inglés, puedes indicarles a los LLM que en algunos casos generen el texto en JSON, lo que también permitiría cierta automatización.

Lo que esto significa es que puedes hacer que un bot escanee periódicamente artículos de interés y luego los marque automáticamente si superan un cierto umbral de sospecha.

Planificación de un artículo

No es de extrañar que el bot pueda dar respuestas coherentes, ya que se basa en el modelo GPT-3 anterior . Como muchos han señalado, el contenido original de los modelos de IA no se debe importar directamente a Wikipedia debido a cuestiones de fuentes y precisión. Sin embargo, estoy muy impresionado por el hecho de que el bot conozca nuestras políticas internas y brinde un esquema razonable sobre cómo se puede estructurar un artículo de Wikipedia. Parece que ChatGPT usa las páginas de políticas de Wikipedia además de los artículos para su conjunto de datos.

Según los resultados, los modelos de IA parecen ser una herramienta de lluvia de ideas muy poderosa y, a través de la ingeniería rápida , estas IA permiten una cantidad impresionante de refinamiento del plan. La IA también puede ser una gran herramienta como indicador de posibles fuentes y puede recordar a los editores la política de contenido de Wikipedia (NPOV, RS, etc.). Aunque el contenido original de la IA no es adecuado para Wikipedia como importación, los editores pueden usarlo como inspiración para ideas de investigación. En el futuro, cuando Abstract Wikipedia se convierta en algo, las herramientas de IA pueden ser de gran ayuda para organizar la información para la etapa de planificación del artículo. Esta investigación es un poco limitada debido al hecho de que el artículo SpaceX Starship ya existía cuando se entrenó a la IA.

Corrección de párrafos

La edición de textos de Wikipedia con IA a partir de 2022 puede reducir ligeramente el trabajo que deben realizar los correctores. Sin embargo, la supervisión humana es fundamental cuando se utilizan estas herramientas. Esta tarea depende en gran medida de la ingeniería de indicaciones para que la IA ofrezca resultados satisfactorios. En mi caso, me conformé con la indicación "¿Puedes editar este párrafo de Wikipedia manteniendo el tono y la información lo más intactos posible?" seguida del párrafo sin citas en texto sin formato. Parece que hay margen de mejora para la indicación, ya que ChatGPT puede ocasionalmente ofrecer textos con oraciones interminables o errores gramaticales, pero aparte de eso, el texto suele ser más claro después de una ejecución por parte de la IA.

Aunque la IA es conservadora a la hora de eliminar información y detalles, la longitud del texto suele disminuir bastante a medida que elimina frases redundantes. La IA también es buena a la hora de reordenar frases para que el texto sea más coherente, pero a costa de cometer errores gramaticales y oscurecer el significado. En artículos más desarrollados, la IA parece hacer más correcciones menores al texto y es menos propensa a eliminar contenido. En mi opinión, ChatGPT se puede utilizar en Wikipedia como un verificador de coherencia, siempre que se tenga cuidado de no perder información crítica.

Yo [¿ quién? ] he publicado los siguientes textos generados por IA [ ¿cuál? ] en Wikipedia después de modificarlos en gran medida. En general, creo que ChatGPT puede reducir la cantidad de trabajo de edición necesario, aunque quizás no en la medida en que algunas personas pueden pensar. Es más preciso considerar la respuesta de la IA como una "segunda opinión" sobre qué editar, en lugar de una respuesta autorizada.

Acortar una sección hinchada

Basándome en el resultado optimista de User:JPxG al utilizar ChatGPT para condensar resúmenes de tramas , intenté condensar secciones en general, algo de lo que son culpables algunos artículos de Wikipedia:Vital . Descubrí que ChatGPT es propenso al problema de " basura que entra, basura que sale "; si el texto contiene mucha basura y no suficientes detalles útiles, entonces puede intentar volver a empaquetar esa basura en el resultado, a pesar de que se le haya dicho explícitamente que no lo haga.

Traducción

En 2023, un Translatathon descubrió que los chatbots y Bing Translate, que utilizan modelos de lenguaje grandes, podían generar borradores de artículos en otro idioma. Las traducciones no deberían publicarse sin revisión.

Posibles peligros

Solicitar citas

Tenga mucho cuidado al pedirle a ChatGPT fuentes específicas. Es probable que su modelo neuronal responda con citas que parezcan muy persuasivas, pero por lo general no se debe confiar en ellas sin un examen detallado. A veces, el bot incluirá un autor real junto con un artículo o título de libro ficticio que parece auténtico pero no lo es, y a veces tanto el autor como el título son inventados. Por otro lado, se conocen los principales autores y obras, por lo que si le preguntas sobre lingüística chomskiana , sabrá sobre Aspectos de la teoría de la sintaxis y otras obras.

Esto también se aplica a Perplexity AI y otros motores de búsqueda "conversacionales" de IA como Microsoft Bing con integración ChatGPT , YouChat y otros modelos que afirman responder a preguntas complejas, pero por una razón diferente: citan fuentes poco confiables (algunas, si no la mayoría, de las cuales figuran en la lista de fuentes perennes ), la propia Wikipedia y/o incluso sitios incluidos en la lista negra .

Más ejemplos

Mayor riesgo

Menor riesgo

A pesar de las limitaciones antes mencionadas de los LLM, se supone que los editores experimentados pueden compensar las deficiencias de los LLM con una cantidad razonable de esfuerzo para crear ediciones compatibles con algunos escenarios:

Contramedidas

Una de las principales preocupaciones sobre el uso de estos modelos de lenguaje es que alguien podría no ser capaz de detectar si el texto es original o está escrito por IA.

Herramientas de detección

Existen varias herramientas disponibles en línea que prometen detectar si un texto determinado fue generado por IA. Sin embargo, a partir de febrero de 2023, se consideraba que "definitivamente no eran lo suficientemente buenas" para usarlas en decisiones importantes, debido a los frecuentes falsos positivos y falsos negativos (y a menudo están destinadas a modelos obsoletos como el GPT-2 de 2019 ).

Notas

  1. ^ En especial, no se debe asumir que un mensaje de "escribir/expandir la sección principal del artículo X de Wikipedia" generará un resumen genuino; las aplicaciones basadas en LLM que no pueden buscar cosas en Internet (la norma a principios de 2023) pueden no saber cuál es el contenido exacto del artículo para poder resumirlo, e incluso si ha sido parte de su corpus, no parecen funcionar de tal manera que puedan aislar todo el artículo del resto del corpus, para derivar el resultado exclusivamente del contenido de un artículo.

Véase también

Manifestaciones