stringtranslate.com

Discusión de Wikipedia:Política de modelos de lenguaje amplios

Solicitud de cotización

La siguiente discusión es un registro archivado de una solicitud de comentarios . No la modifique. No se deben realizar más modificaciones a esta discusión. A continuación se incluye un resumen de las conclusiones a las que se llegó.
Esta convocatoria de propuestas busca establecer una política o directriz sobre cómo se pueden utilizar los modelos lingüísticos extensos (LLM) en Wikipedia. No hay consenso para adoptar ninguna redacción como política o directriz en este momento, y la mayoría de los editores participantes pertenecen a uno de tres grupos.
El grupo más grande de editores estaba a favor de adoptar la redacción propuesta como una política o una directriz. El grupo más pequeño de editores propuso una prohibición total del uso de LLM en el espacio principal, pero con más flexibilidad para su uso en otros espacios (lo que llegó a llamarse la opción 1b). Los editores restantes se opusieron a la redacción propuesta en la RfC. Las principales objeciones de los que se oponían incluían preocupaciones sobre la divulgación obligatoria y sobre la capacidad propuesta para eliminar sumariamente contenido sospechoso de LLM, incluidos aquellos que sienten que no hay una manera precisa de identificar el contenido generado por LLM. Algunos de los que estaban a favor de la propuesta notaron que tenemos otras políticas y pautas donde la detección de violaciones puede ser difícil, aunque algunos de los que estaban a favor de la redacción en general también se opusieron a la eliminación sumaria. Parece haber un consenso implícito para que la salida del modelo de lenguaje grande, si se usa en Wikipedia, se debe verificar manualmente para verificar su precisión (incluidas las referencias que genera) entre los que están a favor y los que se oponen a esta redacción, pero esto no fue declarado lo suficientemente explícitamente por suficientes editores como para que yo pudiera encontrar formalmente un consenso al respecto. Nada de lo aquí expuesto debe interpretarse como que sugiere que las políticas y pautas actuales no se aplican a los modelos de lenguaje grande, y varios editores señalan explícitamente (especialmente entre los que se oponen) que las políticas y pautas actuales sí se aplican.
Mantenimiento : como RfC para establecer políticas, no utilicé ningún tipo de ponderación de argumentos al determinar este consenso ni utilicé ninguna inteligencia artificial aparte de la que está incorporada en GoogleDocs para ayudar con la ortografía y la corrección de textos básica. Barkeep49 ( discusión ) 20:47 19 ene 2024 (UTC) [ responder ]


De acuerdo con una solicitud de comentarios anterior en WP:LLM , ¿debería adoptarse la siguiente oración como política/directriz (independientemente de que se amplíe más adelante o de que haya o no decisiones posteriores con respecto al uso de LLM)?

Si se utiliza un modelo de lenguaje de gran tamaño en Wikipedia, se debe verificar manualmente su precisión (incluidas las referencias que genera) y el editor debe revelar su uso (incluido qué modelo); el texto añadido en violación de esta política puede eliminarse sumariamente.

jp × g 🗯️ 22:22, 13 de diciembre de 2023 (UTC) [ responder ]

Encuesta

"Limpieza de IA de WikiProject notificada" . Reina de Corazones ❤️ (sin relación) 22:30, 13 de diciembre de 2023 (UTC) [ respuesta ]

Notas

  1. ^ Los detectores de IA como GPTZero no son confiables y nunca deberían usarse para decidir si un texto fue creado por una IA.
Opción 1 , absolutamente, ya sea como política o como directriz. Aprecio el argumento de que "no tenemos una forma real de demostrar que se ha utilizado", pero creo que en la mayoría de los casos problemáticos simplemente no hay ninguna duda razonable de que se haya generado por LLM y de que se trate simplemente de basura inapropiada. Si aparecen mejores herramientas, sin duda podremos reconsiderar esto más adelante: pero tal como están las cosas ahora, una prohibición tajante de cualquier cosa que no sea una asistencia para la redacción bien supervisada y claramente divulgada parece la medida sensata. Andrew Gray ( discusión ) 19:09, 14 de diciembre de 2023 (UTC) [ responder ]
@ Skarz : Según la formulación de Buidhe, la opción 1b es prohibir todo el contenido generado por LLM en la wiki . Solo quería confirmar si eso es lo que querías decir, ya que la explicación de tu elección suena diferente. Phlsph7 ( discusión ) 18:06 24 dic 2023 (UTC) [ responder ]
¿Publiqué mi respuesta en el lugar equivocado? skarz ( discusión ) 18:24 24 dic 2023 (UTC) [ responder ]
No, el lugar es correcto. Solo tuve la impresión de que, por lo que explicaste, no te oponías en general a los LLM. Pero es posible que haya malinterpretado tu explicación, así que disculpa la confusión. Phlsph7 ( discusión ) 18:59 24 dic 2023 (UTC) [ responder ]
No me opongo a los LLM. Pensé que esta RFC se refería a si el texto que no es generado por LLM debería atribuirse o citarse como tal, no a si el contenido generado por LLM estaba prohibido. skarz ( discusión ) 19:03 24 dic 2023 (UTC) [ responder ]
Estoy de acuerdo, se ha vuelto un poco confuso desde que algunos editores han sugerido opciones adicionales en sus votaciones. Actualmente, las más populares son
  • Opción 1: nueva directriz/política que establece que todos los resultados del LLM deben divulgarse
  • Opción 1b: nueva directriz/política que prohíbe todo contenido generado por LLM
  • Opción 2: no hay nuevas directrices/políticas.
Phlsph7 ( discusión ) 19:08 24 dic 2023 (UTC) [ responder ]
¿Eh? Espero que no, porque eso no es lo que dice la Opción 1. Supongo que no hay ninguna regla que prohíba hacer comentarios en la RfC como " Apoyo la opción N, creo que la opción N es mala y deberíamos hacer algo diferente ". Pero creo que si queremos tener un referéndum sobre un tema diferente, deberíamos tener una RfC separada para ello. jp × g 🗯️ 06:26, 26 de diciembre de 2023 (UTC) [ responder ]
Notaré que el borrador anterior ( WP:LLM ) tuvo un fracaso ignominioso después de que la gente le añadiera una letanía de disposiciones adicionales que generaban molestias, lo que resultó en un enorme referéndum desastroso sobre todo lo que existe en el mundo y sobre el cual era imposible desarrollar un consenso (y, de hecho, no se desarrolló ninguno, lo que significa que pasamos meses sin ninguna orientación). jp × g 🗯️ 06:31, 26 de diciembre de 2023 (UTC) [ responder ]
Pregunta planteada a Bard :
¿Cuántas patas tienen diez elefantes, si dos de ellos no tienen patas?
Respuesta de Bard:
Ocho patas por elefante es el estándar, por lo que diez elefantes tendrían 8 patas/elefante * 10 elefantes = 80 patas.
Sin embargo, si dos de los elefantes no tienen patas, entonces debemos restar el número de patas del total. Como los elefantes sin patas tienen 0 patas, el número total de patas se convierte en 80 patas: 0 patas de 2 elefantes sin patas = 80 patas.
Por lo tanto, diez elefantes, dos de ellos sin patas, tendrían 80 patas.
Maproom ( discusión ) 18:40 27 dic 2023 (UTC) [ responder ]
Dudo que esto represente de alguna manera el tipo de indicaciones que un editor razonable utilizaría al contribuir a la enciclopedia. Un mejor ejemplo de una de ellas podría ser algo como esto. Sohom ( discusión ) 19:14 27 dic 2023 (UTC) [ responder ]
Lo intenté nuevamente usando el mismo mensaje:
Respuesta de Bard:
Los elefantes de ocho patas son un concepto divertido, pero en realidad un elefante tiene cuatro patas. Por lo tanto, incluso si a dos elefantes les faltaran todas las patas (lo que no es posible en un elefante), los ocho elefantes restantes tendrían un total de 32 patas.
Respuesta del chat GPT:
Los elefantes suelen tener cuatro patas cada uno. Si dos de los diez elefantes no tienen patas, los ocho elefantes restantes tendrían un total de 32 patas (8 elefantes x 4 patas/elefante). Los dos elefantes sin patas no aportarían ninguna pata al recuento total.
Parece que Bard sigue soñando despierto, ya que nadie le dice que el elefante tiene 8 patas, pero ChatGPT proporcionó una respuesta precisa. ✠ SunDawn ✠ (contacto) 02:22, 28 de diciembre de 2023 (UTC) [ responder ]

Discusión

Pregunta ¿Las revelaciones incluyen casos en los que se utilizaron títulos de maestría para ayudar con la paráfrasis? Sohom ( discusión ) 22:31 13 dic 2023 (UTC) [ responder ]

Creo que esa es la intención. Después de todo, el trabajo de paráfrasis podría haber introducido un error.
Lamentablemente, no parece haber ninguna forma confiable de detectar (o probar) violaciones. Si esto se aprueba, podría revertir cualquier adición que desee y decir "Bueno, pensé que era una violación de esta regla, y la regla dice que se puede revertir sumariamente". WhatamIdoing ( discusión ) 00:59 14 dic 2023 (UTC) [ responder ]
Sí, definitivamente es una laguna extraña. Personalmente, he utilizado los resultados de LLM como inspiración para intentar parafrasear o reescribir, y tener que declararlos todos o hacer que se reviertan sin ninguna razón aparente no es algo que esté dispuesto a apoyar. Sohom ( discusión ) 01:33, 14 de diciembre de 2023 (UTC) [ responder ]
Los editores deben ser absolutamente responsables de lo que publican, pero incluso para los usos más benignos, me pregunto cuántas personas son capaces de decir "qué modelo" usaron. Tenemos editores que no están realmente seguros de cuál es su navegador web. WhatamIdoing ( discusión ) 01:47 14 dic 2023 (UTC) [ responder ]
Incluso algo como "usé Bing Chat" sería útil para identificar el contenido de LLM, aunque ciertamente preferiría más detalles sobre el mensaje utilizado o el modelo específico (cuando se usa en un chat directo que lo incluye). TROPtastic ( discusión ) 02:38, 14 de diciembre de 2023 (UTC) [ responder ]
Mi opinión al respecto es, básicamente, que el terreno de juego actual es muy desigual. El proceso de creación de indicaciones es un arte delicado que puede llevar un tiempo (y los tokens suelen costar dinero), pero, no obstante, un modelo de lenguaje puede generar un párrafo en un par de segundos. Cuando hago revisiones de GA o corrijo artículos de Signpost, me lleva mucho más tiempo que un par de segundos revisar un párrafo (quizás un par de minutos, quizás media hora si tengo que buscar algo en un campo con el que no estoy familiarizado). Normalmente, el sistema que tenemos en Wikipedia está algo equilibrado en este aspecto: lleva un tiempo revisar que un párrafo es legítimo y también lleva un tiempo escribir un párrafo. Si bien no está perfectamente equilibrado, al menos está dentro de un orden de magnitud. Sin embargo, con los modelos de lenguaje, es posible crear un volumen bastante grande de texto con prácticamente cero entradas, todo lo cual (según nuestra política actual) aparentemente debe tratarse con la misma cantidad de cuidado quirúrgico delicado que los párrafos escritos mediante el duro trabajo del esfuerzo manual.
Otra cosa que es importante es la capacidad de separar a las personas que ponen mucho trabajo en el proceso (es decir, indicaciones múltiples, ejecuciones múltiples, preparación al estilo de un libro de historia) de las personas que literalmente solo escriben "Escribe un artículo de Wikipedia sobre XYZ" en el cuadro y copian y pegan lo que aparece en la ventana de edición. El primer grupo de personas, que me incluye, es responsable de que cosas como las plantillas de Signpost funcionen correctamente y no tengan CSS roto (gracias GPT-3.5). El segundo grupo de personas es una molestia en el mejor de los casos y una fuerza de destrucción en el peor. Si alguien está escribiendo párrafos de texto y no se molesta en averiguar de qué sitio web los obtuvo, ¿por qué deberíamos pasar minutos u horas revisando cada oración de ese texto individualmente asumiendo que es legítimo? jp × g 🗯️ 09:53, 14 de diciembre de 2023 (UTC) [ responder ]
Comparto la preocupación, pero el segundo grupo probablemente no lo revele de todos modos, por lo que es poco probable que el requisito de divulgación ayude con la limpieza. Tendremos que seguir confiando en prácticas como eliminar contenido sin fuentes, verificar fuentes, etc. Si los problemas son lo suficientemente graves, como el uso de fuentes falsas, se pueden aplicar bloqueos (ya existen precedentes). MarioGom ( discusión ) 23:04 14 dic 2023 (UTC) [ responder ]
Creo que valdría la pena aclarar en la propia política, en caso de que exista una política de divulgación, que la LLM en sí no sería un motivo de reversión, como ocurre con todas las políticas análogas. El editor garantiza explícitamente que ha examinado la precisión y la idoneidad del texto generado por la LLM, por lo que, si es necesaria una reversión, se debe simplemente a las razones normales por las que se revertiría una edición. Remsense留21:06, 24 de diciembre de 2023 (UTC) [ responder ]

Usuario:JPxG , ¿esto se basa en esta sugerencia del usuario:Tamzin en la RFC anterior? WhatamIdoing ( discusión ) 01:01 14 dic 2023 (UTC) [ responder ]

Grandes mentes, etc., etc. Esta página es del 1 de septiembre, ese comentario es del 6 de septiembre, pero ciertamente ha habido cierta confluencia intelectual desde entonces. jp × g 🗯️ 01:16, 14 de diciembre de 2023 (UTC) [ responder ]

Tal vez por aburrimiento, le pedí a un modelo de lenguaje grande (GPT-3.5) que escribiera un ensayo en apoyo de esta política y un ensayo en contra de esta política. Los incluí a continuación en una columna contraída por si a alguien le interesa:

Halcón de cola roja  (nido) 03:28 14 dic 2023 (UTC) [ responder ]

Es curioso que el ensayo Oppose no se deba a que la propuesta pueda eliminar el contenido humano demasiado apresuradamente, sino a que intenta controlar el uso del LLM en general. "El tiempo y los recursos necesarios para una verificación manual tan meticulosa [de los resultados, incluidas las referencias] podrían obstaculizar significativamente el ritmo de creación de contenido". TROPtastic ( discusión ) 07:27 14 dic 2023 (UTC) [ responder ]
Me encantó especialmente su frase final: estaba esperando que dijera "sinergia" y "paradigma".
Tenía curiosidad por saber lo mala que era la redacción "Oposición", teniendo en cuenta que la redacción "Apoyo" era bastante decente, al menos acorde con las políticas y con la interpretación que la gente suele darles. Así que le pedí a GPT- 4 a través de MS Copilot que escribiera una redacción breve en oposición al cambio de política tal como estaba redactado:
Sinceramente, en muchos aspectos, esto es bastante similar a lo que yo planteo. SamuelRiv ( discusión ) 02:54 15 ene 2024 (UTC) [ responder ]
GPT3.5 carece significativamente de razonamiento y lógica, estoy seguro de que obtendrá resultados drásticamente diferentes si usara GPT4. skarz ( discusión ) 17:31, 24 de diciembre de 2023 (UTC) [ responder ]
La discusión anterior está cerrada. No la modifique. Los comentarios posteriores deben realizarse en la página de discusión correspondiente. No se deben realizar más modificaciones a esta discusión.

Discusión enWikipedia:Plantillas para discusión/Registro/13 de diciembre de 2023 § Plantilla:Notificación generada por IA

 Estás invitado a unirte a la discusión en Wikipedia:Plantillas para discusión/Registro/13 de diciembre de 2023 § Plantilla:Notificación generada por IA . – Novem Linguae ( discusión ) 08:26 14 dic 2023 (UTC) [ responder ]

Discusión enWikipedia:Plantillas para discusión/Registro/13 de diciembre de 2023 § Plantilla:OpenAI

 Estás invitado a participar en la discusión en Wikipedia:Plantillas para discusión/Registro/13 de diciembre de 2023 § Plantilla:OpenAI . – Novem Linguae ( discusión ) 08:26 14 dic 2023 (UTC) [ responder ]

Notas

Direcciones futuras

Creo que puede ser apropiado señalar aquí mis intenciones para después del RfC, suponiendo que tenga éxito.

Al escribir la propuesta, hice todo lo posible para evitar que fuera una política "pro-LLM" o "anti-LLM" tal como está escrita. Mi esperanza es que, en lugar de un referéndum general sinuoso sobre todo el campo de la inteligencia artificial, podamos establecer alguna regla simple y no intrusiva para reducir el 10% inferior de basura sin presentar demasiados obstáculos para las personas que están interesadas en usar las herramientas de manera productiva. Y estamos recibiendo un flujo bastante constante de basura (ver WP:WikiProject AI Cleanup ), de personas que están usando estos modelos de manera incorrecta, usándolos para tareas para las que no son adecuados o siendo insuficientemente cuidadosos al verificar su resultado. Esto pone una presión bastante grande (e innecesaria) en los nuevos supervisores de páginas, los revisores de AfC y los editores en general.

Por si sirve de algo, yo mismo soy un gran aficionado a los modelos de transformadores y los he seguido con gran interés durante varios años (creé los artículos para GPT-2 y DALL-E , mi primera interacción con ellos fue un GPT-2-124M en el verano de 2019 y tuve acceso a la API de GPT-3 en 2020). El pasado agosto utilicé la API de GPT-3 para ayudar a escribir varias columnas de Signpost ; supongo que tendrás que creerme cuando digo que no escribí esto como un caballo de Troya para una prohibición de LLM en todo el proyecto.

Algunas personas piensan que estas cosas son simplemente basura, y hay un debate muy intenso sobre qué utilidad tienen realmente, si vale la pena el esfuerzo, etcétera. Bueno, yo creo que sí, pero no me corresponde a mí decidir el consenso de la comunidad de editores, y si todo el mundo piensa que son basura, entonces supongo que tendremos que vivir con eso.

Notaré que la cantidad de personas que quieren prohibir los LLM por completo aumenta cada vez que se vierte un gigantesco cubo de basura GPT en la cola de NPP, por lo que si hay alguna solución de muy bajo esfuerzo que podamos implementar para ralentizar el flujo, creo que vale la pena incluso si eres un maximalista de LLM que resiente cualquier tipo de restricción.

De todos modos, es difícil predecir la trayectoria de una tecnología como esta. Puede que mejoren, que se estabilicen o que mejoren mucho en algunas cosas y muy poco en otras de una manera disjunta que no tiene sentido. Así que tal vez estemos al borde de un tsunami de basura, o tal vez ya haya pasado, o tal vez estemos al borde de un tsunami de felicidad. Lo que sí creo que es importante es que tengamos políticas que aborden los problemas existentes sin comprometernos prematuramente a que las cosas en el futuro sean buenas o malas. Si resulta que esto reduce el 90% de la basura y nunca más volvemos a tener un hilo de ANI sobre GPT, entonces tal vez no sea necesario que haya más discursos sobre el tema. Si resulta que esta breve frase no es suficiente, entonces tal vez podamos escribir más. jp × g 🗯️ 09:37, 15 de diciembre de 2023 (UTC) [ responder ]

Entonces:
  • Viejo problema: teníamos publicados un montón de artículos mal escritos.
  • Acción antigua: Escribimos un conjunto de reglas contra la edición pagada no revelada.
  • Resultado anterior: algunas personas cambiaron su comportamiento y el resto siguió haciendo lo mismo de todos modos, porque no teníamos una buena forma de identificarlas.
Ahora:
  • Nuevo problema: Tenemos un montón de artículos mal escritos que se publican.
  • Nueva acción: Escribimos algunas reglas contra un conjunto de herramientas que podrían usarse para crearlas.
  • Nuevo resultado: ¿Algunas personas cambiaron su comportamiento y el resto siguió haciendo lo mismo de todos modos, porque no teníamos una buena forma de identificarlos?
WhatamIdoing ( discusión ) 04:04 17 dic 2023 (UTC) [ responder ]
Incluso si no hay una buena manera de identificarlos, eso no significa que no sea una mala idea instituirlos como política. ¿Existe una manera fácil de, por ejemplo, identificar la edición semiautomatizada o similar a un bot? A menos que haya etiquetas para identificar un script que creó esa herramienta, una edición semiautomatizada podría tener cualquier resumen de edición o ningún resumen y nadie sabría realmente que fue semiautomatizada. El punto principal no es que prohibir los LLM en el espacio principal represente un riesgo significativo de disrupción, y alentarlo solo estaría alentando más disrupción. Y DE es una cosa que, independientemente de los medios o la intención, resulta en un bloqueo si se prolonga. Awesome Aasim 22:13, 17 de diciembre de 2023 (UTC) [ responder ]
El problema es que todo lo relacionado con el uso de LLM que afecte a Wikipedia ya está prohibido por las políticas existentes. Hasta ahora, nadie en ninguna discusión ha aportado pruebas de nada producido por un LLM que esté permitido por la política actual y sea perjudicial para Wikipedia. Thryduulf ( discusión ) 10:27 18 dic 2023 (UTC) [ responder ]
Porque el problema que la política intenta abordar tiene más que ver con patrones de edición más amplios que con diferencias individuales. No es ilógico que el alcance de las políticas se superponga; de hecho, se podría decir que es una característica, ya que refuerza los puntos que la comunidad considera más importantes. Remsense留14:11, 31 de diciembre de 2023 (UTC) [ responder ]
Si bien es inevitable que haya cierta superposición en las políticas, no estoy de acuerdo en que sea una característica en sí misma. En términos generales, es más fácil para los editores hacer un seguimiento de menos políticas que de más, por lo que tener unas pocas políticas centrales con una guía de apoyo que amplíe los detalles proporciona una estructura organizativa que simplifica la tarea de recordar y seguir la guía. Evitar la redundancia respalda este principio y ayuda a evitar que la guía se desfase y, por lo tanto, sea contradictoria. También puede evitar quejas sobre la existencia de demasiadas guías, ya que la forma básica de la guía se puede entender a partir de las políticas centrales y los detalles se pueden aprender gradualmente, sin tener que saltar entre guías superpuestas. isaacl ( discusión ) 17:04, 31 de diciembre de 2023 (UTC) [ responder ]
No creo que la prohibición de los LLM en el espacio principal suponga un riesgo significativo . Creo que hay algunas buenas y viejas emociones humanas en juego aquí, pero el problema es que ya sabemos que la prohibición será ineficaz. La mayoría de la gente no conocerá la regla, no podrás atraparlos (y acusaremos erróneamente a gente inocente), y la mayoría de las pocas personas que están usando LLM y realmente conocen la regla tampoco la seguirán, porque una buena proporción de ellos no saben que decidiste que su corrector gramatical es un LLM, y el resto no cree que sea realmente asunto tuyo.
Aquí está el rey Canuto y la marea de nuevo: Declaramos que las personas que están usando LLM en secreto deben dejar de hacerlo en secreto, para que sepamos lo que están haciendo (y podamos revertirlos más a menudo). Estás parado en la playa y dices "¡Tú, ahí! ¡Marea! ¡Deja de entrar, por órdenes del rey!" No podemos lograr ninguno de los objetivos simplemente emitiendo órdenes.
¿Y cuál es exactamente tu plan para "¿Y si no cumplen tu edicto?"? ¿Que se quejen de que están violando las políticas? ¿Que ni siquiera sepan que no siguieron tus órdenes? WhatamIdoing ( discusión ) 07:06 11 ene 2024 (UTC) [ responder ]
Un buen resumen de nuestras pautas de WP:COI , pero no parece una razón para descartarlas. CMD ( discusión ) 07:28, 11 de enero de 2024 (UTC) [ responder ]
También me preocupa que esto suponga una carga innecesaria para quienes seguiremos la política, sin ningún motivo aparente. MarioGom ( discusión ) 12:04 11 ene 2024 (UTC) [ responder ]

Solicitud de cierre

Voy a hacer una solicitud, porque el bot acaba de eliminar la plantilla RFC ya que ha pasado un mes (obviamente no la voy a cerrar yo mismo). jp × g 🗯️ 10:18, 13 de enero de 2024 (UTC) [ responder ]