stringtranslate.com

Colapso del modelo

El colapso del modelo es un fenómeno en el que los modelos de aprendizaje automático se degradan gradualmente debido a errores que surgen de un entrenamiento no curado en los resultados de otro modelo, incluidas versiones anteriores del mismo. [1] [2] [3] [4] Estos resultados se conocen como datos sintéticos .

Shumailov et al. [1] acuñaron el término y describieron dos etapas específicas de la degradación: colapso temprano del modelo y colapso tardío del modelo . En el colapso temprano del modelo, el modelo comienza a perder información sobre las colas de la distribución , afectando principalmente a los datos minoritarios. Trabajos posteriores destacaron que el colapso temprano del modelo es difícil de notar, ya que el rendimiento general puede parecer mejorar, mientras que el modelo pierde rendimiento en datos minoritarios. [5] En el colapso tardío del modelo, el modelo pierde una proporción significativa de su rendimiento, confundiendo conceptos y perdiendo la mayor parte de su varianza .

Mecanismo

Los datos sintéticos, aunque teóricamente son indistinguibles de los datos reales, casi siempre son sesgados, inexactos, no son bien representativos de los datos reales, son dañinos o se presentan fuera de contexto. [6] [7] El uso de dichos datos como datos de entrenamiento genera problemas con la calidad y confiabilidad del modelo entrenado. [8] [9]

El colapso de un modelo se produce por tres razones principales: errores de aproximación funcional , errores de muestreo y errores de aprendizaje [1] . Es importante destacar que esto ocurre incluso en los modelos más simples, donde no están presentes todas las fuentes de error. En los modelos más complejos, los errores suelen acumularse, lo que conduce a un colapso más rápido.

Desacuerdo sobre el impacto en el mundo real

El colapso del modelo en los modelos generativos se reduce cuando los datos se acumulan

Algunos investigadores y comentaristas sobre el colapso de modelos advierten que el fenómeno podría amenazar fundamentalmente el desarrollo futuro de la IA generativa: a medida que los datos generados por la IA se comparten en Internet, inevitablemente terminarán en futuros conjuntos de datos de entrenamiento, que a menudo se extraen de Internet. Si el entrenamiento con datos sintéticos conduce inevitablemente al colapso del modelo, esto podría plantear un problema difícil. [10]

Sin embargo, recientemente otros investigadores han discrepado con este argumento, demostrando que si los datos sintéticos se acumulan junto con los datos generados por humanos, se evita el colapso del modelo. [11] Los investigadores sostienen que la acumulación de datos a lo largo del tiempo es una descripción más realista de la realidad que la eliminación de todos los datos existentes cada año, y que el impacto en el mundo real del colapso del modelo puede no ser tan catastrófico como se teme. [12]

Una rama alternativa de la literatura investiga el uso de detectores de aprendizaje automático y marcas de agua para identificar datos generados por modelos y filtrarlos. [13] [14]

Modelos matemáticos del fenómeno

Modelo gaussiano unidimensional

En [1] se ha realizado un primer intento de ilustrar el colapso para el modelo más simple posible: un ajuste de distribución normal unidimensional utilizando estimadores imparciales de media y varianza, calculados sobre muestras de la generación anterior.

Para que esto sea más preciso, decimos que los datos originales siguen una distribución normal y que poseemos muestras para . Denotando una muestra general como muestra en la generación , entonces el modelo de la próxima generación se estima utilizando la media y la varianza de la muestra:

Lo que lleva a un modelo de próxima generación condicionalmente normal . En teoría, esto es suficiente para calcular la distribución completa de . Sin embargo, incluso después de la primera generación, la distribución completa ya no es normal, sigue una distribución de varianza-gamma .

Para continuar con el análisis, en lugar de escribir la función de densidad de probabilidad en cada generación, es posible construirlas explícitamente en términos de variables aleatorias independientes utilizando el teorema de Cochran . Para ser precisos, y son independientes, con y , siguiendo una distribución Gamma . Denotando con variables aleatorias gaussianas distribuidas con y con variables aleatorias distribuidas con , resulta posible escribir muestras en cada generación como

y de manera más general

Tenga en cuenta que estas no son distribuciones conjuntas, ya que y dependen directamente de , pero al considerarlas por sí solas, la fórmula anterior proporciona toda la información sobre la distribución completa.

Para analizar el colapso del modelo, podemos calcular primero la varianza y la media de las muestras en la generación . Esto nos indicaría qué tipo de distribuciones esperamos obtener después de las generaciones. Es posible encontrar su valor exacto en forma cerrada, pero la media y la varianza de la raíz cuadrada de la distribución gamma se expresan en términos de funciones gamma, lo que hace que el resultado sea bastante confuso. A continuación, [1] es posible expandir todos los resultados a segundo orden en cada una de , suponiendo que cada tamaño de muestra es grande. Entonces es posible demostrar que

Y si todos los tamaños de muestra son constantes, esto diverge linealmente como :

Esta es la misma escala que para un paseo aleatorio gaussiano unidimensional . Sin embargo, la divergencia de la varianza de no proporciona directamente ninguna información sobre las estimaciones correspondientes de y , en particular cuán diferentes son de la distribución original y . Resulta posible calcular la distancia entre la distribución verdadera y la distribución aproximada en el paso , utilizando la distancia de Wasserstein-2 (que también se conoce a veces como riesgo ):

Esto muestra directamente por qué se produce el colapso del modelo en este modelo simple. Debido a los errores de remuestreo de la distribución aproximada, cada generación termina correspondiendo a un nuevo paso en un recorrido aleatorio de parámetros del modelo. Para un tamaño de muestra constante en cada generación, la distancia promedio desde el punto de partida diverge, y para que la aproximación de la distribución final sea precisa, o para que la distancia sea finita, la tasa de muestreo debe aumentar de manera superlineal, es decir, es necesario recolectar cada vez más muestras a lo largo del tiempo, quizás de manera cuadrática. Sin embargo, incluso en ese caso, la distancia esperada después de los pasos sigue siendo distinta de cero y el único caso en el que de hecho termina siendo cero es cuando el muestreo es infinito en cada paso. En general, esto solo nos muestra qué tan lejos en promedio terminamos de la distribución original, pero el proceso solo puede "terminar", si la varianza estimada en una cierta generación se vuelve lo suficientemente pequeña, convirtiendo efectivamente la distribución en una función delta. Esto ocurre para un modelo gaussiano general [8] en la subsección siguiente. La investigación empírica ha confirmado este análisis teórico. [15]


Modelo gaussiano ND

Además, en el caso de un modelo multidimensional con datos totalmente sintéticos, se puede demostrar un colapso exacto. [8] [1]

Regresión lineal

En el caso de un modelo de regresión lineal , [16] [17] se pueden encontrar leyes de escala y límites en el aprendizaje.

Modelo de lenguaje estadístico

En el caso de un clasificador softmax lineal para la predicción del próximo token, [18] se pueden encontrar límites exactos en el aprendizaje incluso con un conjunto de datos parcialmente sintético.

Impacto en los grandes modelos lingüísticos

En el contexto de modelos lingüísticos grandes , la investigación encontró que entrenar modelos lingüísticos grandes con texto generado por predecesores (los modelos lingüísticos se entrenan con los datos sintéticos producidos por modelos anteriores) provoca una disminución constante en la diversidad léxica, sintáctica y semántica de los resultados del modelo a través de iteraciones sucesivas, especialmente notable para tareas que exigen altos niveles de creatividad. [19]

Referencias

  1. ^ abcdef Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (julio de 2024). "Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva". Nature . 631 (8022): 755–759. doi :10.1038/s41586-024-07566-y. ISSN  1476-4687. PMC  11269175 .
  2. ^ Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolás; Anderson, Ross (31 de mayo de 2023). "La maldición de la recursividad: la formación sobre datos generados hace que los modelos olviden". arXiv : 2305.17493 [cs.LG].
  3. ^ Ozsevim, Ilkhan (20 de junio de 2023). "Una investigación revela que ChatGPT y Bard se encaminan hacia un 'colapso del modelo'" . Consultado el 6 de marzo de 2024 .
  4. ^ Mok, Aaron. "Un fenómeno de inteligencia artificial inquietante podría cambiar por completo Internet tal como lo conocemos". Business Insider . Consultado el 6 de marzo de 2024 .
  5. ^ Wyllie, Sierra; Shumailov, Ilia; Papernot, Nicolas (5 de junio de 2024). "Bucles de retroalimentación de imparcialidad: la capacitación sobre datos sintéticos amplifica el sesgo". Conferencia ACM 2024 sobre imparcialidad, rendición de cuentas y transparencia . FAccT '24. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 2113–2147. arXiv : 2403.07857 . doi :10.1145/3630106.3659029. ISBN . 979-8-4007-0450-5.
  6. ^ De Rosa, Micholas (31 de mayo de 2024). «Cómo la nueva versión de ChatGPT genera odio y desinformación a voluntad». CBC . Consultado el 13 de junio de 2024 .
  7. ^ Orland, Kyle (24 de mayo de 2024). "La "Descripción general de la IA" de Google puede dar respuestas falsas, engañosas y peligrosas". arsTechinca . Consultado el 13 de junio de 2024 .
  8. ^ abc Alemohammad, Sina; Casco-Rodriguez, Josue; Luzi, Lorenzo; Humayun, Ahmed Imtiaz; Babaei, Hossein; LeJeune, Daniel; Siahkoohi, Ali; Baraniuk, Richard G. (4 de julio de 2023). "Los modelos generativos autoconsumidores se vuelven locos". arXiv : 2307.01850 [cs.LG].
  9. ^ Los modelos generativos autoconsumidores se vuelven locos. Duodécima Conferencia Internacional sobre Representaciones del Aprendizaje.
  10. ^ "¿Qué es el colapso del modelo y cómo evitarlo?". The Register . Consultado el 11 de julio de 2024 .
  11. ^ Gerstgrasser, Matthias; Schaeffer, Rylan; Dey, Apratim; Rafailov, Rafael; Sleight, Henry; Hughes, John; Korbak, Tomasz; Agrawal, Rajashree; Pai, Dhruv; Gromov, Andrey; Roberts, Daniel A.; Yang, Diyi; Donoho, David L.; Koyejo, Sanmi (1 de abril de 2024). "¿Es inevitable el colapso del modelo? Romper la maldición de la recursión mediante la acumulación de datos reales y sintéticos". arXiv : 2404.01413 [cs.LG].
  12. ^ "Los grandes cerebros están divididos sobre el entrenamiento de la IA con más IA: ¿es inevitable el colapso del modelo?". The Register . Consultado el 11 de julio de 2024 .
  13. ^ Kirchenbauer, John; Geiping, Jonas; Wen, Yuxin; Katz, Jonathan; Miers, Ian; Goldstein, Tom (3 de julio de 2023). "Una marca de agua para modelos de lenguaje grandes". Actas de la 40.ª Conferencia internacional sobre aprendizaje automático . PMLR: 17061–17084.
  14. ^ "Mi conferencia sobre seguridad de la IA para el altruismo eficaz en la Universidad de Texas". Shtetl-Optimized . 2022-11-29 . Consultado el 2024-06-22 .
  15. ^ Borji, Ali (16 de octubre de 2024). "Una nota sobre Shumailov et al. (2024): "Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva"". arXiv : 2410.12954 [cs.LG].
  16. ^ Dohmatob, Elvis; Feng, Yunzhen; Kempe, Julia (12 de febrero de 2024). "Desmitificado el colapso del modelo: el caso de la regresión". arXiv : 2402.07712 [cs.LG].
  17. ^ Dohmatob, Elvis; Feng, Yunzhen; Yang, Pu; Charton, Francois; Kempe, Julia (10 de febrero de 2024). "Un cuento de colas: el colapso del modelo como un cambio en las leyes de escala". arXiv : 2402.07043 [cs.LG].
  18. ^ Seddik, Mohamed El Amine; Chen, Suei-Wen; Hayou, Soufiane; Youssef, Pierre; Debbah, Merouane (7 de abril de 2024). "¿Qué tan malo es el entrenamiento con datos sintéticos? Un análisis estadístico del colapso del modelo de lenguaje". arXiv : 2404.05090 [cs.LG].
  19. ^ Guo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé (16 de abril de 2024). "El curioso declive de la diversidad lingüística: formación de modelos lingüísticos en texto sintético". arXiv : 2311.09807 [cs.CL].