stringtranslate.com

Personalización de texto a imagen

La personalización de texto a imagen es una tarea de aprendizaje profundo para gráficos de computadora que amplía los modelos generativos de texto a imagen entrenados previamente . En esta tarea, un modelo generativo que se entrenó con datos a gran escala (generalmente un modelo base ) se adapta de modo que pueda generar imágenes de conceptos nuevos proporcionados por el usuario. [1] [2] Estos conceptos generalmente no se ven durante el entrenamiento y pueden representar objetos específicos (como la mascota del usuario) o categorías más abstractas (nuevo estilo artístico [3] o relaciones entre objetos [4] ).

Los métodos de personalización de texto a imagen suelen vincular el concepto novedoso (personal) a nuevas palabras en el vocabulario del modelo. Estas palabras pueden utilizarse en futuras indicaciones para invocar el concepto para la generación impulsada por el sujeto, [5] la reproducción , la transferencia de estilo [6] e incluso para corregir sesgos en el modelo. Para ello, los modelos optimizan las incrustaciones de palabras , afinan el propio modelo generativo o emplean una combinación de ambos enfoques.

Tecnología

La personalización de texto a imagen fue propuesta por primera vez durante agosto de 2022 por dos trabajos simultáneos, Textual Inversion [7] y DreamBooth . [8]

En ambos casos, el usuario proporciona algunas imágenes (normalmente entre 3 y 5) de un concepto, como su propio perro, junto con una descripción aproximada de la clase de concepto (como la palabra "perro"). A continuación, el modelo aprende a representar el tema a través de un objetivo basado en la reconstrucción, en el que se espera que las indicaciones que hacen referencia al tema reconstruyan imágenes a partir del conjunto de entrenamiento.

En la inversión textual, los conceptos personalizados se introducen en el modelo de texto a imagen añadiendo nuevas palabras al vocabulario del modelo. Los modelos de texto a imagen típicos representan palabras (y a veces partes de palabras) como tokens o índices en un diccionario predefinido. Durante la generación, una indicación de entrada se convierte en dichos tokens, cada uno de los cuales se convierte en una "incrustación de palabras": una representación vectorial continua que se aprende para cada token como parte del entrenamiento del modelo. La inversión textual propone optimizar un nuevo vector de incrustación de palabras para representar el concepto novedoso. Este nuevo vector de incrustación se puede asignar a una cadena elegida por el usuario e invocar siempre que la indicación del usuario contenga esta cadena. [7]

En DreamBooth , en lugar de optimizar un nuevo vector de palabras, se ajusta el modelo generativo completo. El usuario selecciona primero un token existente, normalmente uno que rara vez aparece en las indicaciones. El tema en sí se representa entonces mediante una cadena que contiene este token, seguido de un descriptor aproximado de la clase del tema. Una indicación que describe el tema tomará entonces la forma: "Una foto de <token> <clase>" (por ejemplo, "una foto del gato de sks" cuando se aprende a representar un gato específico). El modelo de texto a imagen se ajusta entonces para que las indicaciones de esta forma generen imágenes del tema. [8]

Inversión textual

La idea clave de la inversión textual es añadir un nuevo término al vocabulario del modelo de difusión que corresponde al nuevo concepto (personalizado). La inversión textual optimiza la incorporación vectorial de ese nuevo término de modo que su uso como texto de entrada genere imágenes similares a ejemplos de imágenes dadas del concepto. El modelo resultante es extremadamente ligero por concepto: solo 1K de longitud, pero logra codificar propiedades visuales detalladas del concepto.

Extensiones

Se propusieron varios enfoques para refinar y mejorar los métodos originales, entre los que se incluyen los siguientes:

  1. Adaptación de bajo rango (LoRA) : una técnica basada en adaptadores para un ajuste fino eficiente de los modelos. [9] En el caso de los modelos de texto a imagen , LoRA se utiliza normalmente para modificar las capas de atención cruzada de un modelo de difusión . [10]
  2. Perfusión: un método de actualización de rango bajo que también bloquea las activaciones de la matriz clave en las capas de atención cruzada del modelo de difusión a la clase gruesa del concepto. [11]
  3. Inversión textual extendida: una técnica que aprende la incrustación de una palabra individual para cada capa en la red de eliminación de ruido del modelo de difusión. [12]
  4. Métodos basados ​​en codificadores que utilizan otra red neuronal para personalizar rápidamente un modelo [13] [14]

Desafíos y limitaciones

Los métodos de personalización de texto a imagen deben hacer frente a varios desafíos. Su objetivo principal es lograr una alta fidelidad al concepto personal y, al mismo tiempo, mantener una alta coherencia entre los mensajes novedosos que contienen el tema y las imágenes generadas (lo que normalmente se conoce como "editabilidad").

Otro desafío que deben afrontar los métodos de personalización son los requisitos de memoria. Las implementaciones iniciales de los métodos de personalización requerían más de 20 gigabytes de memoria de GPU, y los enfoques más recientes han informado requisitos de más de 40 gigabytes. [13] Sin embargo, optimizaciones como Flash Attention [15] han reducido considerablemente este requisito.

Los enfoques que ajustan todo el modelo generativo también pueden crear puntos de control de varios gigabytes de tamaño, lo que dificulta compartir o almacenar muchos modelos. Los enfoques basados ​​en incrustaciones requieren solo unos pocos kilobytes, pero generalmente tienen dificultades para preservar la identidad y al mismo tiempo mantener la capacidad de edición. Los enfoques más recientes han propuesto objetivos de ajuste híbridos que optimizan tanto una incrustación como un subconjunto de pesos de red. Estos pueden reducir los requisitos de almacenamiento a tan solo 100 kilobytes y, al mismo tiempo, lograr una calidad comparable a los métodos de ajuste completo. [11]

Por último, los procesos de optimización pueden ser largos y requerir varios minutos de ajuste para cada concepto nuevo. Los métodos de codificación y ajuste rápido tienen como objetivo reducir este tiempo a segundos o menos. [16]

Referencias

  1. ^ Murphy, Brendan Paul (12 de octubre de 2022). "La generación de imágenes con inteligencia artificial avanza a velocidades astronómicas. ¿Todavía podemos saber si una imagen es falsa?". The Conversation . Consultado el 14 de septiembre de 2023 .
  2. ^ "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術". NOTICIAS ITmedia (en japonés) . Consultado el 14 de septiembre de 2023 .
  3. ^ Baio, Andy (1 de noviembre de 2022). «Difusión invasiva: cómo una ilustradora renuente se vio convertida en un modelo de IA». Waxy.org . Consultado el 14 de septiembre de 2023 .
  4. ^ Huang, Ziqi; Wu, Tianxing; Jiang, Yuming; Chan, Kelvin CK; Liu, Ziwei (2023). "ReVersion: inversión de relaciones basada en difusión a partir de imágenes". arXiv : 2303.13495 [cs.CV].
  5. ^ Jr, Edward Ongweso (14 de octubre de 2022). "La gente ahora se hace selfies falsas con IA". Vice . Consultado el 20 de septiembre de 2023 .
  6. ^ Dave James (27 de diciembre de 2022). "Usé la RTX 4090 durante 8 horas seguidas entrenando Stable Diffusion para pintar como mi tío Hermann". PC Gamer . Consultado el 20 de septiembre de 2023 .
  7. ^ ab Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (2022-09-29). "Una imagen vale una palabra: personalización de la generación de texto a imagen mediante inversión textual". arXiv : 2208.01618 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  8. ^ ab Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (2023). "DreamBooth: Ajuste fino de los modelos de difusión de texto a imagen para la generación impulsada por el sujeto": 22500–22510. arXiv : 2208.12242 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  9. ^ Singh, Niharika (18 de febrero de 2023). "HuggingFace publica scripts LoRA para un ajuste fino de difusión estable y eficiente". MarkTechPost . Consultado el 14 de septiembre de 2023 .
  10. ^ Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (6 de octubre de 2021). "LoRA: adaptación de bajo rango de modelos de lenguaje grandes". arXiv : 2106.09685 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  11. ^ ab Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (23 de julio de 2023). "Edición de rango uno con bloqueo de teclas para personalización de texto a imagen". Actas de la conferencia del grupo de interés especial sobre gráficos por computadora y técnicas interactivas . SIGGRAPH '23. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1–11. arXiv : 2305.01644 . doi :10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. Número de identificación del sujeto  258436985.
  12. ^ Lorenzi, Daniele (22 de julio de 2023). "Conoce P+: un espacio de incrustaciones enriquecido para la inversión textual extendida en la generación de texto a imagen". MarkTechPost . Consultado el 29 de agosto de 2023 .
  13. ^ ab Gal, Rinon; Arar, Moab; Atzmon, Yuval; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (26 de julio de 2023). "Ajuste de dominio basado en codificador para una rápida personalización de modelos de texto a imagen". ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi :10.1145/3592133. ISSN  0730-0301. S2CID  257364757.
  14. ^ Wei, Yuxiang; Zhang, Yabo; Ji, Zhilong; Bai, Jinfeng; Zhang, Lei; Zuo, Wangmeng (2023). "ELITE: codificación de conceptos visuales en incrustaciones textuales para una generación personalizada de texto a imagen". arXiv : 2302.13848 [cs.CV].
  15. ^ Dao, Tri; Fu, Daniel Y.; Ermon, Stefano; Rudra, Atri; Ré, Christopher (2022). "FlashAttention: Atención exacta rápida y eficiente en el uso de la memoria con IO-Awareness". arXiv : 2205.14135 [cs.LG].
  16. ^ Shi, Jing; Xiong, Wei; Lin, Zhe; Jung, Hyun Joon (2023). "InstantBooth: Generación personalizada de texto a imagen sin ajuste fino en tiempo de prueba". arXiv : 2304.03411 [cs.CV].