Cabina de ensueño

DreamBooth es un modelo de generación de aprendizaje profundo que se utiliza para personalizar modelos de texto a imagen existentes mediante el ajuste fino . Fue desarrollado por investigadores de Google Research y la Universidad de Boston en 2022. Originalmente desarrollado utilizando el modelo de texto a imagen Imagen de Google , las implementaciones de DreamBooth se pueden aplicar a otros modelos de texto a imagen, donde puede permitir que el modelo genere resultados más personalizados y ajustados después del entrenamiento con tres a cinco imágenes de un sujeto. ^[1]^[2]^[3]

Tecnología

Los modelos de difusión de texto a imagen preentrenados , si bien suelen ser capaces de ofrecer una amplia gama de diferentes tipos de salida de imágenes, carecen de la especificidad necesaria para generar imágenes de sujetos menos conocidos y tienen una capacidad limitada para representar sujetos conocidos en diferentes situaciones y contextos. ^[1] La metodología utilizada para ejecutar implementaciones de DreamBooth implica el ajuste fino del componente UNet completo del modelo de difusión utilizando unas pocas imágenes (normalmente de 3 a 5) que representan un sujeto específico. Las imágenes se combinan con indicaciones de texto que contienen el nombre de la clase a la que pertenece el sujeto, más un identificador único. Como ejemplo, a photograph of a [Nissan R34 GTR] car, con carsiendo la clase); se aplica una pérdida de preservación previa específica de la clase para alentar al modelo a generar diversas instancias del sujeto en función de lo que el modelo ya está entrenado para la clase original. ^[1] Se utilizan pares de imágenes de baja y alta resolución tomadas del conjunto de imágenes de entrada para ajustar los componentes de súper resolución , lo que permite mantener los detalles minuciosos del sujeto. ^[1]

Uso

DreamBooth se puede utilizar para ajustar modelos como Stable Diffusion , donde puede aliviar una deficiencia común de Stable Diffusion que no puede generar adecuadamente imágenes de personas individuales específicas. ^[4] Sin embargo, un caso de uso de este tipo requiere bastante VRAM y, por lo tanto, resulta prohibitivo para los usuarios aficionados. ^[4] La adaptación de Stable Diffusion de DreamBooth en particular se publica como un proyecto gratuito y de código abierto basado en la tecnología descrita en el artículo original publicado por Ruiz et. al. en 2022. ^[5] Se han planteado inquietudes con respecto a la capacidad de los malos actores para utilizar DreamBooth para generar imágenes engañosas con fines maliciosos, y que su naturaleza de código abierto permite a cualquiera utilizar o incluso realizar mejoras en la tecnología. ^[6] Además, los artistas han expresado su aprensión con respecto a la ética de usar DreamBooth para entrenar puntos de control de modelos que están específicamente destinados a imitar estilos de arte específicos asociados con artistas humanos; Una de esas críticas es Hollie Mengert, ilustradora de Disney y Penguin Random House , cuyo estilo artístico fue entrenado en un modelo de punto de control a través de DreamBooth y compartido en línea sin su consentimiento. ^[7]^[8]

Referencias

^ abcd Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (25 de agosto de 2022). "DreamBooth: Ajuste fino de los modelos de difusión de texto a imagen para la generación impulsada por el sujeto". arXiv : 2208.12242 [cs.CV].
^ Yuki Yamashita (1 de septiembre de 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ米Googleが開発". ITmedia Inc. (en japonés). Archivado desde el original el 31 de agosto de 2022.米Google Investigaciónと米ボストン大学の究チームが開発した...数枚の被写体画像とテキスト入力を使って、与Texto a imagen 。 [... desarrollado por un equipo de investigación de Google Research y Boston University es un modelo de texto a imagen basado en temas que toma varias imágenes de un tema y pautas de texto para crear imágenes recién generadas que presentan el tema.]
^ Brendan Murphy (13 de octubre de 2022). "La generación de imágenes con IA avanza a velocidades astronómicas. ¿Todavía podemos saber si una imagen es falsa?". The Conversation . Archivado del original el 30 de octubre de 2022. Recientemente, Google lanzó Dream Booth, un método alternativo y más sofisticado para inyectar personas, objetos o incluso estilos artísticos específicos en sistemas de IA de texto a imagen.
^ ab Ryo Shimizu (26 de octubre de 2022). "まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？". Yahoo! Noticias Japón (en japonés). Archivado desde el original el 26 de octubre de 2022. Estable Difusiónかな枚数から学習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた. [Stable Diffusion es generalmente inadecuado para generar fotografías personales o de individuos específicos, sin embargo el desarrollo de "Dreambooth" permite entrenar a partir de una pequeña cantidad de fotos en las que aparecen tus mascotas o amigos, causando un gran revuelo. Sin embargo, el inconveniente es que Dreambooth requiere una gran cantidad de cantidad de memoria de GPU, lo que hace que sea prácticamente inviable ejecutarlo en GPU que los usuarios individuales pueden permitirse dentro de su rango de precio de aficionado.]
^ Benj Edwards (9 de diciembre de 2022). "La tecnología de generación de imágenes con IA ahora puede crear deepfakes que arruinan vidas con facilidad". Ars Technica . Archivado del original el 12 de diciembre de 2022. Pero poco después de su anuncio, alguien adaptó la técnica Dreambooth para que funcionara con Stable Diffusion y publicó el código libremente como un proyecto de código abierto.
^ Kevin Jiang (1 de diciembre de 2022). "Estas imágenes de IA se parecen a mí. ¿Qué significa eso para el futuro de los deepfakes?". Toronto Star . Archivado del original el 8 de diciembre de 2022. Por ejemplo, DreamBooth podría usarse para copiar firmas o carteles oficiales para falsificar documentos, crear fotos o videos engañosos de políticos, fabricar pornografía vengativa de individuos y más... Un problema específico con DreamBooth y Stable Diffusion es que son de código abierto, continuó Gupta. A diferencia de los modelos centralizados de generación de IA que pueden imponer regulaciones y barreras a la creación de imágenes, los modelos descentralizados como DreamBooth significan que cualquiera puede acceder y mejorar la tecnología.
^ Isabel Berwick; Sophia Smith (14 de diciembre de 2022). "¿Reemplazará la IA a los trabajadores humanos?" . Financial Times . La ilustradora Hollie Mengert, cuya obra de arte se utilizó para entrenar a un modelo de IA sin su consentimiento, se pronunció públicamente en contra de la práctica de entrenar modelos de IA en el trabajo de los artistas sin permiso.
^ "Генеративные нейросети и этика: появилась модель, копирующая стиль конкретного художника". DTF (en ruso). 9 de noviembre de 2022. Archivado desde el original el 9 de noviembre de 2022. Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не давая на то согласия)... «В первую очередь мне показалось бестактным то, что моё имя фигурировало в этом е. Я ничего о нём не знала и меня об этом не спрашивали. Además de esto, no es necesario hacerlo». [Así, hace poco, la artista e ilustradora Hollie Mengert se convirtió en la fuente de datos de una nueva red neuronal (sin dar su consentimiento)... "Mi reacción inicial fue que me parecía invasivo que mi nombre estuviera en esta herramienta, no quería... No sabía nada al respecto y nadie me lo preguntó. Si me hubieran preguntado si podían hacerlo, no habría dicho que sí".

Enlaces externos

DreamBooth en GitHub.io
DreamBooth sobre difusión estable