Interfaz de usuario cómoda

ComfyUI es un programa de código abierto basado en nodos que permite a los usuarios generar imágenes a partir de una serie de indicaciones de texto . Utiliza modelos de difusión libres como Stable Diffusion como modelo base para sus capacidades de imagen combinadas con otras herramientas como ControlNet y LCM Low-rank Adaptation , donde cada herramienta está representada por un nodo en el programa.

Historia

ComfyUI se lanzó en GitHub en enero de 2023. Según comfyanonymous, el creador, un objetivo principal del proyecto era mejorar los diseños de software existentes en términos de la interfaz de usuario . ^[3] El creador había estado involucrado con Stability AI, pero para el 3 de junio de 2024 esa participación había terminado y se había creado una organización llamada Comfy Org junto con los desarrolladores principales. ^[4] En julio de 2024, Nvidia anunció soporte para ComfyUI dentro de su software de modding RTX Remix . ^[5] En agosto de 2024, se agregó soporte para el modelo de difusión FLUX desarrollado por Black Forest Labs y Comfy Org se unió a la Iniciativa de Modelo Abierto creada por la Fundación Linux . ^[6]^[7] A septiembre de 2024, el proyecto tiene 50,6k estrellas en GitHub. ^[8]

Características

La característica principal de ComfyUI es que está basado en nodos. ^[9]^[10] Cada nodo tiene una función como "cargar un modelo" o "escribir un mensaje". ^[11] Los nodos están conectados para formar un gráfico de flujo de control llamado flujo de trabajo. ^[12] Cuando se pone en cola un mensaje, aparece un marco resaltado alrededor del nodo que se está ejecutando actualmente, comenzando desde el "punto de control de carga" y terminando con la imagen final y su ubicación de guardado. ^[11] Los flujos de trabajo comúnmente constan de decenas de nodos, formando un gráfico acíclico dirigido complejo . ^[12] Los tipos de nodos incluyen cargar un modelo, especificar mensajes, muestreadores, decodificadores VAE , restauración de rostros y modelos de ampliación, LoRAs, incrustaciones y ControlNets. ^[13] Los flujos de trabajo se pueden guardar en un archivo, lo que permite a los usuarios reutilizar los flujos de trabajo de los nodos y compartirlos con otros usuarios. ^[13]^[14]^[15] El formato de archivo para los flujos de trabajo está en JSON y se puede incrustar en las imágenes generadas. ^[16] Los usuarios también han creado extensiones personalizadas para el sistema base que se exponen como nuevos nodos, ^[13]^[17] como la extensión para AnimateDiff, que tiene como objetivo crear videos. ^[18]^{[19] Se ha descrito} a ComfyUI como más complejo en comparación con otras IU de difusión como Automatic1111 . ^[20]^[21] También se incluye un grupo de nodos predeterminado con el programa. ^[11]

Compromiso con la extensión LLMVision

En junio de 2024, un grupo de hackers llamado "Nullbulge" comprometió una extensión de ComfyUI para agregarle código malicioso. ^[22] La extensión comprometida, llamada ComfyUI_LLMVISION, se utilizó para integrar la interfaz con los modelos de lenguaje de IA GPT-4 y Claude 3 , y estaba alojada en GitHub . Nullbulge alojó una lista de cientos de detalles de inicio de sesión de usuarios de ComfyUI en múltiples servicios en su sitio web, mientras que los usuarios de la extensión informaron haber recibido numerosas notificaciones de inicio de sesión. vpnMentor realizó una investigación de seguridad sobre la extensión y afirmó que podía "robar billeteras criptográficas , capturar la pantalla del usuario, exponer información del dispositivo y direcciones IP , y robar archivos que contienen ciertas palabras clave o extensiones".

El sitio web de Nullbulge afirma que se dirigieron a usuarios que cometieron "uno de nuestros pecados", que incluía la generación de arte con IA, el robo de arte, la promoción de criptomonedas y cualquier otro tipo de robo a artistas como Patreon . Afirmaron que eran "un colectivo de personas que creen en la importancia de proteger los derechos de los artistas y garantizar una compensación justa por su trabajo" y que creían que "las obras de arte generadas por IA son perjudiciales para la industria creativa y deberían desalentarse". ^[22]

Referencias

^ comfyanonymous. "Commit inicial". github . Consultado el 10 de julio de 2024 .
^ comfyanonymous. "LICENCIA". github . Consultado el 10 de julio de 2024 .
^ comfyanonymous (18 de mayo de 2023). "¡ComfyUI ya tiene 4 meses!". Blog de ComfyUI . Consultado el 11 de julio de 2024 .
^ "ComfyUI 作者团队成立 Comfy Org- DoNews快讯". Hacer noticias.
^ Harper, Christopher (4 de julio de 2024). "RTX Remix de Nvidia se vuelve de código abierto: el fabricante de chips agrega una API Rest para interactuar con ComfyUI para la remasterización con IA o la generación de nuevos gráficos en tiempo real". Tom's Hardware . Consultado el 11 de julio de 2024 .
^ 田口和裕 (7 de agosto de 2024). "画像生成AI「Difusión estable」の代替に? 話題の「FLUX.1」を試した (1/7)". ASCII.jp (en japonés).
^ Wheatley, Mike (12 de agosto de 2024). "La última iniciativa de la Fundación Linux tiene como objetivo promover modelos de inteligencia artificial de código abierto 'irrevocables'". SiliconANGLE .
^ comfyanonymous. "ComfyUI". github . Consultado el 10 de julio de 2024 .
^ Zhu, Andrew (2024). Uso de Stable Diffusion con Python: aproveche Python para controlar y automatizar la generación de imágenes de IA de alta calidad mediante Stable Diffusion . Packt Publishing. ISBN 978-1835084311ComfyUI es una interfaz de usuario basada en nodos que utiliza Stable Diffusion. Permite a los usuarios crear flujos de trabajo personalizados, que incluyen el posprocesamiento y la conversión de imágenes. Es una interfaz gráfica de usuario potente y adaptable para Stable Diffusion, que se caracteriza por su diseño basado en nodos.
^ 故渊 (25 de noviembre de 2023). "7 年老显卡 GTX 1080 能跑,图片生成视频模型 Difusión de vídeo estable 更新 - IT之家". ithome .
^ abc 田口, 和裕. "画像生成AI「Difusión estable」使い倒すならコレ！「ComfyUI」基本の使い方 (1/3)". ascii.jp (en japonés).
^ ab Xue, Xiangyuan; Lu, Zeyu; Huang, Di; Ouyang, Wanli; Bai, Lei (2 de septiembre de 2024). "GenAgent: Cree sistemas de IA colaborativos con generación de flujo de trabajo automatizada: estudios de casos sobre ComfyUI". arXiv : 2409.01392 [cs.CL].
^ abc Gal, Rinon; Haviv, Adi; Alaluf, Yuval; Bermano, Amit H.; Cohen-Or, Daniel; Chechik, Gal (2024). "ComfyGen: flujos de trabajo adaptables a solicitudes para la generación de texto a imagen". arXiv : 2410.01731 [cs.CL].
^ 白鲸出海 (23 de mayo de 2024). "一家成都游戏公司,做出了一款千万月访问量的AI图像产品-36氪". 36º(en chino).
^ 田口, 和裕 (27 de marzo de 2024). "Macで始める画像生成AI 「Difusión estable」ComfyUIの使い方 (3/5)". ascii.jp (en japonés).
^ しらいはかせ (18 de diciembre de 2023). "画像生成AIを使い倒す！「Matriz de estabilidad」で使えるWebUIを紹介【生成AIストリーム】". Reloj Impress (en japonés).
^ 机器之心 (16 de noviembre de 2023). "当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩-36氪". 36º(en chino).
^ 新, 清士. "アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化". ascii.jp (en japonés).
^ Guo, Yuwei; Yang, Ceyuan; Rao, Anyi; Liang, Zhengyang; Wang, Yaohui; Qiao, Yu; Agrawala, Maneesh; Lin, Dahua; Dai, Bo (mayo de 2024). "AnimateDiff: anime sus modelos personalizados de difusión de texto a imagen sin ajustes específicos". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 2307.04725 .
^ Phoenix, James; Taylor, Mike (2024). "AUTOMATIC1111 Interfaz de usuario web". Ingeniería rápida para IA generativa: insumos a prueba de futuro para resultados de IA confiables a escala (Primera edición). Pekín, Boston: O'Reilly. ISBN 978-1098153434Los usuarios avanzados también pueden querer explorar ComfyUI, ya que admite flujos de trabajo más avanzados y mayor flexibilidad (incluida la conversión de imagen a video), pero consideramos que esto es demasiado complejo para la mayoría de los casos de uso, que pueden manejarse fácilmente con AUTOMATIC1111.
^ Pérez-Colado, Iván J.; Freire-Morán, Manuel; Calvo-Morata, Antonio; Pérez-Colado, Víctor M.; Fernández-Manjón, Baltasar (8 de mayo de 2024). "AI Asyet Otra herramienta en proyectos de estudiantes de pregrado: resultados preliminares". Conferencia Global de Educación en Ingeniería de IEEE 2024 (EDUCON) . págs. 1–7. doi :10.1109/EDUCON60312.2024.10578883. ISBN 979-8-3503-9402-3.
^ ab Maiberg, Emanuel (11 de junio de 2024). "Los piratas informáticos atacan a los usuarios de IA con una herramienta de difusión estable maliciosa en GitHub para protestar contra el 'robo de arte'". 404 Media . Consultado el 14 de junio de 2024 .