ComfyUI es un programa de código abierto basado en nodos que permite a los usuarios generar imágenes a partir de una serie de indicaciones de texto . Utiliza modelos de difusión libres como Stable Diffusion como modelo base para sus capacidades de imagen combinadas con otras herramientas como ControlNet y LCM Low-rank Adaptation , donde cada herramienta está representada por un nodo en el programa.
ComfyUI se lanzó en GitHub en enero de 2023. Según comfyanonymous, el creador, un objetivo principal del proyecto era mejorar los diseños de software existentes en términos de la interfaz de usuario . [3] El creador había estado involucrado con Stability AI, pero para el 3 de junio de 2024 esa participación había terminado y se había creado una organización llamada Comfy Org junto con los desarrolladores principales. [4] En julio de 2024, Nvidia anunció soporte para ComfyUI dentro de su software de modding RTX Remix . [5] En agosto de 2024, se agregó soporte para el modelo de difusión FLUX desarrollado por Black Forest Labs y Comfy Org se unió a la Iniciativa de Modelo Abierto creada por la Fundación Linux . [6] [7] A septiembre de 2024, el proyecto tiene 50,6k estrellas en GitHub. [8]
La característica principal de ComfyUI es que está basado en nodos. [9] [10] Cada nodo tiene una función como "cargar un modelo" o "escribir un mensaje". [11] Los nodos están conectados para formar un gráfico de flujo de control llamado flujo de trabajo. [12] Cuando se pone en cola un mensaje, aparece un marco resaltado alrededor del nodo que se está ejecutando actualmente, comenzando desde el "punto de control de carga" y terminando con la imagen final y su ubicación de guardado. [11] Los flujos de trabajo comúnmente constan de decenas de nodos, formando un gráfico acíclico dirigido complejo . [12] Los tipos de nodos incluyen cargar un modelo, especificar mensajes, muestreadores, decodificadores VAE , restauración de rostros y modelos de ampliación, LoRAs, incrustaciones y ControlNets. [13] Los flujos de trabajo se pueden guardar en un archivo, lo que permite a los usuarios reutilizar los flujos de trabajo de los nodos y compartirlos con otros usuarios. [13] [14] [15] El formato de archivo para los flujos de trabajo está en JSON y se puede incrustar en las imágenes generadas. [16] Los usuarios también han creado extensiones personalizadas para el sistema base que se exponen como nuevos nodos, [13] [17] como la extensión para AnimateDiff, que tiene como objetivo crear videos. [18] [19] Se ha descrito a ComfyUI como más complejo en comparación con otras IU de difusión como Automatic1111 . [20] [21] También se incluye un grupo de nodos predeterminado con el programa. [11]
En junio de 2024, un grupo de hackers llamado "Nullbulge" comprometió una extensión de ComfyUI para agregarle código malicioso. [22] La extensión comprometida, llamada ComfyUI_LLMVISION, se utilizó para integrar la interfaz con los modelos de lenguaje de IA GPT-4 y Claude 3 , y estaba alojada en GitHub . Nullbulge alojó una lista de cientos de detalles de inicio de sesión de usuarios de ComfyUI en múltiples servicios en su sitio web, mientras que los usuarios de la extensión informaron haber recibido numerosas notificaciones de inicio de sesión. vpnMentor realizó una investigación de seguridad sobre la extensión y afirmó que podía "robar billeteras criptográficas , capturar la pantalla del usuario, exponer información del dispositivo y direcciones IP , y robar archivos que contienen ciertas palabras clave o extensiones".
El sitio web de Nullbulge afirma que se dirigieron a usuarios que cometieron "uno de nuestros pecados", que incluía la generación de arte con IA, el robo de arte, la promoción de criptomonedas y cualquier otro tipo de robo a artistas como Patreon . Afirmaron que eran "un colectivo de personas que creen en la importancia de proteger los derechos de los artistas y garantizar una compensación justa por su trabajo" y que creían que "las obras de arte generadas por IA son perjudiciales para la industria creativa y deberían desalentarse". [22]
flujos de trabajo personalizados, que incluyen el posprocesamiento y la conversión de imágenes. Es una interfaz gráfica de usuario potente y adaptable para Stable Diffusion, que se caracteriza por su diseño basado en nodos.
admite flujos de trabajo más avanzados y mayor flexibilidad (incluida la conversión de imagen a video), pero consideramos que esto es demasiado complejo para la mayoría de los casos de uso, que pueden manejarse fácilmente con AUTOMATIC1111.