Stable Diffusion: Genarador de imagenes HD surealistas

Stable Diffusion es un modelo de aprendizaje automático para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural o instrucciones (prompts en inglés). El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes. A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto y no limita artificialmente las imágenes que produce.​ Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.

Stable Diffusion es un modelo de difusión latente de texto a imagen. Desarrollada por Stability AI y al apoyo de LAION , se entreno un modelo de difusión latente en imágenes de 512x512 de un subconjunto de la base de datos LAION-5B . Similar a Imagen de Google , este modelo utiliza un codificador de texto CLIP ViT-L/14 congelado para condicionar el modelo en las indicaciones de texto. Con su codificador de texto 860M UNet y 123M, el modelo es relativamente liviano y se ejecuta en una GPU con al menos 10 GB de VRAM. 

Stable Diffusion v1 hace referencia a una configuración específica de la arquitectura del modelo que utiliza un codificador automático de factor de reducción de muestreo 8 con un codificador de texto 860M UNet y CLIP ViT-L/14 para el modelo de difusión. El modelo se entrenó previamente en imágenes de 256x256 y luego se ajustó en imágenes de 512x512.

Nota: Stable Diffusion v1 es un modelo general de difusión de texto a imagen y, por lo tanto, refleja sesgos y conceptos (erróneos) que están presentes en sus datos de entrenamiento. Los detalles sobre el procedimiento y los datos de entrenamiento, así como el uso previsto del modelo, se pueden encontrar en la ficha del modelo correspondiente .

Los pesos están disponibles a través de la organización CompVis en Hugging Face bajo una licencia que contiene restricciones específicas basadas en el uso para evitar el mal uso y el daño según se informa en la tarjeta del modelo, pero por lo demás sigue siendo permisiva . Si bien el uso comercial está permitido según los términos de la licencia, no recomendamos usar las pesas proporcionadas para servicios o productos sin mecanismos y consideraciones de seguridad adicionales , ya que existen limitaciones y sesgos conocidos de las pesas, y la investigación sobre el despliegue seguro y ético de modelos generales de texto a imagen es un esfuerzo continuo. Los pesos son artefactos de investigación y deben tratarse como tales.


Arquitectura

Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM). Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en las imágenes de entrenamiento, que pueden considerarse una secuencia de autocodificadores de eliminación de ruido. Stable Diffusion consta de tres partes: el autocodificador variacional (VAE), U-Net y un codificador de texto opcional.​ El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen.9 El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión directa.​ El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles8​. El paso de eliminación de ruido puede condicionarse de forma flexible a una cadena de texto, una imagen y otras modalidades. Los datos de condicionamiento codificados se exponen a las U-Nets de eliminación de ruido mediante un mecanismo de atención cruzada. Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación. Los investigadores señalan la mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM.​

Datos de entrenamiento

Stable Diffusion se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B, un conjunto de datos de acceso público derivado de los datos de Common Crawl extraídos de la web, en el que se clasificaron 5.000 millones de pares imagen-texto en función del idioma, se filtraron en conjuntos de datos separados por resolución, se predijo la probabilidad de que contuvieran una marca de agua y se predijo la puntuación "estética" (por ejemplo, la calidad visual subjetiva).El conjunto de datos fue creado por LAION, una organización alemana sin ánimo de lucro que recibe financiación de Stability AI. El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B: laion2B-es, laion-high-resolution y laion-aesthetics v2 5+. Un análisis de terceros de los datos de entrenamiento del modelo identificó que de un subconjunto más pequeño de 12 millones de imágenes tomadas del conjunto de datos original más amplio utilizado, aproximadamente el 47 % del tamaño de la muestra de imágenes procedía de 100 dominios diferentes, de los cuales Pinterest ocupaba el 8,5 % del subconjunto, seguido de sitios web como WordPress, Blogspot, Flickr, DeviantArt y Wikimedia Commons.14​