Stable Diffusion es un sofyware de modelo de aprendizaje automático desarrollado por Stability AI para generar imágenes digitales a partir de descripciones en lenguaje natural.
Su lanzamiento inicial fue el 22 de agosto de 2022
A diferencia de modelos como DALL-E, Midjourney, la filosofía Open Source de Stable Diffusion marca la diferencia.
Stable Diffusion es de código abierto y no limita artificialmente las imágenes que produce.
Aunque este modelo para generar imágenes tiene sus críticos ya que puede utilizarse para crear deepfakes.
Puede ejecutarse en el hardware del usuario equipado con una tarjeta gráfica (GPU), de manera gratuita.
Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM).
Emplea la conversión texto-a-imagen y usa un codificador de texto a imagen llamado OpenCLIP que mejora la calidad de las imágenes generadas en comparación con las versiones V1.
El motor utiliza filtros NSFW de LAION-5B para eliminar contenidos para adultos, en el conjunto de imágenes que se ha usado para entrenar este modelo.
Genera imágenes de 2.048×2.048 píxeles con un sistema de upscaling.
El modelo de Stable Diffusion genera una o varias imágenes basándose en un texto descriptivo ó prompt y la información de ‘profundidad’ que da la imagen de inicio.
https://stablediffusionweb.com/#demo
Stable Diffusion tiene tres partes:
- Autocodificador variacional (VAE)
El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen.
- U-Net
El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles.
- Codificador de texto opcional
Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación.
Stable Diffusion se entrenó con pares de imágenes y subtítulos extraídos de LAION-5B.
LAION-5B es un conjunto de datos de acceso público derivado de los datos de Common Crawl extraídos de la web.
En el que se clasificaron 5.000 millones de pares imagen-texto en función del idioma, se filtraron en conjuntos de datos separados por resolución, se predijo la probabilidad de que contuvieran una marca de agua y se predijo la puntuación «estética».
El conjunto de datos fue creado por LAION, una organización alemana sin ánimo de lucro que recibe financiación de Stability AI.
El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B:
- Laion2B-es
- Laion-high-resolution
- Laion-aesthetics v2 5+
Servicios online
DreamStudio es una herramienta online creada por Stability AI, con acceso a la última versión de los modelos Stable Diffusion.
La herramienta puede generar una imagen en menos de 15 segundos con la configuración predeterminada.
Ofrece una prueba gratuita a los usuarios, en la que se disponen de 100 créditos que se pueden usar para generar imágenes, que permite generarar de 100 a 500 imágenes.
Se pueden comprar 1000 créditos por $10.
Hugging face proporciona acceso gratuito a la última versión del modelo Stable Diffusion 2.1
A diferencia de Dream Studio, la herramienta no permite personalizar propiedades como el número de pasos, la escala, etc.
Y la herramienta tarda mucho más tiempo en generar la imagen, en promedio, tarda más de un minuto en crear una imagen.
Preguntas frecuentes de Stable Diffusion
- ¿En qué se entrenó el modelo de Stable Diffusion?
El conjunto de datos subyacente para Stable Diffusion fue el subconjunto de etiquetas en inglés 2b de LAION 5b https://laion.ai/blog/laion-5b/, un rastreo general de Internet creado por la organización benéfica alemana LAION.
- ¿Cuáles son los derechos de autor para usar imágenes generadas por Stable Diffusion?
El área de las imágenes generadas por IA y los derechos de autor es compleja y variará de una jurisdicción a otra.
- ¿Pueden los artistas optar por incluir o no incluir su trabajo en los datos de capacitación?
No hubo opciones de aceptación o exclusión para los datos del modelo LAION 5b. Pretende ser una representación general de la conexión lenguaje-imagen de Internet.
- ¿Dónde puedo acceder al sitio web de Stable Diffusion Online? https://stablediffusionweb.com
- ¿Cuál es el derecho de autor de las imágenes creadas a través de Stable Diffusion Online?
Las imágenes creadas a través de Stable Diffusion Online son totalmente de código abierto y se incluyen explícitamente en la Dedicación de dominio público universal CC0 1.0.
- ¿Qué tipos de GPU podrán ejecutar Stable Diffusion y en qué configuraciones?
La mayoría de las GPU NVidia y AMD con 6 GB o más.
- ¿Qué son los modelos de difusión?
Los modelos generativos son una clase de modelos de aprendizaje automático que pueden generar nuevos datos basados en datos de entrenamiento.
Ejemplos de imágenes generadas con Stable Diffusion 2.1
Te puede interesar;
CURSO; ChatGPT Prompt Engineering for Developers
Referencias;
github.com/Stability-AI/stablediffusion
stability.ai/stable-diffusion-public-release
stablediffusionweb.com
huggingface.co/stabilityai/stable-diffusion
replicate.com/stability-ai/stable-diffusion
uxplanet.org/how-to-run-stable-diffusion
Imagen; banner-futurista-tecnologia-digital-lineas-circuito > de starline > Freepik > freepik.es