Nuevo modelo de Stable Diffusion guiado por profundidad, ajustado a partir de la base SD 2.0. El modelo está condicionado a estimaciones de profundidad monocular inferidas a través de MiDaS y puede usarse para img2img que conserva la estructura y síntesis condicional de forma. Un modelo de pintura guiada por texto, ajustado desde la base SD 2.0. Seguimos el repositorio original y proporcionamos scripts de inferencia básicos para tomar muestras de los modelos. El modelo Stable Diffusion original se creó en colaboración con CompVis y RunwayML

Stable Diffusion 2.0: Crea Imágenes con Inteligencia Artificial (IA)

 

Stable Diffusion es un sofyware de modelo de aprendizaje automático desarrollado por Stability AI para generar imágenes digitales a partir de descripciones en lenguaje natural.

 

Su lanzamiento inicial fue el 22 de agosto de 2022

 

A diferencia de modelos como DALL-E, Midjourney, la filosofía Open Source de Stable Diffusion marca la diferencia.

 

Stable Diffusion es de código abierto y no limita artificialmente las imágenes que produce.

 

Aunque este modelo para generar imágenes tiene sus críticos ya que puede utilizarse para crear deepfakes.

 

Puede ejecutarse en el hardware del usuario equipado con una tarjeta gráfica (GPU), de manera gratuita.

 

Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM).

 

 

 

 

Emplea la conversión texto-a-imagen y usa un codificador de texto a imagen llamado OpenCLIP que mejora la calidad de las imágenes generadas en comparación con las versiones V1.

 

El motor utiliza filtros NSFW de LAION-5B para eliminar contenidos para adultos, en el conjunto de imágenes que se ha usado para entrenar este modelo.

 

Genera imágenes de 2.048×2.048 píxeles con un sistema de upscaling.

 

El modelo de Stable Diffusion genera una o varias imágenes basándose en un texto descriptivo ó prompt y la información de ‘profundidad’ que da la imagen de inicio.

 

https://stablediffusionweb.com/#demo

 

 

Stable Diffusion tiene tres partes:

 

  • Autocodificador variacional (VAE) 

El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen.

 

  • U-Net 

El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles.

 

  • Codificador de texto opcional

Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación.

 

Stable Diffusion se entrenó con pares de imágenes y subtítulos extraídos de LAION-5B.

 

LAION-5B es un conjunto de datos de acceso público derivado de los datos de Common Crawl extraídos de la web.

 

En el que se clasificaron 5.000 millones de pares imagen-texto en función del idioma, se filtraron en conjuntos de datos separados por resolución, se predijo la probabilidad de que contuvieran una marca de agua y se predijo la puntuación «estética».

 

El conjunto de datos fue creado por LAION, una organización alemana sin ánimo de lucro que recibe financiación de Stability AI.

 

El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B:

  • Laion2B-es
  • Laion-high-resolution
  • Laion-aesthetics v2 5+

 

Servicios online

 

DreamStudio es una herramienta online creada por Stability AI, con acceso a la última versión de los modelos Stable Diffusion.

 

La herramienta puede generar una imagen en menos de 15 segundos con la configuración predeterminada.

 

Ofrece una prueba gratuita a los usuarios, en la que se disponen de 100 créditos que se pueden usar para generar imágenes, que permite generarar de 100 a 500 imágenes.

 

Se pueden comprar 1000 créditos por $10.

 

 

 

 

Hugging face proporciona acceso gratuito a la última versión del modelo Stable Diffusion 2.1

 

A diferencia de Dream Studio, la herramienta no permite personalizar propiedades como el número de pasos, la escala, etc.

 

Y la herramienta tarda mucho más tiempo en generar la imagen, en promedio, tarda más de un minuto en crear una imagen.

 

 

Preguntas frecuentes de Stable Diffusion

 

  • ¿En qué se entrenó el modelo de Stable Diffusion?

 

El conjunto de datos subyacente para Stable Diffusion fue el subconjunto de etiquetas en inglés 2b de LAION 5b https://laion.ai/blog/laion-5b/, un rastreo general de Internet creado por la organización benéfica alemana LAION.

 

  • ¿Cuáles son los derechos de autor para usar imágenes generadas por Stable Diffusion?

 

El área de las imágenes generadas por IA y los derechos de autor es compleja y variará de una jurisdicción a otra.

 

  • ¿Pueden los artistas optar por incluir o no incluir su trabajo en los datos de capacitación?

 

No hubo opciones de aceptación o exclusión para los datos del modelo LAION 5b. Pretende ser una representación general de la conexión lenguaje-imagen de Internet.

 

  • ¿Dónde puedo acceder al sitio web de Stable Diffusion Online?  https://stablediffusionweb.com

 

  • ¿Cuál es el derecho de autor de las imágenes creadas a través de Stable Diffusion Online?

 

Las imágenes creadas a través de Stable Diffusion Online son totalmente de código abierto y se incluyen explícitamente en la Dedicación de dominio público universal CC0 1.0.

 

  • ¿Qué tipos de GPU podrán ejecutar Stable Diffusion y en qué configuraciones?

 

La mayoría de las GPU NVidia y AMD con 6 GB o más.

 

  • ¿Qué son los modelos de difusión?

 

Los modelos generativos son una clase de modelos de aprendizaje automático que pueden generar nuevos datos basados en datos de entrenamiento.

 

 

Ejemplos de imágenes generadas con Stable Diffusion 2.1

 

 

 

Te puede interesar;

CURSO; ChatGPT Prompt Engineering for Developers

 

Referencias;

github.com/Stability-AI/stablediffusion  

stability.ai/stable-diffusion-public-release

stablediffusionweb.com 

huggingface.co/stabilityai/stable-diffusion 

replicate.com/stability-ai/stable-diffusion 

uxplanet.org/how-to-run-stable-diffusion 

 

Imagen; banner-futurista-tecnologia-digital-lineas-circuito > de starline > Freepik > freepik.es

 

H2O GPT: La Gran alternativa a ChatGPT

  H2O GPT (Generative Pretraining Transformer) es una tecnología de aprendizaje automático que está revolucionando el campo del procesamiento del lenguaje natural. Desarrollada por la empresa de inteligencia artificial H2O.ai, esta tecnología utiliza un enfoque novedoso

Leer más »

28 Preguntas Frecuentes FAQ de ChatGPT

  Las preguntas más frecuentes, Frequently Asked Questions (FAQ), generadas con el uso de ChatGPT expuestas de manera clara para que puedas entender, diferenciar conceptos y aclarar dudas de por qué ChatGPT es una de las herramientas más útiles

Leer más »

Google BARD: Bot Conversacional de Inteligencia Artificial (IA)

  Google Bard es un bot conversacional de Inteligencia Artificial desarrollado por Google basado en la familia LaMDA, Modelo de lenguaje para aplicaciones de diálogo.   En noviembre de 2022, OpenAI lanzó ChatGPT, un bot conversacional basado en la familia GPT-3 de modelos lingüísticos.​   Se desarrolló como

Leer más »
error: Alert: Este contenido está Protegido © !!