DALL·E es un modelo de Inteligencia Artificial desarrollado por OpenAI que combina el procesamiento de lenguaje natural con la generación de imágenes.
Puedes proporcionar una descripción textual a DALL·E y el modelo generará una imagen que corresponda a esa descripción.
¿Qué es DALL•E?
Su nombre es un juego de palabras que hace referencia a dos figuras creativas famosas: Salvador Dalí, el pintor surrealista, y Pixar, el estudio de animación.
La característica principal de DALL·E es su capacidad para generar imágenes a partir de descripciones de texto.
Esto es posible gracias a una técnica llamada Generative Adversarial Networks (GANs), que permite que el modelo aprenda a generar imágenes realistas a partir de un gran conjunto de datos de entrenamiento.
Por ejemplo, si le das a DALL·E la descripción «un elefante rosa en una sala de estar», el modelo puede generar una imagen que represente esa escena de manera creativa y realista.
Pero, si además le pides un elefante rosa gamer que juega frente a su ordenador, con sus auriculares y sentado en una silla de gamer profesional en una sala de estar, te proporciona esto otro.
DALL·E ha demostrado ser una herramienta prometedora en aplicaciones creativas, como la generación de arte digital, diseño de productos, creación de imágenes conceptuales y más.
Su capacidad para comprender y sintetizar conceptos visuales a partir de descripciones de texto lo hace valioso en una variedad de campos.
DALL·E es un modelo generativo de lenguaje similar a GPT-3, pero en lugar de generar texto, crea imágenes a partir de descripciones de texto.
¿Qué es DALL·E 3?
DALL·E 3 comprende muchos más matices y detalles que los sistemas anteriores, lo que permite traducir fácilmente las ideas en imágenes excepcionalmente precisas.
DALL·E 3 está disponible para los clientes de ChatGPT Plus y Enterprise desde octubre de 2023, a través de API y en Labs.
Los sistemas modernos de conversión de texto a imagen tienden a ignorar palabras o descripciones, lo que obliga a los usuarios a aprender ingeniería rápidamente.
DALL·E 3 representa un salto adelante en la capacidad de generar imágenes que se adhieran exactamente al texto que se proporciona.
Incluso con el mismo prompt, DALL·E 3 ofrece mejoras significativas sobre DALL·E 2.
DALL·E 3 está construido de forma nativa en ChatGPT, lo que permite utilizar ChatGPT como compañero de lluvia de ideas y perfeccionador de las indicaciones.
Simplemente pregúntale a ChatGPT qué quieres ver en cualquier cosa, desde una simple oración hasta un párrafo detallado.
Cuando se le solicite una idea, ChatGPT generará automáticamente indicaciones detalladas y personalizadas para DALL·E 3 que darán vida a la idea.
Si te gusta una imagen en particular, pero no queda del todo bien, puedes pedirle a ChatGPT que haga ajustes con solo unas pocas palabras.
Al igual que con DALL·E 2, las imágenes que se crean con DALL·E 3 son tuyas para usar y no necesita el permiso de la plataforma para reimprimirlas, venderlas o comercializarlas.
Toman medidas para limitar la capacidad de DALL·E 3 en generar contenido violento, para adultos u odioso.
DALL·E 3 tiene mitigaciones para rechazar solicitudes que soliciten una figura pública por su nombre.
DALL·E 3 is ready! It's able to understand subtle nuance & follow prompts containing great detail.
Will be available to all ChatGPT Plus & Enterprise users over upcoming weeks.https://t.co/V2nz3H7FgB pic.twitter.com/eccxCkS5FC
— Greg Brockman (@gdb) September 20, 2023
Mejorando el desempeño de seguridad en áreas de riesgo como la generación de figuras públicas y sesgos dañinos relacionados con la representación excesiva o insuficiente visual.
En asociación con los equipos rojos (expertos en el dominio que prueban el modelo) para ayudar a informar su evaluación de riesgos y esfuerzos de mitigación en áreas como propaganda y desinformación.
También están investigando las mejores formas de ayudar a las personas a identificar cuándo se creó una imagen con IA.
Experimentando con un clasificador de procedencia, una nueva herramienta interna que puede ayudar a identificar si DALL·E 3 generó o no una imagen, y esperan utilizar esta herramienta para comprender mejor las formas en que se pueden usar las imágenes generadas.
DALL·E 3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista vivo.
Los creadores ahora también pueden excluir sus imágenes del entrenamiento de los futuros modelos de generación de imágenes.
DALL·E 3 en ChatGPT
ChatGPT ahora puede crear imágenes únicas a partir de una simple conversación, y esta nueva función está disponible para los usuarios Plus y Enterprise.
Describe tu visión y ChatGPT la hará realidad proporcionando una selección de imágenes para que puedas perfeccionarlas y repetirlas.
Puedes solicitar revisiones directamente en el chat, esto funciona con el modelo de imagen DALL·E 3.
DALL·E 3 es la culminación de varios avances de investigación, tanto dentro como fuera de OpenAI.
DALL·E 3 is now available to all ChatGPT Plus & Enterprise users, letting you create unique images through conversation.
Describe your vision, let ChatGPT generate multiple variants, and then request edits — all in real-time. https://t.co/kV3O1VGFCq pic.twitter.com/egLHgnBFpV
— OpenAI (@OpenAI) October 19, 2023
En comparación con su predecesor, DALL·E 3 genera imágenes que no sólo son más impactantes visualmente sino también más nítidas en detalle.
DALL·E 3 puede representar de manera confiable detalles intrincados, incluidos texto, manos y rostros.
Además, es particularmente bueno para responder a indicaciones extensas, detalladas y puede admitir proporciones de aspecto tanto horizontal como vertical.
Estas capacidades se lograron entrenando un subtítulo de imágenes de última generación para generar mejores descripciones textuales para las imágenes en las que se han entrenado los modelos.
Se entrenó a DALL·E 3 con estos subtítulos mejorados, lo que dio como resultado un modelo que presta mucha más atención a los subtítulos proporcionados por el usuario.
Utiliza un sistema de seguridad de varios niveles para limitar la capacidad de DALL·E 3 de generar imágenes potencialmente dañinas, incluido contenido violento, para adultos u odioso.
Los controles de seguridad se realizan sobre las indicaciones de los usuarios y las imágenes resultantes antes de que se muestren a los usuarios.
Toma medidas para limitar la probabilidad del modelo de generar contenido al estilo de artistas vivos, imágenes de figuras públicas y mejorar la representación demográfica en las imágenes generadas.
Referencias:
openai.com/dall-e-3
openai.com/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise
youtube.com/@DotCSV