OpenAI DevDay: Nuevos modelos de ChatGPT, API y GPT-4

Por Manu Duque
08/11/2023

El OpenAI DevDay es la primera conferencia de desarrolladores organizada por OpenAI, una organización de investigación sin fines de lucro que tiene como objetivo crear una Inteligencia Artificial general que beneficie a toda la humanidad.

El OpenAI DevDay se celebró el 6 de noviembre de 2023 en San Francisco, y reunió a cientos de desarrolladores de todo el mundo con el equipo de OpenAI para presentar nuevas herramientas y discutir ideas.

El OpenAI DevDay fue un evento único que mostró el potencial y el progreso de la inteligencia artificial generativa, y que ofreció a los desarrolladores la oportunidad de aprender, colaborar y crear con OpenAI

Resumen con los puntos más importantes de los nuevos modelos y productos para desarrolladores anunciados en el evento de OpenAI DevDay.

GPT-4 Turbo ventana de contexto 128K

OpenAI lanzó el nuevo modelo GPT-4 Turbo, que es más capaz, más barato y admite una ventana de contexto de 128K, lo que le permite procesar el equivalente a más de 300 páginas de texto en una sola solicitud.

El nuevo modelo GPT-4 Turbo es una versión mejorada del modelo GPT-4 que fue lanzado por OpenAI en 2022.

El modelo GPT-4 Turbo tiene las siguientes características:

Es más capaz que el modelo GPT-4, ya que puede generar textos más coherentes, diversos y creativos, así como responder a consultas complejas y realizar tareas específicas.

El modelo GPT-4 Turbo se basa en una arquitectura de red neuronal de transformadores con 1,5 billones de parámetros, lo que le permite aprender de una gran cantidad de datos de texto de diferentes dominios y fuentes.

Es más barato que el modelo GPT-4, ya que utiliza menos recursos computacionales y energéticos para entrenar y ejecutar el modelo, gracias a las técnicas de optimización y compresión que se han aplicado.

Según OpenAI, el costo de entrenar el modelo GPT-4 Turbo es un 80% menor que el del modelo GPT-4, y el costo de usar el modelo GPT-4 Turbo en la plataforma ChatGPT Plus es un 50% menor que el del modelo GPT-4.

Admite una ventana de contexto de 128K, lo que significa que puede tener en cuenta hasta 128.000 tokens de texto anterior para generar el texto siguiente, lo que le permite generar textos más largos y consistentes.

Un token es una unidad mínima de texto, como una palabra o un signo de puntuación.

El modelo GPT-4 Turbo puede procesar el equivalente a más de 300 páginas de texto en una sola solicitud, lo que supera ampliamente al modelo GPT-4, que solo podía procesar hasta 32.000 tokens.

El modelo GPT-4 Turbo está disponible para todos los usuarios de ChatGPT Plus, una plataforma que permite acceder al modelo GPT-4 y a otros modelos y herramientas de OpenAI a través de una interfaz de chat.

Los usuarios pueden interactuar con el modelo GPT-4 Turbo mediante mensajes de texto, voz o imágenes, y solicitarle que realice diversas acciones, como buscar información, crear contenido, resolver problemas o entretenerse.

API de Asistentes

OpenAI introdujo la nueva API de Asistentes, que facilita a los desarrolladores la creación de aplicaciones de asistencia AI con objetivos definidos y la capacidad de llamar a modelos y herramientas.

La nueva API de Asistentes es una interfaz que OpenAI introdujo en su evento DevDay el 6 de noviembre de 2023.

Esta API facilita a los desarrolladores la creación de aplicaciones de asistencia AI con objetivos definidos y la capacidad de llamar a modelos y herramientas de OpenAI.

Algunas de las características de la API de Asistentes son:

Permite crear un asistente personalizado que puede seguir instrucciones precisas, acceder a bases de conocimiento externas y utilizar el conjunto de modelos y herramientas de IA generativa de OpenAI para realizar diversas tareas, como buscar información, crear contenido, resolver problemas o entretenerse.

Ofrece herramientas integradas y alojadas por OpenAI, como el intérprete de código, que permite ejecutar código Python en un entorno seguro y generar gráficos y tablas; la recuperación, que permite obtener datos de fuentes externas a los modelos de OpenAI.

Como documentos o especificaciones de productos; y la llamada a funciones, que permite ejecutar funciones de programación definidas por los desarrolladores e incorporar las respuestas en los mensajes del asistente.

Soporta cualquier modelo de GPT-3.5 o GPT-4, incluyendo los modelos afinados, y permite elegir el modelo más adecuado para el objetivo del asistente.

Gestiona el flujo de la conversación mediante la creación de hilos y mensajes, y se encarga de optimizar el uso de los tokens y la ventana de contexto del modelo, utilizando técnicas como la truncación.

La API de Asistentes se encuentra en beta y está disponible gratuitamente para todos los desarrolladores.

Según OpenAI, los tokens utilizados para la API se facturarán según las tarifas por token del modelo elegido.

OpenAI planea añadir más funcionalidades a la API, como permitir a los clientes proporcionar sus propias herramientas, mejorar el intérprete de código, la recuperación y la llamada a funciones, y añadir capacidades multimodales, como la visión, la creación de imágenes y la conversión de texto a voz.

Capacidades multimodales: Visión, imágenes, conversión texto a voz

OpenAI incorporó capacidades multimodales, incluyendo visión, creación de imágenes con DALL·E 3 y conversión de texto a voz (TTS).

OpenAI incorporó capacidades multimodales en su plataforma, lo que significa que sus modelos y herramientas pueden procesar y generar diferentes tipos de datos, como texto, voz e imágenes.

Algunos ejemplos de estas capacidades son:

La visión, que permite a los modelos de OpenAI entender el contenido de las imágenes, reconocer objetos, rostros, escenas, emociones, etc.

Por ejemplo, el modelo CLIP puede clasificar imágenes según una descripción de texto

La creación de imágenes con DALL·E 3, que es una versión mejorada del modelo DALL·E que puede generar imágenes a partir de una descripción de texto, utilizando una arquitectura de transformadores con 16 mil millones de parámetros13.

Por ejemplo, DALL·E 3 puede crear imágenes de un gato con sombrero de copa o de un avión de papel gigante

La conversión de texto a voz (TTS), que permite a los modelos de OpenAI convertir un texto escrito en un audio hablado, utilizando una arquitectura de redes neuronales recurrentes con 1,2 mil millones de parámetros.

Por ejemplo, el modelo TTS puede leer un texto en diferentes idiomas, acentos, tonos y velocidades.

Estas capacidades multimodales se pueden combinar entre sí o con otras capacidades de OpenAI, como el lenguaje natural, el código o la asistencia, para crear aplicaciones más ricas y variadas.

Por ejemplo, se puede crear un chatbot que pueda ver, hablar y generar imágenes, o una aplicación que pueda traducir un texto y leerlo en voz alta

Función de llamadas de multifunciones

OpenAI mejoró la función de llamada de funciones, que ahora permite a los usuarios solicitar múltiples acciones en un único mensaje, mejorando la precisión en la selección de los parámetros de las funciones.

La función de llamada de funciones de OpenAI es una característica que permite a los usuarios solicitar al modelo que ejecute una o más funciones definidas por el desarrollador, como buscar información, crear contenido, resolver problemas o entretenerse.

El modelo genera una salida JSON que contiene los argumentos de la función, que se pueden utilizar para llamar a la función desde el código del desarrollador.

OpenAI mejoró la función de llamada de funciones en su evento DevDay el 6 de noviembre de 2023.

Algunas de las mejoras son:

Ahora permite a los usuarios solicitar múltiples acciones en un único mensaje, lo que mejora la experiencia del usuario y la eficiencia de la comunicación.

Por ejemplo, el usuario puede pedir al modelo que busque hoteles en París, que reserve un vuelo y que genere un itinerario, todo en una sola solicitud.

Mejora la precisión en la selección de los parámetros de las funciones, utilizando técnicas de procesamiento del lenguaje natural y de aprendizaje automático para extraer la información relevante del texto del usuario.

Por ejemplo, el modelo puede identificar correctamente el nombre, la fecha, la hora y el lugar de una reunión a partir de una frase natural.

Añade soporte para llamadas a funciones en paralelo, lo que permite al modelo ejecutar varias funciones al mismo tiempo y combinar los resultados en una sola respuesta.

Por ejemplo, el modelo puede buscar el tiempo, el tráfico y las noticias locales de una ciudad y presentarlos en un formato resumido.

Estas mejoras hacen que la función de llamada de funciones sea más potente, flexible y fácil de usar, lo que abre nuevas posibilidades para crear aplicaciones de asistencia AI con objetivos definidos y la capacidad de llamar a modelos y herramientas de OpenAI

OpenAI redujo los costos en la plataforma, ofreciendo tokens de entrada tres veces más baratos y tokens de salida dos veces más baratos que GPT-4, y lanzó una nueva versión de GPT-3.5 Turbo con mejoras en la ejecución de instrucciones y soporte para llamadas a funciones en paralelo.

Referencias;

openai.com/new-models-and-developer-products-announced-at-devday

¿Qué ha pasado en Google? The March 2024 Core Update

01/05/2024

En marzo de 2024 google lanzó una actualización de algoritmo que ha barrido literalmente a muchos sitios web, que con total certeza, no son nada sospechosos de utilizar malas prácticas, de cara a google,

Mejores Hostings en España en 2024: La Comparativa Definitiva

20/04/2024

En este post se analizarán las comparativas de hostigs para determinar si éstas se ajustan a las necesidades reales de un posible cliente potencial. Servicios de Alojamiento web ó Hostings para alojar tu

¿Existen los Quality Raters? Qué son Quality Raters de Google

13/04/2024

Los Quality Raters de Google son un grupo de personas en todo el mundo que ayudan a mejorar la calidad de los resultados de búsqueda de Google. No son máquinas, son personas reales que trabajan

5 Formas en que el Marketing de Contenidos Impacta tu Blog

12/04/2024

Luego de que tu blog se convirtiera en un lugar en el que puedes promocionar tus servicios, el marketing de contenidos es una herramienta fundamental para el éxito de cualquier Blog. Si sientes que

DBRX: Nuevo Modelo LLM Open Source de última Generación

28/03/2024

DBRX es un modelo de lenguaje grande (LLM) de código abierto y de uso general desarrollado por Databricks. Se basa en una arquitectura de decodificador único con Transformer y se entrenó utilizando la predicción

Cómo Maximizar tu Estrategia de Marketing Digital utilizando IA

26/03/2024

Muchos creen que ChatGPT es la solución para todo, y no es así. Sin embargo, puedes maximizar tu estrategia de marketing digital utilizando la IA. Hay un mundo de grandes oportunidades, mucho más allá