GPT-4V con visión (GPT-4V) permite a los usuarios indicarle a GPT-4 que analice las entradas de imágenes proporcionadas por el usuario.
Las modalidades, como entradas de imágenes en grandes modelos de lenguaje (LLM) son clave.
Frontera en la investigación y el desarrollo de Inteligencia Artificial.
Los LLM multimodales ofrecen la posibilidad de ampliar el impacto de los sistemas de lenguaje exclusivo con interfaces y nuevas capacidades, permitiéndoles resolver nuevas tareas y proporcionar experiencias novedosas a sus usuarios.
El trabajo en seguridad para GPT-4V se basa en el trabajo realizado para GPT-4.
De manera similar al GPT-4, el entrenamiento del GPT-4V se completó en 2022 con acceso al sistema en marzo de 2023.
Como GPT-4 es la tecnología detrás de las capacidades visuales de GPT-4V, su proceso de entrenamiento es el mismo.
El modelo previamente entrenado fue entrenado primero para predecir la siguiente palabra en un documento, utilizando también un gran conjunto de datos de texto e imágenes de Internet como fuentes de datos autorizadas.
Posteriormente se ajustó con datos adicionales, utilizando un algoritmo llamado Aprendizaje Reforzado a partir de la retroalimentación Humana (RLHF), para producir resultados que sean preferidos por entrenadores humanos.
Los grandes modelos multimodales introducen diferentes limitaciones y amplían la superficie de riesgo en comparación con modelos de lenguaje basados en texto.
GPT-4V posee las limitaciones y capacidades de cada modalidad (texto y visión), al mismo tiempo que presenta capacidades novedosas que surgen de la intersección de dichas modalidades y de la inteligencia y razonamiento que aportan los modelos a gran escala.
OpenAI entrenó las capacidades de visión de GPT-4 para su implementación.
Describiendo el período de acceso temprano del modelo para usuarios a pequeña escala y aprendizajes de seguridad OpenAI.
Obtenido evaluaciones multimodales creadas para estudiar la idoneidad del modelo para su implementación, hallazgos clave de los expertos del equipo rojo y las mitigaciones que OpenAI implementó antes del lanzamiento generalizado.
La capacidad de GPT-4V para procesar entradas multimodales entrelazadas arbitrariamente y la genérica de sus capacidades juntas hacen de GPT-4V un gran sistema generalista multimodal.
Para comprender los marcadores visuales dibujados en las imágenes de entrada puede dar lugar a nuevos métodos de interacción entre humanos y computadoras, como las indicaciones de referencia visual.
¿Qué son los Grandes Modelos de Lenguaje (LLM)?
Los grandes modelos de lenguaje representan en gran medida una clase de arquitecturas de aprendizaje profundo llamadas redes transformadoras.
Un modelo transformador es una red neuronal que aprende contexto y significado rastreando relaciones en datos secuenciales, como las palabras de esta oración.
Un transformador se compone de múltiples bloques de transformadores, también conocidos como capas.
Por ejemplo, un transformador tiene capas de autoatención, capas de retroalimentación y capas de normalización, todas trabajando juntas para descifrar la entrada y predecir flujos de salida en la inferencia.
Las capas se pueden apilar para crear transformadores más profundos y modelos de lenguaje potentes.
Google presentó por primera vez los transformadores en el artículo de 2017 “Attention Is All You Need.”
Hay dos innovaciones clave que hacen que los transformadores sean particularmente aptos para modelos de lenguaje grandes: codificaciones posicionales y autoatención.
La codificación posicional incorpora el orden en el que se produce la entrada dentro de una secuencia determinada.
Básicamente, en lugar de introducir palabras dentro de una oración de forma secuencial en la red neuronal, gracias a la codificación posicional, las palabras se pueden introducir de forma no secuencial.
La autoatención asigna un peso a cada parte de los datos de entrada mientras los procesa.
Este peso significa la importancia de esa entrada en contexto con el resto de la entrada.
Los modelos ya no tienen que dedicar la misma atención a todos los insumos y pueden centrarse en las partes de los insumos que realmente importan.
Esta representación de a qué partes de la entrada debe prestar atención la red neuronal se aprende con el tiempo a medida que el modelo tamiza y analiza montañas de datos.
Estas dos técnicas en conjunto permiten analizar las formas y contextos sutiles en los que distintos elementos influyen y se relacionan entre sí a largas distancias, de forma no secuencial.
La capacidad de procesar datos de forma no secuencial permite la descomposición del problema complejo en cálculos múltiples, más pequeños y simultáneos.
Las GPU son muy adecuadas para resolver este tipo de problemas en paralelo, lo que permite el procesamiento a gran escala de conjuntos de datos de gran escala sin etiquetar y enormes redes de transformadores.
¿Qué es un Gran Modelo Multimodal? Large Multimodal Model (LMM)
Los modelos de IA multimodal son sistemas de IA avanzados capaces de comprender y generar información a partir de múltiples modalidades o fuentes de datos, como texto, imágenes, audio y video.
A diferencia de los modelos de IA tradicionales, que se limitan a procesar un solo tipo de datos, los modelos multimodales pueden analizar y generar conocimientos a partir de varios tipos de datos, creando una comprensión más completa de los datos de entrada.
Los grandes modelos multimodales (LMM) amplían los grandes modelos de lenguaje (LLM) con habilidades multisensoriales, como la comprensión visual, para lograr una inteligencia genérica más fuerte.
Son algoritmos de aprendizaje profundo que pueden reconocer, resumir, traducir, predecir y generar contenido utilizando conjuntos de datos muy grandes.
Referencias;
openai.com/gpt-4v-system-card
cdn.openai.com/gpt-4v