GPT-4 Generative Pre-trained Transformer 4 es un modelo de lenguaje grande (LLM) creado por OpenAI.
Se lanzó el 14 de marzo de 2023 y está disponible a través de la API y para los usuarios de ChatGPT Plus.
Como modelo basado en transformer, GPT-4 fue preentrenado para predecir el siguiente token, utilizando tanto datos públicos como «datos con licencia de proveedores de terceros», y luego fue ajustado mediante aprendizaje por refuerzo a partir de retroalimentación humana e Inteligencia Artificial (IA), para lograr una alineación con el ser humano y cumplir con las políticas.
¿Qué es la Inteligencia Articial GPT-4?
GPT-4 es un sistema de procesamiento del modelo de lenguaje mediante la Inteligencia Artificial de OpenAI.
GPT-4 es la innovación de los sistemas de procesamiento de lenguaje que precede a los modelos GPT-3 y GPT-2.
¿Qué es GPT?
GPT es el acrónomino de GUID Partition Table, Tabla de Partición GUID, es el nuevo estándar comparado con el MBR introducido por primera vez como parte de la iniciativa de la UEFI,Unified Extensible Firmware Interface, interfaz de firmware extensible unificada.
La tabla de particiones GUID es un estándar para configurar las tablas de particiones de los medios de almacenamiento, especialmente los discos duros.
GPT forma parte de la UEFI, siglas de Unified Extensible Firmware Interface, interfaz de firmware extensible unificada, una especificación que define la interfaz entre el firmware y los sistemas operativos durante el proceso de arranque, desarrollada y lanzada en 2000 como sucesora de BIOS.
¿Qué es OpenAI?
OpenAI es una compañía de investigación de inteligencia artificial sin fines de lucro que tiene como objetivo promover y desarrollar la inteligencia artificial para que beneficie a la humanidad de manera general.
OpenAI fue fundada como una entidad de investigación de IA sin fines de lucro en 2015 por Sam Altman, Elon Musk y otros, quienes invirtieron $ 1 mil millones.
En 2019, Musk dejó OpenAI debido a una diferencia de opinión.
Actualmente el CEO de OpenAI es Sam Stalman.
Microsoft invirtió cerca de mil millones de dólares en OpenAI y obteniendo acceso exclusivo al código fuente GPT-3.
OpenAI compite directamente con el laboratorio de investigación de inteligencia artificial DeepMind, de Google.
En 2021, OpenAI descubrió redes neuronales dentro de los sistemas de IA que semejantes a las neuronas dentro del cerebro humano.
Las neuronas multimodales son una de las redes neuronales más avanzadas.
OpenAI también lanzó su modelo de generación de texto a imagen basado en la arquitectura de transformadores llamado DALL-E.
SamAltman manifestó que GPT-4 no será más grande que GPT-3 pero utilizará más recursos informáticos, trabajando con todos los diferentes aspectos de GPT, incluidos los algoritmos de datos.
En la naturaleza de GPT-4 no se considera una comparación directa de tamaño con los modelos más populares, por ejemplo, GPT-3, LaMDA y PaLM.
GPT-4 sería multimodal y aceptaría entradas de texto, audio, imagen y posiblemente vídeo.
Debido a que la multimodalidad es el futuro de la IA, no solo porque nuestro cerebro es multisensorial, sino porque el mundo es multimodal.
Como demuestra un grupo de investigadores de Google al publicar un estudio que muestra que un modelo mucho más pequeño que GPT-3, FLAN, ofreció mejores resultados.
Mostrando que el ajuste de instrucciones en una colección de conjuntos de datasets a través de instrucciones mejora sustancialmente el rendimiento de zeroshot en tareas no vistas.
GPT-4 se enfocaría más en la codificación, Codex, descendiente de GPT-3.
Codex también es la base para GitHub Copilot, que comprende más de 12 idiomas y también puede interpretar comandos simples en lenguaje natural y ejecutarlos en nombre de los usuarios, lo que permite crear una interfaz de lenguaje natural para las aplicaciones existentes.
Descripción general del ajuste de instrucciones y FLAN.
En el momento de la inferencia, evaluando en un tipo de tarea; por ejemplo, evaluar el modelo sobre la inferencia del lenguaje natural (NLI) cuando no se observaron tareas de NLI durante el ajuste de instrucciones.
Rendimiento de FLAN de zeroshot, en comparación con GPT-3 de zeroshot, en tres tipos de tareas invisibles donde el ajuste de instrucciones ofrece un rendimiento mejorado sustancialmente.
Comparación del ajuste de instrucciones con preentrenamiento, ajuste fino e indicaciones.
Conjuntos de datos y grupos de tareas utilizados; tareas NLU en azul; tareas NLG en verde azulado.
Múltiples plantillas de instrucciones que describen una tarea de inferencia de lenguaje natural.
Rendimiento de zeroshot de FLAN en comparación con LaMDA-PT 137B, GPT-3 175B y GLaM 64B/64E sobre inferencia de lenguaje natural, comprensión de lectura, control de calidad a libro cerrado y traducción.
El rendimiento de FLAN es la media de hasta 10 plantillas de instrucciones por tarea.
Modelos supervisados T5, BERT o de traducción, especificados en la T2 y la T1 en el Apéndice.
Clústeres utilizados para el ajuste de instrucciones.
Agregar grupos de tareas adicionales al ajuste de instrucciones mejora el rendimiento de zeroshot en grupos de tareas retenidas. Las tareas de evaluación son las siguientes.
Sentido común: CoPA, HellaSwag,PiQA y StoryCloze. NLI: ANLI R1–R3, QNLI, RTE, SNLI y WNLI.
Control de calidad de libro cerrado: ARC fácil, desafío ARC, preguntas naturales y TriviaQA.
Además que el ajuste de instrucciones ayuda a grandes modelos, los modelos se generalizan a nuevas tareas, para modelos pequeños en realidad perjudica la generalización a tareas no vistas, posiblemente porque toda la capacidad del modelo se usa para aprender el combinación de tareas de ajuste de instrucciones.
Resultado del estudio utilizando modelos con instrucciones eliminadas del ajuste fino (FT).
Agregar ejemplares de pocas tomas a FLAN es un método complementario para mejorar el rendimiento de los modelos ajustados a las instrucciones.
Las barras naranjas indican la desviación estándar entre plantillas, promediadas a nivel de conjunto de datos para cada grupo de tareas.
Instrucción sintonizada, los modelos responden mejor a las entradas continuas de la sintonización rápida.
Sintonizar rápidamente un determinado conjunto de datos, no hay tareas del mismo grupo, como ese conjunto de datos durante el ajuste de instrucciones.
El rendimiento mostrado es el promedio de el conjunto de desarrollo de SuperGLUE.
En todos los escenarios, la sintonización rápida funciona mejor con FLAN que con LaMDA-PT.
En muchos casos, especialmente para la Configuración de bajos recursos, la sintonización rápida en FLAN logra una mejora de más del 10% sobre sintonía rápida en el LaMDA-PT.
Este resultado ejemplifica de otra manera cómo el ajuste de instrucciones puede dar como resultado un punto de control que es más deseable para realizar tareas de PNL.
¿En qué se diferencian las instrucciones de FLAN de las indicaciones de GPT-3 o T5?
La solicitud de GPT-3 se realiza de tal manera que la solicitud se ve como datos que el modelo ha sido pre entrenado, y el modelo termina la continuación.
Las indicaciones de T5 son solo una etiqueta para el conjunto de datos, que no funcionaría en la configuración de zeroshot.
Te puede interesar;
Herramientas para crear imágenes con inteligencia artificial
GPT-3: ¿Qué es y cómo funciona la inteligencia artificial GPT-3?
Cómo la IA está revolucionando la creación de textos.
LaMDA: La inteligencia artificial IA de google.
Herramientas de inteligencia artificial para crear textos.
¿Es la Inteligencia OpenAI ChatGPT la evolución a Google?
CURSO; ChatGPT Prompt Engineering for Developers
Referencias:
analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours // openai-launches-100-mn-fund-to-catch-ai-startups-young/
arxiv.org/pdf/2109.01652.pdf
news.knowledia.com/US/en/articles/sam-altman-q-and-a-gpt-and-agi-lesswrong
towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it
thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
github.com/google-research/flan