Guía de sugerencias de modelos donde se cubren algunos de los modelos de lenguaje recientes y cómo aplican con éxito las técnicas de prompting engineering más recientes y avanzadas.
Las capacidades de los modelos en una variedad de tareas y configuraciones de indicaciones, como indicaciones de pocos intentos, indicaciones de zero-shot y indicaciones de cadena de pensamiento.
Comprender estas capacidades es importante para comprender las limitaciones de estos modelos y cómo utilizarlos de forma eficaz.
En el panorama actual de la inteligencia artificial, los modelos de lenguaje han experimentado un crecimiento exponencial en sus capacidades.
Estos modelos, entrenados en grandes cantidades de datos, son capaces de realizar una amplia gama de tareas, desde la traducción de idiomas hasta la generación de textos creativos.
Sin embargo, para aprovechar al máximo su potencial, es fundamental dominar el arte del prompting engineering.
El prompting engineering es la disciplina que se encarga de crear indicaciones precisas y cuidadosamente diseñadas para guiar a los modelos de lenguaje hacia la producción de resultados específicos y de alta calidad.
Esta práctica implica una profunda comprensión de las capacidades del modelo, así como del lenguaje natural y las técnicas de aprendizaje automático.
Aquí presentamos una serie de sugerencias de modelos para algunos de los modelos de lenguaje más recientes y relevantes. Abordando cómo estos modelos implementan las técnicas de prompting engineering más avanzadas para lograr resultados excepcionales en diversas tareas.
Model | Release Date | Size (B) | Checkpoints | Description |
---|---|---|---|---|
Falcon LLM | Sep 2023 | 7, 40, 180 | Falcon-7B, Falcon-40B, Falcon-180B | Falcon LLM es un modelo de lenguaje grande (LLM) fundamental con 180 mil millones de parámetros entrenados en 3500 mil millones de tokens. TII ahora ha lanzado Falcon LLM, un modelo 180B. |
Mistral-7B-v0.1 | Sep 2023 | 7 | Mistral-7B-v0.1 | Mistral-7B-v0.1 es un modelo de texto generativo previamente entrenado con 7 mil millones de parámetros. El modelo se basa en una arquitectura de transformador con características como atención de consultas agrupadas, tokenizador BPE de reserva de bytes y atención de ventanas deslizantes. |
CodeLlama | Aug 2023 | 7, 13, 34 | CodeLlama-7B, CodeLlama-13B, CodeLlama-34B | La familia Code Llama está diseñada para la síntesis y comprensión general del código. Está específicamente diseñado para seguir instrucciones y realizar una implementación más segura. Los modelos son autorregresivos y utilizan una arquitectura de transformador optimizada. Están destinados a uso comercial y de investigación en inglés y lenguajes de programación relevantes. |
Llama-2 | Jul 2023 | 7, 13, 70 | Llama-2-7B, Llama-2-13B, Llama-2-70B | LLaMA-2, desarrollado por Meta AI, se lanzó en julio de 2023 con modelos de 7, 13 y 70 mil millones de parámetros. Mantiene una arquitectura similar a LLaMA-1 pero utiliza un 40% más de datos de entrenamiento. LLaMA-2 incluye modelos fundamentales y modelos de diálogo optimizados, conocidos como LLaMA-2 Chat, y está disponible para muchos usos comerciales, con algunas restricciones. |
XGen-7B-8K | Jul 2023 | 7 | XGen-7B-8K | El XGen-7B-8K, desarrollado por Salesforce AI Research, es un modelo de lenguaje de parámetros 7B. |
Claude-2 | Jul 2023 | 130 | – | Claude 2 es un LLM fundamental creado por Anthropic, diseñado para ser más seguro y más «dirigible» que su versión anterior. Es conversacional y se puede utilizar para una variedad de tareas como atención al cliente, preguntas y respuestas y más. Puede procesar grandes cantidades de texto y es ideal para aplicaciones que requieren manejar una gran cantidad de datos, como documentos, correos electrónicos, preguntas frecuentes y transcripciones de chat. |
Tulu | Jun 2023 | 7, 13, 30, 65 | Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B | Tulu es una familia de modelos desarrollados por el Instituto Allen de IA. Los modelos son modelos LLaMa que se han ajustado en una combinación de conjuntos de datos de instrucciones, incluidos FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca y ShareGPT. Están diseñados para seguir instrucciones complejas en diversas tareas de PNL. |
ChatGLM2-6B | Jun 2023 | 6 | ChatGLM2-6B | ChatGLM2-6B es la versión de segunda generación del modelo de chat bilingüe (chino-inglés) de código abierto ChatGLM-6B. Tiene un rendimiento mejorado, capacidades de contexto más largas, una inferencia más eficiente y una licencia abierta para uso académico y comercial. El modelo utiliza una función objetivo híbrida y ha sido entrenado con tokens bilingües de 1,4T. Muestra mejoras sustanciales en el rendimiento en varios conjuntos de datos en comparación con su contraparte de primera generación. |
Nous-Hermes-13B | Jun 2023 | 13 | Nous-Hermes-13B | Nous-Hermes-13B es un modelo de lenguaje perfeccionado por Nous Research en más de 300.000 instrucciones. |
Baize-v2 | May 2023 | 7, 13 | Baize-v2-13B | Baize-v2 es un modelo de chat de código abierto desarrollado por UCSD y la Universidad Sun Yat-Sen, ajustado con LoRA y entrenado con ajuste fino supervisado (SFT) y autodestilación con retroalimentación (SDF). |
RWKV-4-Raven | May 2023 | 1.5, 3, 7, 14 | RWKV-4-Raven | RWKV-4-Raven es una serie de modelos. Estos modelos están ajustados en varios conjuntos de datos como Alpaca, CodeAlpaca, Guanaco, GPT4All y ShareGPT. Siguen una arquitectura 100% RNN para el modelo de lenguaje. |
Guanaco | May 2023 | 7, 13, 33, 65 | Guanaco-7B, Guanaco-13B, Guanaco-33BGuanaco-65B | Los modelos Guanaco son chatbots de código abierto optimizados mediante ajuste QLoRA de 4 bits de los modelos base LLaMA en el conjunto de datos OASST1. Están destinados a fines de investigación. Los modelos permiten una experimentación local y económica con sistemas de chatbot de alta calidad. |
PaLM 2 | May 2023 | – | – | Un modelo de lenguaje que tiene mejores capacidades multilingües y de razonamiento y es más eficiente en computación que su predecesor PaLM. |
Gorilla | May 2023 | 7 | Gorilla | Gorilla: modelo de lenguaje grande conectado con API masivas |
RedPajama-INCITE | May 2023 | 3, 7 | RedPajama-INCITE | Una familia de modelos que incluye modelos básicos, ajustados a instrucciones y de chat. |
LIMA | May 2023 | 65 | – | Un modelo de lenguaje LLaMa de 65B parámetros ajustado con la pérdida supervisada estándar en solo 1000 indicaciones y respuestas cuidadosamente seleccionadas, sin ningún aprendizaje de refuerzo ni modelado de preferencias humanas. |
Replit Code | May 2023 | 3 | Replit Code | El modelo replit-code-v1-3b es un LLM de 2,7 mil millones capacitado en 20 idiomas del conjunto de datos Stack Dedup v1.2. |
h2oGPT | May 2023 | 7, 12, 20, 40 | h2oGPT | h2oGPT es un marco de ajuste fino de LLM y una interfaz de usuario de chatbot con capacidades de preguntas y respuestas de documentos. |
CodeGen2 | May 2023 | 1, 3, 7, 16 | CodeGen2 | Modelos de código para síntesis de programas. |
CodeT5 and CodeT5+ | May 2023 | 16 | CodeT5 | Modelos CodeT5 y CodeT5+ para comprensión y generación de código de Salesforce Research. |
StarCoder | May 2023 | 15 | StarCoder | StarCoder: un LLM de código de última generación |
MPT | May 2023 | 7, 30 | MPT-7B, MPT-30B | 30B (se abre en una nueva pestaña) Los modelos MPT de MosaicML son modelos de lenguaje grande de código abierto con licencia comercial que ofrecen soluciones de inteligencia artificial personalizables y optimizadas para diversas tareas de PNL. |
DLite | May 2023 | 0.124 – 1.5 | DLite-v2-1.5B | Instrucción ligera que sigue modelos que exhiben interactividad similar a ChatGPT. |
WizardLM | Apr 2023 | 70, 30, 13 | WizardLM-13B), WizardLM-30B, WizardLM-70B | WizardLM es una familia de grandes modelos de lenguaje diseñados para seguir instrucciones complejas. Los modelos funcionan bien en codificación, razonamiento matemático y conversaciones de dominio abierto. Los modelos requieren licencia y adoptan un formato rápido de Vicuña para conversaciones de varios turnos. Los modelos son desarrollados por el equipo WizardLM y están diseñados para diversas tareas de PNL. |
FastChat-T5-3B | Apr 2023 | 3 | FastChat-T5-3B | FastChat-T5 es un chatbot de código abierto entrenado ajustando Flan-t5-xl (parámetros 3B) en conversaciones compartidas por usuarios recopiladas de ShareGPT. Se basa en una arquitectura de transformador codificador-decodificador y puede generar respuestas de forma autorregresiva a las entradas de los usuarios. |
GPT4All-13B-Snoozy | Apr 2023 | 13 | GPT4All-13B-Snoozy | GPT4All-13B-Snoozy es un chatbot con licencia GPL entrenado a través de un corpus masivo seleccionado de interacciones de asistente que incluye problemas escritos, diálogos de varios turnos, códigos, poemas, canciones e historias. Ha sido perfeccionado desde LLama 13B y está desarrollado por Nomic AI. El modelo está diseñado para datos de interacción de estilo asistente y está principalmente en inglés. |
Koala-13B | Apr 2023 | 13 | Koala-13B | Koala-13B es un chatbot creado por Berkeley AI Research (BAIR). Está ajustado al LLaMA de Meta y se centra en datos de diálogo extraídos de la web. El modelo tiene como objetivo equilibrar el rendimiento y el costo, proporcionando una alternativa más ligera y de código abierto a modelos como ChatGPT. Ha sido entrenado con datos de interacción que incluyen conversaciones con modelos de código cerrado altamente capaces como ChatGPT. |
OpenAssistant (Llama family) | Apr 2023 | 30, 70 | Llama2-30b-oasst, Llama2-70b-oasst | Los modelos OpenAssistant-LLaMA son modelos de lenguaje del trabajo de OpenAssistant en los modelos Llama. Admite la inferencia de CPU + GPU utilizando el formato GGML y tiene como objetivo proporcionar una alternativa de código abierto para tareas de seguimiento de instrucciones. |
Dolly | Apr 2023 | 3, 7, 12 | Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B | Un LLM que sigue instrucciones, optimizado en un conjunto de datos de instrucción generados por humanos con licencia para investigación y uso comercial. |
StableLM | Apr 2023 | 3, 7 | StableLM-Alpha-3B, StableLM-Alpha-7B | Serie de modelos de lenguaje StableLM de Stability AI |
Pythia | Apr 2023 | 0.070 – 12 | Pythia | Un conjunto de 16 LLM, todos capacitados en datos públicos vistos exactamente en el mismo orden y con un tamaño que oscila entre 70 millones y 12 mil millones de parámetros. |
Open Assistant | Mar 2023 | 12 | Open Assistant | OpenAssistant es un asistente basado en chat que comprende tareas, puede interactuar con sistemas de terceros y recuperar información dinámicamente para hacerlo. |
Med-PaLM 2 | Mar 2023 | – | – | Hacia la respuesta de preguntas médicas a nivel de expertos con modelos de lenguaje grandes |
ChatGLM-6B | Mar 2023 | 6 | ChatGLM-6B | ChatGLM-6B es un modelo de diálogo bilingüe chino-inglés de código abierto basado en la arquitectura del Modelo de lenguaje general (GLM) con 6,2 mil millones de parámetros. A pesar de que su pequeño tamaño causa algunos problemas de lógica fáctica o matemática, es apto para tareas de conversación, resúmenes y preguntas en chino debido a su entrenamiento en más de 1 billón de tokens en inglés y chino. |
GPT-3.5-turbo | Mar 2023 | 175 | – | GPT-3.5-Turbo es el modelo de lenguaje avanzado de OpenAI optimizado para chat pero también funciona bien para tareas de finalización tradicionales. Ofrece un mejor rendimiento en todos los aspectos en comparación con GPT-3 y es 10 veces más barato por token. |
Vicuna | Mar 2023 | 7, 13, 33 | Vicuna-7B, Vicuna-13B | Vicuña es una familia de modelos de lenguaje autorregresivos basados en la arquitectura transformadora. Está optimizado por LLaMA y está destinado principalmente a la investigación de grandes modelos de lenguaje y chatbots. Está desarrollado por LMSYS y tiene una licencia no comercial. |
Alpaca-13B | Mar 2023 | 13 | – | Alpaca es un modelo de lenguaje que sigue instrucciones perfeccionado a partir del LLaMA 7B de Meta. Está diseñado para que la investigación académica aborde cuestiones como la desinformación y la toxicidad. Alpaca está entrenada en demostraciones de seguimiento de instrucciones de 52K y apunta a ser una opción más accesible para el estudio académico. No está diseñado para uso comercial debido a problemas de licencia y seguridad. |
Claude-1 | Mar 2023 | 137 | – | Claude es un modelo fundamental de lenguaje grande (LLM) creado por Anthropic. Está diseñado para ser un asistente de IA útil, honesto e inofensivo. Puede realizar una amplia variedad de tareas de procesamiento de textos y conversacionales y se puede acceder a él a través de una interfaz de chat y una API. |
Cerebras-GPT | Mar 2023 | 0.111 – 13 | Cerebras-GPT | Cerebras-GPT: modelos de lenguaje de computación abierta óptimos entrenados en el clúster de escala de oblea Cerebras |
BloombergGPT | Mar 2023 | 50 | – | BloombergGPT: un gran modelo lingüístico para las finanzas |
PanGu-Σ | Mar 2023 | 1085 | – | PanGu-Σ: hacia un modelo de lenguaje de billones de parámetros con computación heterogénea dispersa |
GPT-4 | Mar 2023 | – | – | Informe técnico GPT-4 |
LLaMA | Feb 2023 | 7, 13, 33, 65 | LLaMA | LLaMA: modelos de lenguaje básico abiertos y eficientes |
ChatGPT | Nov 2022 | – | – | Un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas. |
Galactica | Nov 2022 | 0.125 – 120 | Galactica | Galáctica: un gran modelo de lenguaje para la ciencia. |
mT0 | Nov 2022 | 13 | mT0-xxl | Generalización interlingüe mediante ajuste multitarea |
BLOOM | Nov 2022 | 176 | BLOOM | BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B |
U-PaLM | Oct 2022 | 540 | – | Trascendiendo las leyes de escala con un 0,1 % de cálculo adicional |
UL2 | Oct 2022 | 20 | UL2, Flan-UL2 | UL2: Unificación de paradigmas de aprendizaje de idiomas |
Sparrow | Sep 2022 | 70 | – | Mejorar la alineación de los agentes de diálogo a través de juicios humanos específicos |
Flan-T5 | Oct 2022 | 11 | Flan-T5-xxl | Instrucción escalable: modelos de lenguaje perfeccionados |
AlexaTM | Aug 2022 | 20 | – | AlexaTM 20B: Aprendizaje en pocas oportunidades utilizando un modelo Seq2Seq multilingüe a gran escala |
GLM-130B | Oct 2022 | 130 | GLM-130B | GLM-130B: un modelo abierto bilingüe preentrenado |
OPT-IML | Dec 2022 | 30, 175 | OPT-IML | OPT-IML: Metaaprendizaje de instrucción de modelo de lenguaje escalable a través de la lente de la generalización |
OPT | May 2022 | 175 | OPT-13B, OPT-66B | OPT: Modelos abiertos de lenguaje transformador previamente entrenados |
PaLM | Apr 2022 | 540 | – | PaLM: ampliación del modelado del lenguaje con Pathways |
Tk-Instruct | Apr 2022 | 11 | Tk-Instruct-11B | Instrucciones sobrenaturales: generalización mediante instrucciones declarativas en más de 1600 tareas de PNL |
GPT-NeoX-20B | Apr 2022 | 20 | GPT-NeoX-20B | GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto |
Chinchilla | Mar 2022 | 70 | – | Muestra que, para un presupuesto de computación, los mejores rendimientos no se logran con los modelos más grandes, sino con modelos más pequeños entrenados con más datos. |
InstructGPT | Mar 2022 | 175 | – | Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana. |
CodeGen | Mar 2022 | 0.350 – 16 | CodeGen | CodeGen: un modelo de lenguaje grande abierto para código con síntesis de programas de múltiples turnos |
AlphaCode | Feb 2022 | 41 | – | Generación de código a nivel de competencia con AlphaCode |
MT-NLG | Jan 2022 | 530 | – | Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala |
LaMDA | Jan 2022 | 137 | – | LaMDA: modelos de lenguaje para aplicaciones de diálogo |
GLaM | Dec 2021 | 1200 | – | GLaM: escalamiento eficiente de modelos lingüísticos con una combinación de expertos |
Gopher | Dec 2021 | 280 | – | Escalamiento de modelos de lenguaje: métodos, análisis y conocimientos de Training Gopher |
WebGPT | Dec 2021 | 175 | – | WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos |
Yuan 1.0 | Oct 2021 | 245 | – | Yuan 1.0: modelo de lenguaje preentrenado a gran escala en aprendizaje de pocas posibilidades y cero posibilidades |
T0 | Oct 2021 | 11 | T0 | La capacitación impulsada por tareas múltiples permite la generalización de tareas inmediatas |
FLAN | Sep 2021 | 137 | – | Los modelos de lenguaje perfeccionados son aprendices de cero posibilidades |
HyperCLOVA | Sep 2021 | 82 | – | ¿Qué cambios pueden traer los modelos lingüísticos a gran escala? Estudio intensivo sobre HyperCLOVA: transformadores preentrenados generativos coreanos a escala de miles de millones |
ERNIE 3.0 Titan | Jul 2021 | 10 | – | ERNIE 3.0 Titan: Explorando la capacitación previa mejorada del conocimiento a mayor escala para la comprensión y generación del lenguaje |
Jurassic-1 | Aug 2021 | 178 | – | Jurassic-1: Detalles técnicos y evaluación |
ERNIE 3.0 | Jul 2021 | 10 | – | ERNIE 3.0: formación previa mejorada del conocimiento a gran escala para la comprensión y generación del lenguaje |
Codex | Jul 2021 | 12 | – | Evaluación de modelos de lenguaje grandes entrenados en código |
GPT-J-6B | Jun 2021 | 6 | GPT-J-6B | Un modelo de generación de texto autorregresivo de 6 mil millones de parámetros entrenado en The Pile. |
CPM-2 | Jun 2021 | 198 | CPM | CPM-2: Modelos de lenguaje preentrenados rentables a gran escala |
PanGu-α | Apr 2021 | 13 | PanGu-α | PanGu-α: modelos de idioma chino preentrenados autorregresivos a gran escala con computación automática paralela |
mT5 | Oct 2020 | 13 | mT5 | mT5: un transformador de texto a texto preentrenado masivamente multilingüe |
BART | Jul 2020 | – | BART | Entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural |
GShard | Jun 2020 | 600 | – | GShard: escalamiento de modelos gigantes con computación condicional y fragmentación automática |
GPT-3 | May 2020 | 175 | – | Los modelos de lenguaje son aprendices de pocas oportunidades |
CTRL | Sep 2019 | 1.63 | CTRL | CTRL: un modelo de lenguaje transformador condicional para generación controlable |
ALBERT | Sep 2019 | 0.235 | ALBERT | Un BERT Lite para el aprendizaje autosupervisado de representaciones lingüísticas |
XLNet | Jun 2019 | – | XLNet | Preentrenamiento autorregresivo generalizado para la comprensión y generación del lenguaje |
T5 | Oct 2019 | 0.06 – 11 | Flan-T5 | Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto |
GPT-2 | Nov 2019 | 1.5 | GPT-2 | Los modelos de lenguaje son estudiantes multitarea sin supervisión |
RoBERTa | Jul 2019 | 0.125 – 0.355 | RoBERTa | Un enfoque de preentrenamiento BERT sólidamente optimizado |
BERT | Oct 2018 | – | BERT | Representaciones de codificadores bidireccionales de transformadores |
GPT | Jun 2018 | – | GPT | Mejorar la comprensión del lenguaje mediante preentrenamiento generativo |