Buscar
Cerrar este cuadro de búsqueda.

Guia de Modelos de Lenguaje (LLMs)

 

Guía de sugerencias de modelos donde se cubren algunos de los modelos de lenguaje recientes y cómo aplican con éxito las técnicas de prompting engineering más recientes y avanzadas.

Las capacidades de los modelos en una variedad de tareas y configuraciones de indicaciones, como indicaciones de pocos intentos, indicaciones de zero-shot y indicaciones de cadena de pensamiento.

Comprender estas capacidades es importante para comprender las limitaciones de estos modelos y cómo utilizarlos de forma eficaz.

En el panorama actual de la inteligencia artificial, los modelos de lenguaje han experimentado un crecimiento exponencial en sus capacidades.

Estos modelos, entrenados en grandes cantidades de datos, son capaces de realizar una amplia gama de tareas, desde la traducción de idiomas hasta la generación de textos creativos.

Sin embargo, para aprovechar al máximo su potencial, es fundamental dominar el arte del prompting engineering.

El prompting engineering es la disciplina que se encarga de crear indicaciones precisas y cuidadosamente diseñadas para guiar a los modelos de lenguaje hacia la producción de resultados específicos y de alta calidad.

Esta práctica implica una profunda comprensión de las capacidades del modelo, así como del lenguaje natural y las técnicas de aprendizaje automático.

Aquí presentamos una serie de sugerencias de modelos para algunos de los modelos de lenguaje más recientes y relevantes. Abordando cómo estos modelos implementan las técnicas de prompting engineering más avanzadas para lograr resultados excepcionales en diversas tareas.

 

 

Model Release Date Size (B) Checkpoints Description
Falcon LLM Sep 2023 7, 40, 180 Falcon-7B, Falcon-40B, Falcon-180B Falcon LLM es un modelo de lenguaje grande (LLM) fundamental con 180 mil millones de parámetros entrenados en 3500 mil millones de tokens. TII ahora ha lanzado Falcon LLM, un modelo 180B.
Mistral-7B-v0.1 Sep 2023 7 Mistral-7B-v0.1 Mistral-7B-v0.1 es un modelo de texto generativo previamente entrenado con 7 mil millones de parámetros. El modelo se basa en una arquitectura de transformador con características como atención de consultas agrupadas, tokenizador BPE de reserva de bytes y atención de ventanas deslizantes.
CodeLlama Aug 2023 7, 13, 34 CodeLlama-7B, CodeLlama-13B, CodeLlama-34B La familia Code Llama está diseñada para la síntesis y comprensión general del código. Está específicamente diseñado para seguir instrucciones y realizar una implementación más segura. Los modelos son autorregresivos y utilizan una arquitectura de transformador optimizada. Están destinados a uso comercial y de investigación en inglés y lenguajes de programación relevantes.
Llama-2 Jul 2023 7, 13, 70 Llama-2-7B, Llama-2-13B, Llama-2-70B LLaMA-2, desarrollado por Meta AI, se lanzó en julio de 2023 con modelos de 7, 13 y 70 mil millones de parámetros. Mantiene una arquitectura similar a LLaMA-1 pero utiliza un 40% más de datos de entrenamiento. LLaMA-2 incluye modelos fundamentales y modelos de diálogo optimizados, conocidos como LLaMA-2 Chat, y está disponible para muchos usos comerciales, con algunas restricciones.
XGen-7B-8K Jul 2023 7 XGen-7B-8K El XGen-7B-8K, desarrollado por Salesforce AI Research, es un modelo de lenguaje de parámetros 7B.
Claude-2 Jul 2023 130 Claude 2 es un LLM fundamental creado por Anthropic, diseñado para ser más seguro y más «dirigible» que su versión anterior. Es conversacional y se puede utilizar para una variedad de tareas como atención al cliente, preguntas y respuestas y más. Puede procesar grandes cantidades de texto y es ideal para aplicaciones que requieren manejar una gran cantidad de datos, como documentos, correos electrónicos, preguntas frecuentes y transcripciones de chat.
Tulu Jun 2023 7, 13, 30, 65 Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B Tulu es una familia de modelos desarrollados por el Instituto Allen de IA. Los modelos son modelos LLaMa que se han ajustado en una combinación de conjuntos de datos de instrucciones, incluidos FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca y ShareGPT. Están diseñados para seguir instrucciones complejas en diversas tareas de PNL.
ChatGLM2-6B Jun 2023 6 ChatGLM2-6B ChatGLM2-6B es la versión de segunda generación del modelo de chat bilingüe (chino-inglés) de código abierto ChatGLM-6B. Tiene un rendimiento mejorado, capacidades de contexto más largas, una inferencia más eficiente y una licencia abierta para uso académico y comercial. El modelo utiliza una función objetivo híbrida y ha sido entrenado con tokens bilingües de 1,4T. Muestra mejoras sustanciales en el rendimiento en varios conjuntos de datos en comparación con su contraparte de primera generación.
Nous-Hermes-13B Jun 2023 13 Nous-Hermes-13B Nous-Hermes-13B es un modelo de lenguaje perfeccionado por Nous Research en más de 300.000 instrucciones.
Baize-v2 May 2023 7, 13 Baize-v2-13B Baize-v2 es un modelo de chat de código abierto desarrollado por UCSD y la Universidad Sun Yat-Sen, ajustado con LoRA y entrenado con ajuste fino supervisado (SFT) y autodestilación con retroalimentación (SDF).
RWKV-4-Raven May 2023 1.5, 3, 7, 14 RWKV-4-Raven RWKV-4-Raven es una serie de modelos. Estos modelos están ajustados en varios conjuntos de datos como Alpaca, CodeAlpaca, Guanaco, GPT4All y ShareGPT. Siguen una arquitectura 100% RNN para el modelo de lenguaje.
Guanaco May 2023 7, 13, 33, 65 Guanaco-7B, Guanaco-13B, Guanaco-33BGuanaco-65B Los modelos Guanaco son chatbots de código abierto optimizados mediante ajuste QLoRA de 4 bits de los modelos base LLaMA en el conjunto de datos OASST1. Están destinados a fines de investigación. Los modelos permiten una experimentación local y económica con sistemas de chatbot de alta calidad.
PaLM 2 May 2023 Un modelo de lenguaje que tiene mejores capacidades multilingües y de razonamiento y es más eficiente en computación que su predecesor PaLM.
Gorilla May 2023 7 Gorilla Gorilla: modelo de lenguaje grande conectado con API masivas
RedPajama-INCITE May 2023 3, 7 RedPajama-INCITE Una familia de modelos que incluye modelos básicos, ajustados a instrucciones y de chat.
LIMA May 2023 65 Un modelo de lenguaje LLaMa de 65B parámetros ajustado con la pérdida supervisada estándar en solo 1000 indicaciones y respuestas cuidadosamente seleccionadas, sin ningún aprendizaje de refuerzo ni modelado de preferencias humanas.
Replit Code May 2023 3 Replit Code El modelo replit-code-v1-3b es un LLM de 2,7 mil millones capacitado en 20 idiomas del conjunto de datos Stack Dedup v1.2.
h2oGPT May 2023 7, 12, 20, 40 h2oGPT h2oGPT es un marco de ajuste fino de LLM y una interfaz de usuario de chatbot con capacidades de preguntas y respuestas de documentos.
CodeGen2 May 2023 1, 3, 7, 16 CodeGen2 Modelos de código para síntesis de programas.
CodeT5 and CodeT5+ May 2023 16 CodeT5 Modelos CodeT5 y CodeT5+ para comprensión y generación de código de Salesforce Research.
StarCoder May 2023 15 StarCoder StarCoder: un LLM de código de última generación
MPT May 2023 7, 30 MPT-7B, MPT-30B 30B (se abre en una nueva pestaña) Los modelos MPT de MosaicML son modelos de lenguaje grande de código abierto con licencia comercial que ofrecen soluciones de inteligencia artificial personalizables y optimizadas para diversas tareas de PNL.
DLite May 2023 0.124 – 1.5 DLite-v2-1.5B Instrucción ligera que sigue modelos que exhiben interactividad similar a ChatGPT.
WizardLM Apr 2023 70, 30, 13 WizardLM-13B), WizardLM-30B, WizardLM-70B WizardLM es una familia de grandes modelos de lenguaje diseñados para seguir instrucciones complejas. Los modelos funcionan bien en codificación, razonamiento matemático y conversaciones de dominio abierto. Los modelos requieren licencia y adoptan un formato rápido de Vicuña para conversaciones de varios turnos. Los modelos son desarrollados por el equipo WizardLM y están diseñados para diversas tareas de PNL.
FastChat-T5-3B Apr 2023 3 FastChat-T5-3B FastChat-T5 es un chatbot de código abierto entrenado ajustando Flan-t5-xl (parámetros 3B) en conversaciones compartidas por usuarios recopiladas de ShareGPT. Se basa en una arquitectura de transformador codificador-decodificador y puede generar respuestas de forma autorregresiva a las entradas de los usuarios.
GPT4All-13B-Snoozy Apr 2023 13 GPT4All-13B-Snoozy GPT4All-13B-Snoozy es un chatbot con licencia GPL entrenado a través de un corpus masivo seleccionado de interacciones de asistente que incluye problemas escritos, diálogos de varios turnos, códigos, poemas, canciones e historias. Ha sido perfeccionado desde LLama 13B y está desarrollado por Nomic AI. El modelo está diseñado para datos de interacción de estilo asistente y está principalmente en inglés.
Koala-13B Apr 2023 13 Koala-13B Koala-13B es un chatbot creado por Berkeley AI Research (BAIR). Está ajustado al LLaMA de Meta y se centra en datos de diálogo extraídos de la web. El modelo tiene como objetivo equilibrar el rendimiento y el costo, proporcionando una alternativa más ligera y de código abierto a modelos como ChatGPT. Ha sido entrenado con datos de interacción que incluyen conversaciones con modelos de código cerrado altamente capaces como ChatGPT.
OpenAssistant (Llama family) Apr 2023 30, 70 Llama2-30b-oasst, Llama2-70b-oasst Los modelos OpenAssistant-LLaMA son modelos de lenguaje del trabajo de OpenAssistant en los modelos Llama. Admite la inferencia de CPU + GPU utilizando el formato GGML y tiene como objetivo proporcionar una alternativa de código abierto para tareas de seguimiento de instrucciones.
Dolly Apr 2023 3, 7, 12 Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B Un LLM que sigue instrucciones, optimizado en un conjunto de datos de instrucción generados por humanos con licencia para investigación y uso comercial.
StableLM Apr 2023 3, 7 StableLM-Alpha-3B, StableLM-Alpha-7B Serie de modelos de lenguaje StableLM de Stability AI
Pythia Apr 2023 0.070 – 12 Pythia Un conjunto de 16 LLM, todos capacitados en datos públicos vistos exactamente en el mismo orden y con un tamaño que oscila entre 70 millones y 12 mil millones de parámetros.
Open Assistant Mar 2023 12 Open Assistant OpenAssistant es un asistente basado en chat que comprende tareas, puede interactuar con sistemas de terceros y recuperar información dinámicamente para hacerlo.
Med-PaLM 2 Mar 2023 Hacia la respuesta de preguntas médicas a nivel de expertos con modelos de lenguaje grandes
ChatGLM-6B Mar 2023 6 ChatGLM-6B ChatGLM-6B es un modelo de diálogo bilingüe chino-inglés de código abierto basado en la arquitectura del Modelo de lenguaje general (GLM) con 6,2 mil millones de parámetros. A pesar de que su pequeño tamaño causa algunos problemas de lógica fáctica o matemática, es apto para tareas de conversación, resúmenes y preguntas en chino debido a su entrenamiento en más de 1 billón de tokens en inglés y chino.
GPT-3.5-turbo Mar 2023 175 GPT-3.5-Turbo es el modelo de lenguaje avanzado de OpenAI optimizado para chat pero también funciona bien para tareas de finalización tradicionales. Ofrece un mejor rendimiento en todos los aspectos en comparación con GPT-3 y es 10 veces más barato por token.
Vicuna Mar 2023 7, 13, 33 Vicuna-7B, Vicuna-13B Vicuña es una familia de modelos de lenguaje autorregresivos basados en la arquitectura transformadora. Está optimizado por LLaMA y está destinado principalmente a la investigación de grandes modelos de lenguaje y chatbots. Está desarrollado por LMSYS y tiene una licencia no comercial.
Alpaca-13B Mar 2023 13 Alpaca es un modelo de lenguaje que sigue instrucciones perfeccionado a partir del LLaMA 7B de Meta. Está diseñado para que la investigación académica aborde cuestiones como la desinformación y la toxicidad. Alpaca está entrenada en demostraciones de seguimiento de instrucciones de 52K y apunta a ser una opción más accesible para el estudio académico. No está diseñado para uso comercial debido a problemas de licencia y seguridad.
Claude-1 Mar 2023 137 Claude es un modelo fundamental de lenguaje grande (LLM) creado por Anthropic. Está diseñado para ser un asistente de IA útil, honesto e inofensivo. Puede realizar una amplia variedad de tareas de procesamiento de textos y conversacionales y se puede acceder a él a través de una interfaz de chat y una API.
Cerebras-GPT Mar 2023 0.111 – 13 Cerebras-GPT Cerebras-GPT: modelos de lenguaje de computación abierta óptimos entrenados en el clúster de escala de oblea Cerebras
BloombergGPT Mar 2023 50 BloombergGPT: un gran modelo lingüístico para las finanzas
PanGu-Σ Mar 2023 1085 PanGu-Σ: hacia un modelo de lenguaje de billones de parámetros con computación heterogénea dispersa
GPT-4 Mar 2023 Informe técnico GPT-4
LLaMA Feb 2023 7, 13, 33, 65 LLaMA LLaMA: modelos de lenguaje básico abiertos y eficientes
ChatGPT Nov 2022 Un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas.
Galactica Nov 2022 0.125 – 120 Galactica Galáctica: un gran modelo de lenguaje para la ciencia.
mT0 Nov 2022 13 mT0-xxl Generalización interlingüe mediante ajuste multitarea
BLOOM Nov 2022 176 BLOOM BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B
U-PaLM Oct 2022 540 Trascendiendo las leyes de escala con un 0,1 % de cálculo adicional
UL2 Oct 2022 20 UL2, Flan-UL2 UL2: Unificación de paradigmas de aprendizaje de idiomas
Sparrow Sep 2022 70 Mejorar la alineación de los agentes de diálogo a través de juicios humanos específicos
Flan-T5 Oct 2022 11 Flan-T5-xxl Instrucción escalable: modelos de lenguaje perfeccionados
AlexaTM Aug 2022 20 AlexaTM 20B: Aprendizaje en pocas oportunidades utilizando un modelo Seq2Seq multilingüe a gran escala
GLM-130B Oct 2022 130 GLM-130B GLM-130B: un modelo abierto bilingüe preentrenado
OPT-IML Dec 2022 30, 175 OPT-IML OPT-IML: Metaaprendizaje de instrucción de modelo de lenguaje escalable a través de la lente de la generalización
OPT May 2022 175 OPT-13B, OPT-66B OPT: Modelos abiertos de lenguaje transformador previamente entrenados
PaLM Apr 2022 540 PaLM: ampliación del modelado del lenguaje con Pathways
Tk-Instruct Apr 2022 11 Tk-Instruct-11B Instrucciones sobrenaturales: generalización mediante instrucciones declarativas en más de 1600 tareas de PNL
GPT-NeoX-20B Apr 2022 20 GPT-NeoX-20B GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto
Chinchilla Mar 2022 70 Muestra que, para un presupuesto de computación, los mejores rendimientos no se logran con los modelos más grandes, sino con modelos más pequeños entrenados con más datos.
InstructGPT Mar 2022 175 Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana.
CodeGen Mar 2022 0.350 – 16 CodeGen CodeGen: un modelo de lenguaje grande abierto para código con síntesis de programas de múltiples turnos
AlphaCode Feb 2022 41 Generación de código a nivel de competencia con AlphaCode
MT-NLG Jan 2022 530 Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala
LaMDA Jan 2022 137 LaMDA: modelos de lenguaje para aplicaciones de diálogo
GLaM Dec 2021 1200 GLaM: escalamiento eficiente de modelos lingüísticos con una combinación de expertos
Gopher Dec 2021 280 Escalamiento de modelos de lenguaje: métodos, análisis y conocimientos de Training Gopher
WebGPT Dec 2021 175 WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos
Yuan 1.0 Oct 2021 245 Yuan 1.0: modelo de lenguaje preentrenado a gran escala en aprendizaje de pocas posibilidades y cero posibilidades
T0 Oct 2021 11 T0 La capacitación impulsada por tareas múltiples permite la generalización de tareas inmediatas
FLAN Sep 2021 137 Los modelos de lenguaje perfeccionados son aprendices de cero posibilidades
HyperCLOVA Sep 2021 82 ¿Qué cambios pueden traer los modelos lingüísticos a gran escala? Estudio intensivo sobre HyperCLOVA: transformadores preentrenados generativos coreanos a escala de miles de millones
ERNIE 3.0 Titan Jul 2021 10 ERNIE 3.0 Titan: Explorando la capacitación previa mejorada del conocimiento a mayor escala para la comprensión y generación del lenguaje
Jurassic-1 Aug 2021 178 Jurassic-1: Detalles técnicos y evaluación
ERNIE 3.0 Jul 2021 10 ERNIE 3.0: formación previa mejorada del conocimiento a gran escala para la comprensión y generación del lenguaje
Codex Jul 2021 12 Evaluación de modelos de lenguaje grandes entrenados en código
GPT-J-6B Jun 2021 6 GPT-J-6B Un modelo de generación de texto autorregresivo de 6 mil millones de parámetros entrenado en The Pile.
CPM-2 Jun 2021 198 CPM CPM-2: Modelos de lenguaje preentrenados rentables a gran escala
PanGu-α Apr 2021 13 PanGu-α PanGu-α: modelos de idioma chino preentrenados autorregresivos a gran escala con computación automática paralela
mT5 Oct 2020 13 mT5 mT5: un transformador de texto a texto preentrenado masivamente multilingüe
BART Jul 2020 BART Entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural
GShard Jun 2020 600 GShard: escalamiento de modelos gigantes con computación condicional y fragmentación automática
GPT-3 May 2020 175 Los modelos de lenguaje son aprendices de pocas oportunidades
CTRL Sep 2019 1.63 CTRL CTRL: un modelo de lenguaje transformador condicional para generación controlable
ALBERT Sep 2019 0.235 ALBERT Un BERT Lite para el aprendizaje autosupervisado de representaciones lingüísticas
XLNet Jun 2019 XLNet Preentrenamiento autorregresivo generalizado para la comprensión y generación del lenguaje
T5 Oct 2019 0.06 – 11 Flan-T5 Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto
GPT-2 Nov 2019 1.5 GPT-2 Los modelos de lenguaje son estudiantes multitarea sin supervisión
RoBERTa Jul 2019 0.125 – 0.355 RoBERTa Un enfoque de preentrenamiento BERT sólidamente optimizado
BERT Oct 2018 BERT Representaciones de codificadores bidireccionales de transformadores
GPT Jun 2018 GPT Mejorar la comprensión del lenguaje mediante preentrenamiento generativo