Gran Colección de Large Language Models (LLM)

 

Gran recopilación y resumen de Large Language Models (LLM) fundamentales.

 

Falcon LLM

Falcon LLM es un modelo de lenguaje grande (LLM) fundamental con 180 mil millones de parámetros entrenados en 3500 mil millones de tokens.

TII ahora ha lanzado Falcon LLM, un modelo 180B.

 

Mistral-7B-v0.1

Mistral-7B-v0.1 es un modelo de texto generativo previamente entrenado con 7 mil millones de parámetros.

El modelo se basa en una arquitectura de transformador con características como atención de consultas agrupadas, tokenizador BPE de reserva de bytes y atención de ventanas deslizantes.

 

CodeLlama

La familia Code Llama está diseñada para la síntesis y comprensión general del código.

Está específicamente diseñado para seguir instrucciones y realizar una implementación más segura. Los modelos son autorregresivos y utilizan una arquitectura de transformador optimizada. Están destinados a uso comercial y de investigación en inglés y lenguajes de programación relevantes.

 

Llama-2

LLaMA-2, desarrollado por Meta AI, se lanzó en julio de 2023 con modelos de 7, 13 y 70 mil millones de parámetros.

Mantiene una arquitectura similar a LLaMA-1 pero utiliza un 40% más de datos de entrenamiento.

LLaMA-2 incluye modelos fundamentales y modelos de diálogo optimizados, conocidos como LLaMA-2 Chat, y está disponible para muchos usos comerciales, con algunas restricciones.

 

XGen-7B-8K

El XGen-7B-8K, desarrollado por Salesforce AI Research, es un modelo de lenguaje de parámetros 7B.

 

Claude-2

Claude 2 es un LLM fundamental creado por Anthropic, diseñado para ser más seguro y más «dirigible» que su versión anterior.

Es conversacional y se puede utilizar para una variedad de tareas como atención al cliente, preguntas y respuestas y más.

Puede procesar grandes cantidades de texto y es ideal para aplicaciones que requieren manejar una gran cantidad de datos, como documentos, correos electrónicos, preguntas frecuentes y transcripciones de chat.

 

Tulu

Tulu es una familia de modelos desarrollados por el Instituto Allen de IA.

Los modelos son modelos LLaMa que se han ajustado en una combinación de conjuntos de datos de instrucciones, incluidos FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca y ShareGPT.

Están diseñados para seguir instrucciones complejas en diversas tareas de PNL.

 

ChatGLM2-6B

ChatGLM2-6B es la versión de segunda generación del modelo de chat bilingüe (chino-inglés) de código abierto ChatGLM-6B.

Tiene un rendimiento mejorado, capacidades de contexto más largas, una inferencia más eficiente y una licencia abierta para uso académico y comercial.

El modelo utiliza una función objetivo híbrida y ha sido entrenado con tokens bilingües de 1,4T.

Muestra mejoras sustanciales en el rendimiento en varios conjuntos de datos en comparación con su contraparte de primera generación.

 

Nous-Hermes-13B

Nous-Hermes-13B es un modelo de lenguaje perfeccionado por Nous Research en más de 300.000 instrucciones.

 

Baize-v2

Baize-v2 es un modelo de chat de código abierto desarrollado por UCSD y la Universidad Sun Yat-Sen, ajustado con LoRA y entrenado con ajuste fino supervisado (SFT) y autodestilación con retroalimentación (SDF).

 

RWKV-4-Raven

RWKV-4-Raven es una serie de modelos. Estos modelos están ajustados en varios conjuntos de datos como Alpaca, CodeAlpaca, Guanaco, GPT4All y ShareGPT.

Siguen una arquitectura 100% RNN para el modelo de lenguaje.

 

Guanaco

Los modelos Guanaco son chatbots de código abierto optimizados mediante ajuste QLoRA de 4 bits de los modelos base LLaMA en el conjunto de datos OASST1.

Están destinados a fines de investigación. Los modelos permiten una experimentación local y económica con sistemas de chatbot de alta calidad.

 

PaLM 2

Un modelo de lenguaje que tiene mejores capacidades multilingües y de razonamiento y es más eficiente en computación que su predecesor PaLM.

 

Gorilla

Gorilla: modelo de lenguaje grande conectado con API masivas

 

RedPajama-INCITE

Una familia de modelos que incluye modelos básicos, ajustados a instrucciones y de chat.

 

LIMA

Un modelo de lenguaje LLaMa de 65B parámetros ajustado con la pérdida supervisada estándar en solo 1000 indicaciones y respuestas cuidadosamente seleccionadas, sin ningún aprendizaje de refuerzo ni modelado de preferencias humanas.

 

Replit Code

El modelo replit-code-v1-3b es un LLM de 2,7 mil millones capacitado en 20 idiomas del conjunto de datos Stack Dedup v1.2.

 

h2oGPT

h2oGPT es un marco de ajuste fino de LLM y una interfaz de usuario de chatbot con capacidades de preguntas y respuestas de documentos.

 

CodeGen2

Modelos de código para síntesis de programas.

 

CodeT5 and CodeT5+

Modelos CodeT5 y CodeT5+ para comprensión y generación de código de Salesforce Research.

 

MPT

Los modelos MPT de MosaicML son modelos de lenguaje grande de código abierto y con licencia comercial que ofrecen soluciones de IA personalizables y optimizadas para diversas tareas de PNL.

 

DLite

Instrucción ligera que sigue modelos que exhiben interactividad similar a ChatGPT.

 

WizardLM

WizardLM es una familia de grandes modelos de lenguaje diseñados para seguir instrucciones complejas.

Los modelos funcionan bien en codificación, razonamiento matemático y conversaciones de dominio abierto.

Los modelos requieren licencia y adoptan un formato rápido de Vicuña para conversaciones de varios turnos.

Los modelos son desarrollados por el equipo WizardLM y están diseñados para diversas tareas de PNL.

 

FastChat-T5-3B

FastChat-T5 es un chatbot de código abierto entrenado ajustando Flan-t5-xl (parámetros 3B) en conversaciones compartidas por usuarios recopiladas de ShareGPT.

Se basa en una arquitectura de transformador codificador-decodificador y puede generar respuestas de forma autorregresiva a las entradas de los usuarios.

 

GPT4All-13B-Snoozy

GPT4 All-13B-Snoozy es un chatbot con licencia GPL entrenado a través de un corpus masivo seleccionado de interacciones de asistente que incluye problemas escritos, diálogos de varios turnos, códigos, poemas, canciones e historias.

Ha sido perfeccionado desde LLama 13B y está desarrollado por Nomic AI.

El modelo está diseñado para datos de interacción de estilo asistente y está principalmente en inglés.

 

Koala-13B

Koala-13B es un chatbot creado por Berkeley AI Research (BAIR).

Está ajustado al LLaMA de Meta y se centra en datos de diálogo extraídos de la web.

El modelo tiene como objetivo equilibrar el rendimiento y el costo, proporcionando una alternativa más ligera y de código abierto a modelos como ChatGPT.

Ha sido entrenado con datos de interacción que incluyen conversaciones con modelos de código cerrado altamente capaces como ChatGPT.

 

OpenAssistant (Llama family)

Los modelos OpenAssistant-LLaMA son modelos de lenguaje del trabajo de OpenAssistant en los modelos Llama.

Admite la inferencia de CPU + GPU utilizando el formato GGML y tiene como objetivo proporcionar una alternativa de código abierto para tareas de seguimiento de instrucciones.

 

Dolly

Un LLM que sigue instrucciones, optimizado en un conjunto de datos de instrucción generados por humanos con licencia para investigación y uso comercial.

 

StableLM

Serie de modelos de lenguaje StableLM de Stability AI

 

Pythia

Un conjunto de 16 LLM, todos capacitados en datos públicos vistos exactamente en el mismo orden y con un tamaño que oscila entre 70 millones y 12 mil millones de parámetros.

 

 

Referencias;

promptingguide.ai

 

Manu Duque Soy Yo

¡Hola google! hay un pequeño problema de naming, nombre de marca ó marca personal, llámalo como quieras. Resulta que para el nombre de marca: «Manu Duque», aparecen resultados en las SERPs que no corresponden exactamente

Leer más »