Grandes Modelos de Lenguaje (LLM) alternativos a GPT-3

Por Manu Duque

Los grandes modelos de lenguaje (LLM) son herramientas de IA que pueden leer, resumir y traducir texto.

Pueden predecir palabras y crear oraciones que reflejen cómo escriben y hablan los humanos.

Los grandes modelos de idiomas se alimentan con extractos de texto que se han oscurecido o enmascarado parcialmente.

¿Qué es Large Language Model (LLM)?

Large Language Model es un gran modelo de lenguaje (LLM), es un tipo de modelo de aprendizaje automático que puede realizar una variedad de tareas de procesamiento de lenguaje natural (NLP), que incluyen generar y clasificar texto, responder preguntas de manera conversacional y traducir texto de un idioma a otro.

La etiqueta «grande» se refiere a la cantidad de valores (parámetros) que el modelo puede cambiar de forma autónoma a medida que aprende.

Algunos de los LLM más destacados tienen cientos de miles de millones de parámetros.

Los LLM están capacitados con inmensas cantidades de datos y utilizan el aprendizaje auto supervisado para predecir el siguiente token en una oración, dado el contexto circundante.

El proceso se repite una y otra vez hasta que el modelo alcanza un nivel aceptable de precisión.

Una vez que se ha capacitado un LLM, se puede ajustar para una amplia gama de tareas de PNL, que incluyen:

Creación de chatbots conversacionales como ChatGPT.

Generación de texto para descripciones de productos, publicaciones de blog y artículos.

Responder preguntas frecuentes (FAQ) y enrutar las consultas de los clientes al ser humano más adecuado.

Analizar los comentarios de los clientes por correo electrónico, publicaciones en redes sociales y reseñas de productos.

Traducción de contenidos empresariales a diferentes idiomas.

Clasificación y categorización de grandes cantidades de datos de texto para un procesamiento y análisis más eficientes.

Los grandes modelos de lenguajes suelen tener una arquitectura basada en transformadores.

Este tipo de arquitectura de IA utiliza mecanismos de auto atención para calcular una suma ponderada para una secuencia de entrada y determinar dinámicamente qué tokens en la secuencia son más relevantes entre sí.

¿Para qué se utilizan los grandes modelos de lenguaje?

Los modelos de lenguaje extensos se usan para escenarios de few-shots y zero-shots cuando hay pocos o ningún dato personalizado disponible para entrenar el modelo.

Tanto los enfoques de few-shots como los de zero-shots requieren que el modelo de IA tenga un buen sesgo inductivo y la capacidad de aprender representaciones útiles a partir de datos limitados o inexistentes.

¿Cómo se entrenan los grandes modelos de lenguaje?

La mayoría de los LLM están pre-entrenados en un gran conjunto de datos de propósito general que es similar en distribución estadística al conjunto de datos de tareas específicas.

El propósito del entrenamiento previo es que el modelo aprenda funciones de alto nivel que se puedan transferir a la etapa de ajuste para tareas específicas.

El proceso de entrenamiento de un gran modelo de lenguaje requiere:

Preprocesamiento de los datos de texto para convertirlos en una representación numérica que se pueda introducir en el modelo.

Asignación aleatoria de los parámetros del modelo.

Introducir la representación numérica de los datos de texto en el modelo.

Usar una función de pérdida para medir la diferencia entre los resultados del modelo y la siguiente palabra real en una oración.

Optimización de los parámetros del modelo para minimizar la pérdida.

Repetir el proceso hasta que los resultados del modelo alcancen un nivel aceptable de precisión.

¿Cómo funcionan los grandes modelos de lenguaje?

Un gran modelo de lenguaje utiliza redes neuronales profundas para generar resultados basados en patrones aprendidos de los datos de entrenamiento.

Por lo general, un gran modelo de lenguaje es una implementación de una arquitectura de transformador.

Las arquitecturas de transformadores permiten que un modelo de aprendizaje automático identifique relaciones entre palabras en una oración, independientemente de su posición en la secuencia de texto, mediante el uso de mecanismos de auto atención.

A diferencia de las redes neuronales recurrentes (RNN), que utilizan la recurrencia como mecanismo principal para capturar relaciones entre tokens en una secuencia, las redes neuronales transformadoras utilizan la auto atención como mecanismo principal para capturar relaciones.

Las relaciones entre tokens en una secuencia se calculan utilizando puntajes de atención que representan qué tan importado es un token con respecto a los otros tokens en la secuencia de texto.

Ejemplos de Large Language Model (LLM)

Alpa
BioGPT
BLOOM
Cedille
ChatGPT
Chinchilla by DeepMind
Ctrl by Salesforce
Gopher by DeepMind
DeepMind RETRO
DialoGPT
DistilBERT
ERNIE Titan LLM
GLM-130B
Google BERT
Google GLaM
Google GShard
GPT-2
GPT-4
GPT-Neo
HyperCLOVA
Jurassic-1 Language Models
Google LaMDA
Macaw by AI2
Med-PaLM
Turing-NLG
Megatron NLG
Muse
NanoGPT
OpenAI Codex
OpenGPT-X
OPT-175B
Palmyra
Pathways Language Model (PaLM)
PLATO-XL by Baidu
SambaNova Systems
Switch Transformers by Google Brain
T0pp by BigScience
Textless NLP
Toolformer
UnifiedQA
WebGPT
Wu Dao 1.0 (Enlightment 1.0)
Wu Dao 2.0
Yandex YaLM
Yuan 1.0 by Inspur

Referencias; gpt3demo.com/alternative-language-models

Imagen; Designed by vectorpouch by Freepik

Grandes Modelos de Lenguaje (LLM) alternativos a GPT-3

¿Qué es Large Language Model (LLM)?

¿Para qué se utilizan los grandes modelos de lenguaje?

¿Cómo se entrenan los grandes modelos de lenguaje?

¿Cómo funcionan los grandes modelos de lenguaje?

Ejemplos de Large Language Model (LLM)

Cómo hacer que los agentes rindan cuentas: IA explicable (XAI)

Ciberseguridad en la era de los agentes autónomos

Cómo preparar tu negocio para la nueva legislación de IA

Estrategia IA: Guía para dominar la nueva era IA empresarial

ROI IA Agéntica: Retorno de inversión en Sistemas Autónomos

De la Experimentación a la Gran revolución IA Agéntica