Buscar
Cerrar este cuadro de búsqueda.

Grandes Modelos de Lenguaje (LLM) alternativos a GPT-3

 

Los grandes modelos de lenguaje (LLM) son herramientas de IA que pueden leer, resumir y traducir texto.

Pueden predecir palabras y crear oraciones que reflejen cómo escriben y hablan los humanos.

Los grandes modelos de idiomas se alimentan con extractos de texto que se han oscurecido o enmascarado parcialmente.

 

¿Qué es Large Language Model (LLM)?

 

 

Large Language Model es un gran modelo de lenguaje (LLM), es un tipo de modelo de aprendizaje automático que puede realizar una variedad de tareas de procesamiento de lenguaje natural (NLP), que incluyen generar y clasificar texto, responder preguntas de manera conversacional y traducir texto de un idioma a otro.

La etiqueta «grande» se refiere a la cantidad de valores (parámetros) que el modelo puede cambiar de forma autónoma a medida que aprende.

 

Algunos de los LLM más destacados tienen cientos de miles de millones de parámetros.

Los LLM están capacitados con inmensas cantidades de datos y utilizan el aprendizaje auto supervisado para predecir el siguiente token en una oración, dado el contexto circundante.

El proceso se repite una y otra vez hasta que el modelo alcanza un nivel aceptable de precisión.

 

Una vez que se ha capacitado un LLM, se puede ajustar para una amplia gama de tareas de PNL, que incluyen:

Creación de chatbots conversacionales como ChatGPT.

Generación de texto para descripciones de productos, publicaciones de blog y artículos.

 

Responder preguntas frecuentes (FAQ) y enrutar las consultas de los clientes al ser humano más adecuado.

Analizar los comentarios de los clientes por correo electrónico, publicaciones en redes sociales y reseñas de productos.

Traducción de contenidos empresariales a diferentes idiomas.

 

Clasificación y categorización de grandes cantidades de datos de texto para un procesamiento y análisis más eficientes.

Los grandes modelos de lenguajes suelen tener una arquitectura basada en transformadores.

 

Este tipo de arquitectura de IA utiliza mecanismos de auto atención para calcular una suma ponderada para una secuencia de entrada y determinar dinámicamente qué tokens en la secuencia son más relevantes entre sí.

 

 

¿Para qué se utilizan los grandes modelos de lenguaje?

 

Los modelos de lenguaje extensos se usan para escenarios de few-shots y zero-shots cuando hay pocos o ningún dato personalizado disponible para entrenar el modelo.

Tanto los enfoques de few-shots como los de zero-shots requieren que el modelo de IA tenga un buen sesgo inductivo y la capacidad de aprender representaciones útiles a partir de datos limitados o inexistentes.

 

 

¿Cómo se entrenan los grandes modelos de lenguaje?

 

 

La mayoría de los LLM están pre-entrenados en un gran conjunto de datos de propósito general que es similar en distribución estadística al conjunto de datos de tareas específicas.

El propósito del entrenamiento previo es que el modelo aprenda funciones de alto nivel que se puedan transferir a la etapa de ajuste para tareas específicas.

El proceso de entrenamiento de un gran modelo de lenguaje requiere:

 

Preprocesamiento de los datos de texto para convertirlos en una representación numérica que se pueda introducir en el modelo.

Asignación aleatoria de los parámetros del modelo.

Introducir la representación numérica de los datos de texto en el modelo.

 

Usar una función de pérdida para medir la diferencia entre los resultados del modelo y la siguiente palabra real en una oración.

Optimización de los parámetros del modelo para minimizar la pérdida.

Repetir el proceso hasta que los resultados del modelo alcancen un nivel aceptable de precisión.

 

 

¿Cómo funcionan los grandes modelos de lenguaje?

 

Un gran modelo de lenguaje utiliza redes neuronales profundas para generar resultados basados en patrones aprendidos de los datos de entrenamiento.

Por lo general, un gran modelo de lenguaje es una implementación de una arquitectura de transformador.

 

Las arquitecturas de transformadores permiten que un modelo de aprendizaje automático identifique relaciones entre palabras en una oración, independientemente de su posición en la secuencia de texto, mediante el uso de mecanismos de auto atención.

 

A diferencia de las redes neuronales recurrentes (RNN), que utilizan la recurrencia como mecanismo principal para capturar relaciones entre tokens en una secuencia, las redes neuronales transformadoras utilizan la auto atención como mecanismo principal para capturar relaciones.

 

Las relaciones entre tokens en una secuencia se calculan utilizando puntajes de atención que representan qué tan importado es un token con respecto a los otros tokens en la secuencia de texto.

 

 

Ejemplos de Large Language Model (LLM)

 

  • Alpa
  • BioGPT
  • BLOOM
  • Cedille
  • ChatGPT
  • Chinchilla by DeepMind
  • Ctrl by Salesforce
  • Gopher by DeepMind
  • DeepMind RETRO
  • DialoGPT
  • DistilBERT
  • ERNIE Titan LLM
  • GLM-130B
  • Google BERT
  • Google GLaM
  • Google GShard
  • GPT-2
  • GPT-4
  • GPT-Neo
  • HyperCLOVA
  • Jurassic-1 Language Models
  • Google LaMDA
  • Macaw by AI2
  • Med-PaLM
  • Turing-NLG
  • Megatron NLG
  • Muse
  • NanoGPT
  • OpenAI Codex
  • OpenGPT-X
  • OPT-175B
  • Palmyra
  • Pathways Language Model (PaLM)
  • PLATO-XL by Baidu
  • SambaNova Systems
  • Switch Transformers by Google Brain
  • T0pp by BigScience
  • Textless NLP
  • Toolformer
  • UnifiedQA
  • WebGPT
  • Wu Dao 1.0 (Enlightment 1.0)
  • Wu Dao 2.0
  • Yandex YaLM
  • Yuan 1.0 by Inspur

 

 

Referencias; gpt3demo.com/alternative-language-models

Imagen;  Designed by vectorpouch by Freepik

 

Manu Duque Soy Yo

¡Hola google! hay un pequeño problema de naming, nombre de marca ó marca personal, llámalo como quieras. Resulta que para el nombre de marca: «Manu Duque», aparecen resultados en las SERPs que no corresponden exactamente

Leer más »