Grandes Modelos de Lenguaje (LLM) alternativos a GPT-3

 

Los modelos de lenguaje extensos (LLM) son herramientas de IA que pueden leer, resumir y traducir texto.

 

Pueden predecir palabras y crear oraciones que reflejen cómo escriben y hablan los humanos.

 

Los grandes modelos de idiomas se alimentan con extractos de texto que se han oscurecido o enmascarado parcialmente.

 

 

¿Qué es Large Language Model (LLM)?

 

 

Large Language Model es un gran modelo de lenguaje (LLM), es un tipo de modelo de aprendizaje automático que puede realizar una variedad de tareas de procesamiento de lenguaje natural (NLP), que incluyen generar y clasificar texto, responder preguntas de manera conversacional y traducir texto de un idioma a otro.

 

La etiqueta «grande» se refiere a la cantidad de valores (parámetros) que el modelo puede cambiar de forma autónoma a medida que aprende.

 

Algunos de los LLM más destacados tienen cientos de miles de millones de parámetros.

 

Los LLM están capacitados con inmensas cantidades de datos y utilizan el aprendizaje auto supervisado para predecir el siguiente token en una oración, dado el contexto circundante.

 

El proceso se repite una y otra vez hasta que el modelo alcanza un nivel aceptable de precisión.

 

Una vez que se ha capacitado un LLM, se puede ajustar para una amplia gama de tareas de PNL, que incluyen:

 

Creación de chatbots conversacionales como ChatGPT.

 

Generación de texto para descripciones de productos, publicaciones de blog y artículos.

 

Responder preguntas frecuentes (FAQ) y enrutar las consultas de los clientes al ser humano más adecuado.

 

Analizar los comentarios de los clientes por correo electrónico, publicaciones en redes sociales y reseñas de productos.

 

Traducción de contenidos empresariales a diferentes idiomas.

 

Clasificación y categorización de grandes cantidades de datos de texto para un procesamiento y análisis más eficientes.

 

Los grandes modelos de lenguajes suelen tener una arquitectura basada en transformadores.

 

Este tipo de arquitectura de IA utiliza mecanismos de auto atención para calcular una suma ponderada para una secuencia de entrada y determinar dinámicamente qué tokens en la secuencia son más relevantes entre sí.

 

 

¿Para qué se utilizan los grandes modelos de lenguaje?

 

Los modelos de lenguaje extensos se usan para escenarios de few-shots y zero-shots cuando hay pocos o ningún dato personalizado disponible para entrenar el modelo.

 

Tanto los enfoques de few-shots como los de zero-shots requieren que el modelo de IA tenga un buen sesgo inductivo y la capacidad de aprender representaciones útiles a partir de datos limitados o inexistentes.

 

 

¿Cómo se entrenan los grandes modelos de lenguaje?

 

 

La mayoría de los LLM están pre-entrenados en un gran conjunto de datos de propósito general que es similar en distribución estadística al conjunto de datos de tareas específicas.

 

El propósito del entrenamiento previo es que el modelo aprenda funciones de alto nivel que se puedan transferir a la etapa de ajuste para tareas específicas.

 

El proceso de entrenamiento de un gran modelo de lenguaje requiere:

 

Preprocesamiento de los datos de texto para convertirlos en una representación numérica que se pueda introducir en el modelo.

 

Asignación aleatoria de los parámetros del modelo.

 

Introducir la representación numérica de los datos de texto en el modelo.

 

Usar una función de pérdida para medir la diferencia entre los resultados del modelo y la siguiente palabra real en una oración.

 

Optimización de los parámetros del modelo para minimizar la pérdida.

 

Repetir el proceso hasta que los resultados del modelo alcancen un nivel aceptable de precisión.

 

 

¿Cómo funcionan los grandes modelos de lenguaje?

 

Un gran modelo de lenguaje utiliza redes neuronales profundas para generar resultados basados en patrones aprendidos de los datos de entrenamiento.

 

Por lo general, un gran modelo de lenguaje es una implementación de una arquitectura de transformador.

 

Las arquitecturas de transformadores permiten que un modelo de aprendizaje automático identifique relaciones entre palabras en una oración, independientemente de su posición en la secuencia de texto, mediante el uso de mecanismos de auto atención.

 

A diferencia de las redes neuronales recurrentes (RNN), que utilizan la recurrencia como mecanismo principal para capturar relaciones entre tokens en una secuencia, las redes neuronales transformadoras utilizan la auto atención como mecanismo principal para capturar relaciones.

 

Las relaciones entre tokens en una secuencia se calculan utilizando puntajes de atención que representan qué tan importado es un token con respecto a los otros tokens en la secuencia de texto.

 

 

Ejemplos de Large Language Model (LLM)

 

  • Alpa
  • BioGPT
  • BLOOM
  • Cedille
  • ChatGPT
  • Chinchilla by DeepMind
  • Ctrl by Salesforce
  • Gopher by DeepMind
  • DeepMind RETRO
  • DialoGPT
  • DistilBERT
  • ERNIE Titan LLM
  • GLM-130B
  • Google BERT
  • Google GLaM
  • Google GShard
  • GPT-2
  • GPT-4
  • GPT-Neo
  • HyperCLOVA
  • Jurassic-1 Language Models
  • Google LaMDA
  • Macaw by AI2
  • Med-PaLM
  • Turing-NLG
  • Megatron NLG
  • Muse
  • NanoGPT
  • OpenAI Codex
  • OpenGPT-X
  • OPT-175B
  • Palmyra
  • Pathways Language Model (PaLM)
  • PLATO-XL by Baidu
  • SambaNova Systems
  • Switch Transformers by Google Brain
  • T0pp by BigScience
  • Textless NLP
  • Toolformer
  • UnifiedQA
  • WebGPT
  • Wu Dao 1.0 (Enlightment 1.0)
  • Wu Dao 2.0
  • Yandex YaLM
  • Yuan 1.0 by Inspur

 

 

Referencias; gpt3demo.com/alternative-language-models

Imagen;  Designed by vectorpouch by Freepik

 

H2O GPT: La Gran alternativa a ChatGPT

  H2O GPT (Generative Pretraining Transformer) es una tecnología de aprendizaje automático que está revolucionando el campo del procesamiento del lenguaje natural. Desarrollada por la empresa de inteligencia artificial H2O.ai, esta tecnología utiliza un enfoque novedoso

Leer más »

28 Preguntas Frecuentes FAQ de ChatGPT

  Las preguntas más frecuentes, Frequently Asked Questions (FAQ), generadas con el uso de ChatGPT expuestas de manera clara para que puedas entender, diferenciar conceptos y aclarar dudas de por qué ChatGPT es una de las herramientas más útiles

Leer más »

Google BARD: Bot Conversacional de Inteligencia Artificial (IA)

  Google Bard es un bot conversacional de Inteligencia Artificial desarrollado por Google basado en la familia LaMDA, Modelo de lenguaje para aplicaciones de diálogo.   En noviembre de 2022, OpenAI lanzó ChatGPT, un bot conversacional basado en la familia GPT-3 de modelos lingüísticos.​   Se desarrolló como

Leer más »
error: Alert: Este contenido está Protegido © !!