Arquitectura Transformer Aplicada a LLMs Large Language Models

 

La arquitectura Transformer es el pilar fundamental sobre el que se construyen los Large Language Models LLMs como GPT, BERT, LLaMA o Gemini.

Propuesta por primera vez en el paper «Attention Is All You Need» 2017, revolucionó el procesamiento del lenguaje natural al abandonar por completo las redes recurrentes RNN y convolucionales CNN, reemplazándolas por un mecanismo llamado autoatención self-attention.

 

El problema que resuelve el Transformer

Antes del Transformer, los modelos procesaban el texto de forma secuencial palabra por palabra, lo que dificultaba:

El paralelismo no se podían entrenar todas las palabras a la vez.

La captura de dependencias de largo alcance la información de palabras muy separadas se diluía.

El Transformer permite que cada palabra «vea» a todas las demás al mismo tiempo, gracias a la autoatención.

 

Componentes clave de la arquitectura Transformer en LLMs

 

Tokenización y embeddings

El texto de entrada se divide en tokens palabras o subpalabras.

Cada token se convierte en un número Token ID y luego en un vector denso mediante una capa de embeddings.

Este vector captura el significado semántico de la palabra.

 

Positional Encoding – Codificación posicional

Como el Transformer no procesa secuencialmente, necesita añadir información sobre la posición de cada token en la frase.

Se inyecta un vector de posición a cada embedding, típicamente mediante funciones seno y coseno o parámetros aprendibles.

 

Self-Attention – Mecanismo de autoatención

Es el corazón del Transformer. Para cada token se calculan tres vectores:

Query Q : Lo que el token busca.

Key K : Lo que cada token ofrece.

Value V : La información real que se transmite.

Se calcula la similitud entre Q y K de todos los pares de tokens atención, se normaliza con softmax y se usa como peso para sumar los Values.

El resultado es que cada token recibe información de toda la secuencia, ponderada por relevancia.

 

Multi-Head Attention – Atención multi-cabeza

En lugar de una sola atención, se ejecutan varias en paralelo cabezas, cada una aprendiendo diferentes tipos de relaciones sintácticas, semánticas, de referencia, etc.

Luego se concatenan los resultados.

 

Bloque Transformer se repite N veces

 

Cada bloque contiene:

Multi-Head Self-Attention

Add & Norm conexión residual + normalización por capas

Feed Forward Network FFN: Dos capas lineales con no linealidad intermedia

Add & Norm otra vez

Las conexiones residuales evitan la degradación del gradiente y aceleran el entrenamiento.

La FFN añade capacidad de cómputo no lineal.

 

Salida y generación

El último bloque produce vectores que pasan por una capa de  proyección lineal + softmax para obtener probabilidades sobre  el vocabulario.

En los LLMs generativos como GPT, se predice el siguiente token, se añade a la entrada y se repite el proceso de forma autorregresiva.

 

Entrenamiento de un LLM basado en Transformer

 

Objetivo: Predecir el siguiente token entrenamiento autorregresivo o enmascarar tokens aleatorios como en BERT.

Datos: Ingentes cantidades de texto libros, páginas web, artículos científicos, código, etc.

Optimización: Retropropagación backpropagation y descenso del gradiente.

Aprendizaje implícito: El modelo aprende gramática, hechos del mundo, razonamiento analógico y patrones lingüísticos sin anotaciones manuales.

 

 

Por qué el Transformer potencia los LLMs actuales

Ventaja Explicación
Alto paralelismo Todos los tokens se procesan simultáneamente en la atención, a diferencia de las RNN secuenciales.
Escalabilidad Al añadir más datos, más parámetros o más cómputo, el rendimiento mejora de forma predecible leyes de escala.
Contexto largo Puede capturar dependencias entre tokens muy distantes sin problema de desvanecimiento de gradiente.
Flexibilidad Sirve tanto para modelos solo decodificador GPT, solo codificador BERT o codificador-decodificador T5.

 

 

Limitaciones y evolución

A pesar de su éxito, el Transformer tiene un costo cuadrático respecto a la longitud del contexto O n², lo que dificulta manejar millones de tokens.

Por eso han surgido variantes como LongformerBigBird o Mamba basado en SSM.

El Transformer sigue siendo la arquitectura dominante en LLMs comerciales y de investigación.

 

La arquitectura Transformer permite a los LLMs procesar texto en paralelo, capturar relaciones complejas entre todas las palabras mediante autoatención y escalar eficientemente con más datos y cómputo.

 

Es la base de modelos como GPT-4ClaudeLLaMA y Gemini, y su diseño modular bloques repetidos, atención multi-cabeza, conexiones residuales explica por qué hoy podemos conversar con inteligencias artificiales que parecen comprender el lenguaje humano.

 

 

Input Processing – Procesamiento de la entrada

 

Tokenization

Divide el texto bruto en unidades más pequeñas llamadas tokens palabras, subpalabras o caracteres.

Función: Reducir la complejidad del texto y crear un vocabulario manejable para el modelo.

 

Token IDs

Asigna un número entero único a cada token del vocabulario.

Función: Convertir los tokens en una representación numérica que la máquina pueda procesar.

 

Embedding Layer

Convierte cada Token ID en un vector denso de números decimales embedding.

Función: Capturar relaciones semánticas y sintácticas entre tokens similares tienen vectores cercanos.

 

 

Positional Encoding

Añade información sobre la posición del token dentro de la secuencia por ejemplo, usando senos y cosenos o parámetros aprendibles.

Función: Como el Transformer no es recurrente, necesita saber el orden de las palabras.

 

 

Attention Mechanism Mecanismo de atención

 

Self-Attention

Permite que cada token examine todos los demás tokens de la secuencia para decidir a cuáles prestar más atención.

 

Query Q

Vector que representa “lo que el token actual está buscando” en otros tokens.

 

Key K

Vector que representa “lo que cada otro token ofrece” como posible información relevante.

 

Value V

Vector que contiene el contenido real del token, que se propagará si la atención es alta.

 

Attention Scores

Se calculan como el producto punto entre Query y Key normalizado.

Indican la relevancia entre un token y cada otro token.

 

Weighted Sum

Se multiplica cada Value por su atención score y se suman.

Función: Agregar la información relevante de toda la secuencia en la representación de cada token.

 

 

Transformer Block – Bloque Transformer, repetido N veces

 

Multi-Head Self-Attention

Ejecuta varios mecanismos de atención en paralelo varias cabezas y concatena los resultados.

Función: Capturar diferentes tipos de relaciones sintácticas, semánticas, de largo alcance simultáneamente.

 

Add & Norm

Add conexión residual: Suma la entrada original del bloque con la salida de la atención.

Norm Layer Normalization: normaliza los valores para estabilizar el entrenamiento.

Función: Evitar la degradación del gradiente y acelerar la convergencia.

 

 

Feed Forward Network FFN

Red de dos capas lineales con una no linealidad ReLU, GELU en medio.

Se aplica a cada token por separado.

Función: Transformar la representación obtenida por la atención y añadir capacidad de cómputo no lineal.

 

 

Segundo Add & Norm

Similar al anterior, pero después de la FFN.

Función: Mantener la estabilidad y permitir que la red aprenda identidad si es necesario.

 

 

Training Process Proceso de entrenamiento

 

Trained on massive text datasets

Se usa una gran cantidad de texto libros, web, artículos sin anotaciones manuales.

 

Objective: Next Token Prediction

El modelo aprende a predecir el siguiente token dada una secuencia anterior entrenamiento autorregresivo.

 

Learns grammar, facts, reasoning patterns

De forma implícita, el modelo captura reglas gramaticales, conocimiento factual y patrones de razonamiento.

 

Optimized using backpropagation and gradient descent

Se ajustan los pesos mediante retropropagación del error y descenso del gradiente.

 

 

Por qué los Transformer alimentan los LLMs

 

Highly parallelizable

A diferencia de las RNNs, todos los tokens se procesan en paralelo en atención.

 

Scales efficiently

Al aumentar datos y cómputo, el rendimiento mejora de forma predecible leyes de escala.

 

Captures long-context dependencies

La atención directa entre tokens lejanos evita la desaparición del gradiente recurrente.

 

Backbone of models like GPT, BERT, T5

Arquitectura base de los principales LLMs actuales.

 

Simple Flow Summary – Resumen del flujo

Input Text

Tokenización → Dividir en tokens

Embeddings → Vectores densos

Embeddings + Positional Encoding → Añadir orden

Transformer Layers Attention + FFN, repetido N veces

Output Probabilities softmax sobre el vocabulario

Generated Text muestreo de la distribución

 

 

Key Components Overview – Componentes clave

Componente Función principal
Tokenization Dividir texto en unidades manejables
Embeddings Convertir tokens a vectores semánticos
Positional Encoding Añadir información de orden
Self-Attention Modelar dependencias entre todos los tokens
Feed Forward Network Transformar representaciones y añadir no linealidad
Residual Connections Facilitar el flujo de gradientes y aprender identidad
Layer Normalization Normalizar activaciones para entrenamiento estable
Output Projection Proyectar la salida final al tamaño del vocabulario

 

 

 

 

 

Manu Duque
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Puedes revisar nuestra política en la página de Política de Privacidad, Condiciones de Uso y Cookies.