Arquitectura Transformer Aplicada a LLMs Large Language Models

Por Manu Duque

La arquitectura Transformer es el pilar fundamental sobre el que se construyen los Large Language Models LLMs como GPT, BERT, LLaMA o Gemini.

Propuesta por primera vez en el paper «Attention Is All You Need» 2017, revolucionó el procesamiento del lenguaje natural al abandonar por completo las redes recurrentes RNN y convolucionales CNN, reemplazándolas por un mecanismo llamado autoatención self-attention.

El problema que resuelve el Transformer

Antes del Transformer, los modelos procesaban el texto de forma secuencial palabra por palabra, lo que dificultaba:

El paralelismo no se podían entrenar todas las palabras a la vez.

La captura de dependencias de largo alcance la información de palabras muy separadas se diluía.

El Transformer permite que cada palabra «vea» a todas las demás al mismo tiempo, gracias a la autoatención.

Componentes clave de la arquitectura Transformer en LLMs

Tokenización y embeddings

El texto de entrada se divide en tokens palabras o subpalabras.

Cada token se convierte en un número Token ID y luego en un vector denso mediante una capa de embeddings.

Este vector captura el significado semántico de la palabra.

Positional Encoding – Codificación posicional

Como el Transformer no procesa secuencialmente, necesita añadir información sobre la posición de cada token en la frase.

Se inyecta un vector de posición a cada embedding, típicamente mediante funciones seno y coseno o parámetros aprendibles.

Self-Attention – Mecanismo de autoatención

Es el corazón del Transformer. Para cada token se calculan tres vectores:

Query Q : Lo que el token busca.

Key K : Lo que cada token ofrece.

Value V : La información real que se transmite.

Se calcula la similitud entre Q y K de todos los pares de tokens atención, se normaliza con softmax y se usa como peso para sumar los Values.

El resultado es que cada token recibe información de toda la secuencia, ponderada por relevancia.

Multi-Head Attention – Atención multi-cabeza

En lugar de una sola atención, se ejecutan varias en paralelo cabezas, cada una aprendiendo diferentes tipos de relaciones sintácticas, semánticas, de referencia, etc.

Luego se concatenan los resultados.

Bloque Transformer se repite N veces

Cada bloque contiene:

Multi-Head Self-Attention

Add & Norm conexión residual + normalización por capas

Feed Forward Network FFN: Dos capas lineales con no linealidad intermedia

Add & Norm otra vez

Las conexiones residuales evitan la degradación del gradiente y aceleran el entrenamiento.

La FFN añade capacidad de cómputo no lineal.

Salida y generación

El último bloque produce vectores que pasan por una capa de proyección lineal + softmax para obtener probabilidades sobre el vocabulario.

En los LLMs generativos como GPT, se predice el siguiente token, se añade a la entrada y se repite el proceso de forma autorregresiva.

Entrenamiento de un LLM basado en Transformer

Objetivo: Predecir el siguiente token entrenamiento autorregresivo o enmascarar tokens aleatorios como en BERT.

Datos: Ingentes cantidades de texto libros, páginas web, artículos científicos, código, etc.

Optimización: Retropropagación backpropagation y descenso del gradiente.

Aprendizaje implícito: El modelo aprende gramática, hechos del mundo, razonamiento analógico y patrones lingüísticos sin anotaciones manuales.

Por qué el Transformer potencia los LLMs actuales

Ventaja	Explicación
Alto paralelismo	Todos los tokens se procesan simultáneamente en la atención, a diferencia de las RNN secuenciales.
Escalabilidad	Al añadir más datos, más parámetros o más cómputo, el rendimiento mejora de forma predecible leyes de escala.
Contexto largo	Puede capturar dependencias entre tokens muy distantes sin problema de desvanecimiento de gradiente.
Flexibilidad	Sirve tanto para modelos solo decodificador GPT, solo codificador BERT o codificador-decodificador T5.

Limitaciones y evolución

A pesar de su éxito, el Transformer tiene un costo cuadrático respecto a la longitud del contexto O n², lo que dificulta manejar millones de tokens.

Por eso han surgido variantes como Longformer, BigBird o Mamba basado en SSM.

El Transformer sigue siendo la arquitectura dominante en LLMs comerciales y de investigación.

La arquitectura Transformer permite a los LLMs procesar texto en paralelo, capturar relaciones complejas entre todas las palabras mediante autoatención y escalar eficientemente con más datos y cómputo.

Es la base de modelos como GPT-4, Claude, LLaMA y Gemini, y su diseño modular bloques repetidos, atención multi-cabeza, conexiones residuales explica por qué hoy podemos conversar con inteligencias artificiales que parecen comprender el lenguaje humano.

Input Processing – Procesamiento de la entrada

Tokenization

Divide el texto bruto en unidades más pequeñas llamadas tokens palabras, subpalabras o caracteres.

Función: Reducir la complejidad del texto y crear un vocabulario manejable para el modelo.

Token IDs

Asigna un número entero único a cada token del vocabulario.

Función: Convertir los tokens en una representación numérica que la máquina pueda procesar.

Embedding Layer

Convierte cada Token ID en un vector denso de números decimales embedding.

Función: Capturar relaciones semánticas y sintácticas entre tokens similares tienen vectores cercanos.

Positional Encoding

Añade información sobre la posición del token dentro de la secuencia por ejemplo, usando senos y cosenos o parámetros aprendibles.

Función: Como el Transformer no es recurrente, necesita saber el orden de las palabras.

Attention Mechanism – Mecanismo de atención

Self-Attention

Permite que cada token examine todos los demás tokens de la secuencia para decidir a cuáles prestar más atención.

Query Q

Vector que representa “lo que el token actual está buscando” en otros tokens.

Key K

Vector que representa “lo que cada otro token ofrece” como posible información relevante.

Value V

Vector que contiene el contenido real del token, que se propagará si la atención es alta.

Attention Scores

Se calculan como el producto punto entre Query y Key normalizado.

Indican la relevancia entre un token y cada otro token.

Weighted Sum

Se multiplica cada Value por su atención score y se suman.

Función: Agregar la información relevante de toda la secuencia en la representación de cada token.

Transformer Block – Bloque Transformer, repetido N veces

Multi-Head Self-Attention

Ejecuta varios mecanismos de atención en paralelo varias cabezas y concatena los resultados.

Función: Capturar diferentes tipos de relaciones sintácticas, semánticas, de largo alcance simultáneamente.

Add & Norm

Add conexión residual: Suma la entrada original del bloque con la salida de la atención.

Norm Layer Normalization: normaliza los valores para estabilizar el entrenamiento.

Función: Evitar la degradación del gradiente y acelerar la convergencia.

Feed Forward Network FFN

Red de dos capas lineales con una no linealidad ReLU, GELU en medio.

Se aplica a cada token por separado.

Función: Transformar la representación obtenida por la atención y añadir capacidad de cómputo no lineal.

Segundo Add & Norm

Similar al anterior, pero después de la FFN.

Función: Mantener la estabilidad y permitir que la red aprenda identidad si es necesario.

Training Process – Proceso de entrenamiento

Trained on massive text datasets

Se usa una gran cantidad de texto libros, web, artículos sin anotaciones manuales.

Objective: Next Token Prediction

El modelo aprende a predecir el siguiente token dada una secuencia anterior entrenamiento autorregresivo.

Learns grammar, facts, reasoning patterns

De forma implícita, el modelo captura reglas gramaticales, conocimiento factual y patrones de razonamiento.

Optimized using backpropagation and gradient descent

Se ajustan los pesos mediante retropropagación del error y descenso del gradiente.

Por qué los Transformer alimentan los LLMs

Highly parallelizable

A diferencia de las RNNs, todos los tokens se procesan en paralelo en atención.

Scales efficiently

Al aumentar datos y cómputo, el rendimiento mejora de forma predecible leyes de escala.

Captures long-context dependencies

La atención directa entre tokens lejanos evita la desaparición del gradiente recurrente.

Backbone of models like GPT, BERT, T5

Arquitectura base de los principales LLMs actuales.

Simple Flow Summary – Resumen del flujo

Input Text

Tokenización → Dividir en tokens

Embeddings → Vectores densos

Embeddings + Positional Encoding → Añadir orden

Transformer Layers Attention + FFN, repetido N veces

Output Probabilities softmax sobre el vocabulario

Generated Text muestreo de la distribución

Key Components Overview – Componentes clave

Componente	Función principal
Tokenization	Dividir texto en unidades manejables
Embeddings	Convertir tokens a vectores semánticos
Positional Encoding	Añadir información de orden
Self-Attention	Modelar dependencias entre todos los tokens
Feed Forward Network	Transformar representaciones y añadir no linealidad
Residual Connections	Facilitar el flujo de gradientes y aprender identidad
Layer Normalization	Normalizar activaciones para entrenamiento estable
Output Projection	Proyectar la salida final al tamaño del vocabulario

Arquitectura Transformer Aplicada a LLMs Large Language Models

Componentes clave de la arquitectura Transformer en LLMs

Tokenización y embeddings

Positional Encoding – Codificación posicional

Self-Attention – Mecanismo de autoatención

Multi-Head Attention – Atención multi-cabeza

Entrenamiento de un LLM basado en Transformer

Input Processing – Procesamiento de la entrada

Attention Mechanism – Mecanismo de atención

Transformer Block – Bloque Transformer, repetido N veces

Feed Forward Network FFN

Segundo Add & Norm

Training Process – Proceso de entrenamiento

Highly parallelizable

Scales efficiently

Captures long-context dependencies

Backbone of models like GPT, BERT, T5

Simple Flow Summary – Resumen del flujo

Arquitectura Transformer Aplicada a LLMs Large Language Models

SEO vs. GEO: De posicionar URLs a ser Citado por la IA

Cognitive Market Engine CME™: Semantic Mind Ranking™

Cognitive Market Engine CME™: Neuro-Keywords™

Cognitive Market Engine CME™: Cognitive SERP Domination™

Cognitive Market Engine™ CME™: Cognitive Layer Inteligence