Q-Learning es un algoritmo de aprendizaje por refuerzo Reinforcement Learning (RL).
Basado en valores que permite a un agente aprender.
La mejor estrategia o política para tomar decisiones.
En un entorno interactivo.
Se utiliza cuando el agente necesita maximizar.
Una recompensa acumulada.
En un problema de decisión secuencial.
Características Principales de Q-Learning
Modelo basado en valores
Q-Learning utiliza una tabla o función Q (s,a)
Llamada función Q, que estima el valor esperado.
De tomar una acción a en un estado s.
Aprendizaje sin modelo
Q-Learning no requiere un conocimiento previo del entorno.
Modelo de transición.
El agente aprende directamente de la interacción con el entorno.
Política óptima
Al final del entrenamiento el agente puede derivar.
Una política óptima seleccionando la acción.
Con el mayor valor Q en cada estado.
Convergencia
Con suficiente exploración y bajo ciertas condiciones.
Q-Learning converge a la política óptima.
Definición Matemática
La función Q (s,a) es una representación del valor esperado.
De la recompensa acumulada futura.
El agente obtendrá tomando la acción a en el estado s
Siguiendo la política óptima en adelante.
La fórmula de actualización de Q-Learning:
Donde:
s: Estado actual.
a: Acción tomada en s.
r: Recompensa recibida por tomar a en s.
s′: Estado siguiente después de tomar a.
α: Tasa de aprendizaje (learning rate).
γ: Factor de descuento, que determina la importancia de las recompensas futuras.
max a′ Q (s′,a′) Máximo valor esperado para el próximo estado s′
considerando todas las acciones posibles.
Proceso de Q-Learning
Inicialización
Iniciar una tabla Q (s,a) con valores arbitrarios.
Cero para todos los estados y acciones posibles.
Interacción con el entorno
El agente observa su estado actual sss.
Selecciona una acción a basada en una política.
ϵ-greedy
Ejecutar la acción
El entorno responde proporcionando una recompensa.
r y un nuevo estado s′.
Actualización de Q
Calcular el valor actualizado de Q (s,a)
Usando la fórmula de actualización.
Repetir
Continuar hasta que se cumpla un criterio de parada.
Un número de episodios o convergencia del valor Q.
Exploración vs. Explotación
Q-Learning equilibra la exploración.
Probar nuevas acciones para descubrir mejores recompensas.
La explotación usar el conocimiento actual.
Maximizar recompensas a través de estrategias.
Como la política ϵ-greedy.
Con probabilidad ϵ
El agente elige una acción aleatoria (exploración).
Con probabilidad 1−ϵ
Elige la acción con el mayor valor Q (s,a) (explotación).
Ventajas de Q-Learning
Independencia del modelo
No necesita un modelo explícito del entorno.
Convergencia
Garantiza convergencia a la política óptima.
Si se cumple una exploración suficiente.
Parámetros de aprendizaje adecuados.
Flexibilidad
Puede aplicarse en una variedad de entornos discretos.
Limitaciones de Q-Learning
Escalabilidad
La tabla Q (s,a) crece rápidamente,
Con el número de estados y acciones.
Poco práctico para entornos grandes o continuos.
Exploración insuficiente
Si el agente no explora suficientemente.
Podría converger a una política subóptima.
Requiere mucha interacción
Puede necesitar un gran número de episodios.
Aprender políticas óptimas.
Extensiones de Q-Learning
Deep Q-Learning (DQN)
Utiliza redes neuronales profundas.
Aproximar la función Q (s,a)
Permitiendo manejar entornos.
Con estados y acciones continuas.
Double Q-Learning
Reduce el sesgo en la estimación del valor Q, utilizando dos funciones Q.
Prioritized Experience Replay
Mejora la eficiencia del aprendizaje.
Al priorizar experiencias importantes.
Para actualizar Q (s,a).
Aplicaciones de Q-Learning
Robótica
Control de movimientos y navegación autónoma.
Ejemplo:
Un robot aprende a evitar obstáculos.
Juegos
Resolver juegos como el ajedrez o videojuegos interactivos.
Ejemplo:
Un agente aprende a jugar Atari.
Optimización de sistemas
Gestión de redes de tráfico.
Asignación de recursos en computación en la nube.
Sistemas de recomendación
Mejora de la experiencia del usuario.
Mediante recomendaciones personalizadas.
Ejemplo Práctico: Un Agente en un Laberinto
Problema
Un agente debe encontrar la salida de un laberinto.
Cada acción moverse arriba, abajo, izquierda o derecha.
Tiene una recompensa.
Positiva si se acerca a la salida.
Negativa si se aleja.
Implementación básica
Los estados sss son las posiciones en el laberinto.
Las acciones aaa son los movimientos posibles.
La recompensa rrr es positiva al alcanzar la salida.
Negativa al chocar con paredes.
Resultados
El agente aprende a navegar hacia la salida tras iteraciones suficientes.
Q-Learning es una técnica fundamental en el aprendizaje por refuerzo.
Permite a los agentes aprender políticas óptimas.
Maximizar recompensas acumuladas en entornos desconocidos.
Aunque presenta limitaciones en entornos grandes o continuos.
Las extensiones como DQN han ampliado significativamente su aplicabilidad.
Es un pilar clave en la construcción de sistemas inteligentes.
Interactúan con el mundo real.
Te puede interesar;