Bayesian Optimization

Por Manu Duque

Bayesian Optimization es un método de optimización que se utiliza para encontrar el valor óptimo de una función objetivo.

Especialmente cuando esta función es compleja, cara de evaluar o desconocida.

Es útil en problemas de optimización de hiperparámetros en modelos de aprendizaje automático.

Donde probar todas las combinaciones posibles sería computacionalmente costoso o impráctico.

En Bayesian Optimization se emplea un enfoque probabilístico.

Para guiar la búsqueda hacia áreas más prometedoras del espacio de búsqueda.

Balanceando entre exploración y explotación.

Concepto Básico

Bayesian Optimization se basa en la suposición de que no conocemos completamente la función objetivo.

Disponemos de una función de creencia o modelo sustituto.

Aproxima cómo se comporta la función objetivo en diferentes regiones.

Este modelo es actualizado a medida que se prueban nuevos puntos en el espacio de búsqueda.

Aprovechando los conocimientos adquiridos.

Para mejorar sucesivamente la predicción de los mejores valores.

La optimización bayesiana se realiza a través de dos componentes principales;

Modelo de Creencia

Generalmente se usa un proceso de Gaussianas (Gaussian Process, GP).

Para modelar la incertidumbre sobre la función objetivo.

Esto permite estimar una distribución de probabilidad.

Sobre los posibles valores de la función en el espacio de búsqueda.

Función de Adquisición

Esta función determina el próximo punto a evaluar.

En función de la predicción del modelo de creencia.

Y la incertidumbre de esa predicción.

Al maximizar la función de adquisición.

Se selecciona el siguiente punto a evaluar.

De manera que se logre un buen equilibrio.

Entre explorar áreas no examinadas y explotar áreas prometedoras.

Proceso de la Optimización Bayesiana

Inicialización

Se evalúan algunos puntos aleatorios en el espacio de búsqueda.

Se registran sus resultados en la función objetivo.

Entrenamiento del Modelo de Creencia

Con los datos iniciales, se construye un modelo de creencia.

Estima la distribución de probabilidad de la función objetivo en el espacio de búsqueda.

Maximización de la Función de Adquisición

Se maximiza la función de adquisición.

Selecciona el próximo punto para evaluar en la función objetivo.

Este proceso considera tanto la predicción del modelo.

Como la incertidumbre para decidir entre exploración y explotación.

Evaluación y Actualización

Se evalúa el punto seleccionado en la función objetivo real.

Los resultados se agregan al conjunto de datos.

Se vuelve a entrenar el modelo de creencia con los nuevos datos.

Repetición

El proceso se repite hasta que se alcanza un criterio de detención.

Como un número máximo de evaluaciones.

Una mejora mínima en las evaluaciones recientes.

Componentes de Bayesian Optimization

Modelo de Creencia: Procesos Gaussianos

El modelo de creencia en Bayesian Optimization suele implementarse mediante un Proceso Gaussiano (GP).

Una técnica estadística que estima una distribución de probabilidad.

Sobre las posibles funciones que se ajustan a los datos.

Un GP permite calcular una media y una desviación estándar.

Para cada punto en el espacio de búsqueda.

Proporcionando una estimación de la función objetivo y una medida de incertidumbre.

El Proceso Gaussiano es el modelo más común en optimización bayesiana.

También pueden usarse otros modelos.

Como los bosques aleatorios y las máquinas de vectores de soporte (SVM).

Dependiendo de la naturaleza del problema.

Función de Adquisición

La función de adquisición es el criterio que determina el próximo punto a evaluar.

Algunas funciones de adquisición populares incluyen;

Expected Improvement (EI)

Selecciona el punto con la mayor mejora esperada en la función objetivo.

En relación con el mejor valor observado hasta el momento.

Upper Confidence Bound (UCB)

Utiliza una combinación de la media y la desviación estándar del GP.

Para decidir el siguiente punto, priorizando áreas con alta incertidumbre.

Probability of Improvement (PI)

Maximiza la probabilidad de que el próximo punto supere el mejor valor observado.

Estas funciones ayudan a balancear entre exploración evaluar puntos con alta incertidumbre.

Explotación evaluar puntos con valores que parecen prometedores.

Ventajas de la Optimización Bayesiana

Eficiencia

Al enfocarse en áreas más prometedoras, es especialmente útil en optimización de funciones costosas.

Reduce el número de evaluaciones necesarias para encontrar un óptimo.

Aprovechamiento de la Incertidumbre

La optimización bayesiana explota la incertidumbre en las predicciones del modelo.

De creencia para mejorar la eficiencia.

Haciendo un balance entre explorar lo desconocido y explotar lo que ya se sabe.

Aplicabilidad en Optimización de Hiperparámetros

En aprendizaje automático, es un método popular para optimizar hiperparámetros.

De modelos complejos como redes neuronales profundas.

Donde probar todas las combinaciones de hiperparámetros sería demasiado costoso.

Limitaciones de Bayesian Optimization

Escalabilidad

La optimización bayesiana puede volverse ineficiente cuando el espacio de búsqueda es de alta dimensión.

Cuando hay muchos datos.

El modelo de creencia por ejemplo, un GP se vuelve costoso.

Asunción de Suavidad

La mayoría de implementaciones de Bayesian Optimization asumen que la función objetivo es relativamente suave.

Si la función tiene muchas discontinuidades o irregularidades puede no ser efectiva.

Limitación por el Modelo de Creencia

Los resultados de la optimización pueden depender en gran medida del modelo de creencia seleccionado.

Como el GP y de los parámetros del modelo.

En algunos casos, se necesita ajustar cuidadosamente estos parámetros.

Para obtener buenos resultados.

Ejemplo: Optimización de Hiperparámetros en una Red Neuronal

Supongamos que queremos optimizar el rendimiento de una red neuronal ajustando hiperparámetros.

El número de capas, el número de neuronas por capa, y la tasa de aprendizaje.

La función objetivo en este caso sería la precisión del modelo en un conjunto de validación.

Paso 1

Seleccionamos algunos puntos aleatorios para obtener un rendimiento inicial de los hiperparámetros.

Construir un modelo de creencia basado en esos datos.

Paso 2

Usamos la función de adquisición para identificar el siguiente conjunto de hiperparámetros a probar.

Buscando un balance entre probar combinaciones no exploradas (exploración).

Refinar combinaciones que ya han mostrado buen rendimiento (explotación).

Paso 3

Entrenamos la red neuronal con los hiperparámetros seleccionados y evaluamos su precisión.

Paso 4

Actualizamos el modelo de creencia con los resultados obtenidos.

Repetimos el proceso hasta alcanzar una precisión satisfactoria.

Comparación entre Bayesian Optimization y Grid/Random Search

Característica	Bayesian Optimization	Grid Search	Random Search
Estrategia	Basada en modelo probabilístico	Búsqueda exhaustiva	Búsqueda aleatoria
Balance entre exploración y explotación	Sí	No	No
Eficiencia Computacional	Alta (en general menos evaluaciones)	Baja (requiere muchas pruebas)	Moderada
Aplicable en Funciones Costosas	Sí	No	Sí
Riesgo de Sobreajuste	Bajo (especialmente con modelos GPs)	Alto	Moderado

Bayesian Optimization es un método efectivo y eficiente para la optimización de funciones costosas o complejas.

Especialmente útil en la optimización de hiperparámetros en aprendizaje automático.

Al emplear un enfoque probabilístico que aprovecha la información de incertidumbre.

Permite obtener resultados precisos sin tener que probar exhaustivamente todas las combinaciones posibles.

Sus limitaciones en términos de escalabilidad.

De ajuste cuidadoso pueden hacer que otros métodos sean preferibles,+

En casos de alta dimensionalidad.

En espacios de búsqueda altamente irregulares.

Bayesian Optimization

Concepto Básico

Proceso de la Optimización Bayesiana

Componentes de Bayesian Optimization

Modelo de Creencia: Procesos Gaussianos

Función de Adquisición

Ventajas de la Optimización Bayesiana

Limitaciones de Bayesian Optimization

Ejemplo: Optimización de Hiperparámetros en una Red Neuronal

Comparación entre Bayesian Optimization y Grid/Random Search

Cognitive Market Engine CME™: Semantic Mind Ranking™

Cognitive Market Engine CME™: Neuro-Keywords™

Cognitive Market Engine CME™: Cognitive SERP Domination™

Cognitive Market Engine™ CME™: Cognitive Layer Inteligence

COGNITIVE MARKET ENGINE CME™: Data Ingestion Layer

Cognitive Market Engine CME™: Marketing Inteligente Cognitivo