Mixture of Experts (MOE) es una técnica de aprendizaje automático que consiste en usar varias redes neuronales (llamadas expertos) para dividir un espacio problemático en regiones homogéneas, y luego combinar sus predicciones usando una red de selección o router.
La idea es que cada experto se especialice en una parte del espacio de entrada, y que el router aprenda a asignar cada entrada al experto más adecuado.
De esta forma, se puede aumentar la capacidad y la eficiencia del modelo, al reducir el número de parámetros y el tiempo de entrenamiento e inferencia.
Un ejemplo de MOE es el Switch Transformer, un modelo de lenguaje natural que usa capas MOE en lugar de capas FFN (feed-forward network) densas.
El Switch Transformer logró superar el rendimiento del modelo T5 con menos parámetros y menos tiempo de entrenamiento
Mixture of Experts (MOE) es una técnica de aprendizaje automático en la que se utilizan múltiples redes neuronales para dividir un espacio problemático en regiones homogéneas.
Cada red neuronal, o «experto», se especializa en una región específica del espacio de entrada.
La arquitectura básica de MOE consta de dos componentes principales:
- Expertos: Las redes neuronales que realizan las predicciones.
- Router: Una función que selecciona el experto o la combinación de expertos más adecuados para cada entrada.
El router puede ser una función simple, como una función de probabilidad, o una función más compleja, como un árbol de decisión.
MOE tiene varias ventajas sobre otros métodos de aprendizaje automático:
- Eficiencia: MOE puede ser más eficiente que otros métodos, ya que solo necesita ejecutar un experto o una combinación de expertos para cada entrada.
- Escalabilidad: MOE es escalable, ya que se puede aumentar el número de expertos para mejorar el rendimiento en problemas complejos.
- Versatilidad: MOE se puede aplicar a una amplia gama de problemas de aprendizaje automático.
MOE se ha utilizado con éxito en una variedad de aplicaciones, como:
- Clasificación: Para mejorar el rendimiento de la clasificación de imágenes, texto y voz.
- Regresión: Mejorar el rendimiento de la regresión lineal y no lineal.
- Aprendizaje automático de refuerzo: Mejorar el rendimiento del aprendizaje automático de refuerzo.
La capacidad de una red neuronal para absorber información está limitada por la cantidad de sus parámetros y, como consecuencia, encontrar formas más efectivas de aumentar los parámetros del modelo se ha convertido en una tendencia en la investigación del aprendizaje profundo.
La combinación de expertos (MoE), un tipo de cálculo condicional en el que partes de la red se activan por ejemplo, se ha propuesto como una forma de aumentar drásticamente la capacidad del modelo sin un aumento proporcional en el cálculo.
En variantes escasamente activadas de modelos MoE, por ejemplo, Switch Transformer, GLaM, V-MoE, se selecciona un subconjunto de expertos por token o por ejemplo, lo que crea escasez en la red.
Estos modelos han demostrado una mejor escalabilidad en múltiples dominios y una mejor capacidad de retención en un entorno de aprendizaje continuo, por ejemplo, Expert Gate.
Una mala estrategia de enrutamiento de expertos puede hacer que ciertos expertos no estén suficientemente capacitados, lo que lleva a que un experto esté insuficiente o excesivamente especializado.
En comparación con el enrutamiento basado en tokens y otros métodos de enrutamiento en las redes MoE tradicionales, EC demuestra una eficiencia de capacitación y puntajes de tareas posteriores muy sólidos.
El método resuena con una de las visiones de Pathways, que es permitir una combinación heterogénea de expertos a través del soporte MPMD (multiprograma, multidatos) de Pathways.
Descripción general del enrutamiento MOE
MoE opera adoptando una cantidad de expertos, cada uno como una subred, y activando solo uno o unos pocos expertos para cada token de entrada.
Se debe elegir y optimizar una red de control para enrutar cada token a los expertos más adecuados.
Dependiendo de cómo se asignen los tokens a los expertos, el MoE puede ser escaso o denso.
Sparse MoE solo selecciona un subconjunto de expertos al enrutar cada token, lo que reduce el costo computacional en comparación con un MoE denso.
Enrutamiento de elección de token. El algoritmo de enrutamiento elige a los 1 o 2 mejores expertos con puntuaciones de afinidad más altas para cada token. Las puntuaciones de afinidad se pueden entrenar junto con los parámetros del modelo.
El enfoque de elección independiente de tokens a menudo conduce a una carga desequilibrada de expertos y a una infrautilización.
Los resultados empíricos indican que limitar el número de expertos para cada token perjudica la puntuación de ajuste en 1 punto en promedio.
Este estudio confirma que permitir un número variable de expertos por token es realmente útil.
Por otro lado, calculando estadísticas sobre el enrutamiento de tokens a expertos, particularmente sobre la proporción de tokens que se han enrutado a un cierto número de expertos.
La mayoría de los tokens se han enrutado a uno o dos expertos, mientras que el 23% se ha enrutado a tres o cuatro expertos y solo alrededor del 3% de los tokens se han enrutado a más de cuatro expertos, verificando así nuestra hipótesis de que el enrutamiento por elección de expertos aprende para asignar un número variable de expertos a los tokens.
Es un nuevo método de enrutamiento para modelos de combinación de expertos escasamente activados.
Este método aborda el desequilibrio de carga y la subutilización de expertos en los métodos MoE convencionales y permite la selección de diferentes números de expertos para cada token.
El modelo demuestra una mejora de más del doble en la eficiencia del entrenamiento en comparación con los modelos GShard y Switch Transformer de última generación, y logra fuertes ganancias al realizar ajustes en 11 conjuntos de datos en los puntos de referencia GLUE y SuperGLUE.
Referencias;
arxiv.org
blog.research.google/mixture-of-experts-with-expert-choice