Buscar
Cerrar este cuadro de búsqueda.

DBRX: Nuevo Modelo LLM Open Source de última Generación

 

DBRX es un modelo de lenguaje grande (LLM) de código abierto y de uso general desarrollado por Databricks.

Se basa en una arquitectura de decodificador único con Transformer y se entrenó utilizando la predicción del siguiente token.

Utiliza una arquitectura de mezcla de expertos (MoE) detallada con un total de 132 B de parámetros.

 

Características:

  • Modelo MoE: DBRX utiliza una arquitectura de expertos de mezcla fina (MoE) con 132B parámetros en total, de los cuales 36B están activos en cualquier entrada.
  • Eficiencia: DBRX es más eficiente que otros LLM de tamaño similar, lo que lo hace ideal para la implementación en producción.
  • Código abierto: DBRX está disponible bajo una licencia de código abierto, lo que permite a los usuarios personalizarlo y mejorarlo.
  • Alto rendimiento: DBRX supera a los modelos de código abierto existentes y a GPT-3.5 en los puntos de referencia estándar.

 

Aplicaciones:

DBRX se puede utilizar para una amplia gama de aplicaciones de procesamiento del lenguaje natural (PLN), incluyendo:

  • Generación de texto: DBRX puede generar texto de alta calidad, como resúmenes de texto, respuestas a preguntas, código, guiones y mucho más.
  • Traducción automática: DBRX puede traducir texto de un idioma a otro con precisión y fluidez.
  • Análisis de sentimientos: DBRX puede identificar el sentimiento de un texto, como positivo, negativo o neutral.
  • Respuesta a preguntas: DBRX puede responder preguntas de manera precisa y completa.

 

DBRX es un LLM de código abierto y de uso general con un alto rendimiento y una amplia gama de aplicaciones potenciales.

Es una herramienta poderosa para los desarrolladores y las empresas que buscan aprovechar el poder del PLN.

 

¿Qué es DBRX?

 

DBRX es un modelo de lenguaje grande (LLM) solo decodificador basado en transformador que se entrenó mediante la predicción del siguiente token.

Fue entrenado previamente con tokens de 12T de texto y datos de código.

 

En comparación con otros modelos MoE abiertos como Mixtral y Grok-1, DBRX es detallado, lo que significa que utiliza una mayor cantidad de expertos más pequeños.

DBRX tiene 16 expertos y elige 4, mientras que Mixtral y Grok-1 tienen 8 expertos y eligen 2.

Esto proporciona 65 veces más combinaciones posibles de expertos y descubrimos que esto mejora la calidad del modelo.

DBRX utiliza codificaciones de posición rotatoria (RoPE), unidades lineales cerradas (GLU) y atención de consultas agrupadas (GQA).

 

Utiliza el tokenizador GPT-4 proporcionado en el repositorio de tiktoken.

Se basa en una evaluación exhaustiva y experimentos de escala.

DBRX fue entrenado previamente en tokens de 12T de datos cuidadosamente seleccionados y una longitud de contexto máxima de 32k tokens.

 

DBRX establece un nuevo estado para LLM abiertos establecidos. Además, proporciona a la comunidad abierta y a las empresas que crean sus propios LLM capacidades que antes estaban limitadas a las API de modelo cerrado.

DBRX supera a GPT-3.5 y es competitivo con Gemini 1.0 Pro, superando a modelos especializados como CodeLLaMA-70B en programación, además de su solidez como LLM de propósito general.

DBRX avanza por su arquitectura de mezcla de expertos (MoE).

 

DBRX supera a los modelos de código abierto establecidos en comprensión del lenguaje (MMLU), programación (HumanEval) y matemáticas (GSM8K).

Fuente: Databricks

 

DBRX solo acepta entradas basadas en texto y acepta una longitud de contexto de hasta 32768 tokens.

Descripción general del modelo

DBRX es un modelo de lenguaje grande (LLM) solo decodificador basado en transformador que se entrenó mediante la predicción del siguiente token.

DBRX fue entrenado previamente en tokens de 12T de datos seleccionados y una longitud de contexto máxima de tokens de 32K.

Estos datos son al menos 2 veces mejores token por token que los datos que utilizamos para entrenar previamente la familia de modelos MPT.

 

Este nuevo conjunto de datos se desarrolló utilizando el conjunto completo de herramientas de Databricks, incluidos Apache Spark™ y cuadernos de Databricks para procesamiento de datos, y Unity Catalog para gestión y gobernanza de datos.

Utilizando el aprendizaje curricular para el entrenamiento previo y cambiando la combinación de datos durante el entrenamiento de maneras que descubrimos que mejoran sustancialmente la calidad del modelo.

DBRX Base y DBRX Instruct están disponibles para descargar en HuggingFace.

 

DBRX está disponible para que los clientes de Databricks lo utilicen a través de API.

Los clientes de Databricks pueden entrenar previamente sus propios modelos de clase DBRX desde cero o continuar entrenando usando las mismas herramientas y ciencia.

DBRX está integrando en los productos impulsados por GenAI, en aplicaciones como SQL, las primeras implementaciones han superado a GPT-3.5 Turbo y están desafiando a GPT-4 Turbo.

 

Rendimiento de inferencia para varias configuraciones de modelo en infraestructura de servicio optimizada utilizando NVIDIA TensorRT-LLM con una precisión de 16 bits con los mejores indicadores de optimización que pudimos encontrar.

Los modelos se ejecutan en paralelo tensorial en todo el nodo. El mensaje de entrada contiene aproximadamente 2000 tokens de mensaje y genera 256 tokens de salida. Cada segundo aparece un nuevo usuario.

Fuente: Databricks

 

Calidad en los puntos de referencia frente a los modelos abiertos líderes

 

Entre los modelos evaluados, DBRX Instruct obtiene la puntuación más alta en dos puntos de referencia compuestos:

Programación y matemáticas. DBRX Instruct es especialmente bueno en programación y matemáticas.

Obtiene una puntuación más alta que los otros modelos abiertos evaluados en HumanEval.

DBRX supera a Grok-1, el siguiente mejor modelo en estos puntos de referencia, a pesar de que Grok-1 tiene 2,4 veces más parámetros.

 

En HumanEval, DBRX Instruct incluso supera a CodeLLaMA-70B Instruct, un modelo creado explícitamente para programación, a pesar de que DBRX Instruct está diseñado para uso de propósito general.

MMLU. DBRX Instruct obtiene puntuaciones más altas que todos los demás modelos considerados en MMLU.

 

Calidad de DBRX Instruct y modelos abiertos líderes.

Model DBRX Instruct Mixtral Instruct Mixtral Base LLaMA2-70B Chat LLaMA2-70B Base Grok-11
Open LLM Leaderboard2

(Avg of next 6 rows)

74.5% 72.7% 68.4% 62.4% 67.9%
ARC-challenge 25-shot 68.9% 70.1% 66.4% 64.6% 67.3%
HellaSwag 10-shot 89.0% 87.6% 86.5% 85.9% 87.3%
MMLU 5-shot 73.7% 71.4% 71.9% 63.9% 69.8% 73.0%
Truthful QA 0-shot 66.9% 65.0% 46.8% 52.8% 44.9%
WinoGrande 5-shot 81.8% 81.1% 81.7% 80.5% 83.7%
GSM8k CoT 5-shot maj@13 66.9% 61.1% 57.6% 26.7% 54.1% 62.9% (8-shot)
Gauntlet v0.34

(Avg of 30+ diverse tasks)

66.8% 60.7% 56.8% 52.8% 56.4%
HumanEval5

0-Shot, pass@1

(Programming)

70.1% 54.8% 40.2% 32.2% 31.0% 63.2%

Fuente: Databricks

 

DBRX Instruct se entrenó con una ventana de contexto de token de hasta 32 KB.

DBRX Instruct funciona mejor que GPT-3.5 Turbo en todas las longitudes de contexto y en todas las partes de la secuencia.

El rendimiento general de DBRX Instruct y Mixtral Instruct es similar.

 

Una de las formas más populares de aprovechar el contexto de un modelo es la generación aumentada de recuperación (RAG).

En RAG, el contenido relevante para un mensaje se recupera de una base de datos y se presenta junto con el mensaje para brindarle al modelo más información de la que tendría de otra manera.

 

Databricks apuesta por que cada empresa debería tener la capacidad de controlar sus datos y su destino en el mundo emergente de GenAI.

DBRX es un pilar central de la próxima generación de productos GenAI.

El desarrollo de DBRX fue dirigido por el equipo de Mosaic que anteriormente creó la familia de modelos MPT.

En colaboración con docenas de ingenieros, abogados, especialistas en adquisiciones y finanzas, gerentes de programas, especialistas en marketing, diseñadores y otros contribuyentes de todo Databricks.

 

Fuentes: www.databricks.com