AudioCraft es una plataforma de código abierto desarrollada por Meta que permite crear música y efectos de sonido usando la Inteligencia Artificial.
Con AudioCraft, se puede introducir un texto que describa el tipo de audio que quieres generar, y la plataforma te devolverá un archivo de audio que se ajuste a la solicitud.
AudioCraft utiliza tres modelos principales para crear audio: MusicGen, AudioGen y EnCodec.
MusicGen fue capacitado con música propiedad de Meta y con licencia específica, genera música a partir de entradas de usuario basadas en texto. Se encarga de generar música a partir de texto, usando diferentes géneros, instrumentos y estilos.
AudioGen se ocupa de generar efectos de sonido realistas, como animales, vehículos o naturaleza. Fue capacitado en efectos de sonido públicos, genera audio a partir de entradas de usuario basadas en texto.
Está previamente entrenado, permite generar sonidos ambientales y efectos de sonido como por ejemplo el ladrido de un perro, bocinazos de automóviles o pasos sobre un suelo de madera.
EnCodec es un decodificador que optimiza la calidad del audio y reduce el tamaño del archivo.
Es una versión mejorada que permite generar música de mayor calidad con menos artefactos.
AudioCraft es una herramienta innovadora que puede ser útil para artistas, creadores de contenido, desarrolladores de juegos y cualquier persona interesada en explorar el potencial de la IA generativa para el audio.
Es capaz de crear nuevas composiciones de música sin tener que generar una sola nota en un instrumento.
Generar audio y música realistas, de alta calidad a partir de entradas de usuario basadas en texto, después de entrenar con señales de audio sin procesar en lugar de MIDI o notas de piano.
Los modelos están disponibles con fines de investigación y para mejorar la comprensión de la tecnología por parte de las personas.
Con libre acceso a investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos, para ayudar a avanzar en el estado del arte.
Los modelos de IA generativa, incluidos los modelos de lenguaje, han logrado grandes avances y han demostrado capacidades excepcionales.
Desde la generación de imágenes y videos, descripciones de texto que muestran comprensión espacial hasta modelos de texto y voz que realizan traducción automática o incluso texto o agentes de diálogo del habla.
La IA generativa para el audio siempre pareció quedarse un poco atrás.
Generar audio de alta fidelidad de cualquier tipo requiere modelar señales y patrones complejos en diferentes escalas.
Podría decirse que la música es el tipo de audio más difícil de generar porque está compuesta de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos.
La generación de música coherente con IA generalmente se ha abordado mediante el uso de representaciones simbólicas como MIDI o pianolas.
Sin embargo, estos enfoques no logran captar plenamente los matices expresivos y los elementos estilísticos que se encuentran en la música.
Los últimos avances aprovechan el aprendizaje de representación de audio autosupervisado y una serie de modelos jerárquicos o en cascada para generar música, alimentando el audio sin procesar a un sistema complejo para capturar estructuras de largo alcance en la señal mientras se genera audio de calidad.
El conjunto de modelos AudioCraft es capaz de producir audio de alta calidad con consistencia a largo plazo y se puede interactuar fácilmente con él a través de una interfaz natural.
AudioCraft simplifica el diseño general de modelos generativos para audio en comparación con trabajos anteriores en el campo, brindando a los usuarios la receta completa para jugar con los modelos existentes que Meta ha estado desarrollando durante los últimos años y al mismo tiempo permite superar los límites desarrollando sus propios modelos.
Funciona para la generación, compresión de música y sonido, todo en el mismo lugar.
Gracias a que es fácil de desarrollar y reutilizar, los usuarios que quieran crear mejores generadores de sonido, algoritmos de compresión o generadores de música puedan hacerlo todo en la misma base de código y basarse en lo que otros han hecho.
Los usuarios pueden ampliar fácilmente los modelos y adaptarlos a sus casos de uso para la investigación, con un enfoque simple para la generación de audio.
Generar audio a partir de señales de audio sin procesar requiere modelar secuencias extremadamente largas.
Una pista musical típica de unos pocos minutos muestreada a 44,1 kHz, que es la calidad estándar de las grabaciones musicales, consta de millones de pasos de tiempo.
En comparación, los modelos generativos basados en texto como Llama y Llama 2 se alimentan con texto procesado como subpalabras que representan sólo unos pocos miles de pasos de tiempo por muestra.
Para abordar este desafío, utiliza tokens de audio a partir de la señal sin procesar utilizando el códec de audio neuronal EnCodec, ofrece un nuevo «vocabulario» fijo para muestras de música.
Posteriormente puede entrenar modelos de lenguaje autorregresivos sobre estos tokens de audio discretos para generar nuevos tokens, nuevos sonidos y música al convertir los tokens nuevamente al espacio de audio con el decodificador de EnCodec.
Aprender tokens de audio a partir de la forma de onda.
EnCodec es un códec neuronal con pérdida que fue entrenado específicamente para comprimir cualquier tipo de audio y reconstruir la señal original con alta fidelidad.
Consiste en un codificador automático con un cuello de botella de cuantificación vectorial residual que produce varios flujos paralelos de tokens de audio con un vocabulario fijo.
Los diferentes flujos capturan diferentes niveles de información de la forma de onda de audio, lo que nos permite reconstruir el audio con alta fidelidad de todos los flujos.
Entrenamiento de modelos de lenguaje de audio.
Un único modelo de lenguaje autorregresivo modela de forma recursiva los tokens de audio de EnCodec.
Con un enfoque simple para aprovechar la estructura interna de los flujos paralelos de tokens, mostrando que con un modelo único y un patrón de entrelazado de tokens, modela secuencias de audio, capturando simultáneamente las dependencias a largo plazo en el audio y permitiendo generar sonido de alta calidad.
AudioGen, puede entrenar modelos de IA para realizar la tarea de generación de texto a audio.
Dada una descripción textual de una escena acústica, el modelo puede generar el sonido ambiental correspondiente a la descripción con condiciones de grabación realistas y un contexto de escena complejo.
MusicGen es un modelo de generación de audio diseñado específicamente para la generación de música.
Las pistas musicales son más complejas que los sonidos ambientales, y generar muestras coherentes en la estructura a largo plazo es especialmente importante al crear piezas musicales novedosas.
MusicGen recibió capacitación sobre aproximadamente 400.000 grabaciones junto con descripciones de texto y metadatos, lo que equivale a 20.000 horas de música propiedad de Meta o con licencia específica para este propósito.
AudioCraft, ofrece además nuevos enfoques para mejorar la calidad del audio sintetizado a través de un enfoque basado en difusión para la decodificación de representaciones discretas.
El conjunto de datos musicales utilizado contiene una porción más grande de música de estilo occidental y solo contiene pares de audio-texto con texto y metadatos escritos en inglés.
El conjunto de modelos AudioCraft como herramientas para las cajas de herramientas profesionales de músicos y diseñadores de sonido, pueden brindar inspiración, ayudar a las personas a generar ideas rápidamente e iterar sobre sus composiciones de nuevas maneras.
Referencias;
ai.meta.com/audiocraft-musicgen-audiogen-encodec-generative-ai-audio
audiocraft.metademolab.com
GitHub – facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning