Google DeepMind AI es un modelo de lenguaje que permite hacer descripciones para Youtube Shorts.
El modelo de lenguaje visual Flamingo se está poniendo a trabajar para generar descripciones, lo que puede ayudar con la capacidad de descubrimiento.
Google acaba de combinar DeepMind y Google Brain en un gran equipo de IA.
Google DeepMind compartió detalles sobre cómo se utiliza uno de sus modelos de lenguaje visual (VLM) para generar descripciones para YouTube Shorts, lo que puede ayudar con la capacidad de descubrimiento.
Flamingo puede hacer esas descripciones analizando los cuadros iniciales de un video para explicar lo que está pasando.
Las descripciones de texto se almacenarán como metadatos para categorizar mejor los vídeos y hacer coincidir los resultados de búsqueda con las consultas de los usuarios.
Flamingo ya está aplicando descripciones generadas automáticamente a las nuevas subidas de Shorts.
Our powerful visual language model Flamingo is changing the way 𝘺𝘰𝘶 can watch @YouTube Shorts. 🦩
It automatically generates descriptions for hundreds of millions of videos in their metadata, making them more searchable.
Here’s how AI is helping creators and viewers. ⬇️ pic.twitter.com/pAt7MxFNs1
— Google DeepMind (@DeepMind) May 24, 2023
Los vídeos cortos de YouTube, de menos de un minuto de duración, se ven más de 50 mil millones de veces al día.
Los cortos se crean en solo unos minutos y no suelen incluir descripciones ni títulos útiles, lo que los hace más difíciles de encontrar a través de la búsqueda.
Al analizar los cuadros de vídeo iniciales de Short, el modelo explica lo que se muestra en la pantalla.
Este texto se almacena como metadatos en YouTube para categorizar mejor los vídeos y hacer coincidir los resultados de búsqueda con las consultas de los espectadores.
YouTube está implementando esta tecnología en Shorts, y las descripciones de vídeo generadas automáticamente ya se están aplicando a todas las cargas nuevas.
Los espectadores pueden ver vídeos más relevantes y encontrar más fácilmente lo que buscan de una gama más diversa de creadores globales.
Aplicando la investigación de IA para mejorar la experiencia de YouTube.
Asociado con empresas de Alphabet para aplicar la tecnología a fin de mejorar los productos y servicios.
Optimización de la compresión de video
En colaboración con YouTube, explora el potencial del modelo de IA, MuZero, para mejorar el códec VP9, un formato de codificación que ayuda a comprimir y transmitir vídeos a través de Internet.
Aplicando MuZero además del tráfico en vivo de YouTube.
La tasa de bits ayuda a determinar la capacidad informática y el ancho de banda necesarios para reproducir y almacenar vídeos, lo que afecta a, desde el tiempo que tarda un vídeo en cargarse hasta su resolución, almacenamiento en búfer y uso de datos.
Mejora el códec VP9 en YouTube, ayudando a reducir el tráfico de Internet, el uso de datos y el tiempo necesario para cargar vídeos.
Mediante la optimización de la compresión de vídeo, permite visualizar más cantidad de vídeos usando menos datos.
Desarrollando un modelo de calidad de etiquetas (LQM) que ayuda a etiquetar vídeos con mayor precisión, de acuerdo con las pautas de compatibilidad con anuncios de YouTube.
El modelo ha mejorado la precisión de los anuncios que se ejecutan en vídeos de acuerdo con las políticas de publicidad amigable de YouTube.
Al mejorar la forma en que se identifican y clasifican los vídeos, se mejora la confianza en la plataforma para espectadores, creadores y anunciantes.
Para mejorar la experiencia del creador y del espectador, junto con el equipo de búsqueda de YouTube, ha desarrollado un sistema de IA que puede procesar automáticamente transcripciones de vídeo, funciones de audio, visuales, sugerir segmentos de capítulos y títulos para los creadores de YouTube.
Los capítulos generados automáticamente ya estaban disponibles para los vídeos, y pretende escalar esta función próximamente.
AutoChapters o resumen de texto, proporciona un «resumen a lo largo del tiempo» para el contenido de audio transcrito con la API Speech-to-Text de AssemblyAI.
AutoChapters, permite a los espectadores pasar menos tiempo buscando contenido específico y los creadores ahorran tiempo creando capítulos para sus vídeos.
Funciona dividiendo primero los archivos de audio/video en «capítulos» lógicos a medida que cambia el tema de la conversación, y luego proporciona un resumen generado automáticamente para cada «capítulo» de contenido.
Casos de uso para la función de capítulos automáticos:
Plataformas de vídeo
Crea automáticamente «capítulos de video» para facilitar que los usuarios hagan clic en los vídeos y para saltar al contenido que están buscando.
Reproductores de podcast
Extrae segmentos de un episodio de podcast y hace que los episodios de podcast sean más fáciles de buscar para que los usuarios puedan saltar a partes clave de un episodio para «probar» un episodio antes de escucharlo completo.
Plataformas de reuniones virtuales
Ofrece resúmenes de las partes clave de una reunión y hace que las grabaciones de las reuniones sean más fáciles de consumir después del hecho.
Telefonía
Hace que las llamadas telefónicas sean más fáciles de navegar, cuando se realiza el control de calidad dentro de los centros de contacto.
Imagen; Vectorjuice > by Freepik > freepik.es
Referencias; www.deepmind.com/working-together-with-youtube