Google DeepMind: AutoChapters resumen Texto Youtube Vídeos

 

Google DeepMind AI es un modelo de lenguaje que permite hacer descripciones para Youtube Shorts.

 

El modelo de lenguaje visual Flamingo se está poniendo a trabajar para generar descripciones, lo que puede ayudar con la capacidad de descubrimiento.

 

Google acaba de combinar DeepMind y Google Brain en un gran equipo de IA.

 

Google DeepMind compartió detalles sobre cómo se utiliza uno de sus modelos de lenguaje visual (VLM) para generar descripciones para YouTube Shorts, lo que puede ayudar con la capacidad de descubrimiento.

 

Flamingo puede hacer esas descripciones analizando los cuadros iniciales de un video para explicar lo que está pasando.

 

Las descripciones de texto se almacenarán como metadatos para categorizar mejor los vídeos y hacer coincidir los resultados de búsqueda con las consultas de los usuarios.

 

Flamingo ya está aplicando descripciones generadas automáticamente a las nuevas subidas de Shorts.

 

 

 

Los vídeos cortos de YouTube, de menos de un minuto de duración, se ven más de 50 mil millones de veces al día.

 

Los cortos se crean en solo unos minutos y no suelen incluir descripciones ni títulos útiles, lo que los hace más difíciles de encontrar a través de la búsqueda.

 

Al analizar los cuadros de vídeo iniciales de Short, el modelo explica lo que se muestra en la pantalla.

 

Este texto se almacena como metadatos en YouTube para categorizar mejor los vídeos y hacer coincidir los resultados de búsqueda con las consultas de los espectadores.

 

YouTube está implementando esta tecnología en Shorts, y las descripciones de vídeo generadas automáticamente ya se están aplicando a todas las cargas nuevas.

 

Los espectadores pueden ver vídeos más relevantes y encontrar más fácilmente lo que buscan de una gama más diversa de creadores globales.

 

Aplicando la investigación de IA para mejorar la experiencia de YouTube.

 

Asociado con empresas de Alphabet para aplicar la tecnología a fin de mejorar los productos y servicios.

 

Optimización de la compresión de video

 

En colaboración con YouTube, explora el potencial del modelo de IA, MuZero, para mejorar el códec VP9, un formato de codificación que ayuda a comprimir y transmitir vídeos a través de Internet.

 

Aplicando MuZero además del tráfico en vivo de YouTube.

 

La tasa de bits ayuda a determinar la capacidad informática y el ancho de banda necesarios para reproducir y almacenar vídeos, lo que afecta a, desde el tiempo que tarda un vídeo en cargarse hasta su resolución, almacenamiento en búfer y uso de datos.

 

Mejora el códec VP9 en YouTube, ayudando a reducir el tráfico de Internet, el uso de datos y el tiempo necesario para cargar vídeos.

 

Mediante la optimización de la compresión de vídeo, permite visualizar más cantidad de vídeos usando menos datos.

 

Desarrollando un modelo de calidad de etiquetas (LQM) que ayuda a etiquetar vídeos con mayor precisión, de acuerdo con las pautas de compatibilidad con anuncios de YouTube.

 

El modelo ha mejorado la precisión de los anuncios que se ejecutan en vídeos de acuerdo con las políticas de publicidad amigable de YouTube.

 

Al mejorar la forma en que se identifican y clasifican los vídeos, se mejora la confianza en la plataforma para espectadores, creadores y anunciantes.

 

 

Para mejorar la experiencia del creador y del espectador, junto con el equipo de búsqueda de YouTube, ha desarrollado un sistema de IA que puede procesar automáticamente transcripciones de vídeo, funciones de audio, visuales, sugerir segmentos de capítulos y títulos para los creadores de YouTube.

 

Los capítulos generados automáticamente ya estaban disponibles para los vídeos, y pretende escalar esta función próximamente.

 

AutoChapters  o resumen de texto, proporciona un «resumen a lo largo del tiempo» para el contenido de audio transcrito con la API Speech-to-Text de AssemblyAI.

 

AutoChapters, permite a los espectadores pasar menos tiempo buscando contenido específico y los creadores ahorran tiempo creando capítulos para sus vídeos.

 

Funciona dividiendo primero los archivos de audio/video en «capítulos» lógicos a medida que cambia el tema de la conversación, y luego proporciona un resumen generado automáticamente para cada «capítulo» de contenido.

 

Casos de uso para la función de capítulos automáticos:

 

Plataformas de vídeo

Crea automáticamente «capítulos de video» para facilitar que los usuarios hagan clic en los vídeos y para saltar al contenido que están buscando.

 

Reproductores de podcast

Extrae segmentos de un episodio de podcast y hace que los episodios de podcast sean más fáciles de buscar para que los usuarios puedan saltar a partes clave de un episodio para «probar» un episodio antes de escucharlo completo.

 

Plataformas de reuniones virtuales

Ofrece resúmenes de las partes clave de una reunión y hace que las grabaciones de las reuniones sean más fáciles de consumir después del hecho.

 

Telefonía

Hace que las llamadas telefónicas sean más fáciles de navegar, cuando se realiza el control de calidad dentro de los centros de contacto.

 

 

Imagen; Vectorjuice > by Freepik > freepik.es

Referencias; www.deepmind.com/working-together-with-youtube

 

H2O GPT: La Gran alternativa a ChatGPT

  H2O GPT (Generative Pretraining Transformer) es una tecnología de aprendizaje automático que está revolucionando el campo del procesamiento del lenguaje natural. Desarrollada por la empresa de inteligencia artificial H2O.ai, esta tecnología utiliza un enfoque novedoso

Leer más »

28 Preguntas Frecuentes FAQ de ChatGPT

  Las preguntas más frecuentes, Frequently Asked Questions (FAQ), generadas con el uso de ChatGPT expuestas de manera clara para que puedas entender, diferenciar conceptos y aclarar dudas de por qué ChatGPT es una de las herramientas más útiles

Leer más »

Google BARD: Bot Conversacional de Inteligencia Artificial (IA)

  Google Bard es un bot conversacional de Inteligencia Artificial desarrollado por Google basado en la familia LaMDA, Modelo de lenguaje para aplicaciones de diálogo.   En noviembre de 2022, OpenAI lanzó ChatGPT, un bot conversacional basado en la familia GPT-3 de modelos lingüísticos.​   Se desarrolló como

Leer más »
error: Alert: Este contenido está Protegido © !!