Buscar
Cerrar este cuadro de búsqueda.

ChatGPT: Puede ver, oír y hablar ¡BOOOOOM!

 

ChatGPT ahora puede ver, oír y hablar.

OpenAI ha comenzado a implementar nuevas capacidades de voz e imagen en ChatGPT.

Ofrecen un tipo de interfaz nuevo y más intuitivo al permitir tener una conversación de voz o mostrar a ChatGPT de qué está hablando.

 

 

 

La voz y la imagen ofrecen más formas de usar ChatGPT.

Se implementará voz e imágenes en ChatGPT para usuarios Plus y Enterprise en las próximas semanas.

La voz llegará a iOS y Android (haciendo clic en la configuración) y las imágenes estarán disponibles en todas las plataformas.

 

Habla con ChatGPT y haz que te responda.

Ahora se puede usar la voz para entablar una conversación con tu asistente.

Habla con él mientras viajas, solicita un cuento antes de dormir para la familia o resuelve un gran debate.

 

Para empezar a usar la voz;

En Configuración → Nuevas funciones en la aplicación móvil y marca la opción conversaciones de voz.

Tocando el botón de auriculares ubicado en la esquina superior derecha de la pantalla de inicio y elige la voz preferida entre cinco voces diferentes.

 

La nueva capacidad de voz está impulsada por un nuevo modelo de conversión de texto a voz, capaz de generar audio similar al humano a partir de solo texto y unos pocos segundos de muestra de voz.

Colaborando con actores de doblaje profesionales para crear cada una de las voces.

También utiliza Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas en texto.

 

Mostrando ChatGPT en una o más imágenes.

Tocando el botón de foto para capturar o elegir una imagen. En iOS o Android, tocar primero el botón más.

 

La comprensión de imágenes funciona con GPT-3.5 y GPT-4 multimodales.

Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

Implementando capacidades de imagen y voz gradualmente.

 

El objetivo de OpenAI es crear AGI que sea segura y beneficiosa.

Con el objetivo que las herramientas estén disponibles gradualmente, permitiendo realizar mejoras y perfeccionar la mitigación de riesgos con el tiempo y, al mismo tiempo, preparando sistemas más potentes en el futuro, con modelos avanzados que involucran voz y visión.

 

Voz

 

La nueva tecnología de voz, es capaz de crear voces sintéticas realistas a partir de tan solo unos segundos de voz real, que abre las puertas a muchas aplicaciones creativas y centradas en la accesibilidad.

Estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude.

Utilizan esta tecnología para impulsar un caso de uso específico: el chat de voz.

 

El chat de voz se creó con actores de voz con los que han trabajado directamente.

También colaboran de manera similar con otros, por ejemplo, Spotify está utilizando el poder de esta tecnología para el piloto de su función de traducción de voz, que ayuda a los podcasters a ampliar el alcance de su narración traduciendo podcasts a idiomas adicionales con las propias voces de los podcasters.

 

Entrada de imagen

 

Los modelos basados en la visión también presentan nuevos desafíos, que van desde alucinaciones sobre personas hasta depender de la interpretación de imágenes por parte del modelo en dominios de alto riesgo.

 

Antes de una implementación más amplia, han probado el modelo con miembros del equipo rojo para detectar riesgos en dominios como el extremismo y la competencia científica, y un conjunto diverso de evaluadores alfa.

La investigación ha permitido identificar algunos detalles clave para un uso responsable.

 

Este enfoque se ha basado directamente en el trabajo con Be My Eyes, una aplicación móvil gratuita para personas ciegas y con baja visión, para comprender los usos y las limitaciones.

Han tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas, ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas.

El uso y los comentarios en el mundo real ayudan a mejorar aún más estas medidas de seguridad y, al mismo tiempo, mantener la herramienta útil.

 

Transparencia sobre las limitaciones del modelo.

Los usuarios pueden depender de ChatGPT para temas especializados, por ejemplo en campos como la investigación.

Siendo transparentes sobre las limitaciones del modelo y desaconsejan los casos de uso de mayor riesgo sin una verificación adecuada.

 

El modelo es competente en la transcripción de textos en inglés, pero tiene un rendimiento deficiente en otros idiomas, especialmente aquellos con escritura no romana.

Aconsejan a los usuarios que no hablan inglés que no utilicen ChatGPT para este fin.

Los usuarios Plus y Enterprise podrán experimentar voz e imágenes en las próximas semanas.

Implementando estas capacidades para otros grupos de usuarios, incluidos los desarrolladores.

 

 

Referencias;  openai.com/chatgpt-can-now-see-hear-and-speak

 

GNoME: Tecnología Inteligencia Artificial (IA) de Google Mind

  GNoME Graph Networks for Materials Exploration la herramienta de inteligencia artificial GNoME es una tecnología desarrollada por Google DeepMind que ha predicho 2.2 millones de nuevos materiales, incluyendo 380,000 materiales estables. Estos materiales tienen el potencial de impulsar tecnologías futuras,

Leer más »
error: Alert: Este contenido está Protegido © !!