I-JEPA: Modelo de IA basado en una Visión más Humana

 

I-JEPA (Image Joint Embedding Predictive Architecture) es una herramienta de generación de imágenes, aunque es diferente de Midjourney, DALL-E 2 y otras.

Las herramientas de IA que generan imágenes se entrenan alimentándose con millones de ficheros de imagen, etiquetados con una descripción en formato de texto.

I-JEPA  cuenta con la capacidad de analizar y completar imágenes sin terminar, tarea que ejecuta con gran precisión, gracias al uso de conocimientos previos.

 

Consiste en una emulación del razonamiento humano, utilizando la terminología de la semántica:

 

Es capaz de predecir la representación de una parte de una entrada a partir de la representación de otras partes de la misma entrada, con intención de poder ampliar el enfoque de imagen-texto y datos de vídeo.

Yann LeCun, científico jefe de IA en Meta

 

Este enfoque ayuda a evitar los sesgos, así como errores comunes en las imágenes generadas por IA, pasar a ‘visualizar el contexto’.

 

Una de las posibles aplicaciones destacadas de I-JEPA es la creación de vídeos a partir de entradas de audio y texto.

Se presenta como el primer modelo basado en una nueva arquitectura de Inteligencia Artificial.

 

I-JEPA es el primer modelo de IA basado en la visión de Yann LeCun de una IA más humana.

 

El científico jefe de Inteligencia Artificial de Meta, Yann LeCun, propuso una nueva arquitectura destinada a superar las limitaciones clave incluso de los sistemas de Inteligencia Artificial más avanzados.

 

Su visión es crear una IA que pueda aprender de modelos internos de cómo funciona el mundo para que puedan aprender mucho más rápido, planificar cómo realizar tareas complejas y adaptarse fácilmente a situaciones desconocidas.

 

Este modelo I-JEPA, aprende mediante la creación de un modelo interno del mundo exterior, que compara representaciones abstractas de imágenes, en lugar de comparar los píxeles mismos.

 

I-JEPA ofrece un rendimiento sólido en múltiples tareas de visión por computadora y es mucho más eficiente desde el punto de vista computacional que otros modelos de visión por computadora ampliamente utilizados.

 

Las representaciones aprendidas por I-JEPA también se pueden usar para muchas aplicaciones diferentes sin necesidad de un ajuste fino extenso.

 

Capturar el conocimiento de sentido común con el aprendizaje autosupervisado.

 

En el modelo I-JEPA y los modelos de Arquitectura Predictiva de Incrustación Conjunta (JEPA) en general, se basa en el hecho de que los humanos aprenden una enorme cantidad de conocimientos previos sobre el mundo simplemente observándolo pasivamente.

 

Se ha planteado la hipótesis de que esta información de sentido común es clave para permitir un comportamiento inteligente, como la adquisición eficiente de muestras de nuevos conceptos y la planificación.

 

Los investigadores de IA han tratado de diseñar algoritmos de aprendizaje que capturen el conocimiento previo de sentido común sobre el mundo y luego lo codifiquen en una representación digital a la que el algoritmo pueda acceder más tarde.

 

El sistema debe aprender estas representaciones de forma autosupervisada, es decir, directamente a partir de datos no etiquetados, como imágenes o sonidos, en lugar de conjuntos de datos etiquetados ensamblados manualmente.

 

La JEPA tiene como objetivo predecir la representación de una parte de una entrada, como una imagen o un fragmento de texto, a partir de la representación de otras partes de la misma entrada.

 

No implica colapsar representaciones de múltiples vistas/aumentos de una imagen en un solo punto, la esperanza es que JEPA evite los sesgos y problemas asociados con otro método ampliamente utilizado llamado entrenamiento previo basado en la invariancia.

 

Al predecir representaciones a un alto nivel de abstracción en lugar de predecir valores de píxel directamente, la esperanza es aprender directamente representaciones útiles que también eviten las limitaciones de los enfoques generativos, que subyacen a los grandes modelos de lenguaje que han generado tanta información reciente.

 

Las arquitecturas generativas aprenden eliminando o distorsionando partes de la entrada al modelo, por ejemplo, borrando parte de una foto u ocultando algunas de las palabras en un pasaje de texto.

 

Posteriormente intentan predecir los píxeles o palabras dañados o faltantes.

 

Una deficiencia significativa de los métodos generativos es que el modelo trata de completar toda la información faltante, aunque el mundo es inherentemente impredecible.

 

Como resultado, los métodos generativos pueden ser propensos a errores que una persona nunca cometería porque se enfocan demasiado en detalles irrelevantes en lugar de capturar conceptos predecibles de alto nivel.

 

Sería significativamente difícil para los modelos generativos generar manos humanas con precisión, a menudo agregan dígitos adicionales o cometen otros errores evidentes.

 

Arquitecturas comunes para el aprendizaje autosupervisado, en las que el sistema aprende a capturar las relaciones entre sus entradas.

 

El objetivo es asignar una energía alta a las entradas incompatibles y asignar una energía baja a las entradas compatibles.

Es un primer paso hacia una arquitectura predictiva de incrustación conjunta de amplia capacidad.

 

La idea detrás de I-JEPA es predecir la información que falta en una representación abstracta que es más parecida a la comprensión general que tiene la gente.

 

En comparación con los métodos generativos que predicen en el espacio de píxel/token, I-JEPA utiliza objetivos de predicción abstractos para los que se eliminan potencialmente los detalles innecesarios a nivel de píxel, lo que lleva al modelo a aprender más características semánticas.

 

Otra opción de diseño central para guiar a I-JEPA hacia la producción de representaciones semánticas es la estrategia de enmascaramiento de bloques múltiples propuesta.

 

Demostramos la importancia de predecir grandes bloques que contienen información semántica, con una escala suficientemente grande, utilizando un contexto informativo, distribuido espacialmente.

 

 

El modelo I-JEPA puede verse como un modelo mundial primitivo y restringido, que puede modelar la incertidumbre espacial en una imagen estática desde un contexto parcialmente observable.

 

Este modelo es semántico en el sentido de que predice información de alto nivel sobre regiones invisibles en la imagen, en lugar de detalles a nivel de píxeles.

 

Ilustrando cómo el predictor aprende a modelar la semántica del mundo.

 

Para comprender lo que captura el modelo, entrena un decodificador que mapea las representaciones predichas de I-JEPA en el espacio de píxeles, que muestra los resultados del modelo cuando se prueba para hacer predicciones.

 

I-JEPA puede aprender representaciones de alto nivel de partes de objetos sin descartar su información posicional localizada en la imagen.

 

Mayor eficiencia y un gran rendimiento

 

El preentrenamiento I-JEPA también es computacionalmente eficiente.

 

No implica ninguna sobrecarga asociada con la aplicación de aumentos de datos más intensivos desde el punto de vista computacional para producir múltiples vistas.

 

El codificador de destino solo debe procesar una vista de la imagen y el codificador de contexto solo debe procesar los bloques de contexto.

 

I-JEPA aprende fuertes representaciones semánticas listas para usar sin el uso de aumentos de vista hechos a mano.

 

También supera a los métodos de reconstrucción de tokens y píxeles en el sondeo lineal ImageNet-1K y la evaluación semisupervisada.

 

I-JEPA también es competitivo con enfoques previos de capacitación que se basan en aumentos de datos hechos a mano en tareas semánticas.

 

Logra un mejor rendimiento en tareas de visión de bajo nivel, como el conteo de objetos y la predicción de profundidad.

 

Al usar un modelo más simple con un sesgo inductivo menos rígido, I-JEPA es aplicable a un conjunto más amplio de tareas.

 

Cerca de la inteligencia a nivel humano en IA

 

I-JEPA demuestra el potencial de las arquitecturas para aprender representaciones de imágenes competitivas listas para usar sin la necesidad de conocimientos adicionales codificados a través de transformaciones de imágenes hechas a mano.

 

Avanzar en JEPA para aprender modelos mundiales más generales a partir de modalidades más ricas, permitir hacer predicciones espaciales y temporales de largo alcance sobre eventos futuros en un vídeo desde un contexto corto y condicionar estas predicciones en audio o indicaciones textuales.

 

 

Imagen; bing.com

Referencias; ai.facebook.com/yann-lecun-ai-model-i-jepa

 

H2O GPT: La Gran alternativa a ChatGPT

  H2O GPT (Generative Pretraining Transformer) es una tecnología de aprendizaje automático que está revolucionando el campo del procesamiento del lenguaje natural. Desarrollada por la empresa de inteligencia artificial H2O.ai, esta tecnología utiliza un enfoque novedoso

Leer más »

28 Preguntas Frecuentes FAQ de ChatGPT

  Las preguntas más frecuentes, Frequently Asked Questions (FAQ), generadas con el uso de ChatGPT expuestas de manera clara para que puedas entender, diferenciar conceptos y aclarar dudas de por qué ChatGPT es una de las herramientas más útiles

Leer más »

Google BARD: Bot Conversacional de Inteligencia Artificial (IA)

  Google Bard es un bot conversacional de Inteligencia Artificial desarrollado por Google basado en la familia LaMDA, Modelo de lenguaje para aplicaciones de diálogo.   En noviembre de 2022, OpenAI lanzó ChatGPT, un bot conversacional basado en la familia GPT-3 de modelos lingüísticos.​   Se desarrolló como

Leer más »
error: Alert: Este contenido está Protegido © !!