Buscar
Cerrar este cuadro de búsqueda.

Hyena vs GPT-4: Inteligencia Artificial (IA)

 

Hyena Hierarchy de Stanford y MILA es una tecnología para relacionar elementos de datos, ya sean palabras o píxeles en una imagen digital.

 

La tecnología puede alcanzar una precisión similar en tareas de IA de referencia que el «gold standar» existente para grandes modelos de lenguaje, el mecanismo de «atención», pero con tan solo 100 veces menos poder de cómputo.

 

Esta nueva tecnología podría acabar con GPT-4 y todo lo que se le parezca.

 

El código Hyena es capaz de manejar cantidades de datos que hacen que la tecnología de estilo GPT se quede sin memoria y falle.

 

ChatGPT de OpenAI, y su tecnología sucesora, GPT-4, son programas de aplicaciones de software.

 

Como todas las aplicaciones, tienen limitaciones técnicas que pueden hacer que su rendimiento no sea el más óptimo.

 

Los científicos de Inteligencia Artificial (IA) de la Universidad de Stanford y el instituto MILA de Canadá para IA propusieron una tecnología que podría ser mucho más eficiente que GPT-4, para gestionar grandes cantidades de datos, transformándolo en una respuesta.

 

Hyena es la tecnología que puede lograr una precisión equivalente en las pruebas de referencia, como la respuesta a preguntas, mientras usa una fracción de la potencia informática.

 

El código Hyena puede manejar cantidades de texto que hacen que la tecnología de estilo GPT simplemente se quede sin memoria y falle.

 

Nuestros resultados prometedores en la escala de parámetros de menos de mil millones sugieren que la atención puede no ser todo lo que necesitamos.

Informe histórico de IA (2017) «Todo lo que necesita es atención».

 

El científico de Google Ashish Vaswani y otros científicos presentaron el programa Transformer AI de Google.

 

Se convirtió en la base de cada uno de los modelos recientes de grandes lenguajes.

 

Aunque Transformer tiene un gran defecto, utiliza algo llamado «atención», donde el programa de computadora toma la información en un grupo de símbolos, como palabras y mueve esa información a un nuevo grupo de símbolos, como la respuesta que ve en ChatGPT, que es la salida.

 

Esa operación de atención, la herramienta esencial de todos los programas de grandes modelos de lenguaje, incluidos ChatGPT y GPT-4, tiene una complejidad computacional «cuadrática» ó «complejidad temporal» de la computación.

 

Esa complejidad significa que la cantidad de tiempo que tarda ChatGPT en producir una respuesta aumenta a medida que el cuadrado de la cantidad de datos que se alimenta como entrada.

 

Si hay demasiados datos, entonces el programa se atasca al proporcionar una respuesta o debe recibir más chips de GPU para funcionar cada vez más rápido, lo que lleva a un aumento en los requisitos informáticos.

 

En el artículo, ‘Hyena Hierarchy: Towards Larger Convolutional Language Models’, publicado en el servidor de preimpresión arXiv, el autor principal Michael Poli de Stanford y otros autores proponen reemplazar la función de atención de Transformer con algo subcuadrático, como Hyena.

 

Los autores no explican el nombre, pero uno puede imaginar varias razones para un programa «Hiena».

 

En cierto sentido, un modelo de lenguaje muy poderoso podría ser como una hiena, recorriendo millas y millas para encontrar alimento.

 

De manera análoga, el programa Hyena aplica un montón de operaciones muy simples, de modo que se combinan para formar una especie de jerarquía de procesamiento de datos.

 

Es ese elemento combinatorio lo que le da al programa su nombre Hiena.

 

Los autores del artículo incluyen aspectos del mundo de la IA, como Yoshua Bengio, director científico de MILA, Premio Turing 2019, el equivalente informático del Premio Nobel.

 

A Bengio se le atribuye ampliamente el desarrollo del mecanismo de atención mucho antes de que Vaswani y su equipo lo adaptaran para el Transformador.

 

También el profesor asociado de informática de la Universidad de Stanford, Christopher Ré, promoviendo la noción de IA como «software 2.0».

 

Una práctica reciente en la ciencia de la IA, está brindando información sobre lo que sucede en el interior de una red neuronal, dentro de los «circuitos» computacionales de atención.

 

La atención funciona en su nivel más básico mediante operaciones informáticas muy simples, como copiar una palabra de una entrada reciente y pegarla en la salida.

 

OpenAI no ha revelado los detalles técnicos de ChatGPT y GPT-4, se cree que pueden tener un billón o más de estos parámetros.

 

Ejecutar esos parámetros requiere más chips de GPU de Nvidia, lo que aumenta el costo de cómputo.

 

Hyena es una combinación de filtros que se complementan entre sí sin incurrir en el gran aumento de los parámetros de la red neuronal.

 

Una prueba es The Pile, una colección de textos de 825 gigabytes reunida en 2020 por Eleuther.ai, un equipo de investigación de IA sin fines de lucro.

 

Los textos se recopilan de fuentes de «alta calidad» como PubMed, arXiv, GitHub, la Oficina de Patentes de EEUU y otras, de modo que las fuentes tienen una forma más rigurosa que las discusiones de Reddit, por ejemplo.

 

Hyena pudo igualar el programa GPT original de OpenAI con un 20 % menos de operaciones informáticas.

 

El programa Hyena logró puntuaciones iguales o cercanas a las de una versión de GPT mientras se entrenaba con menos de la mitad de la cantidad de datos de entrenamiento.

 

La capacidad de Hyena de usar un filtro que se extiende más eficientemente sobre miles y miles de palabras, significa que prácticamente no puede haber límite para el «contexto» de una consulta a un programa de lenguaje.

 

Además de palabras, el programa se puede aplicar a datos de diferentes modalidades, como imágenes y quizás videos y sonidos.

 

El programa Hyena es de pequeño tamaño en comparación con GPT-4 o GPT-3.

 

GPT-3 tiene 175 mil millones de parámetros o pesos, la versión más grande de Hyena tiene solo 1300 millones de parámetros.

 

Habrá que comprobar a Hyena en una comparación cara a cara con GPT-3 y GPT- 4.

 

 

Imagen; brillante-fondo-tecnologia-esfera-particulas-digitales > de starline | hiena-aislado-sobre-fondo-blanco > de brgfx | Rayo > de juicy_fish > freepik.es

Referencias; Autor: Tiernan Ray; zdnet.com/this-new-technology-could-blow-away-gpt-4-and-everything-like-it