Grok es una IA modelada según la Hitchhiker’s Guide to the Galaxy, por lo que pretende responder casi cualquier cosa y, mucho más difícil, incluso sugerir qué preguntas hacer, una IA capaz de buscar en tiempo real.
Grok está diseñado para responder preguntas con un poco de ingenio y tiene una vena rebelde, e incluso con algo de sarcasmo y de humor.
Una ventaja única y fundamental de Grok es que tiene conocimiento del mundo en tiempo real a través de la plataforma X/Twitter de Elon Musk.
También responde preguntas interesantes que son rechazadas por la mayoría de los demás sistemas de IA.
Grok es aún un producto beta con algo más de 2 meses de entrenamiento, disponible para suscriptores premium de la plataforma, que se pretende que mejore próximamente con la ayuda de los usuarios.
Según el Oxford English Dictionary, su significado vendría a ser el de ‘entender intuitivamente’, o ‘empatizar’, también siendo traducido como ‘asimilar’.
xAI pretende crear herramientas de IA que ayuden a la humanidad en su búsqueda de comprensión y conocimiento.
Con la herramienta Grok, el objetivo es:
- Recopilar comentarios y asegúrese de que están creando herramientas de inteligencia artificial que beneficien al máximo a toda la humanidad.
- Creen que es importante diseñar herramientas de IA que sean útiles para personas de todos los orígenes y opiniones políticas.
- También pretenden empoderar a sus usuarios con la herramientas de inteligencia artificial, sujeto a la ley.
El objetivo con Grok es explorar y demostrar este enfoque en público.
Potenciar la investigación y la innovación: que Grok sirva como un potente asistente de investigación para cualquier persona, ayudándole a acceder rápidamente a información relevante, procesar datos y generar nuevas ideas.
El objetivo final es que la herramientas de IA ayude en la búsqueda de la comprensión.
El motor que impulsa a Grok es Grok-1, con un LLM que ha pasado por muchas iteraciones durante un corto período de tiempo.
Después de anunciar xAI, se estrenó un prototipo de LLM (Grok-0) con 33 mil millones de parámetros.
Este primer modelo se acerca a las capacidades de LLaMA 2 (70B) en los puntos de referencia LM estándar, pero utiliza solo la mitad de sus recursos de capacitación.
Para comprender las mejoras de capacidad que realizaron con Grok-1, han realizado una serie de evaluaciones utilizando algunos puntos de referencia estándar de aprendizaje automático diseñados para medir las habilidades matemáticas y de razonamiento.
- GSM8k: Problemas planteados de matemáticas de la escuela secundaria (Cobbe et al. 2021), utilizando el mensaje de cadena de pensamiento.
- MMLU: preguntas multidisciplinarias de opción múltiple (Hendrycks et al. 2021), proporcionaron ejemplos de cinco disparos en contexto.
- HumanEval: tarea de finalización de código Python (Chen et al. 2021), evaluación de disparo cero para pass@1.
- MATH: Problemas de matemáticas de escuela intermedia y secundaria escritos en LaTeX (Hendrycks et al. 2021), motivados con un mensaje fijo de 4 pasos.
Benchmark | Grok-0 (33B) | LLaMa 2 70B | Inflection-1 | GPT-3.5 | Grok-1 | Palm 2 | Claude 2 | GPT-4 |
GSM8k | 56.8% 8-shot |
56.8% 8-shot |
62.9% 8-shot |
57.1% 8-shot |
62.9% 8-shot |
80.7% 8-shot |
88.0% 8-shot |
92.0% 8-shot |
MMLU | 65.7% 5-shot |
68.9% 5-shot |
72.7% 5-shot |
70.0% 5-shot |
73.0% 5-shot |
78.0% 5-shot |
75.0% 5-shot + CoT |
86.4% 5-shot |
HumanEval | 39.7% 0-shot |
29.9% 0-shot |
35.4% 0-shot |
48.1% 0-shot |
63.2% 0-shot |
– | 70% 0-shot |
67% 0-shot |
MATH | 15.7% 4-shot |
13.5% 4-shot |
16.0% 4-shot |
23.5% 4-shot |
23.9% 4-shot |
34.6% 4-shot |
– | 42.5% 4-shot |
En estos puntos de referencia, Grok-1 mostró sólidos resultados, superando a todos los demás modelos en su clase de computación, incluidos ChatGPT-3.5 e Inflection-1.
Solo es superado por modelos que fueron entrenados con una cantidad significativamente mayor de datos de entrenamiento y recursos informáticos como GPT-4.
Esto muestra el rápido progreso que han logrando en xAI en la capacitación de LLM con una eficiencia excepcional.
Dado que estos puntos de referencia se pueden encontrar en la web y no podemos descartar que nuestros modelos hayan sido entrenados inadvertidamente en ellos, califican manualmente el modelo y también Claude-2 y GPT-4.
Este experimento sirvió como una prueba de la «vida real» en un conjunto de datos para el que el modelo nunca fue ajustado explícitamente.
Human-graded evaluation | Grok-0 | GPT-3.5 | Claude 2 | Grok-1 | GPT-4 |
Hungarian National High School Math Exam (May 2023) | 37% 1-shot |
41% 1-shot |
55% 1-shot |
59% 1-shot |
68% 1-shot |
En la frontera de la investigación del aprendizaje profundo, se debe construir una infraestructura confiable con el mismo cuidado que los conjuntos de datos y los algoritmos de aprendizaje.
Dando a Grok acceso a herramientas de búsqueda e información en tiempo real, pero como ocurre con todos los LLM capacitados en la predicción del siguiente token, el modelo aún puede generar información falsa o contradictoria.
Lograr un razonamiento confiable es la dirección de investigación más importante para abordar las limitaciones de los sistemas actuales.
xAI destaca algunas direcciones de investigación;
Supervisión escalable con asistencia de herramientas.
La retroalimentación humana es esencial. Sin embargo, proporcionar comentarios consistentes y precisos puede ser un desafío, especialmente cuando se trata de códigos extensos o pasos de razonamiento complejos.
La IA puede ayudar con una supervisión escalable buscando referencias de diferentes fuentes, verificando pasos intermedios con herramientas externas y buscando comentarios humanos cuando sea necesario.
Integración con verificación formal de seguridad, confiabilidad y conexión a tierra.
Para crear sistemas de IA que puedan razonar profundamente sobre el mundo real, planea desarrollar habilidades de razonamiento en situaciones menos ambiguas y más verificables.
Esto permite evaluar los sistemas sin comentarios humanos ni interacción con el mundo real.
Un objetivo inmediato importante de este enfoque es brindar garantías formales de la corrección del código, especialmente en lo que respecta a aspectos formalmente verificables de la seguridad de la IA.
Comprensión y recuperación de contextos prolongados.
Los modelos de formación para descubrir de manera eficiente conocimientos útiles en un contexto particular son fundamentales para producir sistemas verdaderamente inteligentes.
Ttrabajando en métodos que puedan descubrir y recuperar información cuando sea necesario.
Robustez adversaria.
Los ejemplos contradictorios demuestran que los optimizadores pueden explotar fácilmente las vulnerabilidades en los sistemas de inteligencia artificial, tanto durante el entrenamiento como durante el tiempo de servicio, provocando que cometan errores atroces.
Estas vulnerabilidades son debilidades de larga data de los modelos de aprendizaje profundo.
Estando interesados en mejorar la solidez de los LLM, los modelos de recompensa y los sistemas de seguimiento.
Capacidades multimodales.
Grok no tiene otros sentidos, como la visión y el oído. Para ayudar mejor a los usuarios, equiparando a Grok con estos diferentes sentidos que pueden permitir aplicaciones más amplias, incluidas interacciones y asistencia en tiempo real.
La IA tiene un inmenso potencial para aportar un valor científico y económico significativo a la sociedad, por lo que trabajan para desarrollar salvaguardias confiables contra formas catastróficas de uso malicioso.
Confiados en hacer todo lo posible para garantizar que la IA siga siendo una fuerza para el bien.
Grok ofrece a un número limitado de usuarios mediante una lista de espera en los Estados Unidos, probar el prototipo y brindar comentarios valiosos que ayudarán a mejorar sus capacidades antes de un lanzamiento más amplio.
Referencias; x.ai