Buscar
Cerrar este cuadro de búsqueda.

HELM: Evaluación Holística de Modelos de Lenguaje

 

La Evaluación Holística de Modelos de Lenguaje (HELM) es el primer proyecto de evaluación comparativa destinado a mejorar la transparencia de los modelos de lenguaje y la categoría más amplia de modelos básicos.

 

El Center for Research on Foundation Models (CRFM)  Centro de Investigación de Modelos Básicos del Instituto Stanford para la IA Centrada en el Ser Humano.

 

Institute for Human-Centered AI (HAI), evaluaron 30 modelos de lenguaje de 12 organizaciones: AI21 Labs, Anthropic, BigScience, Cohere, EleutherAI, Google, Meta, Microsoft, NVIDIA, OpenAI, Tsinghua University y Yandex.

 

Algunos de estos modelos son de código abierto para el público, otros están disponibles a través de API comerciales y otros son privados.

 

 

 

 

La Evaluación Holística de Modelos de Lenguaje (HELM) tiene dos niveles:

 

1. Una taxonomía abstracta de escenarios y métricas para definir el espacio de diseño para la evaluación del modelo de lenguaje.

 

2. Un conjunto concreto de implementaron escenarios y métricas que fueron seleccionadas para priorizar la cobertura, por ejemplo, diferentes variedades;

  • Valor: Aplicaciones orientadas al usuario
  • Viabilidad: Recursos de ingeniería limitados.

 

Puntos de referencia en IA, incluidos los de modelos de lenguaje como SuperGLUE, EleutherAI LM Harness y BIGbench, se definen por elecciones específicas de escenarios y métricas.

 

Los puntos de referencia toman diferentes decisiones sobre qué priorizar, cómo tomar estas decisiones y en qué medida estos procesos quedan claros al presentar el benchmark.

 

El objetivo es la evaluación holística, siendo necesario ser explícito en la relación entre lo que se aspira evaluar y lo que realmente se evalúa.

 

La construcción de HELM comienza de arriba hacia abajo con una taxonomía sobre escenarios y métricas.

 

La taxonomía no sólo facilita la selección sistemática de escenarios y métricas, pero también hace explícito lo que falta.

 

HELM como un punto de referencia vivo y se valora tanto la taxonomía abstracta como la concreta.

 

La selección de escenarios y métricas evolucionará de acuerdo con la tecnología, las aplicaciones y las redes sociales.

 

Destacando explícitamente las evaluaciones que faltan en HELM que deben priorizarse, estos son los que históricamente han sido ignorados por todo el campo de la IA.

 

 

A pesar de su simplicidad, los modelos de lenguaje funcionan cada vez más como la base de casi todas las tecnologías del lenguaje, desde la respuesta a preguntas hasta el resumen.

 

Pero sus inmensas capacidades y riesgos no se comprenden bien.

 

La evaluación holística de modelos de lenguaje (HELM) es un punto de referencia vivo que tiene como objetivo mejorar la transparencia de los modelos de lenguaje.

 

  1. Amplia cobertura y reconocimiento de lo incompleto.

 

Definiendo una taxonomía sobre los escenarios que idealmente se pretenden evaluar, seleccionando escenarios y métricas para cubrir el espacio y hacer explícito lo que falta.

 

  1. Medición multimétrica.

 

En lugar de centrarse en métricas aisladas como la precisión, se miden simultáneamente varias métricas, por ejemplo, precisión, robustez, calibración y eficiencia para cada escenario, lo que permite el análisis de compensaciones.

 

  1. Estandarización.

 

Evaluación de todos los modelos a los que se tienen acceso en los mismos escenarios con la misma estrategia de adaptación.

 

Por ejemplo, incitación, lo que permite comparaciones controladas.

 

 

Además del conjunto básico de 16 escenarios, donde para cada escenario se miden las 7 categorías de métricas, HELM tiene 7 evaluaciones específicas a través de 26 escenarios adicionales y métricas adjuntas.

 

Estas evaluaciones apuntan a la comprensión lingüística, el mundo y conocimiento de sentido común, capacidades de razonamiento, memorización y derechos de autor, desinformación generación, sesgos y generación de toxicidad, proporcionando una inmersión más profunda más allá de los escenarios centrales.

 

Este incluye 21 escenarios que son completamente nuevos, por ejemplo, WikiFact o que no se han utilizado en evaluación del modelo de lenguaje convencional, por ejemplo, ICE.

 

HELM está orientado por un enfoque holístico que destaca el impacto social y se refleja en una perspectiva multi métrica, la evaluación puede también señalar fenómenos específicos para avanzar en la comprensión científica.

 

Por ejemplo, la capacidad de un modelo para realizar razonamiento analógico, por ejemplo Bommasani.

 

Para que los resultados de la evaluación sean más inteligibles, separa los escenarios centrales de las evaluaciones específicas.

 

Los escenarios centrales y la medición multi métrica proporcionan una lente integrada en los modelos, mientras que las evaluaciones dirigidas aíslan habilidades y riesgos específicos.

 

Evaluación del modelo de lenguaje estandarizado.

 

Varios de los 16 escenarios centrales no tenían modelos evaluados en ellos, y solo unos pocos escenarios.

 

Por ejemplo, BoolQ, HellaSwag, tenían un número considerable de modelos evaluados en ellos.

 

Esto es acumulativo, no solo se documentan instancias donde el trabajo que presenta el modelo evaluado en un escenario dado, pero cualquier trabajo posterior evaluó el modelo en el escenario.

 

Después de la evaluación, los modelos ahora se evalúan bajo las mismas condiciones en muchos escenarios.

 

 

Conclusión

 

Estos hallazgos representan la instantánea actual del panorama del modelado del lenguaje.

 

El campo de la IA se mueve rápidamente con nuevos modelos que se lanzan continuamente, por ejemplo, Meta Galactica, y los modelos más nuevos de AI21 Labs y Cohere.

 

Entonces, lo que podría ser cierto hoy podría no serlo mañana.

 

Todavía hay modelos como el PaLM de Google y el Chinchilla de DeepMind a los que no hay acceso.

 

Tampoco se sabe cómo se entrenaron los modelos existentes, como InstructGPT davinci v2 de OpenAI, a pesar de poder probar su comportamiento a través de las API.

 

Como comunidad, todavía nos falta el nivel deseado de transparencia, y necesitamos desarrollar normas comunitarias que brinden a los investigadores un acceso adecuado de manera responsable.

 

Aunque HELM sea lo más holístico y completo posible, siempre habrá nuevos escenarios, métricas y modelos.

 

HELM por diseño pone en primer plano su incompletitud, y le damos la bienvenida a la comunidad para que resalte cualquier brecha adicional, ayude a priorizar y contribuya con nuevos escenarios, métricas y modelos.

 

La historia y la trayectoria de la evaluación comparativa de la IA se alinea con el privilegio institucional y confiere poder de toma de decisiones.

 

Los puntos de referencia establecen la agenda y orientan el progreso.

 

Se debe aspirar a puntos de referencia holísticos, pluralistas y democráticos.

 

Se espera que la comunidad adopte, desarrolle e interrogue a HELM en el futuro para cumplir con esa aspiración.

 

Para proporcionar la transparencia tan necesaria para los modelos de lenguaje y los modelos básicos en general.

 

La transparencia genera confianza y estándares.

 

El objetivo es transformar los modelos básicos de una tecnología emergente inmadura a una infraestructura confiable que encarna los valores humanos.

 

 

 

Referencias;

crfm.stanford.edu/helm

hai.stanford.edu/language-models-are-changing-ai-we-need-understand-them

arxiv.org/pdf/2211.09110.pdf

observatorio-ia.com/stanford-presenta-el-primer-punto-de-referencia-de-ia-para-ayudar-a-comprender-los-large-language-models-llm

 

Imagen; concepto-transformacion-digital-fondo-cerebro-tecnologia-ai > de rawpixel.com > en Freepik > freepik.es

 

GNoME: Tecnología Inteligencia Artificial (IA) de Google Mind

  GNoME Graph Networks for Materials Exploration la herramienta de inteligencia artificial GNoME es una tecnología desarrollada por Google DeepMind que ha predicho 2.2 millones de nuevos materiales, incluyendo 380,000 materiales estables. Estos materiales tienen el potencial de impulsar tecnologías futuras,

Leer más »
error: Alert: Este contenido está Protegido © !!