OPT-175B es un modelo de lenguaje equivalente a GPT-3 entrenado por Meta.
Open Pretrained Transformer (OPT-175B), es un modelo de lenguaje con 175 mil millones de parámetros entrenados en conjuntos de datos disponibles públicamente, para permitir una mayor participación de la comunidad en la comprensión de esta nueva tecnología.
Para una tecnología de lenguaje de este tamaño, el sistema incluye tanto los modelos pre entrenados como el código necesario para entrenarlos y usarlos.
Para mantener la integridad y evitar el mal uso, Meta lanza OPT bajo una licencia no comercial para enfocarse en casos de uso de investigación.
Concediendo acceso al modelo a investigadores académicos, aquellos afiliados a organizaciones de gobierno, la sociedad civil y la academia, junto con laboratorios de investigación de la industria en todo el mundo.
¿Qué es OPT-175B?
El nombre completo de OPT es Open Pretrained Transformer, que es un modelo de transformador a gran escala, 175 mil millones de parámetros, que tiene un rendimiento similar al de GPT-3.
Meta AI Research lanzó Open Pre-trained Transformer OPT-175B, un modelo de lenguaje de IA con parámetros 175B.
El modelo se entrenó en un conjunto de datos que contenía tokens de 180B y exhibe un rendimiento comparable con GPT-3, mientras que solo requiere 1/7 de la huella de carbono de entrenamiento de GPT-3.
El modelo se publica bajo una licencia no comercial y está destinado a investigadores «afiliados a organizaciones gubernamentales, de la sociedad civil y académicas», así como a investigadores de la industria.
Aunque el acceso al modelo 175B completo debe otorgarse a través de un proceso de solicitud, las versiones más pequeñas que van desde los parámetros 125M a 30B se pueden descargar como parte de la biblioteca HuggingFace Transformers.
La arquitectura de aprendizaje profundo de Transformer se ha convertido en el estándar para los modelos de lenguaje, y los investigadores han logrado buenos resultados al aumentar el tamaño de los modelos y los conjuntos de datos de entrenamiento.
Gran parte de la investigación se ha centrado en modelos solo de decodificadores autorregresivos, como GPT-3 y PaLM, que pueden funcionar tan bien como el ser humano promedio en muchos puntos de referencia de procesamiento de lenguaje natural (NLP).
Algunas organizaciones de investigación, como EleutherAI, han puesto a disposición sus modelos entrenados, la mayoría de los modelos comerciales son completamente inaccesibles para el público o están controlados por una API.
Esta falta de acceso dificulta que los investigadores obtengan información sobre la causa de las áreas problemáticas de rendimiento del modelo conocidas, como la toxicidad y el sesgo.
¿Qué son los Modelos de Lenguaje?
Un modelo de lenguaje es una distribución de probabilidad sobre secuencias de palabras.
Predice la siguiente palabra basándose en todas las palabras anteriores.
Es útil para una variedad de aplicaciones de IA, como la finalización automática en su servicio de correo electrónico o chatbot.
¿Qué es GPT-3?
GPT-3 es un gran modelo de lenguaje, con 175 000 millones de parámetros, que utiliza el aprendizaje profundo para producir texto similar al humano.
GPT-3 se está utilizando gradualmente como columna vertebral en las últimas investigaciones y aplicaciones de NLP.
Debido a su tamaño gigantesco, la capacitación y el servicio de GPT-3 son muy difíciles y costosos, y plantean desafíos importantes para los sistemas de software subyacentes.
El GPT-3 original entrenado por OpenAI es de código cerrado y desarrollado como un servicio de pago al usarlo, los usuarios tienen que pagar por cada token generado.
GPT-3 Generative Pre-trained Transformer 3, ó transformador preentrenado generativo 3 (GPT-3), es un modelo de lenguaje autorregresivo que utiliza el aprendizaje profundo para producir texto similar al humano.
Dado un texto inicial como prompt (aviso), producirá un texto que continúa el prompt.
La arquitectura es una red de transformadores estándar, con algunos ajustes de ingeniería, con un tamaño de un contexto de 2048 tokens y 175 mil millones de parámetros, que requieren 800 GB de almacenamiento.
El método de entrenamiento es «preentrenamiento generativo», lo que significa que está entrenado para predecir cuál es el próximo token.
Es el modelo de predicción de lenguaje de tercera generación en la serie GPT-n y el sucesor de GPT-2.
Creado por OpenAI, un laboratorio de investigación de inteligencia artificial.
GPT-3 se presentó en mayo de 2020, es parte de una tendencia en los sistemas de procesamiento de lenguaje natural (NLP) de representaciones de lenguaje pre entrenadas.
La calidad del texto generado por GPT-3 es tan alta que puede ser difícil determinar si fue escrito por un ser humano o no, lo que tiene beneficios y riesgos.
Treinta y un investigadores e ingenieros de OpenAI presentaron el documento original del 28 de mayo de 2020 que presenta GPT-3.
Donde advirtieron sobre los peligros potenciales de GPT-3 y pidieron investigación para mitigar el riesgo.
¿Cuáles son las diferencias de OPT-175B con GPT-3?
En comparación con GPT-3, Meta AI abre todo el código, así como los pesos del modelo.
Promueve en gran medida las aplicaciones de grandes modelos de IA, y cada desarrollador puede usarlos como base para desarrollar tareas posteriores personalizadas.
Los grandes modelos de inteligencia artificial, como GPT-3, OPT-175B y AlphaFold, superan con creces la capacidad del hardware existente y se deben utilizar tecnologías distribuidas complejas y profesionales para entrenar e implementar servicios de inferencia.
La mayoría de los sistemas también tienen problemas como altas barreras para el aprendizaje, baja eficiencia de funcionamiento, escasa generalidad, difícil implementación y falta de mantenimiento.
OPT-175B vs GPT-3 y limitaciones de NLP
OPT-175B se compara principalmente con GPT-3, ya que el objetivo principal de OPT-175B es ser una réplica de GPT-3, ambos tienen 175 mil millones de parámetros como máximo.
Los resultados de la evaluación, el OPT-175B ofrece un rendimiento muy similar en la mayoría de las tareas, excepto en unas pocas cuyos resultados resultaron ser bastante erráticos.
El beneficio que tiene OPT sobre GPT es que está disponible gratuitamente.
GPT-3 no está disponible para ejecutarse localmente, incluso si se dispone de el hardware para utilizarlo.
OPT ofrece una alternativa a GPT-3 para ingenieros que quieren tener el control total de sus propias soluciones de IA.
La razón por la que el modelo de 175 mil millones de parámetros solo está disponible a través de una solicitud especial es porque los modelos de procesamiento de lenguaje de este tamaño tienen una gran cantidad de problemas de seguridad.
Desde generar lenguaje tóxico hasta exhibir sesgos y estereotipos problemáticos, los modelos de PNL de este tamaño deben estar en manos de investigadores responsables.
Además de la naturaleza problemática de la generación de lenguaje de IA, OPT todavía tiene limitaciones similares a las de una computadora, como problemas de bucle de diálogo y la producción de declaraciones básicas incorrectas.
El modelo de 175 mil millones de parámetros OPT-175B está bloqueado detrás de las solicitudes de acceso verificadas manualmente.
¿Qué es Alpa?
Alpa es un sistema para entrenar y servir gigantescos modelos de aprendizaje automático.
Alpa hace que la capacitación y el servicio de modelos grandes como GPT-3 sean simples, asequibles y accesibles para todos.
Es un sistema de código abierto para entrenar y servir redes neuronales a gran escala.
Alpa tiene como objetivo automatizar la capacitación y el servicio distribuidos a gran escala con solo unas pocas líneas de código.
Fue desarrollado inicialmente por personas en Sky Lab, UC Berkeley.
La comunidad de Alpa está creciendo con nuevos colaboradores de Google, Amazon, AnyScale y más.
Imagen;
concepto-fondo-visualizacion-lineas-alta-tecnologia-futurista > de starline > en Freepik > freepik.es
Referencias;
opt.alpa.ai
https://github.com/openai/gpt-3
gpt3demo.com/apps/opt-by-meta
www.infoq.com/news/2022/06/meta-opt-175b/
syncedreview.com/using-state-of-the-art-ai-models-for-free-try-opt-175b-on-your-cellphone-and-laptop/
wandb.ai/telidavies/Meta-AI-Releases-OPT-175B-Set-Of-Free-To-Use-Pretrained-Language-Models
arxiv.org/abs/2205.01068
multilingual.com/meta-large-language-model/