Introducción
A medida que los modelos de lenguaje grandes (LLMs) como GPT-3, PaLM, ChatGPT y otros ganan una inmensa popularidad, la necesidad de evaluar a fondo sus capacidades se ha vuelto crucial. Estos modelos avanzados de IA pueden comprender y generar texto similar al humano, convirtiéndolos en herramientas poderosas en diversas aplicaciones.
Sin embargo, un gran poder conlleva una gran responsabilidad: debemos asegurarnos de que los LLMs sean confiables, imparciales y que sus riesgos potenciales estén bien comprendidos. En este blog, discutiremos el artículo académico “A Survey on Evaluation of Large Language Models”, que ofrece una visión general completa de cómo evaluar los LLMs de manera efectiva.

¿Qué son los modelos de lenguaje grandes?
Los modelos de lenguaje grandes (LLMs) representan una categoría de modelos avanzados de aprendizaje profundo que han revolucionado el campo del procesamiento del lenguaje natural (NLP). Estos modelos se distinguen por su enorme tamaño y su extenso preentrenamiento en grandes cantidades de datos de texto obtenidos de Internet. La arquitectura fundamental subyacente a muchos LLMs se conoce como Transformer, que consta de capas de módulos codificadores y decodificadores equipados con mecanismos de autoatención.
La arquitectura Transformer permite que los LLMs sobresalgan en la comprensión y generación de texto similar al humano. A diferencia de los modelos tradicionales que procesan texto de forma secuencial, los Transformers pueden procesar secuencias completas de datos en paralelo, aprovechando la potencia computacional de las GPUs para acelerar significativamente los tiempos de entrenamiento. Esta capacidad de procesamiento en paralelo es crucial para manejar la complejidad y escala de los datos involucrados en el entrenamiento de modelos grandes.
Los LLMs se entrenan de manera no supervisada o autosupervisada, lo que significa que aprenden a predecir la siguiente palabra o secuencia de palabras en un texto basándose únicamente en los patrones y la estructura inherentes a los datos. Este enfoque permite que los LLMs capturen patrones lingüísticos complejos, reglas sintácticas y relaciones semánticas en diferentes idiomas y dominios.

Además, los LLMs son capaces de aprendizaje por transferencia, donde pueden afinarse en tareas específicas con cantidades relativamente pequeñas de datos específicos de la tarea. Esta adaptabilidad los convierte en herramientas versátiles en una amplia gama de aplicaciones, que incluyen, entre otras, traducción de idiomas, análisis de sentimientos, resumen de texto, respuesta a preguntas, e incluso escritura creativa o generación de código. Muchas empresas, como Novita AI, ofrecen APIs de LLM para que los programadores aprovechen el poder de los LLMs.
¿Qué aspectos de los LLMs evaluar?
El artículo “A Survey on Evaluation of Large Language Models” categoriza la evaluación de LLMs en varias áreas clave:
Procesamiento del Lenguaje Natural (NLP)
Evaluar habilidades centrales de NLP como clasificación de texto, inferencia en lenguaje natural, resumen, traducción, respuesta a preguntas, etc.
Razonamiento
Evaluar capacidades de razonamiento lógico, razonamiento de sentido común, razonamiento aritmético de múltiples pasos.
Robustez
Examinar el rendimiento del modelo bajo entradas adversariales, muestras fuera de distribución, corrupción de datos, etc.
Ética y sesgos
Evaluar sesgos relacionados con género, raza, religión y probar la adherencia a principios éticos.
Confiabilidad
Medir la fiabilidad, veracidad y precisión factual de las salidas del modelo.
Y muchas más áreas como rendimiento multilingüe, aplicaciones médicas, ingeniería, matemáticas y respuesta a preguntas científicas.
¿Dónde evaluar los LLMs?
Para evaluar de manera integral los LLMs, los autores del artículo “A Survey on Evaluation of Large Language Models” señalan que necesitamos conjuntos de datos y puntos de referencia cuidadosamente seleccionados en diferentes áreas:
Benchmarks generales:
- BIG-bench, HELM, PromptBench prueban capacidades diversas en un solo benchmark
Benchmarks especializados de NLP:
- GLUE, SuperGLUE para comprensión general del lenguaje
- SQuAD, NarrativeQA para respuesta a preguntas
Benchmarks de razonamiento:
- StrategyQA, PIE para razonamiento de sentido común/múltiples pasos
Benchmarks de robustez:
- GLUE-X, CheckList para evaluar la robustez frente a diversas perturbaciones
Benchmarks de ética y sesgos:
- Winogender, CrowS-Pairs para sesgo de género
- CANDELA para evaluar discurso de odio
Benchmarks multilingües:
- XGLUE, XTREME para generalización entre idiomas
- M3Exam para capacidades multilingües
Benchmarks especializados en dominios para matemáticas, ciencia, código, pruebas de personalidad y más.
Benchmarks multimodales:
- Combinación de texto con imágenes, audio, videos, etc.
- MMBench, MMLU, LAMM, MME entre otros
¿Cómo evaluar los LLMs?
“A Survey on Evaluation of Large Language Models” discute varios protocolos para la evaluación de LLMs:
Evaluación automática:
- Usar métricas como BLEU, ROUGE, F1, Precisión para puntuar salidas vs referencias
- Funciona para tareas bien definidas pero tiene limitaciones
Evaluación humana:
- Reclutar humanos para calificar subjetivamente las salidas
- Más costoso pero puede capturar aspectos abiertos
- Usado para razonamiento de sentido común, generación abierta
Human-in-the-loop:
- Humanos proporcionan retroalimentación interactiva para refinar indicaciones/salidas del modelo
- Ej. AdaFilter que filtra salidas tóxicas
Pruebas colaborativas (crowdsourcing):
- Plantillas obtenidas de personas para crear nuevos casos de prueba
- Plataformas como DynaBench realizan pruebas de estrés continuas
Listas de verificación:
- Casos de prueba seleccionados que cubren capacidades y modos de fallo
- Inspiradas en listas de verificación de pruebas de software

¿Cuáles son los LLMs populares con rendimiento sobresaliente en benchmarks?
Anthropic: Claude 3.5 Sonnet
Claude 3.5 Sonnet ofrece capacidades mejores que Opus, velocidades más rápidas que Sonnet, al mismo precio de Sonnet. Sonnet es particularmente bueno en codificación, aumentando la experiencia en ciencia de datos humana, navegando datos no estructurados mientras usa múltiples herramientas para obtener información, procesamiento visual y tareas agénticas. La API de Claude 3.5 Sonnet es proporcionada por Anthropic.

Meta: Llama 3 70B Instruct
La clase más reciente de modelo de Meta (Llama 3) se lanzó con una variedad de tamaños y sabores. Esta versión afinada con instrucciones de 70B fue optimizada para casos de uso de diálogo de alta calidad. Ha demostrado un rendimiento sólido en comparación con modelos líderes de código cerrado en evaluaciones humanas. Los principales proveedores de la API Llama 3 70B Instruct incluyen DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks y Perplexity.

OpenAI: GPT-4o
GPT-4o (“o” de “omni”) es el último modelo de IA de OpenAI, compatible con entradas de texto e imagen con salidas de texto. Mantiene el nivel de inteligencia de GPT-4 Turbo mientras es el doble de rápido y un 50% más rentable. GPT-4o también ofrece un rendimiento mejorado en el procesamiento de idiomas no ingleses y capacidades visuales mejoradas. Los principales proveedores de GPT-4o incluyen Open AI y Azure.

WizardLM-2 8x22B
WizardLM-2 8x22B es el modelo Wizard más avanzado de Microsoft AI. Demuestra un rendimiento altamente competitivo en comparación con modelos propietarios líderes, y supera consistentemente a todos los modelos de código abierto de última generación existentes. Los principales proveedores de la API WizardLM-2 8x22B incluyen Novita AI, DeepInfra, Lepton, OctoAI y Together.

Mistral: Mistral 7B Instruct
Mistral 7B Instruct es un modelo de alto rendimiento y estándar de la industria con 7.3 mil millones de parámetros, optimizado para velocidad y longitud de contexto. Los principales proveedores de Mistral 7B Instruct incluyen Novita AI, Lepton, DeepInfra, OctoAI y Together.

¿Cuáles son los desafíos futuros de evaluar LLMs?
Los autores de “A Survey on Evaluation of Large Language Models” señalan algunos desafíos futuros para que los lectores consideren:
Diseño de benchmarks para AGI:
- Se necesitan benchmarks que puedan probar de manera integral la inteligencia general artificial
- Deberían cubrir capacidades multitarea, multimodales y de final abierto
Pruebas de comportamiento completas:
- Pruebas de estrés para todas las posibles distribuciones de entrada y comportamientos
- Asegurar confiabilidad y seguridad en implementaciones del mundo real
Evaluación de robustez:
- Ataques adversariales, cambios de distribución, riesgos de seguridad
- Se necesitan marcos basados en principios más allá de los métodos ad-hoc actuales
Evaluación dinámica:
- Actualizar evaluaciones a medida que los LLMs evolucionan para manejar nuevos riesgos/capacidades
- Ej. LLMs mejorando en codificación o razonamiento matemático
Evaluación unificada:
- Se necesitan marcos unificados para evaluar consistentemente diversos LLMs
- El enfoque actual es ad-hoc y carece de estandarización
Evaluación confiable:
- El proceso de evaluación en sí mismo debe ser imparcial, seguro y fiel
- Prevenir trampas por parte de los LLMs o anotaciones humanas no confiables
Conclusión
Evaluar rigurosamente los modelos de lenguaje grandes es crucial para generar confianza y permitir su implementación segura y ética. “A Survey on Evaluation of Large Language Models” ofrece una visión general completa de los aspectos clave, conjuntos de datos, protocolos y desafíos abiertos en la evaluación de LLMs. A medida que estos potentes modelos de IA continúan avanzando, la investigación en evaluación debe mantenerse al día para escudriñar su rendimiento y protegerse contra posibles riesgos para la sociedad. Seguir prácticas de evaluación basadas en principios es vital para aprovechar de manera responsable el potencial transformador de los LLMs.
Referencias
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109
Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. Con APIs integradas sin problemas, computación sin servidor y aceleración de GPU, proporcionamos las herramientas rentables que necesitas para construir y escalar rápidamente tu negocio impulsado por IA. Elimina los problemas de infraestructura y comienza gratis — Novita AI hace realidad tus sueños de IA.
