Une enquête sur l’évaluation des grands modèles de langage

Introduction

Alors que les grands modèles de langage (LLMs) comme GPT-3, PaLM, ChatGPT et autres gagnent une immense popularité, le besoin d’évaluer en profondeur leurs capacités est devenu crucial. Ces modèles d’IA avancés peuvent comprendre et générer du texte semblable à celui d’un humain, ce qui en fait des outils puissants dans diverses applications.

Cependant, un grand pouvoir implique de grandes responsabilités : nous devons nous assurer que les LLMs sont fiables, impartiaux et que leurs risques potentiels sont bien compris. Dans cet article, nous allons discuter de l’article académique « A Survey on Evaluation of Large Language Models », qui vous donne un aperçu complet de la manière d’évaluer efficacement les LLMs.

Que sont les grands modèles de langage ?

Les grands modèles de langage (LLMs) représentent une catégorie de modèles d’apprentissage profond avancés qui ont révolutionné le domaine du traitement du langage naturel (NLP). Ces modèles se distinguent par leur taille énorme et leur pré-entraînement intensif sur de vastes quantités de données textuelles provenant d’Internet. L’architecture fondamentale qui sous-tend de nombreux LLMs est connue sous le nom de Transformer, qui se compose de couches de modules encodeurs et décodeurs dotés de mécanismes d’auto-attention.

L’architecture Transformer permet aux LLMs d’exceller dans la compréhension et la génération de texte semblable à celui d’un humain. Contrairement aux modèles traditionnels qui traitent le texte de manière séquentielle, les Transformers peuvent traiter des séquences entières de données en parallèle, en exploitant la puissance de calcul des GPU pour accélérer considérablement les temps d’apprentissage. Cette capacité de traitement parallèle est cruciale pour gérer la complexité et l’échelle des données impliquées dans l’apprentissage de grands modèles.

Les LLMs sont entraînés de manière non supervisée ou auto-supervisée, ce qui signifie qu’ils apprennent à prédire le mot suivant ou la séquence de mots dans un texte en se basant uniquement sur les modèles et la structure inhérents aux données. Cette approche permet aux LLMs de capturer des modèles linguistiques complexes, des règles syntaxiques et des relations sémantiques à travers les langues et les domaines.

De plus, les LLMs sont capables d’apprentissage par transfert, où ils peuvent être affinés sur des tâches spécifiques avec des quantités relativement faibles de données spécifiques à la tâche. Cette adaptabilité en fait des outils polyvalents pour un large éventail d’applications, notamment la traduction linguistique, l’analyse des sentiments, le résumé de texte, la réponse aux questions, et même la rédaction créative ou la génération de code. De nombreuses entreprises, par exemple Novita AI, fournissent des API LLM pour permettre aux programmeurs d’exploiter la puissance des LLMs.

Quels aspects des LLMs évaluer ?

L’article « A Survey on Evaluation of Large Language Models » catégorise l’évaluation des LLMs en plusieurs domaines clés :

Traitement du langage naturel (NLP)

Tester les capacités NLP de base comme la classification de texte, l’inférence en langage naturel, le résumé, la traduction, la réponse aux questions, etc.

Raisonnement

Évaluer le raisonnement logique, le raisonnement de sens commun, le raisonnement arithmétique en plusieurs étapes.

Robustesse

Examiner les performances du modèle sous des entrées adverses, des échantillons hors distribution, des corruptions de données, etc.

Éthique et biais

Évaluer les biais liés au genre, à la race, à la religion, et tester l’adhésion aux principes éthiques.

Fiabilité

Mesurer la fiabilité, la véracité, l’exactitude factuelle des sorties du modèle.

Et bien d’autres domaines comme les performances multilingues, les applications médicales, l’ingénierie, les mathématiques et la réponse aux questions scientifiques.

Où évaluer les LLMs ?

Pour évaluer de manière exhaustive les LLMs, les auteurs de l’article « A Survey on Evaluation of Large Language Models » soulignent que nous avons besoin d’ensembles de données et de benchmarks soigneusement organisés dans différents domaines :

Benchmarks généraux :

BIG-bench, HELM, PromptBench testent diverses capacités dans un seul benchmark

Benchmarks NLP spécialisés :

GLUE, SuperGLUE pour la compréhension générale du langage
SQuAD, NarrativeQA pour la réponse aux questions

Benchmarks de raisonnement :

StrategyQA, PIE pour le raisonnement de sens commun / multi-étapes

Benchmarks de robustesse :

GLUE-X, CheckList pour évaluer la robustesse à diverses perturbations

Benchmarks d’éthique et de biais :

Winogender, CrowS-Pairs pour le biais de genre
CANDELA pour évaluer le discours de haine

Benchmarks multilingues :

XGLUE, XTREME pour la généralisation interlingue
M3Exam pour les capacités multilingues

Benchmarks spécialisés par domaine pour les mathématiques, la science, le code, les tests de personnalité, etc.

Benchmarks multimodaux :

Combinaison de texte avec images, audio, vidéos, etc.
MMBench, MMLU, LAMM, MME entre autres

Comment évaluer les LLMs ?

« A Survey on Evaluation of Large Language Models » discute de divers protocoles pour l’évaluation des LLMs :

Évaluation automatique :

Utilisation de métriques comme BLEU, ROUGE, F1, Précision pour noter les sorties par rapport aux références
Fonctionne pour des tâches bien définies mais a des limites

Évaluation humaine :

Recrutement d’humains pour évaluer subjectivement les sorties
Plus coûteux mais peut capturer des aspects ouverts
Utilisé pour le raisonnement de sens commun, la génération ouverte

Humain dans la boucle :

Les humains fournissent de manière interactive des retours pour affiner les invites/sorties du modèle
Par exemple AdaFilter qui filtre les sorties toxiques

Tests participatifs (crowdsourcing) :

Crowdsourcing de modèles (templates) à partir de personnes pour créer de nouveaux cas de test
Des plateformes comme DynaBench effectuent des tests de stress continus

Listes de contrôle (Checklists) :

Cas de test organisés couvrant les capacités et les modes de défaillance
Inspiré des listes de contrôle de tests logiciels

Quels sont les LLMs populaires avec des performances de benchmark exceptionnelles ?

Anthropic : Claude 3.5 Sonnet

Claude 3.5 Sonnet offre des capacités supérieures à Opus, des vitesses plus rapides que Sonnet, au même prix que Sonnet. Sonnet est particulièrement bon pour le codage, l’augmentation de l’expertise humaine en science des données, la navigation dans des données non structurées tout en utilisant plusieurs outils pour des insights, le traitement visuel et les tâches agentiques. L’API Claude 3.5 Sonnet est fournie par Anthropic.

Meta : Llama 3 70B Instruct

La dernière classe de modèles de Meta (Llama 3) a été lancée avec différentes tailles et variantes. Cette version 70B optimisée par instruction a été optimisée pour des cas d’utilisation de dialogue de haute qualité. Elle a démontré des performances solides par rapport aux modèles fermés leaders lors d’évaluations humaines. Les principaux fournisseurs de l’API Llama 3 70B Instruct incluent DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks et Perplexity.

OpenAI : GPT-4o

GPT-4o (« o » pour « omni ») est le dernier modèle d’IA d’OpenAI, prenant en charge les entrées texte et image avec des sorties texte. Il maintient le niveau d’intelligence de GPT-4 Turbo tout en étant deux fois plus rapide et 50 % plus rentable. GPT-4o offre également des performances améliorées dans le traitement des langues non anglaises et des capacités visuelles améliorées. Les principaux fournisseurs de GPT-4o incluent OpenAI et Azure.

WizardLM-2 8x22B

WizardLM-2 8x22B est le modèle Wizard le plus avancé de Microsoft AI. Il démontre des performances très compétitives par rapport aux modèles propriétaires leaders, et surpasse constamment tous les modèles open source de pointe existants. Les principaux fournisseurs de l’API WizardLM-2 8x22B incluent Novita AI, DeepInfra, Lepton, OctoAI et Together.

Mistral : Mistral 7B Instruct

Mistral 7B Instruct est un modèle haute performance de 7,3 milliards de paramètres, avec des optimisations pour la vitesse et la longueur de contexte. Les principaux fournisseurs de Mistral 7B Instruct incluent Novita AI, Lepton, DeepInfra, OctoAI et Together.

Quels sont les défis futurs de l’évaluation des LLMs ?

Les auteurs de « A Survey on Evaluation of Large Language Models » soulignent quelques défis futurs pour les lecteurs à considérer :

Conception de benchmarks pour l’AGI (Intelligence Générale Artificielle) :

Nécessité de benchmarks capables de tester de manière exhaustive l’intelligence générale artificielle
Devraient couvrir des capacités multi-tâches, multimodales et ouvertes

Tests comportementaux complets :

Tests de stress pour toutes les distributions d’entrée et comportements possibles
Assurer la fiabilité et la sécurité dans les déploiements réels

Évaluation de la robustesse :

Attaques adverses, changements de distribution, risques de sécurité
Nécessité de cadres théoriques au-delà des méthodes ad hoc actuelles

Évaluation dynamique :

Mise à jour des évaluations à mesure que les LLMs évoluent pour gérer de nouveaux risques/capacités
Par exemple, les LLMs devenant meilleurs en codage ou en raisonnement mathématique

Évaluation unifiée :

Nécessité de cadres unifiés pour évaluer de manière cohérente divers LLMs
L’approche actuelle est ad hoc et manque de standardisation

Évaluation fiable :

Le processus d’évaluation lui-même doit être impartial, sécurisé et fidèle
Empêcher la tricherie par les LLMs ou les annotations humaines peu fiables

Conclusion

Évaluer rigoureusement les grands modèles de langage est crucial pour instaurer la confiance et permettre leur déploiement sûr et éthique. « A Survey on Evaluation of Large Language Models » fournit un aperçu approfondi des aspects clés, des ensembles de données, des protocoles et des défis ouverts dans l’évaluation des LLMs. Alors que ces puissants modèles d’IA continuent de progresser, la recherche en évaluation doit suivre le rythme pour examiner leurs performances et se prémunir contre les risques potentiels pour la société. Suivre des pratiques d’évaluation fondées sur des principes est essentiel pour exploiter de manière responsable le potentiel transformateur des LLMs.

Références

Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109

Novita AI est la plateforme cloud tout-en-un qui donne vie à vos ambitions en IA. Avec des API intégrées de manière transparente, du calcul serverless et une accélération GPU, nous fournissons les outils rentables dont vous avez besoin pour construire et développer rapidement votre entreprise pilotée par l’IA. Éliminez les problèmes d’infrastructure et commencez gratuitement — Novita AI fait de vos rêves IA une réalité.