Einleitung
Da große Sprachmodelle (LLMs) wie GPT-3, PaLM, ChatGPT und andere enorm an Beliebtheit gewinnen, ist die Notwendigkeit, ihre Fähigkeiten gründlich zu bewerten, entscheidend geworden. Diese fortschrittlichen KI-Modelle können menschenähnlichen Text verstehen und generieren, was sie zu leistungsstarken Werkzeugen in verschiedenen Anwendungen macht.
Allerdings gilt: Mit großer Macht kommt große Verantwortung – wir müssen sicherstellen, dass LLMs zuverlässig, unvoreingenommen sind und ihre potenziellen Risiken gut verstanden werden. In diesem Blog werden wir das wissenschaftliche Paper „A Survey on Evaluation of Large Language Models“ besprechen, das einen umfassenden Überblick darüber gibt, wie man LLMs effektiv bewertet.

Was sind große Sprachmodelle?
Große Sprachmodelle (LLMs) stellen eine Kategorie fortschrittlicher Deep-Learning-Modelle dar, die das Gebiet der natürlichen Sprachverarbeitung (NLP) revolutioniert haben. Diese Modelle zeichnen sich durch ihre enorme Größe und umfangreiches Vortraining auf riesigen Textmengen aus dem Internet aus. Die grundlegende Architektur, die vielen LLMs zugrunde liegt, ist als Transformer bekannt, der aus Schichten von Encoder- und Decoder-Modulen mit Selbstaufmerksamkeitsmechanismen besteht.
Die Transformer-Architektur ermöglicht es LLMs, menschenähnlichen Text zu verstehen und zu generieren. Im Gegensatz zu traditionellen Modellen, die Text sequentiell verarbeiten, können Transformer ganze Datensequenzen parallel verarbeiten und dabei die Rechenleistung von GPUs nutzen, um die Trainingszeiten erheblich zu verkürzen. Diese parallele Verarbeitungsfähigkeit ist entscheidend, um die Komplexität und das Ausmaß der Daten zu bewältigen, die beim Training großer Modelle anfallen.
LLMs werden auf unüberwachte oder selbstüberwachte Weise trainiert, was bedeutet, dass sie lernen, das nächste Wort oder die nächste Wortsequenz in einem Text allein auf der Grundlage der im Datenmaterial vorhandenen Muster und Strukturen vorherzusagen. Dieser Ansatz ermöglicht es LLMs, komplexe sprachliche Muster, syntaktische Regeln und semantische Beziehungen über Sprachen und Domänen hinweg zu erfassen.

Darüber hinaus sind LLMs in der Lage, Transferlernen durchzuführen, bei dem sie mit relativ kleinen Mengen aufgabenspezifischer Daten für bestimmte Aufgaben feinabgestimmt werden können. Diese Anpassungsfähigkeit macht sie zu vielseitigen Werkzeugen für eine breite Palette von Anwendungen, darunter unter anderem Sprachübersetzung, Sentimentanalyse, Textzusammenfassung, Fragebeantwortung und sogar kreatives Schreiben oder Codegenerierung. Viele Unternehmen, z. B. Novita AI, bieten LLM-APIs für Programmierer an, um die Leistungsfähigkeit von LLMs zu nutzen.
Welche Aspekte von LLMs sollten bewertet werden?
Das Paper „A Survey on Evaluation of Large Language Models“ kategorisiert die LLM-Bewertung in mehrere Schlüsselbereiche:
Natürliche Sprachverarbeitung (NLP)
Testen der grundlegenden NLP-Fähigkeiten wie Textklassifikation, natürliches Sprachverständnis, Zusammenfassung, Übersetzung, Fragebeantwortung usw.
Schlussfolgerung
Bewertung des logischen Denkens, des gesunden Menschenverstands und der mehrstufigen arithmetischen Denkfähigkeiten.
Robustheit
Untersuchung der Modellleistung bei adversarialen Eingaben, Verteilungsverschiebungen, Datenverfälschungen usw.
Ethik und Verzerrungen
Bewertung von Verzerrungen in Bezug auf Geschlecht, Rasse, Religion und Prüfung der Einhaltung ethischer Grundsätze.
Vertrauenswürdigkeit
Messung der Zuverlässigkeit, Wahrhaftigkeit und faktischen Genauigkeit der Modellausgaben.
Und viele weitere Bereiche wie mehrsprachige Leistung, medizinische Anwendungen, Ingenieurwesen, Mathematik und wissenschaftliche Fragebeantwortung.
Wo sollten LLMs bewertet werden?
Um LLMs umfassend zu bewerten, betonen die Autoren des Papers „A Survey on Evaluation of Large Language Models“, dass wir sorgfältig kuratierte Datensätze und Benchmarks in verschiedenen Bereichen benötigen:
Allgemeine Benchmarks:
- BIG-bench, HELM, PromptBench testen verschiedene Fähigkeiten in einer einzigen Benchmark
Spezialisierte NLP-Benchmarks:
- GLUE, SuperGLUE für allgemeines Sprachverständnis
- SQuAD, NarrativeQA für Fragebeantwortung
Reasoning-Benchmarks:
- StrategyQA, PIE für Denkfähigkeiten mit gesundem Menschenverstand/mehrstufiges Denken
Robustheits-Benchmarks:
- GLUE-X, CheckList zur Bewertung der Robustheit gegenüber verschiedenen Störungen
Ethik- und Bias-Benchmarks:
- Winogender, CrowS-Pairs für Geschlechterbias
- CANDELA zur Bewertung von Hassrede
Mehrsprachige Benchmarks:
- XGLUE, XTREME für cross-linguale Generalisierung
- M3Exam für mehrsprachige Fähigkeiten
Spezialisierte Domain-Benchmarks für Mathematik, Naturwissenschaften, Code, Persönlichkeitstests und mehr.
Multimodale Benchmarks:
- Kombination von Text mit Bildern, Audio, Videos usw.
- MMBench, MMLU, LAMM, MME unter anderem
Wie sollten LLMs bewertet werden?
„A Survey on Evaluation of Large Language Models“ diskutiert verschiedene Protokolle zur LLM-Bewertung:
Automatische Bewertung:
- Verwendung von Metriken wie BLEU, ROUGE, F1, Genauigkeit, um Ausgaben mit Referenzen zu vergleichen
- Funktioniert für klar definierte Aufgaben, hat aber Einschränkungen
Menschliche Bewertung:
- Rekrutierung von Menschen zur subjektiven Bewertung der Ausgaben
- Teurer, kann aber offene Aspekte erfassen
- Verwendet für Denkfähigkeiten mit gesundem Menschenverstand, offene Generierung
Human-in-the-Loop:
- Menschen geben interaktiv Feedback, um Modell-Prompts/Ausgaben zu verfeinern
- Z. B. AdaFilter, der toxische Ausgaben filtert
Crowdsourcing-Tests:
- Crowdsourcing von Vorlagen von Menschen, um neue Testfälle zu erstellen
- Plattformen wie DynaBench führen kontinuierliche Stresstests durch
Checklisten:
- Kuratierte Testfälle, die Fähigkeiten und Fehlermodi abdecken
- Inspiriert von Softwaretest-Checklisten

Welche beliebten LLMs zeichnen sich durch herausragende Benchmark-Leistung aus?
Anthropic: Claude 3.5 Sonnet
Claude 3.5 Sonnet liefert bessere Fähigkeiten als Opus, schnellere Geschwindigkeiten als Sonnet, zu den gleichen Sonnet-Preisen. Sonnet ist besonders gut beim Programmieren, bei der Erweiterung menschlicher Datenwissenschaftskompetenz, bei der Navigation durch unstrukturierte Daten unter Verwendung mehrerer Werkzeuge für Erkenntnisse, bei der visuellen Verarbeitung und bei agentischen Aufgaben. Die Claude 3.5 Sonnet API wird von Anthropic bereitgestellt.

Meta: Llama 3 70B Instruct
Die neueste Modellklasse von Meta (Llama 3) wurde in verschiedenen Größen und Varianten veröffentlicht. Diese 70B instruct-getunte Version wurde für hochwertige Dialog-Anwendungsfälle optimiert. Sie hat in menschlichen Bewertungen eine starke Leistung im Vergleich zu führenden Closed-Source-Modellen gezeigt. Zu den wichtigsten Anbietern der Llama 3 70B Instruct API gehören DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks und Perplexity.

OpenAI: GPT-4o
GPT-4o („o“ für „omni“) ist OpenAIs neuestes KI-Modell, das sowohl Text- als auch Bildeingaben mit Textausgaben unterstützt. Es behält das Intelligenzniveau von GPT-4 Turbo bei, ist aber doppelt so schnell und 50 % kosteneffizienter. GPT-4o bietet außerdem eine verbesserte Leistung bei der Verarbeitung nicht-englischer Sprachen und erweiterte visuelle Fähigkeiten. Zu den wichtigsten Anbietern von GPT-4o gehören Open AI und Azure.

WizardLM-2 8x22B
WizardLM-2 8x22B ist Microsoft AIs fortschrittlichstes Wizard-Modell. Es zeigt eine äußerst wettbewerbsfähige Leistung im Vergleich zu führenden proprietären Modellen und übertrifft durchweg alle bestehenden hochmodernen Open-Source-Modelle. Zu den wichtigsten Anbietern der WizardLM-2 8x22B API gehören Novita AI, DeepInfra, Lepton, OctoAI und Together.

Mistral: Mistral 7B Instruct
Mistral 7B Instruct ist ein leistungsstarkes, branchenübliches Modell mit 7,3 Mrd. Parametern, optimiert für Geschwindigkeit und Kontextlänge. Zu den wichtigsten Anbietern von Mistral 7B Instruct gehören Novita AI, Lepton, DeepInfra, OctoAI und Together.

Was sind die zukünftigen Herausforderungen bei der Bewertung von LLMs?
Die Autoren von „A Survey on Evaluation of Large Language Models“ weisen auf einige zukünftige Herausforderungen hin, die Leser bedenken sollten:
Entwurf von AGI-Benchmarks:
- Es werden Benchmarks benötigt, die künstliche allgemeine Intelligenz umfassend testen können
- Sollten Multi-Task-, Multi-Modal- und offene Fähigkeiten abdecken
Vollständige Verhaltenstests:
- Stresstest für alle möglichen Eingabeverteilungen und Verhaltensweisen
- Gewährleistung von Zuverlässigkeit und Sicherheit in realen Anwendungen
Robustheitsbewertung:
- Adversariale Angriffe, Verteilungsverschiebungen, Sicherheitsrisiken
- Benötigt prinzipielle Rahmenwerke, die über aktuelle Ad-hoc-Methoden hinausgehen
Dynamische Bewertung:
- Aktualisierung von Bewertungen, während sich LLMs weiterentwickeln, um neue Risiken/Fähigkeiten zu bewältigen
- Z. B. LLMs werden besser beim Programmieren oder beim mathematischen Denken
Einheitliche Bewertung:
- Benötigt einheitliche Rahmenwerke, um verschiedene LLMs konsistent zu bewerten
- Aktueller Ansatz ist Ad-hoc und es fehlt an Standardisierung
Vertrauenswürdige Bewertung:
- Der Bewertungsprozess selbst muss unvoreingenommen, sicher und zuverlässig sein
- Verhindern von Betrug durch LLMs oder unzuverlässige menschliche Annotationen
Fazit
Die gründliche Bewertung großer Sprachmodelle ist entscheidend, um Vertrauen aufzubauen und ihren sicheren, ethischen Einsatz zu ermöglichen. „A Survey on Evaluation of Large Language Models“ bietet einen umfassenden Überblick über die wichtigsten Aspekte, Datensätze, Protokolle und offenen Herausforderungen bei der LLM-Bewertung. Da diese leistungsstarken KI-Modelle weiter voranschreiten, muss die Evaluierungsforschung Schritt halten, um ihre Leistung zu prüfen und vor potenziellen Risiken für die Gesellschaft zu schützen. Die Einhaltung prinzipieller Bewertungspraktiken ist entscheidend, um das transformative Potenzial von LLMs verantwortungsvoll zu nutzen.
Referenzen
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109
Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen unterstützt. Mit nahtlos integrierten APIs, serverlosem Computing und GPU-Beschleunigung bieten wir die kosteneffizienten Werkzeuge, die Sie benötigen, um Ihr KI-gesteuertes Unternehmen schnell aufzubauen und zu skalieren. Vermeiden Sie Infrastruktur-Kopfschmerzen und starten Sie kostenlos – Novita AI macht Ihre KI-Träume wahr.
