Einleitung
In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz ist das Zusammenspiel zwischen großen Sprachmodellen (LLMs) und ihren kleineren Gegenstücken eine Geschichte der Synergie und Innovation. Die beeindruckenden Fähigkeiten von LLMs wie GPT-3 und GPT-4 sind zwar ehrfurchtgebietend, aber in einer Festung von Einschränkungen eingeschlossen – begrenzte Zugänglichkeit von Modellgewichten, immense Rechenanforderungen und die Beschränkungen des In-Context Learning (ICL).
Doch innerhalb dieser Grenzen liegt eine Lücke, eine Gelegenheit für kleine Modelle, als Plug-ins einzuspringen und eine Brücke zu personalisierteren und effizienteren Anwendungen zu schlagen. Dieser Blogbeitrag befasst sich mit der Notwendigkeit und den Auswirkungen der Integration kleiner Modelle als Plug-ins in die weiten Bereiche der LLMs, wobei das Konzept des Super In-Context Learning (SuperICL) und seine realen Auswirkungen untersucht werden.
LLMs und kleinere Modelle verstehen
Die Unterschiede zwischen LLMs und kleineren Modellen
Ein großes Sprachmodell ist ein hochentwickeltes KI-System, das entwickelt wurde, um große Mengen natürlicher Sprachdaten zu verarbeiten und zu verstehen. LLMs haben typischerweise eine große Anzahl von Parametern, die oft von Hunderten Millionen bis zu Milliarden reichen. Dadurch können sie komplexe Muster und Beziehungen innerhalb der Sprache erfassen, was fortgeschrittene Fähigkeiten wie Sprachübersetzung, Textzusammenfassung, Beantwortung von Fragen und Inhaltsgenerierung ermöglicht. LLMs werden auf großen Datensätzen trainiert und können mit zunehmender Größe komplexe Verhaltensweisen und „emergente Fähigkeiten“ zeigen, wobei letzteres Konzept umstritten ist, wie in der Stanford-Forschung diskutiert.
Im Gegensatz dazu haben kleinere Modelle weniger Parameter und sind weniger komplex. Sie können in ihren Fähigkeiten und der Bandbreite der Aufgaben, die sie effektiv ausführen können, eingeschränkter sein. Kleinere Modelle werden aufgrund ihrer geringeren Rechenanforderungen und des geringeren Datenbedarfs typischerweise für spezifischere oder weniger komplexe Aufgaben eingesetzt. Obwohl sie für bestimmte Anwendungen sehr effizient und effektiv sein können, besitzen sie im Allgemeinen nicht das gleiche Maß an nuanciertem Verständnis oder die Fähigkeit, eine Vielzahl von Sprachaufgaben zu bewältigen wie LLMs.
Was sind die besten Open-Source-LLMs?
- BERT: Entwickelt von Google, ist BERT ein bahnbrechendes LLM, das für seine transformative Wirkung auf die natürliche Sprachverarbeitung bekannt ist, weltweit in der Google-Suche eingesetzt wird und zahlreiche spezialisierte Modelle inspiriert hat.
- Falcon 180B: Das LLM des Technology Innovation Institute der VAE mit 180 Milliarden Parametern, das sich durch Textgenerierung und -verarbeitung auszeichnet, mit einer kleineren Version, Falcon-40B, die ebenfalls für Sprachverständnis bekannt ist.
- GPT-NeoX und GPT-J: Open-Source-LLMs von EleutherAI mit 20 Milliarden bzw. 6 Milliarden Parametern, die eine hohe Leistung in verschiedenen Bereichen bieten und die Demokratisierung der KI fördern.
- LLaMA 3: Das vielseitige LLM von Meta AI, das von 7 bis 70 Milliarden Parametern reicht, für die Generierung natürlicher Sprache optimiert und durch eine Open-Source-Lizenz anpassbar ist, mit verfügbaren APIs für Entwickler. Unternehmen wie Novita AI bieten in der Regel LLaMA 3 APIs für KI-Startups an.
- BLOOM: Ein Open-Source-LLM mit 176 Milliarden Parametern, eine gemeinsame Anstrengung von Hugging Face, das für die mehrsprachige und programmiersprachliche Textgenerierung entwickelt wurde und Transparenz und Zugänglichkeit priorisiert.
- Vicuna 13-B: Feinabgestimmt von LLaMa 13B, ist dieses Open-Source-Konversationsmodell geschickt im Umgang mit längeren Dialogen in Chatbot-Anwendungen in verschiedenen Branchen und zeigt fortschrittliche Konversations-KI-Fähigkeiten.
Warum brauchen wir kleine Modelle als Plug-ins für große Sprachmodelle?
Begrenzte Zugänglichkeit von Modellgewichten
- LLMs wie GPT-3 und GPT-4 sind leistungsstarke Werkzeuge für eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP). Die tatsächlichen Gewichtsparameter dieser Modelle werden jedoch aufgrund von geistigen Eigentumsrechten und Sicherheitsbedenken in der Regel nicht öffentlich geteilt.
- Ohne Zugriff auf die Modellgewichte ist es nicht möglich, ein internes Fine-Tuning durchzuführen, bei dem die Parameter des Modells angepasst werden, um es besser an eine bestimmte Aufgabe oder einen bestimmten Datensatz anzupassen.
Immense Modellgrößen
- LLMs sind in der Regel sehr groß, mit Milliarden von Parametern, was sie ressourcenintensiv macht. Die Hardwareanforderungen für das Training oder sogar das Fine-Tuning solcher Modelle sind für die meisten Einzelpersonen und kleineren Organisationen unerreichbar.
- Die große Größe bedeutet auch, dass die Übertragung dieser Modelle auf andere Hardware oder die Verwendung in Umgebungen mit begrenzter Rechenleistung eine Herausforderung darstellt.
Einschränkungen des In-Context Learning (ICL)
- ICL ist eine Technik, bei der einige beschriftete Beispiele zusammen mit der Eingabe bereitgestellt werden, um dem Modell bei Vorhersagen zu helfen. Diese Methode ermöglicht es dem Modell, aus dem Kontext der Beispiele zu lernen.
- ICL ist jedoch durch die Kontextlänge begrenzt, die das LLM verarbeiten kann. Wenn der Kontext zu lang ist, kann er die Kapazität des Modells überschreiten, und das Modell kann nicht alle bereitgestellten Beispiele effektiv nutzen.
- Diese Einschränkung ist besonders problematisch, wenn eine große Menge überwachter Daten verfügbar ist, da ICL aufgrund der Kontextlängenbeschränkung nur einen kleinen Teil davon verwenden kann.

Um diese Probleme anzugehen, schlagen einige Wissenschaftler Super In-Context Learning (SuperICL) vor, das die Stärken von LLMs mit lokal feinabgestimmten kleineren Modellen kombiniert. Die kleineren Modelle oder Plug-ins werden auf aufgabenspezifischen Daten feinabgestimmt und bieten eine Brücke zwischen den allgemeinen Fähigkeiten des LLM und den spezifischen Anforderungen der jeweiligen Aufgabe. Dieser Ansatz ermöglicht einen effektiveren Wissenstransfer und eine verbesserte Leistung bei überwachten Aufgaben, wobei die Einschränkungen von ICL und die Herausforderungen im Zusammenhang mit der Größe und Unzugänglichkeit von LLMs überwunden werden.

Wie entdeckte man, dass kleine Modelle wertvolle Plug-ins für große Sprachmodelle sind?
In diesem Abschnitt werden wir das Papier mit dem Titel „Small Models are Valuable Plug-ins for Large Language Models“ von Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu und Julian McAuley von der University of California, San Diego und Microsoft besprechen. Wie immer gilt: Wenn Sie sich nicht für die Forschungsdetails interessieren, können Sie gerne zum nächsten Abschnitt springen.
Methode
Basierend auf der Erkenntnis der Einschränkungen von LLMs, die wir im vorherigen Abschnitt besprochen haben, schlagen die Autoren SuperICL vor, um LLMs mit lokal feinabgestimmten kleineren Plug-in-Modellen zu kombinieren. Das Plug-in-Modell wird zunächst auf dem aufgabenspezifischen überwachten Datensatz feinabgestimmt. Anschließend macht es Vorhersagen mit Konfidenzwerten zu den Trainingsbeispielen aus diesem Datensatz. Diese Vorhersagen werden zusammen mit der Testeingabe als Kontext für das LLM bereitgestellt. Das LLM nutzt diesen Kontext, um die endgültige Vorhersage zu treffen, und kann optional eine Erklärung für seine Argumentation generieren.

Versuchsaufbau
Sie evaluieren den GLUE-Benchmark für Aufgaben des natürlichen Sprachverständnisses und XNLI für Zero-Shot-Transfer zwischen Sprachen. GPT-3.5 wird als LLM und RoBERTa-Large/XLM-R als Plug-in-Modelle verwendet. SuperICL wird mit Baselines von ICL mit GPT-3.5 und der alleinigen Verwendung der Plug-in-Modelle verglichen.
Ergebnisse
SuperICL übertrifft sowohl GPT-3.5 ICL als auch die Plug-in-Modelle einzeln im GLUE-Benchmark. Beim XNLI-Datensatz verbessert SuperICL die Leistung von XLM-R für die meisten Sprachen, was einen effektiven Zero-Shot-Transfer zeigt. Eine Ablationsstudie zeigt die Bedeutung jeder Komponente im SuperICL-Ansatz.


Zusammenfassung
SuperICL erzielt eine überlegene Leistung, indem es die Stärken von LLMs und kleineren Plug-in-Modellen kombiniert, die auf Aufgabendaten feinabgestimmt sind. Es behebt das Problem der Instabilität des regulären ICL, indem es das Sprachverständnis von der aufgabenspezifischen Wissensaufnahme trennt. Darüber hinaus erweitert SuperICL die Fähigkeiten kleinerer Modelle, z. B. durch die Ausweitung ihrer Mehrsprachigkeitsabdeckung. Es bietet auch Interpretierbarkeit, indem es dem LLM ermöglicht, Erklärungen zu generieren, wenn es Plug-in-Vorhersagen überschreibt.
Praxisbeispiele für kleine Modelle als Plug-ins für große Sprachmodelle
Angepasste Kundendienst-Chatbots
Kleine, domänenspezifische Modelle können feinabgestimmt werden, um die Terminologie und den Kontext einer bestimmten Branche zu verstehen, und dann als Plug-ins in einem großen Chatbot-Framework verwendet werden, um genauere und relevantere Antworten zu liefern.
Unterstützung bei der medizinischen Diagnose
Ein kleines Modell, das mit medizinischen Aufzeichnungen und Literatur trainiert wurde, kann als Plug-in für ein LLM fungieren, um Ärzte bei der Diagnose von Krankheiten, der Vorschlag von Behandlungen und der genaueren Interpretation medizinischer Tests zu unterstützen.
Analyse juristischer Dokumente
Auf juristische Dokumente feinabgestimmte kleine Modelle können verwendet werden, um LLMs beim Parsen und Verstehen juristischer Verträge zu verbessern, Zusammenfassungen bereitzustellen und potenzielle Probleme oder Klauseln hervorzuheben.
Sprachübersetzung
Für Sprachen mit geringen Ressourcen können kleine Modelle auf den verfügbaren Daten trainiert und dann als Plug-ins in LLMs verwendet werden, um die Übersetzungsqualität zu verbessern und Nuancen besser zu handhaben.
Bildungswerkzeuge
Auf Bildungsinhalte zugeschnittene kleine Modelle können in LLMs integriert werden, um intelligente Tutorensysteme zu schaffen, die personalisiertes Feedback und Erklärungen für Schüler bieten.
Inhaltsmoderation
Kleine Modelle, die darauf trainiert sind, bestimmte Arten von Inhalten zu erkennen (z. B. Hassreden, explizite Inhalte), können verwendet werden, um die Fähigkeiten von LLMs bei der Moderation benutzergenerierter Inhalte auf Social-Media-Plattformen zu verbessern.
Gesundheitsüberwachung
Kleine Modelle, die darauf trainiert sind, Muster in Patientendaten zu erkennen, können verwendet werden, um Frühwarnungen oder Einblicke in potenzielle Gesundheitsprobleme zu liefern, wenn sie in ein LLM integriert werden, das größere Datensätze verarbeiten und analysieren kann.
Diese Anwendungen zeigen, wie die Kombination von spezialisiertem Wissen kleiner Modelle mit dem breiten Verständnis von LLMs zu effizienteren, genaueren und maßgeschneiderten Lösungen in verschiedenen beruflichen und persönlichen Kontexten führen kann.
So führen Sie Code für SuperICL aus
Der folgende Code stammt von https://github.com/JetRunner/SuperICL?tab=readme-ov-file. Sie finden alle unten erwähnten Python-Skripte unter diesem Link.
Einrichtung
1 Installieren der erforderlichen Pakete: Verwenden Sie den Paketmanager pip, um alle in der Datei requirements.txt aufgeführten Pakete zu installieren.
pip install -r requirements.txt
2 Konfigurieren des OpenAI-API-Schlüssels:
- Kopieren Sie die Beispielkonfigurationsdatei, um Ihre eigene Konfigurationsdatei zu erstellen:
cp api_config_example.py api_config.py. - Bearbeiten Sie die neu erstellte Datei
api_config.pymit einem Texteditor wievi, um Ihren OpenAI-API-Schlüssel einzufügen.
Ausführen des Codes für verschiedene Aufgaben
1 GLUE-Benchmark:
- Führen Sie das Skript
run_glue.pymit den angegebenen Parametern aus, um das Modell auf dem GLUE-Benchmark auszuführen. - Geben Sie mit
--model_pathden Pfad zum Modell, mit--model_namedie Modellkennung und mit--datasetdie GLUE-Aufgabe an. - Um Erklärungen für Modellvorhersagen zu aktivieren, fügen Sie das Flag
--explanationhinzu.
python run_glue.py \
--model_path roberta-large-mnli \
--model_name RoBERTa-Large \
--dataset mnli-m \
--explanation # Fügen Sie dieses Flag für Erklärungen hinzu
- Eine Liste aller unterstützten Aufgaben finden Sie in der bereitgestellten Dokumentation.
2 XNLI-Benchmark:
- Führen Sie das Skript
run_xnli.pyfür sprachübergreifende Inferenzaufgaben mit natürlicher Sprache mit den angegebenen Parametern aus. - Geben Sie mit
--model_pathdas Verzeichnis des Modells, mit--model_nameden Namen des Modells und mit--langeine Liste der im Datensatz enthaltenen Sprachen an.
python run_xnli.py \
--model_path /pfad/zum/modell \
--model_name XLM-V \
--lang en,ar,bg,de,el,es,fr,hi,ru,sw,th,tr,ur,vi,zh
Zusätzliche Informationen
Alle verfügbaren Parameter für die Skripte finden Sie im Code-Repository.
Zitierung
Wenn Sie diese Arbeit in Ihrer Forschung verwenden, zitieren Sie sie bitte wie folgt:
@article{xu2023small,
title={Small Models are Valuable Plug-ins for Large Language Models},
author={Xu, Canwen and Xu, Yichong and Wang, Shuohang and Liu, Yang and Zhu, Chenguang and McAuley, Julian},
journal={arXiv preprint arXiv:2305.08848},
year={2023}
}
Einschränkungen kleiner Modelle als Plug-ins für große Sprachmodelle
Abhängigkeit von der Leistung des Plug-in-Modells
Die Gesamtleistung von SuperICL hängt immer noch von der Qualität des lokal feinabgestimmten Plug-in-Modells ab. Wenn das Plug-in-Modell bei der Aufgabe schlecht abschneidet, kann dies die Wirksamkeit von SuperICL einschränken.
Rechenaufwand
Das Fine-Tuning des Plug-in-Modells erfordert Zugang zu ausreichenden Rechenressourcen. Bei sehr großen überwachten Datensätzen kann dieses Fine-Tuning für kleinere Forschungsgruppen oder Einzelpersonen unerschwinglich teuer werden.
Aufgabenübergreifende Generalisierbarkeit
Die Experimente konzentrieren sich auf Aufgaben des natürlichen Sprachverständnisses im GLUE-Benchmark. Obwohl vielversprechend, sind weitere Bewertungen erforderlich, um die Wirksamkeit von SuperICL bei anderen NLP-Aufgaben wie Generierung, Zusammenfassung, Übersetzung usw. zu beurteilen.
Übertragung zwischen Aufgaben
Es ist unklar, wie gut ein einzelnes Plug-in-Modell, das auf eine Aufgabe feinabgestimmt wurde, generalisieren und effektiven Kontext für eine völlig andere Aufgabe bieten kann, wenn es mit SuperICL verwendet wird.
Grenzen der Mehrsprachigkeit
Während SuperICL die Mehrsprachigkeit verbessert, sind seine sprachübergreifenden Fähigkeiten immer noch grundlegend durch die ursprünglichen mehrsprachigen Fähigkeiten des Plug-in-Modells wie XLM-R begrenzt.
Fazit
Die Integration kleiner Modelle als Plug-ins in LLMs, wie von SuperICL demonstriert, bietet eine überzeugende Lösung für die inhärenten Einschränkungen groß angelegter KI. Durch die Erweiterung der Fähigkeiten von LLMs ebnen wir den Weg für nuanciertere, effizientere und breiter anwendbare KI-Systeme. Dennoch bleiben Herausforderungen wie die Abhängigkeit von der Plug-in-Leistung, Rechenkosten und die Generalisierbarkeit von Aufgaben bestehen, die einen ausgewogenen Ansatz zur Nutzung dieser Synergie erfordern.
Bleiben Sie dran, um die neuesten Erkenntnisse der KI-Forschung zu entdecken!
Novita AI, die Komplettlösung für grenzenlose Kreativität mit Zugang zu über 100 APIs. Von Bildgenerierung und Sprachverarbeitung bis hin zu Audioverbesserung und Videobearbeitung, günstig nach Verbrauch, befreit Sie von GPU-Wartungsproblemen, während Sie Ihre eigenen Produkte entwickeln. Testen Sie es kostenlos.
