So greifen Sie lokal oder per API auf Llama 3.3 70b zu: Eine vollständige Anleitung

So greifen Sie lokal oder per API auf Llama 3.3 70b zu: Eine vollständige Anleitung

Wichtige Highlights

1. Fortschrittliche Leistung: Llama 3.3 70b ist ein leistungsstarkes Modell von Meta. Es zeichnet sich bei Aufgaben wie Anweisungsbefolgung und mehrsprachigem Denken aus.

2. So greifen Sie lokal auf Llama 3.3 70b zu: Um Llama 3.3 70b lokal auszuführen, benötigen Sie eine leistungsstarke GPU (mindestens 24 GB VRAM), mindestens 32 GB RAM und 250 GB Speicherplatz sowie spezielle Software.

3. So greifen Sie über die API auf Llama 3.3 70b zu: Novita AI bietet eine API für Llama 3.3 70b, für nur 0,39 $ pro Million Tokens für Eingabe und Ausgabe. Melden Sie sich einfach für eine kostenlose Testversion an und nutzen Sie die API mit einfachen Anfragen.

4. Nutzungsempfehlungen: Unterschiedliche Benutzer haben unterschiedliche Anforderungen: Forscher bevorzugen möglicherweise eine lokale Installation, während Unternehmen und Gelegenheitsnutzer den API-Zugriff als bequemer und kosteneffizienter empfinden.

In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz sticht Metas Llama 3.3 70b als robustes und vielseitiges mehrsprachiges großes Sprachmodell hervor. Mit seiner Fähigkeit, eine breite Palette von textbasierten Aufgaben auszuführen und dabei einen überschaubaren Rechenaufwand zu bewahren, bietet Llama 3.3 70b eine praktikable Option für Entwickler und Forscher gleichermaßen. Dieser Artikel bietet eine umfassende Anleitung zum Zugriff auf Llama 3.3 70b und beschreibt sowohl die lokale Installation als auch die API (z. B. Novita AI), um verschiedene Benutzeranforderungen zu erfüllen.

Was ist Llama 3.3 70b?

Llama 3.3 70b ist Metas neuestes mehrsprachiges großes Sprachmodell (LLM), das für verschiedene textbasierte Aufgaben entwickelt wurde. Mit 70 Milliarden Parametern bietet es eine vergleichbare Leistung wie das viel größere Llama 3.1 405B-Modell, reduziert jedoch den Rechenaufwand erheblich, was es für Entwickler zugänglicher macht.

Hauptmerkmale

  • Mehrsprachige Unterstützung: Llama 3.3 70b unterstützt nativ acht Sprachen: Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thai. Es kann auch mit entsprechenden Sicherheitsvorkehrungen für zusätzliche Sprachen feinabgestimmt werden.
  • Fortschrittliche Architektur: Verwendet eine optimierte Transformer-Architektur mit Grouped-Query Attention (GQA), um Effizienz und Skalierbarkeit zu verbessern.
  • Lange Kontextlänge: Unterstützt eine Kontextlänge von 128k Token, geeignet für die Verarbeitung langer Texte.
  • Umweltfreundliches Training: Meta hat während des Trainingsprozesses des Modells Netto-Null-Emissionen erreicht.
  • Tool-Integration: Ermöglicht die Integration mit externen Tools und APIs für den Echtzeit-Datenzugriff und Drittanbieteranwendungen.
  • Sicherheit und Ausrichtung: Feinabgestimmt mit überwachter Feinabstimmung (SFT) und verstärkendem Lernen mit menschlichem Feedback (RLHF), um Sicherheit und Ausrichtung an menschlichen Präferenzen zu gewährleisten.

https://www.youtube.com/watch?v=-dnGa6Oms5I

Vergleich mit anderen Llama-Modellen

  • Llama 3.3 70b vs. Llama 3.1 405B: Llama 3.3 70b bietet eine ähnliche Leistung wie Llama 3.1 405B, jedoch mit verbesserter Effizienz und geringerem Rechenaufwand.
  • Llama 3.3 70b vs. Llama 3.2: Llama 3.3 verbessert die Feinabstimmung, Sicherheitsfunktionen und Benchmark-Leistung gegenüber Llama 3.2.

Vergleich mit anderen Modellen

Obwohl Llama 3.3 70b Modelle wie GPT-4 oder Claude 3.5 nicht immer übertrifft, liefert es dennoch wettbewerbsfähige Ergebnisse, insbesondere beim Programmieren und mehrsprachigen Denken. Es zeichnet sich bei Aufgaben aus, die das Befolgen von Anweisungen erfordern, und übertrifft sowohl Llama 3.1 405B als auch GPT-4 in diesem Bereich. Darüber hinaus ist es im Hinblick auf die Kosten für Eingabe- und Ausgabetoken kosteneffizienter als Modelle wie Amazon Nova Pro, GPT-4 und Claude 3.5.

Wenn Sie einen detaillierteren Parametervergleich sehen möchten, lesen Sie diesen Artikel: Llama 3.3 Benchmark: Wichtige Vorteile und Anwendungserkenntnisse

Anwendungen

  • Mehrsprachige Chatbots und virtuelle Assistenten.
  • Programmierunterstützung und Softwareentwicklung.
  • Synthetische Datengenerierung.
  • Mehrsprachige Content-Erstellung und Lokalisierung.
  • Forschung und Experimente.
  • Wissensbasierte Anwendungen wie Fragenbeantwortung und Zusammenfassung.

So greifen Sie lokal auf Llama 3.3 70b zu

Hardware-Anforderungen und Konfigurationsempfehlungen

  • GPU: NVIDIA-GPU mit mindestens 24 GB VRAM (z. B. A100 oder H100). Einige Quellen empfehlen eine NVIDIA RTX A6000 mit 48 GB.
  • RAM: Mindestens 32 GB (64 GB empfohlen für größere Datensätze).
  • Speicher: Mindestens 250 GB freier Festplattenspeicher; das Modell selbst belegt etwa 40 GB.
  • Betriebssystem: Linux (bevorzugt) oder Windows mit WSL2, wobei Ubuntu 22.04 eine spezifische Option ist.
  • Software: Python 3.8 oder neuer und CUDA Toolkit 11.7 oder höher.
  • Erforderliche Bibliotheken: Hugging Face Transformers, PyTorch und Tools für Quantisierung und Optimierung wie bitsandbytes.

Aus den obigen Daten können Sie erkennen, Warum die VRAM-Anforderungen von LLaMA 3.3 70B eine Herausforderung für Heimserver darstellen.

Schritt-für-Schritt-Installationsanleitung

1. Python installieren und eine virtuelle Umgebung erstellen

2. Erforderliche Bibliotheken installieren:

   Verwenden Sie pip install bitsandbytes für die GPU-Optimierung.

3. Hugging Face CLI installieren und anmelden:

   pip install huggingface-cli
   huggingface-cli login

4. Zugriff auf Llama-3.3 70b auf der Hugging Face-Website anfordern.

5. Modelldateien mit der Hugging Face CLI herunterladen:

   huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

6. Modell lokal mit der Hugging Face Transformers-Bibliothek laden:

   import torch
   from transformers import AutoModelForCausalLM, AutoTokenizer

   model_id = "meta-llama/Llama-3.3-70B-Instruct"
   model = AutoModelForCausalLM.from_pretrained(
       model_id, device_map="auto", torch_dtype=torch.bfloat16
   )
   tokenizer = AutoTokenizer.from_pretrained(model_id)

7. Inferenz mit dem geladenen Modell und Tokenizer ausführen.

So greifen Sie über Novita AI auf Llama 3.3 70b zu

So greifen Sie über die API auf Llama 3.3 zu

Schritt-für-Schritt-Anleitung

Novita AI bietet eine erschwingliche, zuverlässige und einfache Inferenzplattform mit skalierbarer Llama 3.3 70b API, die es Entwicklern ermöglicht, KI-Anwendungen zu erstellen. Probieren Sie noch heute die Novita AI Llama 3.3 70b API Demo aus!

Schritt 1: Anmelden und auf die Modellbibliothek zugreifen

Melden Sie sich in Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Anmelden und auf die Modellbibliothek zugreifen

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell aus, das Ihren Anforderungen entspricht.

Wählen Sie Ihr Modell

Schritt 3: Starten Sie Ihre kostenlose Testversion

Beginnen Sie Ihre kostenlose Testversion, um die Fähigkeiten des ausgewählten Modells zu erkunden.

Kostenlose Testversion

Schritt 4: Holen Sie sich Ihren API-Schlüssel

Um sich bei der API zu authentifizieren, stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Rufen Sie die Seite „Einstellungen“ auf und kopieren Sie den API-Schlüssel wie im Bild gezeigt.

API-Schlüssel holen

Schritt 5: Installieren Sie die API

Installieren Sie die API mit dem für Ihre Programmiersprache spezifischen Paketmanager.

API installieren

Importieren Sie nach der Installation die erforderlichen Bibliotheken in Ihre Entwicklungsumgebung. Initialisieren Sie die API mit Ihrem API-Schlüssel, um mit der Interaktion mit Novita AI LLM zu beginnen. Dies ist ein Beispiel für die Verwendung der Chat Completions API für Python-Benutzer.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Holen Sie sich den Novita AI API-Schlüssel, indem Sie auf https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key verweisen.
    api_key="<IHR Novita AI API-Schlüssel>",
)

model = "meta-llama/llama-3.3-70b-instruct"
stream = True  # oder False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Verhalten Sie sich wie ein hilfreicher Assistent.",
        },
        {
            "role": "user",
            "content": "Hallo!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "")
else:
    print(chat_completion_res.choices[0].message.content)

Bei der Registrierung stellt Novita AI ein Guthaben von 0,50 $ zur Verfügung, um Ihnen den Einstieg zu erleichtern!

Wenn das kostenlose Guthaben aufgebraucht ist, können Sie bezahlen, um es weiter zu nutzen.

Welche Methoden sind für Sie geeignet?

Vergleich von lokalem und API-Zugriff

Aspekt Lokaler Zugriff API-Zugriff
Skalierbarkeit Begrenzt; erfordert manuelle Upgrades. Skaliert automatisch und effizient.
Flexibilität Hohe Flexibilität; volle Kontrolle über Einstellungen. Weniger flexibel; hängt von den Konfigurationen des Anbieters ab.
Benutzerfreundlichkeit Erfordert technisches Fachwissen. Einfacher zu bedienen, keine komplexe Einrichtung erforderlich.
Erschwinglichkeit Hohe Anschaffungskosten, niedrige laufende Kosten. Am besten für langfristige Nutzung. Pay-per-Use, ideal für kleine oder gelegentliche Nutzung.

Empfehlungen für verschiedene Benutzergruppen

  • Forscher: Der lokale Zugriff wird im Allgemeinen wegen der Flexibilität und Kontrolle über Experimente bevorzugt.

  • Entwickler:

    • Der API-Zugriff eignet sich für die Entwicklung von Anwendungen und schnelles Prototyping.
    • Der lokale Zugriff ist besser für die Feinabstimmung und benutzerdefinierte Workflows geeignet.
  • Unternehmen: Der API-Zugriff ist vorteilhaft für die schnelle Integration in Dienste ohne hohe Anfangskosten. Die lokale Bereitstellung kann für Teams mit konsistenten Anforderungen und der Fähigkeit, in die Infrastruktur zu investieren, geeignet sein.

  • Kleine Teams / Einzelpersonen: Der API-Zugriff ist aufgrund der geringeren Startkosten in der Regel praktischer.

  • Benutzer mit begrenzten technischen Fähigkeiten: Der API-Zugriff ist vorzuziehen, da er kein tiefes technisches Wissen erfordert.

Zusammenfassend ist Llama 3.3 ein leistungsstarkes, vielseitiges und zugängliches Modell, das Leistung und Ressourcenanforderungen in Einklang bringt. Je nach Ihren Anforderungen und verfügbaren Ressourcen können Sie es entweder lokal ausführen oder über die API darauf zugreifen.

Häufig gestellte Fragen

Novita AI ist die All-in-one-Cloud-Plattform, die Ihre KI-Ambitionen unterstützt. Integrierte APIs, serverlos, GPU-Instanz – die kosteneffektiven Tools, die Sie benötigen. Infrastruktur überflüssig machen, kostenlos starten und Ihre KI-Vision verwirklichen.

Empfohlene Lektüre