Llama 3.2 1B ist kostenlos auf Novita AI!

Llama 3.2 1B ist kostenlos auf Novita AI!

Wichtige Highlights

Modellübersicht: Llama 3.2 1B ist ein leichtes, mehrsprachiges LLM von Meta, das für den effizienten Einsatz auf Edge- und Mobilgeräten entwickelt wurde.

Trainingsmethode: Verwendet strukturiertes Pruning und Wissensdestillation von größeren Modellen.

Hardware-Anforderungen: Erfordert 3.14 GB VRAM für Inferenz und 14.11 GB für Feintuning.

Llama 3.2 1B ist ein fortschrittliches mehrsprachiges Large Language Model von Meta, das speziell für die leichte Bereitstellung auf mobilen und Edge-Geräten entwickelt wurde. Seine Architektur ermöglicht eine robuste Leistung bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung bei gleichzeitig effizienter Ressourcennutzung.

Empfehlen Sie Novita AI Ihren Freunden und beide erhalten $10 in LLM-API-Guthaben – bis zu $500 Gesamtbelohnungen.

Um die Entwickler-Community zu unterstützen, sind Llama 3.2 1B, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B derzeit kostenlos auf Novita AI verfügbar.

qwen 2.5 7b

Was ist Llama 3.2 1B?

Das Llama 3.2 1B-Modell ist ein leichtes, mehrsprachiges Large Language Model von Meta, das entwickelt wurde, um auf Edge- und Mobilgeräten effizient zu laufen und gleichzeitig eine starke Leistung für verschiedene Aufgaben der natürlichen Sprachverarbeitung zu bieten.

llama 3.2 1b

  • Modellgröße: 1B

  • Open Source: Ja

  • Architektur: Dense Transformer

  • Kontextlänge: 128.000 Token

  • Unterstützte mehrsprachige Sprachen:

    • Offiziell unterstützt: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch, Thai
    • Breitere Sammlung: Auf zusätzlichen Sprachen über die 8 aufgelisteten hinaus trainiert.
  • Multimodale Fähigkeit:

    • Eingabe: Text
    • Ausgabe: Text und Code
  • Trainingsmethode: Llama 3.2 1B wurde mit strukturiertem Pruning aus dem Llama 3.1 8B-Modell trainiert, wobei systematisch Teile des Netzwerks entfernt und die Gewichte angepasst wurden, um ein kleineres, effizientes Modell zu schaffen. Es wurde auch Wissensdestillation eingesetzt, bei der Logits der Llama 3.1 8B- und 70B-Modelle als Token-Level-Ziele während des Pre-Trainings verwendet wurden. Dieser Ansatz ermöglichte es Llama 3.2 1B, Erkenntnisse aus größeren Modellen zu nutzen und die Leistung nach dem Pruning-Prozess zu verbessern.

distill from llama 3.2 3b

Llama 3.2 1B Benchmark

llama 3.2 1b benchmark

llama 3.2 1b benchmark 1

llama 3.2 benchmark2

Llama 3.2 1B Hardware-Anforderungen

Inferenz-Details

  • Modell: Llama 3.2 1B

  • Quantisierung: FP16

  • Erforderlicher VRAM (Inferenz): 3,14 GB

  • Kompatible GPUs:

    • RTX 3090 (12 GB)
    • RTX 4060 (8 GB)

Feintuning-Details

  • Modell: Llama 3.2 1B
  • Quantisierung: FP16
  • Erforderlicher VRAM (Feintuning): 14,11 GB
  • Kompatible GPU: RTX 4090 (24 GB)

Meta hat quantisierte Versionen der Modelle Llama 3.2 1B und 3B veröffentlicht, die ihre Größe und Rechenanforderungen erheblich reduzieren. Diese quantisierten Modelle bieten im Vergleich zu den Originalversionen eine Reduzierung der Modellgröße um bis zu 56 % und eine Verringerung des Speicherverbrauchs um 41 %. Solche Optimierungen machen sie für den Einsatz auf mobilen Geräten geeignet, einschließlich Smartphones mit ARM-basierten CPUs.

Wie erhält man Zugang zu Llama 3.2 1B?

Schritt 1: Anmelden und auf die Modellbibliothek zugreifen

Melden Sie sich in Ihrem Konto an und klicken Sie auf die Schaltfläche Model Library.

Log In and Access the Model Library

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

choose your model

Schritt 3: Starten Sie Ihre kostenlose Testversion

Beginnen Sie Ihre kostenlose Testversion, um die Fähigkeiten des ausgewählten Modells zu erkunden.

llama 3.2 1b

Jetzt Llama 3.2 1B ausprobieren!

Schritt 4: Holen Sie sich Ihren API-Schlüssel

Zur Authentifizierung mit der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Gehen Sie auf die Seite „Settings“ und kopieren Sie den API-Schlüssel, wie im Bild gezeigt.

get api key

Schritt 5: Installieren Sie die API

Installieren Sie die API mit dem Paketmanager Ihrer Programmiersprache.

Importieren Sie nach der Installation die erforderlichen Bibliotheken in Ihre Entwicklungsumgebung. Initialisieren Sie die API mit Ihrem API-Schlüssel, um mit der Novita AI LLM zu interagieren. Dies ist ein Beispiel für die Verwendung der Chat Completions API für Python-Benutzer.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<IHR Novita AI API-Schlüssel>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # oder False
max_tokens = 2048
system_content = """Sei ein hilfreicher Assistent"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hallo!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Zusammenfassend zeichnet sich Llama 3.2 1B durch seine Fähigkeit aus, leistungsstarke Sprachverarbeitungsfunktionen auf Geräten mit begrenzten Ressourcen bereitzustellen. Dank seines Open-Source-Charakters und der optimierten Architektur ist es ein wertvolles Werkzeug für Entwickler, die nach effizienten KI-Lösungen suchen.

Häufig gestellte Fragen

Was ist Llama 3.2 1B?

Ein mehrsprachiges, leichtes Sprachmodell, das für die effiziente Bereitstellung auf Mobilgeräten entwickelt wurde.

Welche Hardware-Anforderungen hat Llama 3.2 1B?

Die Inferenz erfordert 3,14 GB VRAM; das Feintuning benötigt 14,11 GB VRAM.

Sind Llama 3.2 1B-Modelle kostenlos nutzbar?

Ja! Novita AI bietet kostenlosen Zugang zu Llama 3.2 1B-Modellen mit einfacher API-Integration.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud für den Aufbau und die Skalierung bereitstellt.

Empfohlene Lektüre