BaiDu ERNIE 4.5 MoE Model API jetzt live auf Novita AI

BaiDu ERNIE 4.5 MoE Model API jetzt live auf Novita AI

ERNIE 4.5, Baidus hochmodernes Open-Weight-Mixture-of-Experts (MoE)-Modell, ist jetzt auf Novita AI verfügbar!

Hier ist die aktuelle Preisgestaltung für ERNIE 4.5 auf Novita AI:

baidu/ernie-4.5-vl-28b-a3b: 30k Kontext, kostenlos

baidu/erine-4.5–21B-a3b: 120k Kontext, kostenlos

baidu/erine-4.5–0.3b: 120k Kontext, kostenlos

baidu/erine-4.5-vl-424b-a47b: 123k Kontext, 0,42 $/M Tokens Input, 1,25 $/M Tokens Output

baidu/ernie-4.5–300b-a47b-paddle: 123k Kontext, 0,30 $/M Tokens Input, 1 $/M Tokens Output

Demo von ERNIE-4.5-300B-A47B jetzt testen

Was ist ERNIE 4.5?

ERNIE 4.5 ist Baidus neueste Open-Source-Modellreihe, die aus 10 verschiedenen Modellen besteht. Die Modellpalette umfasst Mixture-of-Experts (MoE)-Modelle mit 47 Milliarden und 3 Milliarden aktivierten Parametern – das größte Modell erreicht insgesamt 424 Milliarden Parameter – sowie ein dichtes Modell mit 0,3 Milliarden Parametern.

erine family

Architektonische Innovation: Diese Modelle verwenden eine innovative multimodale heterogene Modellstruktur, die durch einen modalitätsübergreifenden Parametersharing-Mechanismus eine cross-modale Wissensfusion erreicht, während dedizierte Parameterbereiche für einzelne Modalitäten erhalten bleiben. Diese Architektur eignet sich hervorragend für das kontinuierliche Vortraining von großen Sprachmodellen zu multimodalen Modellen, wodurch die multimodalen Verständnisfähigkeiten erheblich verbessert werden, während die Textaufgabenleistung erhalten oder sogar verbessert wird.

Framework & Training: Alle Modelle der ERNIE 4.5-Reihe werden mit dem PaddlePaddle Deep-Learning-Framework effizient trainiert, inferiert und bereitgestellt. Während des Vortrainings großer Sprachmodelle erreicht die Model FLOPs Utilization (MFU) 47 %.

Leistung & Fähigkeiten

Benchmark-Erfolge: Experimentelle Ergebnisse zeigen, dass diese Modellreihe in mehreren Text- und multimodalen Benchmarks Spitzenleistungen (SOTA) erzielt, mit besonders herausragenden Ergebnissen in:

ernie 4.5 benchmark

  • Befolgen von Anweisungen – Verstehen und Ausführen komplexer Befehle
  • Weltwissensspeicherung – Umfassende Speicherung und Abruf von Faktenwissen
  • Visuelles Verständnis – Fortschrittliche Bildverständnisfähigkeiten
  • Multimodale Reasoning-Aufgaben – Komplexes Schlussfolgern über Text- und Bildeingaben

Modellspezifikationen (ERNIE-4.5-300B-A47B):

  • Gesamtparameter: 300B mit 47B aktiviert pro Token
  • Architektur: 54 Schichten, 64 Query Heads / 8 Key-Value Heads
  • Expertenkonfiguration: 64 Textexperten (8 aktiviert) / 64 Visionsexperten (8 aktiviert)
  • Kontextlänge: 131.072 Tokens
  • Modalität: Text mit multimodalen Trainingsfähigkeiten

Zugänglichkeit & Bereitstellung:

  • Apache-2.0-Lizenz – Modellgewichte sind für akademische Forschung und industrielle Anwendungen als Open Source verfügbar
  • Industrietaugliches Entwicklungstoolkit – Basierend auf PaddlePaddles umfassendem Suite mit ERNIEKit-Unterstützung
  • Breite Chip-Kompatibilität – Funktioniert auf verschiedenen Hardware-Plattformen und senkt Barrieren für Nachtraining und Bereitstellung
  • Hervorragende Inferenzleistung – Mehrere Bereitstellungsoptionen einschließlich FastDeploy, Transformers und vLLM-Integration
  • Flexible Quantisierung – Optionen für 4-Bit, 2-Bit und FP8 für unterschiedliche Ressourcenbeschränkungen

Technische Innovationen

Multimodales Mixture-of-Experts-Modell-Vortraining

Der Ansatz: ERNIE 4.5 führt gemeinsames Training über Text- und visuelle Modalitäten hinweg durch, um subtile Unterschiede in multimodalen Informationen besser zu erfassen und die Leistung bei Textgenerierung, Bildverständnis und multimodalen Reasoning-Aufgaben zu verbessern.

Die Innovation: Um eine gegenseitige Verstärkung der beiden Modalitäten während des Lernens zu ermöglichen und gleichzeitig zu verhindern, dass eine Modalität das Lernen der anderen behindert, schlägt Baidu eine multimodale heterogene Mixture-of-Experts-Modellstruktur vor mit:

  • Modalitätsisolierter Weiterleitung für spezialisierte Expertenzuweisung
  • Router-Orthogonalitätsverlust zur Verbesserung der Expertenspezialisierung
  • Multimodalem Token-Balance-Verlust für optimale Ressourcennutzung über Modalitäten hinweg

Fortschrittliche Optimierung: Diese architektonischen Entscheidungen stellen sicher, dass beide Modalitäten effektiv repräsentiert werden, was eine multimodale gegenseitige Förderung und Verbesserung während des Trainings ermöglicht.

Effizientes Training und Inferenz-Framework

Trainingsoptimierungen: Zur Unterstützung des effizienten Trainings von ERNIE 4.5-Modellen schlägt Baidu heterogene hybride Parallelisierungs- und hierarchische Lastausgleichsstrategien vor. Durch mehrere fortschrittliche Technologien wird der Pre-Training-Durchsatz erheblich verbessert:

  • Intra-Knoten-Expertenparallelität – Optimierte Parallelverarbeitung innerhalb von Rechenknoten
  • Speichereffiziente Pipeline-Planung – Intelligentes Speichermanagement während des Trainings
  • FP8-Gemischtpräzisionstraining – Fortschrittliche numerische Präzisionstechniken
  • Feinkörnige Neuberechnung – Strategische Neuberechnung für Speichereffizienz

Inferenz-Durchbrüche: Für die Inferenzoptimierung werden mehrere hochmoderne Methoden vorgeschlagen:

  • Multi-Experten-Parallel-Kollaborationsmethode – Kollaborative Verarbeitung über Modellexperten hinweg
  • Faltungscode-Quantisierungsalgorithmus – Fortschrittliche Kodierungstechniken zur Kompression
  • Nahezu verlustfreie Quantisierung: Erreichen von 4-Bit-Quantisierung und 2-Bit-Quantisierung mit minimaler Leistungsverschlechterung
  • PD-Dissoziation mit dynamischem Rollenwechsel – Adaptive Bereitstellung, die Ressourcen besser nutzen und die Inferenzleistung von ERNIE 4.5 MoE-Modellen verbessern kann

Modalitätsspezifisches Post-Training

Maßgeschneiderte Optimierung: Um unterschiedliche Anforderungen in praktischen Szenarien zu erfüllen, führt Baidu modalitätsspezifisches Feintuning der vortrainierten Modelle durch:

Große Sprachmodelle (LLMs):

  • Optimiert speziell für allgemeines Sprachverständnis und -generierung

Vision-Language-Modelle (VLMs):

  • Fokus auf visuell-sprachliches Verständnis
  • Unterstützung sowohl für Denkmodus als auch Nicht-Denkmodus

Mehrstufige Trainingspipeline: Jedes Modell durchläuft mehrstufiges Post-Training unter Verwendung fortschrittlicher Techniken:

  • SFT (Supervised Fine-Tuning) – Lernen von überwachten Beispielen
  • DPO (Direct Preference Optimization) – Direkte Optimierung basierend auf Präferenzen
  • UPO (Unified Preference Optimization) – Baidus proprietäre Technik zur einheitlichen Präferenzoptimierung

Bereitstellung und Integration

ERNIE-4.5-Modelle können mit FastDeploy, Hugging Face Transformers oder vLLM bereitgestellt werden. Unterschiedliche Quantisierungsstufen und Serving-Frameworks ermöglichen es den Modellen, effizient auf verschiedenen Hardware-Setups zu laufen:

  • Modelle mit voller Präzision benötigen viele GPUs (typischerweise 16 GPUs mit mindestens 80 GB VRAM pro GPU).
  • Quantisierte Modelle (wie WINT4, W4A8C8 oder WINT2) reduzieren den VRAM-Bedarf drastisch. Beispielsweise können WINT4 oder W4A8C8 auf 4–8×80-GB-GPUs laufen, während WINT2 die Ein-GPU-Bereitstellung ermöglicht, wenn Sie mindestens 141 GB VRAM haben.
  • Transformers-Integration ermöglicht flexible Nutzung, erfordert aber dennoch erheblichen VRAM für große Modelle.
  • vLLM ist ideal für Hochdurchsatz-Inferenz mit mehreren GPUs. Quantisierte Modelle helfen, im verfügbaren GPU-Speicher zu bleiben.
  • Empfohlenes Sampling: Temperature=0.8, Top-P=0.8

So greifen Sie auf ERNIE 4.5-300B-A47B auf Novita AI zu

Der Einstieg in ERNIE 4.5-300B-A47B auf Novita AI ist unkompliziert und risikofrei. Neue Benutzer erhalten $10 Gratisguthaben – genug, um ERNIE 4.5-300B-A47B ohne Vorabkosten zu erkunden.

Nutzen Sie den Playground (keine Programmierkenntnisse erforderlich)

Sofortiger Zugriff: Registrieren, beanspruchen Sie Ihr Gratisguthaben und experimentieren Sie sofort mit ERNIE 4.5 und anderen Top-Modellen.

Interaktive Benutzeroberfläche: Testen Sie Prompts, Chain-of-Thought-Reasoning und visualisieren Sie Ergebnisse in Echtzeit.

Modellvergleich: Wechseln Sie mühelos zwischen ERNIE 4.5, Qwen 3, Llama 4, DeepSeek und mehr, um die perfekte Lösung für Ihre Anforderungen zu finden.

Integration via API (für Entwickler)

Verbinden Sie ERNIE 4.5 nahtlos mit Anwendungen, Workflows oder Chatbots über die einheitliche REST-API von Novita AI. Keine Verwaltung von Modellgewichten oder Infrastruktur-Sorgen – Novita AI bietet mehrsprachige SDKs (Python, Node.js, cURL) und erweiterte Parametersteuerung.

Option 1: Direkte API-Integration (Python-Beispiel)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

Option 2: Multi-Agent-Workflows mit OpenAI Agents SDK

Erstellen Sie fortschrittliche Multi-Agenten-Systeme durch die Integration von Novita AI mit dem OpenAI Agents SDK:

  • Plug-and-Play: Verwenden Sie Novita AIs ERNIE 4.5 in jedem OpenAI Agents-Workflow
  • Unterstützt Übergaben, Routing und Tool-Nutzung: Entwerfen Sie Agenten, die delegieren, weiterleiten oder Funktionen ausführen können, alle unterstützt durch ERNIE 4.5s Fähigkeiten
  • Python-Integration: Richten Sie das SDK einfach auf Novitas Endpunkt (https://api.novita.ai/v3/openai) und verwenden Sie Ihren API-Schlüssel

Verbinden Sie die ERNIE 4.5 API auf Drittanbieter-Plattformen

  • Hugging Face: Verwenden Sie ERNIE 4.5 in Spaces, Pipelines oder mit der Transformers-Bibliothek über Novita AI-Endpunkte.

  • Agenten- & Orchestrierungs-Frameworks: Verbinden Sie Novita AI problemlos mit Partnerplattformen wie Continue, AnythingLLM, LangChain, Dify und Langflow über offizielle Konnektoren und Schritt-für-Schritt-Integrationsleitfäden.

  • OpenAI-kompatible API: Genießen Sie eine problemlose Migration und Integration mit Tools wie Cline und Cursor, die für den OpenAI-API-Standard ausgelegt sind.

Fazit

ERNIE 4.5 ist eine vielseitige, quelloffene KI-Modellreihe, die eine fortschrittliche Mixture-of-Experts-Architektur mit innovativem multimodalen Lernen kombiniert. Sie ermöglicht leistungsstarke, effiziente Leistung sowohl bei Sprach- als auch bei Bildverarbeitungsaufgaben und ist damit eine starke Grundlage für KI-Anwendungen der nächsten Generation.

Bereit, die Zukunft des KI-Reasonings zu erleben? Testen Sie ERNIE 4.5 auf Novita AI.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig die erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.