Forschung

Revolutionierung der Inferenz großer Sprachmodelle: Spekulatives Decoding und Niedrigpräzisionsquantisierung

Erfahren Sie, wie spekulatives Sampling und Niedrigpräzisionsquantisierung Kosten senken und die Geschwindigkeit erhöhen und praktische Lösungen für die skalierbare...

Von Novita AI / 18. Dezember 2024 / 9 Minuten Lesezeit

Dynamische KV-Cache-Kompression basierend auf dem vLLM-Framework

Novita AI beschleunigt das Laden von Llama-70B mit KV-Sparsity und reduziert Speicher-, Rechen- und I/O-Overhead für schnellere Inferenz bei minimalem Genauigkeitsverlust.

Von Novita AI / 12. Dezember 2024 / 3 Minuten Lesezeit

So wählen Sie die beste GPU für LLM-Inferenz aus: Benchmarking-Erkenntnisse

Erfahren Sie, wie Sie kosteneffiziente GPUs für die Inferenz großer Modelle auswählen, mit Fokus auf Leistungskennzahlen und Best Practices zur Steigerung der Effizienz.

Von Novita AI / 5. November 2024 / 14 Minuten Lesezeit

Wie KV-Sparsity 1,5-fache Beschleunigung für vLLM erreicht

Steigern Sie die KI-Inferenzgeschwindigkeit mit KV-Sparsity. Verstehen Sie, wie es funktioniert, und optimieren Sie Ihre Modelle für reale Anwendungen.

Von Novita AI / 25. Oktober 2024 / 13 Minuten Lesezeit

Dynamische Zuweisung von GPU-Ressourcen für Kubernetes-Workloads

Derzeit werden verschiedene Erweiterungslösungen eingesetzt, um GPU-Pods in Kubernetes (k8s) zu planen, darunter Device Plugin, Extended Resource, Scheduler Extender,...

Von Novita AI / 24. Oktober 2024 / 4 Minuten Lesezeit

Dynamisches Hinzufügen von Portweiterleitungen zu laufenden Docker-Containern

Portweiterleitung ist ein entscheidender Aspekt bei der Entwicklung und Bereitstellung von containerisierten Anwendungen. Normalerweise stellen wir eine Verbindung zwischen...

Von Novita AI / 21. Oktober 2024 / 4 Minuten Lesezeit

CPU- und GPU-Kernbindungsstrategie basierend auf Affinität

Einführung in die Optimierung von CPU- und GPU-Leistung In Hochleistungsrechnen und bei der Verarbeitung großer paralleler Aufgaben sind GPUs zu unverzichtbaren Beschleunigern...

Von Novita AI / 25. August 2024 / 4 Minuten Lesezeit

Wird spekulative Dekodierung die Inferenzgenauigkeit von LLMs beeinträchtigen?

Mitchell Stern et al. 2018 führten das Prototypkonzept der spekulativen Dekodierung ein. Diese Methode wurde seither durch verschiedene Ansätze weiterentwickelt und verfeinert,...

Von Novita AI / 25. August 2024 / 3 Minuten Lesezeit

Quantisierungsmethoden für 100-fache Beschleunigung bei der Inferenz großer Sprachmodelle

Entdecken Sie, wie die Auswahl der besten Datentypen und die Optimierung der GPU-Hardwareunterstützung neue Wege zur Steigerung der Quantisierungsinferenz eröffnen.

Von Novita AI / 2. Februar 2024 / 16 Minuten Lesezeit