Wird spekulative Dekodierung die Inferenzgenauigkeit von LLMs beeinträchtigen?

Wird spekulative Dekodierung die Inferenzgenauigkeit von LLMs beeinträchtigen?

Mitchell Stern et al. 2018 führten das Prototypkonzept der spekulativen Dekodierung ein. Diese Methode wurde seither durch verschiedene Ansätze weiterentwickelt und verfeinert, darunter Lookahead Decoding, REST, Medusa und EAGLE, was die Inferenzprozesse großer Sprachmodelle (LLMs) erheblich beschleunigt hat.

Man könnte sich fragen: Wird die spekulative Dekodierung in LLMs die Genauigkeit des ursprünglichen Modells beeinträchtigen? Die einfache Antwort lautet: Nein.

Der orthodoxe Algorithmus der spekulativen Dekodierung ist verlustfrei, und wir werden dies sowohl durch mathematische Analyse als auch durch Experimente beweisen.

Mathematischer Beweis

Die spekulative Abtastungsformel kann wie folgt definiert werden:

Wobei:

Im Folgenden findet sich ein Beweis für die verlustfreie Natur dieser Formel aus dem DeepMind Paper:

Wenn Sie keine Lust haben, mathematische Gleichungen zu lesen, werde ich den Beweis als Nächstes mit einigen anschaulichen Diagrammen veranschaulichen.

Experimente

Obwohl wir mathematisch bewiesen haben, dass spekulative Dekodierung prinzipiell verlustfrei ist, können dennoch Implementierungsfehler auftreten. Daher ist auch eine experimentelle Validierung notwendig. Wir führten Experimente mit zwei Fällen durch: der deterministischen Methode des Greedy Decodings und der zufälligen Methode des Multinomial Samplings.

Greedy Decoding

Wir ließen das LLM zweimal eine Kurzgeschichte generieren – zuerst mit Vanilla-Inferenz und dann mit spekulativer Dekodierung. Dazu nutzten wir die Implementierung der spekulativen Dekodierung von Medusa. Das Modellgewicht ist medusa-1.0-vicuna-7b-v1.5 und sein Basismodell vicuna-7b-v1.5. Nach dem Testlauf erhielten wir zwei identische Ergebnisse. Der generierte Text lautet wie folgt:

Multinomial Sampling

Im Fall des zufälligen Samplings ist die Situation komplexer. Die meisten Methoden zur Reproduktion von Ergebnissen in Zufallsprogrammen verwenden einen festen Startwert (Random Seed), um die Determiniertheit von Pseudozufallsgeneratoren auszunutzen. Dieser Ansatz passt jedoch nicht zu unserem Szenario. Unser Experiment stützt sich auf das Gesetz der großen Zahlen: Bei ausreichend vielen Stichproben konvergiert die Abweichung zwischen der praktischen und der theoretischen Verteilung gegen Null.

Wir führten 1.000.000 Sampling-Iterationen für das erste Token durch, das für jeden von vier Prompts generiert wurde. Die verwendeten Modellgewichte waren Llama3 8B Instruct und EAGLE-LLaMA3-Instruct-8B. Die statistischen Ergebnisse sind unten dargestellt:

  • Blau: Softmax der Logits des Basismodells
  • Grün: Softmax der Logits des Draft-Modells
  • Orange: Tokenhäufigkeit aus dem spekulativen Sampling (1.000.000 Mal)

Die Standardabweichung der Sampling-Verteilung des Basismodells beträgt 9,694e-5. Das entspricht den Erwartungen.

Fazit

Spekulative Dekodierung beeinträchtigt nicht die Inferenzgenauigkeit großer Sprachmodelle. Durch rigorose mathematische Analyse und praktische Experimente haben wir die verlustfreie Natur der standardmäßigen spekulativen Dekodierungsalgorithmen demonstriert. Der mathematische Beweis zeigt, wie die spekulative Abtastungsformel die ursprüngliche Verteilung des Basismodells bewahrt. Unsere Experimente, einschließlich des deterministischen Greedy Decodings und des probabilistischen Multinomial Samplings, bestätigen diese theoretischen Erkenntnisse. Das Greedy-Decoding-Experiment lieferte identische Ergebnisse mit und ohne spekulative Dekodierung, während das Multinomial-Sampling-Experiment über eine große Anzahl von Stichproben vernachlässigbare Unterschiede in der Token-Verteilung zeigte.

Diese Ergebnisse bestätigen gemeinsam, dass spekulative Dekodierung die Inferenz von LLMs erheblich beschleunigen kann, ohne die Genauigkeit zu opfern, und ebnen den Weg für effizientere und zugänglichere KI-Systeme in der Zukunft.

Weitere Details finden Sie auf Novita AI!