Le décodage spéculatif nuit-il à la précision de l'inférence des LLM ?

Le décodage spéculatif nuit-il à la précision de l'inférence des LLM ?

Mitchell Stern et al. 2018 ont introduit le concept prototype du décodage spéculatif. Cette méthode a depuis été développée et affinée par diverses approches, notamment Lookahead Decoding, REST, Medusa et EAGLE, accélérant considérablement le processus d’inférence des grands modèles de langage (LLM).

On pourrait se demander : le décodage spéculatif dans les LLM nuit-il à la précision du modèle original ? La réponse simple est non.

L’algorithme orthodoxe de décodage spéculatif est sans perte, et nous le prouverons à la fois par analyse mathématique et par des expériences.

Preuve mathématique

La formule d’échantillonnage spéculatif peut être définie comme suit :

Où :

Voici une preuve du caractère sans perte de cette formule tirée de l’article de DeepMind :

Si vous trouvez les équations mathématiques trop ennuyeuses, je vais illustrer la preuve avec quelques diagrammes intuitifs.v√

Expériences

Bien que nous ayons mathématiquement prouvé que le décodage spéculatif est sans perte en principe, des erreurs d’implémentation peuvent encore survenir. Par conséquent, une validation expérimentale est également nécessaire. Nous avons mené des expériences sur deux cas : la méthode déterministe du greedy decoding et la méthode aléatoire de l’échantillonnage multinomial.

Décodage glouton

Nous avons demandé au LLM de générer une courte histoire deux fois, d’abord avec une inférence vanilla, puis avec le décodage spéculatif. Nous avons utilisé l’implémentation du décodage spéculatif de Medusa. Le poids du modèle est medusa-1.0-vicuna-7b-v1.5 et son modèle de base vicuna-7b-v1.5. Après exécution des tests, nous avons obtenu deux résultats identiques. Le texte généré est le suivant :

Échantillonnage multinomial

Dans le cas de l’échantillonnage aléatoire, la situation est plus complexe. La plupart des méthodes pour reproduire les résultats dans les programmes aléatoires utilisent une graine aléatoire fixe pour tirer parti du déterminisme des générateurs pseudo-aléatoires. Cependant, cette approche ne correspond pas à notre scénario. Notre expérience repose sur la loi des grands nombres : avec suffisamment d’échantillons, l’erreur entre les distributions pratique et théorique convergera vers zéro.

Nous avons effectué 1 000 000 itérations d’échantillonnage pour le premier token généré pour chacun des quatre prompts. Les poids de modèle utilisés étaient Llama3 8B Instruct et EAGLE-LLaMA3-Instruct-8B. Les résultats statistiques sont présentés ci-dessous :

  • Bleu : softmax des logits du modèle de base
  • Vert : softmax des logits du modèle draft
  • Orange : fréquence des tokens de l’échantillonnage spéculatif (1 000 000 fois)

L’écart type de la distribution d’échantillonnage du modèle de base est de 9,694e-5. Cela correspond aux attentes.

Conclusion

Le décodage spéculatif ne compromet pas la précision de l’inférence des grands modèles de langage. Grâce à une analyse mathématique rigoureuse et à des expériences pratiques, nous avons démontré le caractère sans perte des algorithmes standard de décodage spéculatif. La preuve mathématique illustre comment la formule d’échantillonnage spéculatif préserve la distribution originale du modèle de base. Nos expériences, incluant à la fois le greedy decoding déterministe et l’échantillonnage multinomial probabiliste, valident davantage ces résultats théoriques. L’expérience de greedy decoding a produit des résultats identiques avec et sans décodage spéculatif, tandis que l’expérience d’échantillonnage multinomial a montré des différences négligeables dans la distribution des tokens sur un grand nombre d’échantillons.

Ces résultats confirment collectivement que le décodage spéculatif peut accélérer considérablement l’inférence des LLM sans sacrifier la précision, ouvrant la voie à des systèmes d’IA plus efficaces et plus accessibles à l’avenir.

Vous pouvez visiter Novita AI pour plus de détails !