Mitchell Stern et al. (2018) ont introduit le concept de décodage spéculatif. Cette méthode a depuis été développée et affinée par diverses approches, notamment le décodage anticipé, REST, Medusa et EAGLE, accélérant ainsi considérablement le processus d'inférence des grands modèles de langage.LLMs).
On pourrait se demander : le décodage spéculatif dans LLMCela pourrait-il nuire à la précision du modèle original ? La réponse est simple : non.
L'algorithme de décodage spéculatif orthodoxe est sans perte, et nous le prouverons à la fois par une analyse mathématique et des expériences.
Preuve mathématique
La formule d’échantillonnage spéculatif peut être définie comme suit :

Tandis que:


Vous trouverez ci-dessous une preuve de la nature sans perte de cette formule tirée du document DeepMind :

Si vous vous sentez trop ennuyeux pour lire des équations mathématiques, je vais maintenant illustrer la preuve avec quelques diagrammes intuitifs.v√




Expériences
Bien que nous ayons prouvé mathématiquement que le décodage spéculatif est en principe sans perte, des erreurs d'implémentation peuvent toujours se produire. Par conséquent, une validation expérimentale est également nécessaire. Nous avons mené des expériences sur deux cas : la méthode déterministe de décodage glouton et la méthode aléatoire d'échantillonnage multinomial.
Décodage gourmand
Nous avons demandé au LLM Pour générer une nouvelle deux fois, d'abord par inférence classique, puis par décodage spéculatif. Nous avons utilisé l'implémentation de décodage spéculatif de Medusa. Le poids du modèle est medusa-1.0-vicuna-7b-v1.5 et son modèle de base, vicuna-7b-v1.5. Après des tests, nous avons obtenu deux résultats identiques. Le texte généré est le suivant :

Échantillonnage multinomial
Dans le cas d'un échantillonnage aléatoire, la situation est plus complexe. La plupart des méthodes de reproduction des résultats dans les programmes aléatoires utilisent une graine aléatoire fixe pour tirer parti du déterminisme des générateurs pseudo-aléatoires. Cependant, cette approche ne correspond pas à notre scénario. Notre expérience repose sur la loi des grands nombres : avec suffisamment d'échantillons, l'erreur entre les distributions pratique et théorique convergera vers zéro.
Nous avons effectué 1,000,000 3 8 d'itérations d'échantillonnage pour le premier jeton généré pour chacune des quatre invites. Les pondérations de modèle utilisées étaient Llama3 8B Instruct et EAGLE-LLaMAXNUMX-Instruct-XNUMXB. Les résultats statistiques sont présentés ci-dessous :


- Bleu : softmax des logits du modèle de base
- Vert : softmax des logits du modèle préliminaire
- Orange : fréquence des jetons provenant d'un échantillonnage spéculatif (1,000,000 XNUMX XNUMX de fois)
L'écart type de la distribution d'échantillonnage par rapport au modèle de base est de 9.694e-5. Cela correspond aux attentes.
Conclusion
Le décodage spéculatif ne compromet pas la précision d'inférence des grands modèles linguistiques. Grâce à une analyse mathématique rigoureuse et à des expériences pratiques, nous avons démontré la nature sans perte des algorithmes de décodage spéculatif standard. La preuve mathématique illustre comment la formule d'échantillonnage spéculatif préserve la distribution originale du modèle de base. Nos expériences, comprenant à la fois le décodage glouton déterministe et l'échantillonnage multinomial probabiliste, valident davantage ces résultats théoriques. L'expérience de décodage glouton a produit des résultats identiques avec et sans décodage spéculatif, tandis que l'expérience d'échantillonnage multinomial a montré des différences négligeables dans la distribution des jetons sur un grand nombre d'échantillons.
Ces résultats confirment collectivement que le décodage spéculatif peut accélérer considérablement LLM inférence sans sacrifier la précision, ouvrant la voie à des systèmes d’IA plus efficaces et plus accessibles à l’avenir.
Vous pouvez visiter Novita AI pour plus de détails!
Découvrez-en plus sur Novita
Abonnez-vous pour recevoir les derniers articles envoyés à votre adresse e-mail.





