Optimización de GLM4-MoE para producción: 65% más rápido TTFT con SGLang

Tabla de contenido

TL;DR
Cómo Implementamos Optimizaciones Clave de Producción para GLM-MoE
Resultados de Benchmark en Producción
Decodificación por Sufijo
Conclusión
Cómo Reproducir
Referencias

TL;DR

Novita AI ha desarrollado un conjunto de optimizaciones probadas en producción y de alto impacto para desplegar modelos GLM4-MOE basados en SGLANG. Presentamos una estrategia de optimización de rendimiento integral que aborda los cuellos de botella en toda la tubería de inferencia, desde la eficiencia de ejecución del kernel hasta la programación de transferencia de datos entre nodos. Mediante la integración de Fusión de Expertos Compartidos y Decodificación de Sufijo, observamos mejoras sustanciales en métricas clave de producción, que incluyen:

hasta un 65% de reducción en el Tiempo hasta el Primer Token (TTFT)
un 22% de mejora en el Tiempo por Token de Salida (TPOT)

bajo cargas de trabajo de codificación agentiva.

Todos los resultados se validaron en clústeres H200 bajo configuraciones TP8 y FP8, proporcionando un plan probado en batalla para lograr tanto un rendimiento óptimo como una baja latencia en entornos de producción exigentes.

Cómo Implementamos Optimizaciones Clave de Producción para GLM-MoE

1. Fusión de Expertos Compartidos

https://github.com/sgl-project/sglang/pull/13873

El crédito completo de esta optimización pertenece al trabajo original sobre el modelo Deepseek. Como se ilustra en la figura anterior, los modelos MoE como GLM4.7 enrutan todos los tokens de entrada a través de un experto compartido, mientras que cada token también se enruta individualmente a su propio conjunto de expertos enrutados top‑k seleccionados por el enrutador del modelo. Las salidas de todos los expertos luego se ponderan y agregan. GLM4.7, por ejemplo, emplea 160 expertos enrutados junto con un solo experto compartido, seleccionando los 8 expertos enrutados superiores por token. En implementaciones anteriores, estos dos componentes se manejaban por separado. Dado que comparten formas de tensor y procedimientos computacionales idénticos, es natural unificarlos fusionando el experto compartido en la estructura MoE enrutada, seleccionando los 9 mejores de un total de 161 expertos, con el experto compartido asignado consistentemente a la novena posición.

Como se documenta en el PR, esta optimización logra ganancias de rendimiento de hasta un 23.7% en TTFT y un 20.8% en ITL. Estas ganancias son esperadas porque, bajo configuraciones TP8 y FP8, donde el tamaño intermedio es solo 192, que es relativamente pequeño para hardware H200, la operación de fusión aumenta sustancialmente la utilización del Multiprocesador de Flujo (SM) y reduce significativamente la sobrecarga de E/S de memoria.

2. Fusión Qknorm

Esta migración se basa en la optimización de Qwen-MOE. La idea subyacente es sencilla. Dado que ambos operadores realizan cálculos por cabeza, es un enfoque natural fusionarlos en un solo kernel. Nuestra contribución radica en adaptar este kernel fusionado para acomodar el caso específico de la variante GLM4-MOE, donde solo la mitad de las dimensiones dentro de una cabeza se rotan.

3. Transferencia Asíncrona

https://github.com/sgl-project/sglang/pull/14782

En escenarios donde se aplica la desagregación PD con programación superpuesta, aunque el rendimiento puede aumentar aproximadamente un 10%, el TTFT disminuye significativamente. Observamos que en la implementación actual de prefill, el proceso de transferencia de datos se retrasa hasta después del lanzamiento del kernel para el siguiente lote. Para un modelo como GLM4.7, que consta de 92 capas, el lanzamiento del kernel sin CUDA Graph puede consumir mucho tiempo (a menudo tomando cientos de milisegundos, incluso más de 1 segundo).

Para abordar esto, en nuestra modificación adelantamos ligeramente el paso de transferencia, programándolo justo después de que se completen sus operaciones de GPU correspondientes. Además, la transferencia se coloca en un hilo separado. Al manejar cuidadosamente las posibles estructuras de riesgo de carrera de datos, puede proceder sin bloquear el hilo principal.

El rendimiento es enorme para modelos con muchos lanzamientos de kernel. Cuando está bajo cargas de trabajo pesadas, esta optimización puede ahorrar hasta 1 segundo en términos de TTFT como se muestra a continuación.

Resultados de Benchmark en Producción

Después de implementar los enfoques descritos anteriormente, observamos mejoras significativas en el rendimiento de los modelos GLM-MOE, como se demuestra claramente en los resultados de benchmark a continuación.

Configuración del benchmark

Longitud de entrada: 4096
Longitud de salida: 1000
Tasa de solicitudes: 14 req/s
Modelo: GLM-4.7 FP8 (TP8)

Resultados

Estas optimizaciones no son solo experimentales, ya se han desplegado y validado en el servicio de inferencia de producción de Novita.ai. Si buscas un backend GLM-MoE fiable y de baja latencia para cargas de trabajo del mundo real, eres bienvenido a probarlo directamente en novita.ai.

Decodificación por Sufijo

Los escenarios de codificación agentiva (como Cursor y Claude Code) exhiben un alto volumen de patrones de código reutilizables, lo que permite optimizaciones de rendimiento específicas como la Decodificación por Sufijo.

Antecedentes: El cuello de botella de inferencia en la codificación agentiva

Los Agentes LLM sobresalen en tareas de generación de código, pero la latencia sigue siendo un desafío significativo. La Decodificación Especulativa tradicional acelera la inferencia prediciendo múltiples tokens por adelantado, pero los enfoques comunes requieren entrenar modelos borrador adicionales, lo que introduce complejidad de ingeniería.

Cómo funciona la Decodificación por Sufijo

La Decodificación por Sufijo adopta un enfoque fundamentalmente diferente: es completamente libre de modelos:

Sin dependencia de pesos de modelos adicionales
Aprovecha patrones de secuencias de salida generadas previamente para predecir tokens futuros
Cuando el sufijo de la solicitud actual coincide con un patrón histórico, continúa a lo largo de esa secuencia histórica para la especulación

Validación de datos: Análisis de repetición de patrones de salida

Al analizar 22 sesiones de Claude Code (17,487 turnos de conversación), descubrimos:

39.3% de repetición de patrón de salida: Alta frecuencia de llamadas a herramientas y patrones de respuesta similares
Comportamientos agentivos altamente estructurados: Frases fijas como “Déjame…”, “Ahora déjame…” aparecen con frecuencia

Para apoyar más investigación, hemos publicado el conjunto de datos de evaluación en Hugging Face: https://huggingface.co/datasets/novita/agentic_code_dataset_22

Comparación de rendimiento

Con la aceleración MTP integrada, la Decodificación por Sufijo reduce aún más el TPOT en un 22% (de 25.13 ms a 19.63 ms):


Métrica	MTP	Decodificación por Sufijo	Cambio
TPOT medio	25.13 ms	19.63 ms	-21.90%
TPOT mediano	25.95 ms	20.05 ms	-22.70%

Conclusión

La combinación de estas optimizaciones proporciona mejoras integrales de rendimiento para despliegues de SGLANG:

Fusión de Expertos Compartidos aborda la eficiencia computacional en modelos MoE
Fusión QK-Norm-RoPE reduce la sobrecarga de lanzamiento del kernel
Transferencia Asíncrona optimiza el movimiento de datos en despliegues desagregados
Decodificación por Sufijo aprovecha la repetición de patrones para decodificación especulativa en codificación agentiva.

La mayoría de los componentes ya se han fusionado en la rama principal o están en proceso de integración; no dudes en echarles un vistazo en el repositorio de SGLang.

Cómo Reproducir

Aquí solo se muestran los parámetros clave relevantes para el rendimiento.

Los scripts de lanzamiento completos (línea base frente a optimizado), el arnés de benchmark y los trazados de perfil se publican en nuestro GitHub: https://github.com/novitalabs/sglang/tree/glm_suffix.

Indicadores de optimización clave (tiempo de ejecución de SGLang)

--tp-size 8
--kv-cache-dtype fp8_e4m3
--attention-backend fa3
--chunked-prefill-size 16384
--enable-flashinfer-allreduce-fusion
--enable-fused-qk-norm-rope
--enable-shared-experts-fusion
--disaggregation-async-transfer

Configuración de decodificación especulativa (carga de trabajo de codificación agentiva)

--speculative-algorithm NEXTN
--speculative-num-steps 3
--speculative-eagle-topk 1
--speculative-num-draft-tokens 4

Configuración de Decodificación por Sufijo (opcional)

--speculative-algorithm SUFFIX
--speculative-suffix-cache-max-depth 64
--speculative-suffix-max-spec-factor 1.0
--speculative-suffix-min-token-prob 0.1

Referencias

Novita AI es una plataforma líder en la nube de IA que proporciona a los desarrolladores APIs fáciles de usar e infraestructura de GPU asequible y fiable para construir y escalar aplicaciones de IA.

Optimización de GLM4-MoE para producción: 65% más rápido TTFT con SGLang

TL;DR

Cómo Implementamos Optimizaciones Clave de Producción para GLM-MoE

1. Fusión de Expertos Compartidos

2. Fusión Qknorm

3. Transferencia Asíncrona

Resultados de Benchmark en Producción

Decodificación por Sufijo

Antecedentes: El cuello de botella de inferencia en la codificación agentiva

Cómo funciona la Decodificación por Sufijo

Validación de datos: Análisis de repetición de patrones de salida

Comparación de rendimiento

Conclusión

Cómo Reproducir

Referencias

Product

RESOURCES

Partners

Company

TL;DR

Cómo Implementamos Optimizaciones Clave de Producción para GLM-MoE

1. Fusión de Expertos Compartidos

2. Fusión Qknorm

3. Transferencia Asíncrona

Resultados de Benchmark en Producción

Decodificación por Sufijo

Antecedentes: El cuello de botella de inferencia en la codificación agentiva

Cómo funciona la Decodificación por Sufijo

Validación de datos: Análisis de repetición de patrones de salida

Comparación de rendimiento

Conclusión

Cómo Reproducir

Referencias

Publicaciones relacionadas

Product

RESOURCES

Partners

Company