Ling-2.6-flash no Novita AI: 340 Tokens/s, ~7x Eficiência de Tokens

Índice

O Que É Ling-2.6-flash?
Arquitetura Linear Híbrida: Como Ling-2.6-flash Fica Mais Rápido em Escala
Eficiência de Tokens: 15M vs. 110M para Resolver os Mesmos Benchmarks
Resultados de Benchmark: Onde Ling-2.6-flash Lidera
Tabela de Comparação Rápida
Acesse Ling-2.6-flash com Suporte do Novita AI
O Que a Comunidade Está Dizendo
Quem Deve Usar Ling-2.6-flash?
Comece Agora
Perguntas Frequentes

As contas de tokens de agentes estão disparando: chamadas de ferramentas em várias etapas, planejamento com contexto longo e saídas estendidas transformam o que parece um preço barato por token em uma fatura mensal muito cara. A resposta da indústria — cadeias de raciocínio mais longas para aumentar os escores de benchmarks — piora a economia, não melhora.

Ling-2.6-flash é um tipo diferente de modelo. Construído em torno de uma arquitetura híbrida de atenção linear, ele atinge até 340 tokens/s em hardware 4× H20, oferece 2,2× o throughput de prefill do Nemotron-3-Super e usa apenas ~15M tokens de saída para completar o Artificial Analysis Intelligence Index — cerca de um décimo do que o Nemotron-3-Super consome. Em resumo: Ling-2.6-flash é um modelo MoE de 104B (7.4B ativos) com janela de contexto de 256K, otimizado para cargas de trabalho de agentes onde velocidade, custo e estabilidade importam mais do que um único benchmark de destaque. Agora disponível no Novita AI.

O Que É Ling-2.6-flash?

Ling-2.6-flash é um modelo de linguagem esparso Mixture-of-Experts com 104B parâmetros totais e 7.4B parâmetros ativos por forward pass. Desenvolvido pela equipe Ling (InclusionAI), é projetado como um modelo da categoria “Instant” — otimizado para implantações de agentes em produção onde o consumo de tokens e a latência são custos reais, não apenas manchetes de benchmarks.

104B total / 7.4B ativos — arquitetura MoE com alta esparsidade
Janela de contexto de 256K tokens — habilitada por atenção linear híbrida
Pico de throughput de 340 tokens/s em 4× H20 (TP=4)
Híbrido 1:7 MLA + Lightning Linear attention — 4× throughput em contextos longos
Principais benchmarks de agentes — lidera em BFCL-V4 (67.04), PinchBench (81.10), IFBench (58.10), Multi-IF Turn-3 (74.85)
Variantes BF16, FP8 e INT4 — lançamento open-source planejado via Linghe
Validado em produção — ~100B tokens diários no OpenRouter dias após o lançamento

Arquitetura Linear Híbrida: Como Ling-2.6-flash Fica Mais Rápido em Escala

A maioria dos modelos MoE combina atenção transformer padrão com uma camada FFN esparsa. Ling-2.6-flash substitui a maior parte da atenção por uma camada Lightning Linear, criando um híbrido 1:7 MLA + Lightning Linear. O custo da atenção cresce linearmente com o comprimento do contexto, em vez de quadraticamente — crítico para longas sessões de agentes.

Arquitetura Ling-2.6-flash: vocabulário de 157K, contexto de 256K, híbrido 1:7 MLA + Lightning Linear, 256 especialistas selecionáveis [Fonte: Blog Oficial Ling]

Throughput de Decodificação: Até 4,38× em Saídas Longas

Em 4× H20-3e (TP=4, batch size 32), Ling-2.6-flash atinge 4,38× o throughput de decodificação normalizado em comprimento de saída de 65.536 tokens em comparação com a baseline GLM-4.5-Air. Qwen3.5-122B-A10B atinge 1,90×; Nemotron-3-Super 3,37×. A lacuna se amplia à medida que o comprimento da saída da tarefa aumenta.

Comparação de Throughput de Decodificação, 4× H20-3e, TP=4, Batch=32 [Fonte: Blog Oficial Ling]

Throughput de Prefill: 2,2× Nemotron em Contextos Longos

Ling-2.6-flash atinge ~4,68× o throughput de prefill normalizado em contexto de 65K vs. ~2,12× para Nemotron-3-Super. Para pipelines de RAG e agentes de múltiplas rodadas com prompts de sistema longos, isso reduz diretamente o custo por requisição.

Comparação de Throughput de Prefill, 4× H20-3e, TP=4, Batch=32 [Fonte: Blog Oficial Ling]

Eficiência de Tokens: 15M vs. 110M para Resolver os Mesmos Benchmarks

No Artificial Analysis Intelligence Index completo, Ling-2.6-flash usa ~15M tokens de saída. Nemotron-3-Super usa 110M+ — cerca de 7× mais — para um modelo que pontua mais baixo em tarefas de agente. Para aplicações que executam centenas de milhares de tarefas de agente diariamente, essa lacuna é um item direto no orçamento de custo.

Tokens de saída para completar o Artificial Analysis Intelligence Index — Ling 2.6 Flash: ~15M vs Nemotron-3-Super: ~110M+ [Fonte: Artificial Analysis]

Inteligência vs. Tokens de Saída: Ling 2.6 Flash está na zona de alta eficiência [Fonte: Artificial Analysis]

Resultados de Benchmark: Onde Ling-2.6-flash Lidera

Avaliado em 19 benchmarks em 7 categorias contra Qwen3-57B-A14B, Qwen3.5-122B-A10B, GLM-4.5-Air, Nemotron-3-Super e MiniMax-M1-80k:

Tabela abrangente de benchmarks [Fonte: Blog Oficial Ling]

Benchmarks de agente: Ling-2.6-flash lidera em uso de ferramentas e IF multi-turno [Fonte: Blog Oficial Ling]

Onde Ling-2.6-flash Lidera

BFCL-V4 (Function Calling): 67,04 — concorrente mais próximo Nemotron com 35,12 (diferença de 90%)
PinchBench (Tarefas de Agente): 81,10 vs. Nemotron 73,10
IFBench (Instrução Seguinte): 58,10
Multi-IF Turn-3: 74,85 — forte persistência de instrução em múltiplas rodadas
LongBench-v2: 54,80 — melhor na categoria de contexto longo
CCAlignBench (Chinês): 7,44 — melhor entre todos os modelos testados

Onde Outros Lideram

Matemática (AIME 2025, MATH-500): Nemotron-3-Super e variantes de raciocínio Qwen3 vencem
Codificação (LiveCodeBench): Qwen3.5-122B-A10B lidera; Ling é competitivo, mas não o melhor
GPQA-Diamond: GLM-4.5-Air e Nemotron pontuam mais alto

Tabela de Comparação Rápida

Modelo	Parâmetros Ativos	BFCL-V4 ↑	PinchBench ↑	TP Decodificação @ 65K ↑	Tokens de Saída ↓
Ling-2.6-flash	7,4B	67,04	81,10	4,38×	~15M
Nemotron-3-Super	49B total	35,12	73,10	3,37×	~110M+
Qwen3.5-122B-A10B	10B	—	78,20	1,90×	—
GLM-4.5-Air	—	50,67	73,30	1,00× (baseline)	—
MiniMax-M1-80k	—	44,07	75,70	—	—
Qwen3-57B-A14B	14B	52,32	76,30	—	—

Acesse Ling-2.6-flash com Suporte do Novita AI

Ling-2.6-flash está disponível agora. Experimente no OpenRouter — nível gratuito, sem configuração necessária:

Comece no OpenRouter — inclusionai/ling-2.6-flash:free. Nível gratuito disponível, nenhuma alteração de código necessária para clientes compatíveis com OpenAI.

Ling-2.6-flash funciona com LangChain, LlamaIndex e OpenAI Agent SDK — sem necessidade de adaptador ou alteração de código. Streaming, chamada de funções e saídas estruturadas são todas suportadas. Combine com o Novita Agent Sandbox para execução segura de código junto com inferência.

O Que a Comunidade Está Dizendo

Ling-2.6-flash foi lançado no OpenRouter como “Elephant Alpha” antes da revelação oficial. Em poucos dias, processou ~100B tokens e liderou o ranking de tendências da plataforma — sem qualquer anúncio.

“Ling-2.6-flash é meio voltado para o trabalho. Cerca de 75% menos prolixo que modelos grandes. Ainda tem um pouco de texto padrão, mas quando se trata de escrever código — é quase perfeito.”

— Usuário inicial no X/Twitter

“Acabei de testar Ling-2.6-flash em algumas tarefas de codificação com llama.cpp. Muito melhor do que esperava. Lida com chamadas de ferramentas de forma confiável e não enche a saída com explicações desnecessárias.”

— Usuário inicial no Reddit

O comentário “75% menos prolixo” corresponde exatamente à diferença de 15M vs. 110M tokens nos benchmarks do Artificial Analysis. O objetivo de treinamento parece recompensar respostas diretas e completas — uma propriedade que se acumula em economia de custos em escala de produção.

Quem Deve Usar Ling-2.6-flash?

✅ Agentes de chamada de função / uso de ferramentas de alto volume — liderança ampla no BFCL-V4
✅ Sessões de agente com múltiplas rodadas — consistente ao longo de históricos de conversa longos
✅ Pipelines de RAG com contexto longo — janela de 256K tokens, prefill de custo linear
✅ Implantações de produção sensíveis a custo — ~7× menos tokens de saída que Nemotron
✅ Aplicações em chinês — melhor CCAlignBench
❌ Raciocínio matemático / estilo AIME — use Nemotron ou variantes de raciocínio Qwen3
❌ Máximo desempenho em benchmarks de codificação — Qwen3.5-122B-A10B lidera

Comece Agora

Ling-2.6-flash está disponível agora. Acesse via página do modelo no OpenRouter — nível gratuito disponível imediatamente, sem necessidade de alterações de código para clientes compatíveis com OpenAI. O Agent Sandbox está disponível para equipes que combinam inferência e execução segura.

Experimente Ling-2.6-flash →

Perguntas Frequentes

O que é Ling-2.6-flash?

Ling-2.6-flash é um modelo MoE de 104B (7.4B ativos) com atenção linear híbrida, janela de contexto de 256K e velocidade de inferência de até 340 tokens/s — otimizado para cargas de trabalho de agentes.

Como usar Ling-2.6-flash via API?

Use OpenRouter com sua chave de API do Novita AI (BYOK). Adicione sua chave Novita em openrouter.ai/settings/integrations, selecione Novita como provedor e direcione requisições para inclusionai/ling-2.6-flash:free via endpoint compatível com OpenAI:

POST https://openrouter.ai/api/v1/chat/completions
Authorization: Bearer SUA_CHAVE_OPENROUTER_API

{
  &#34;model&#34;: &#34;inclusionai/ling-2.6-flash:free&#34;,
  &#34;provider&#34;: {
    &#34;order&#34;: &#91;&#34;Novita&#34;],
    &#34;api_key&#34;: &#34;SUA_CHAVE_NOVITA_API&#34;
  },
  &#34;messages&#34;: &#91;{&#34;role&#34;: &#34;user&#34;, &#34;content&#34;: &#34;Olá!&#34;}]
}

Veja a documentação BYOK do OpenRouter para configuração completa. Ao usar BYOK, o OpenRouter não cobra taxas — você paga diretamente ao Novita com preços do nível gratuito.

Como Ling-2.6-flash se compara ao Nemotron-3-Super?

Ling lidera em BFCL-V4 (67,04 vs 35,12), PinchBench (81,10 vs 73,10) e usa ~7× menos tokens de saída. Nemotron lidera em matemática. Para cargas de trabalho de agentes, Ling-2.6-flash é a melhor escolha econômica.

Qual é a janela de contexto?

256K tokens (262.144), com prefill de custo linear graças à atenção linear híbrida. Sessões longas de RAG e múltiplas rodadas escalam eficientemente.

Ling-2.6-flash é open source?

Variantes BF16, FP8 e INT4, além dos kernels Linghe, estão planejadas para lançamento open-source. Cronograma a definir — confira o site oficial do Ling para atualizações.