Como Acessar o ERNIE-4.5-VL-A3B em Fluxos de Trabalho Aprimorados por Ferramentas

Como Acessar o ERNIE-4.5-VL-A3B em Fluxos de Trabalho Aprimorados por Ferramentas

A Novita AI está lançando sua campanha “Mês de Construção”, oferecendo aos desenvolvedores um incentivo exclusivo de até 20% de desconto em todos os principais produtos!

Participe do seu Mês de Construção!

Desenvolvedores modernos lutam cada vez mais para integrar entradas ricas em visão, como diagramas, capturas de tela e documentos técnicos, em fluxos de trabalho de código, mantendo ao mesmo tempo baixa latência e custos controláveis. Os VLMs tradicionais são ou muito lentos para operar dentro de loops de ferramentas ou muito fracos em raciocínio estruturado para orientar decisões de engenharia reais.

Este artigo explica como o ERNIE-4.5-VL-28B-A3B-Thinking resolve essa lacuna combinando benchmarks de raciocínio visual-linguístico de alto desempenho com uma arquitetura A3B que permite inferência rápida e repetida, e demonstra como essas propriedades o tornam adequado para fluxos de trabalho de código aprimorados por ferramentas.

Arquitetura do ERNIE-4.5-VL-28B-A3B

Ao ativar apenas 3 bilhões de parâmetros por token a partir de um reservatório denso de 28B, o modelo alcança inteligência de nível topo de linha com custos de inferência de nível de borda.

O “A3B” no nome do modelo significa Active 3B (Ativo 3B), sinalizando uma arquitetura de Mixture-of-Experts (MoE, Mistura de Especialistas) projetada para eficiência extrema.

  • Parâmetros Totais: 28 a 30 Bilhões (MoE Esparso)

  • Parâmetros Ativos: 3 Bilhões (inferência por token)

  • Janela de Contexto: 128k tokens

  • Melhorias Principais:

    • Raciocínio com Imagens: Ao contrário dos VLMs padrão que processam imagens como tokens estáticos, este modelo pode iterativamente “dar zoom” e “buscar” dentro de uma imagem para resolver detalhes granulares.
    • GSPO e IcePop RL: Usa aprendizado por reforço avançado (Group-based Self-Play Optimization, Otimização de Autojogo Baseada em Grupos) para estabilizar o treinamento MoE, garantindo que os especialistas sejam roteados corretamente para lógica complexa.

Caso 1: Raciocínio com Imagens do ERNIE-4.5-VL-28B-A3B

Qual é o texto da placa com fundo azul na parede ao lado da calçada?

Capacidade do ERNIE-4.5-VL-28B-A3B

De Baidu

Caso: Resolução de um Circuito em Ponte para Calcular a Resistência Equivalente

Neste exemplo, o modelo recebe um circuito em ponte não trivial e é solicitado a calcular a resistência equivalente entre os nós A e B.

Capacidade do ERNIE-4.5-VL-28B-A3B

De Baidu

Por que o ERNIE-4.5-VL-28B-A3B-Thinking pode Melhorar Fluxos de Trabalho de Código Aprimorados por Ferramentas

As pontuações nos benchmarks mostram força consistente em raciocínio STEM, compreensão de documentos e fundamentação visual, que correspondem diretamente aos passos cognitivos mais difíceis em fluxos de trabalho de código do mundo real. Em benchmarks de compreensão de documentos e raciocínio estruturado, o ERNIE-4.5-VL-A3B frequentemente alcança ou ultrapassa a faixa do percentil 95 do Gemini-2.5-Pro e do GPT-5-High, apesar de ativar muito menos parâmetros por token.

Benchmark ERNIE-4.5-VL-A3B Gemini-2.5-Pro GPT-5-High O que isso significa para desenvolvedores
MathVista 82.5 82.7 81.3 Raciocínio simbólico multi-etapas confiável
MathVerse 81.0 82.9 84.1 Forte abstração sob restrições
MMMU 72.2 81.7 84.2 Decomposição de problemas multimodais
ChartQA 87.1 78.3 78.2 Extração de dados estruturados
DocVQA (val) 93.6 91.2 94.2 Fundamentação precisa de documentos
OCRBench 85.8 86.4 81.0 Reconhecimento de texto robusto a partir de visuais
CharXiv-DQ 90.3 91.2 93.5 Raciocínio técnico de longo formato
CV-Bench 83.8 84.8 85.0 Consistência de lógica visual
Média (Todos) 73.1 75.4 76.6 Modelo compacto, raciocínio quase de nível topo de linha

Apesar de o modelo ter 28B parâmetros, apenas 3B estão ativos por token, permitindo raciocínio rápido e de baixa latência adequado para chamadas repetidas dentro de loops de ferramentas.

Características principais relevantes para os usuários:

  • Parâmetros ativos: 3B por token
  • Latência efetiva: Comparável a modelos pequenos e de médio porte
  • Comprimento de contexto: Até 128k tokens, suportando raciocínio em nível de sistema

O design A3B permite:

  • Passagens de raciocínio frequentes sem custos proibitivos
  • Latência estável em fluxos de trabalho agentivos
  • Implantação prática como uma API de raciocínio sempre ativa

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

O que o ERNIE-4.5-VL-28B-A3B-Thinking Realmente Faz Dentro de um Fluxo de Trabalho de Ferramenta de Código

O ERNIE-4.5-VL-28B-A3B-Thinking trata a visão como uma entrada de raciocínio, não apenas um extrator de recursos, permitindo que desenvolvedores integrem capturas de tela, diagramas e documentos diretamente em fluxos de trabalho de código. Isso não é geração de texto via OCR. O modelo raciocina sobre a estrutura visual e a alinha com a intenção.

1. Compreensão de Diagramas e Arquitetura

O modelo pode interpretar diagramas de sistema e converter a estrutura visual em relações lógicas relevantes para decisões de código.

O que a capacidade VL fornece

  • Identifica componentes, limites e fluxo de dados a partir de diagramas
  • Alinha elementos visuais com descrições textuais
  • Preserva relações estruturais no raciocínio

Exemplo

  • Entrada: Diagrama de arquitetura de microsserviços + nota de design curta
  • Saída: Explicação das dependências de serviço e caminhos de comunicação
  • Impacto: As ferramentas de código são guiadas para os módulos corretos, em vez de examinar todo o código base

2. Compreensão de Contexto de Código Baseada em Capturas de Tela

O modelo pode raciocinar sobre capturas de tela de UI ou IDE para inferir a lógica e a intenção subjacentes.

O que a capacidade VL fornece

  • Lê layouts de UI, logs e estados de erro a partir de capturas de tela
  • Conecta estados visuais a caminhos de código prováveis
  • Lida com informações textuais incompletas ou parciais

Exemplo

  • Entrada: Captura de tela de um painel com falha com mensagens de erro parciais
  • Saída: Hipótese sobre incompatibilidade frontend-backend e camada de API relevante
  • Impacto: Depuração mais rápida sem necessidade de reprodução completa de logs

3. Raciocínio de Código Centrado em Documentos

O modelo se destaca em extrair lógica acionável de documentos técnicos que misturam texto, tabelas e elementos visuais.

O que a capacidade VL fornece

  • Analisa especificações, PDFs e documentos de estilo de pesquisa
  • Vincula figuras e tabelas à lógica de implementação
  • Mantém o alinhamento em documentos longos

Exemplo

  • Entrada: PDF de especificação de API com tabelas e fluxogramas
  • Saída: Resumo estruturado de endpoints, restrições e casos de borda
  • Impacto: As ferramentas de geração de código começam a partir de uma compreensão correta e fundamentada

4. Raciocínio Visual para Decomposição de Problemas

Entradas visuais são usadas para impulsionar o raciocínio multi-etapas, não apenas reconhecimento.

O que a capacidade VL fornece

  • Converte problemas visuais em representações simbólicas
  • Mantém a consistência entre os passos de raciocínio
  • Suporta abstração antes da implementação

Exemplo

  • Entrada: Fluxograma de pipeline de dados
  • Saída: Divisão passo a passo das etapas de processamento e pontos de falha
  • Impacto: Permite chamadas de ferramentas direcionadas, em vez de depuração ampla

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

Como Acessar o ERNIE-4.5-VL-28B-A3B-Thinking por um Bom Preço?

A Novita AI oferece APIs do ERNIE-4.5-VL-28B-A3B-Thinking com janela de contexto de 30K a $0.112 por entrada e $0.448 por saída, suportando saídas estruturadas e chamadas de função.

Passo 1: Faça Login e Acesse a Biblioteca de Modelos

Faça login na sua conta e clique no botão Biblioteca de Modelos.

Faça login na sua conta e clique no botão da Biblioteca de Modelos.

Passo 2: Escolha Seu Modelo

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

Passo 3: Inicie Seu Teste Gratuito

Inicie seu teste gratuito para explorar as capacidades do modelo selecionado.

Inicie seu teste gratuito para explorar as capacidades do modelo selecionado.

Passo 4: Obtenha Sua Chave de API

Para autenticar com a API, forneceremos uma nova chave de API para você. Acessando a página “Configurações”, você pode copiar a chave de API conforme indicado na imagem.

obter chave de API

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking alcança desempenho de raciocínio visual-linguístico quase de nível topo de linha, ativando apenas 3B parâmetros por token, permitindo raciocínio de baixa latência e alta frequência dentro de fluxos de trabalho de ferramentas. Seus pontos fortes comprovados em benchmarks de compreensão de documentos, fundamentação visual e raciocínio STEM permitem que ele atue como um coordenador de raciocínio, em vez de um motor de sintaxe. Como resultado, é muito adequado para desenvolvedores que precisam integrar diagramas, capturas de tela e documentos técnicos em ferramentas de código, sem sacrificar velocidade ou eficiência de custos.

Perguntas Frequentes

Para que tipo de tarefas de raciocínio o ERNIE-4.5-VL-28B-A3B-Thinking é mais adequado?

O ERNIE-4.5-VL-28B-A3B-Thinking é mais adequado para tarefas de raciocínio visual-linguístico, como interpretação de diagramas, compreensão de documentos e decomposição estruturada de problemas, em vez de geração de código pura em nível de sintaxe.

O ERNIE-4.5-VL-28B-A3B-Thinking pode substituir um LLM especializado em código?

Não. O ERNIE-4.5-VL-28B-A3B-Thinking foi projetado para complementar modelos especializados em código, lidando com compreensão visual, planejamento e validação, não execução de código de baixo nível.

O que torna a capacidade visual-linguística do ERNIE-4.5-VL-28B-A3B-Thinking diferente de modelos baseados em OCR?

O ERNIE-4.5-VL-28B-A3B-Thinking raciocina sobre a estrutura visual e a intenção, permitindo tarefas como compreensão de sistemas baseada em diagramas e depuração orientada por capturas de tela, em vez de simples extração de texto.

A Novita AI é a plataforma de nuvem tudo-em-um que capacita suas ambições de IA. APIs integradas, serverless, Instâncias de GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA uma realidade.

Leituras Recomendadas