Como Acessar o ERNIE-4.5-VL-A3B em Fluxos de Trabalho Aprimorados por Ferramentas

Índice

Arquitetura do ERNIE-4.5-VL-28B-A3B
Por que o ERNIE-4.5-VL-28B-A3B-Thinking pode Melhorar Fluxos de Trabalho de Código Aprimorados por Ferramentas
O que o ERNIE-4.5-VL-28B-A3B-Thinking Realmente Faz Dentro de um Fluxo de Trabalho de Ferramenta de Código
Como Acessar o ERNIE-4.5-VL-28B-A3B-Thinking por um Bom Preço?

A Novita AI está lançando sua campanha “Mês de Construção”, oferecendo aos desenvolvedores um incentivo exclusivo de até 20% de desconto em todos os principais produtos!

Participe do seu Mês de Construção!

Desenvolvedores modernos lutam cada vez mais para integrar entradas ricas em visão, como diagramas, capturas de tela e documentos técnicos, em fluxos de trabalho de código, mantendo ao mesmo tempo baixa latência e custos controláveis. Os VLMs tradicionais são ou muito lentos para operar dentro de loops de ferramentas ou muito fracos em raciocínio estruturado para orientar decisões de engenharia reais.

Este artigo explica como o ERNIE-4.5-VL-28B-A3B-Thinking resolve essa lacuna combinando benchmarks de raciocínio visual-linguístico de alto desempenho com uma arquitetura A3B que permite inferência rápida e repetida, e demonstra como essas propriedades o tornam adequado para fluxos de trabalho de código aprimorados por ferramentas.

Arquitetura do ERNIE-4.5-VL-28B-A3B

Ao ativar apenas 3 bilhões de parâmetros por token a partir de um reservatório denso de 28B, o modelo alcança inteligência de nível topo de linha com custos de inferência de nível de borda.

O “A3B” no nome do modelo significa Active 3B (Ativo 3B), sinalizando uma arquitetura de Mixture-of-Experts (MoE, Mistura de Especialistas) projetada para eficiência extrema.

Parâmetros Totais: 28 a 30 Bilhões (MoE Esparso)
Parâmetros Ativos: 3 Bilhões (inferência por token)
Janela de Contexto: 128k tokens
Melhorias Principais:
- Raciocínio com Imagens: Ao contrário dos VLMs padrão que processam imagens como tokens estáticos, este modelo pode iterativamente “dar zoom” e “buscar” dentro de uma imagem para resolver detalhes granulares.
- GSPO e IcePop RL: Usa aprendizado por reforço avançado (Group-based Self-Play Optimization, Otimização de Autojogo Baseada em Grupos) para estabilizar o treinamento MoE, garantindo que os especialistas sejam roteados corretamente para lógica complexa.

Caso 1: Raciocínio com Imagens do ERNIE-4.5-VL-28B-A3B

Qual é o texto da placa com fundo azul na parede ao lado da calçada?

De Baidu

Caso: Resolução de um Circuito em Ponte para Calcular a Resistência Equivalente

Neste exemplo, o modelo recebe um circuito em ponte não trivial e é solicitado a calcular a resistência equivalente entre os nós A e B.

De Baidu

Por que o ERNIE-4.5-VL-28B-A3B-Thinking pode Melhorar Fluxos de Trabalho de Código Aprimorados por Ferramentas

As pontuações nos benchmarks mostram força consistente em raciocínio STEM, compreensão de documentos e fundamentação visual, que correspondem diretamente aos passos cognitivos mais difíceis em fluxos de trabalho de código do mundo real. Em benchmarks de compreensão de documentos e raciocínio estruturado, o ERNIE-4.5-VL-A3B frequentemente alcança ou ultrapassa a faixa do percentil 95 do Gemini-2.5-Pro e do GPT-5-High, apesar de ativar muito menos parâmetros por token.

Benchmark	ERNIE-4.5-VL-A3B	Gemini-2.5-Pro	GPT-5-High	O que isso significa para desenvolvedores
MathVista	82.5	82.7	81.3	Raciocínio simbólico multi-etapas confiável
MathVerse	81.0	82.9	84.1	Forte abstração sob restrições
MMMU	72.2	81.7	84.2	Decomposição de problemas multimodais
ChartQA	87.1	78.3	78.2	Extração de dados estruturados
DocVQA (val)	93.6	91.2	94.2	Fundamentação precisa de documentos
OCRBench	85.8	86.4	81.0	Reconhecimento de texto robusto a partir de visuais
CharXiv-DQ	90.3	91.2	93.5	Raciocínio técnico de longo formato
CV-Bench	83.8	84.8	85.0	Consistência de lógica visual
Média (Todos)	73.1	75.4	76.6	Modelo compacto, raciocínio quase de nível topo de linha

Apesar de o modelo ter 28B parâmetros, apenas 3B estão ativos por token, permitindo raciocínio rápido e de baixa latência adequado para chamadas repetidas dentro de loops de ferramentas.

Características principais relevantes para os usuários:

Parâmetros ativos: 3B por token
Latência efetiva: Comparável a modelos pequenos e de médio porte
Comprimento de contexto: Até 128k tokens, suportando raciocínio em nível de sistema

O design A3B permite:

Passagens de raciocínio frequentes sem custos proibitivos
Latência estável em fluxos de trabalho agentivos
Implantação prática como uma API de raciocínio sempre ativa

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

O que o ERNIE-4.5-VL-28B-A3B-Thinking Realmente Faz Dentro de um Fluxo de Trabalho de Ferramenta de Código

O ERNIE-4.5-VL-28B-A3B-Thinking trata a visão como uma entrada de raciocínio, não apenas um extrator de recursos, permitindo que desenvolvedores integrem capturas de tela, diagramas e documentos diretamente em fluxos de trabalho de código. Isso não é geração de texto via OCR. O modelo raciocina sobre a estrutura visual e a alinha com a intenção.

1. Compreensão de Diagramas e Arquitetura

O modelo pode interpretar diagramas de sistema e converter a estrutura visual em relações lógicas relevantes para decisões de código.

O que a capacidade VL fornece

Identifica componentes, limites e fluxo de dados a partir de diagramas
Alinha elementos visuais com descrições textuais
Preserva relações estruturais no raciocínio

Exemplo

Entrada: Diagrama de arquitetura de microsserviços + nota de design curta
Saída: Explicação das dependências de serviço e caminhos de comunicação
Impacto: As ferramentas de código são guiadas para os módulos corretos, em vez de examinar todo o código base

2. Compreensão de Contexto de Código Baseada em Capturas de Tela

O modelo pode raciocinar sobre capturas de tela de UI ou IDE para inferir a lógica e a intenção subjacentes.

O que a capacidade VL fornece

Lê layouts de UI, logs e estados de erro a partir de capturas de tela
Conecta estados visuais a caminhos de código prováveis
Lida com informações textuais incompletas ou parciais

Exemplo

Entrada: Captura de tela de um painel com falha com mensagens de erro parciais
Saída: Hipótese sobre incompatibilidade frontend-backend e camada de API relevante
Impacto: Depuração mais rápida sem necessidade de reprodução completa de logs

3. Raciocínio de Código Centrado em Documentos

O modelo se destaca em extrair lógica acionável de documentos técnicos que misturam texto, tabelas e elementos visuais.

O que a capacidade VL fornece

Analisa especificações, PDFs e documentos de estilo de pesquisa
Vincula figuras e tabelas à lógica de implementação
Mantém o alinhamento em documentos longos

Exemplo

Entrada: PDF de especificação de API com tabelas e fluxogramas
Saída: Resumo estruturado de endpoints, restrições e casos de borda
Impacto: As ferramentas de geração de código começam a partir de uma compreensão correta e fundamentada

4. Raciocínio Visual para Decomposição de Problemas

Entradas visuais são usadas para impulsionar o raciocínio multi-etapas, não apenas reconhecimento.

O que a capacidade VL fornece

Converte problemas visuais em representações simbólicas
Mantém a consistência entre os passos de raciocínio
Suporta abstração antes da implementação

Exemplo

Entrada: Fluxograma de pipeline de dados
Saída: Divisão passo a passo das etapas de processamento e pontos de falha
Impacto: Permite chamadas de ferramentas direcionadas, em vez de depuração ampla

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

Como Acessar o ERNIE-4.5-VL-28B-A3B-Thinking por um Bom Preço?

A Novita AI oferece APIs do ERNIE-4.5-VL-28B-A3B-Thinking com janela de contexto de 30K a $0.112 por entrada e $0.448 por saída, suportando saídas estruturadas e chamadas de função.

Faça login na sua conta e clique no botão Biblioteca de Modelos.

Passo 2: Escolha Seu Modelo

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Experimente o ERNIE-4.5-VL-28B-A3B-Thinking Agora!

Passo 3: Inicie Seu Teste Gratuito

Inicie seu teste gratuito para explorar as capacidades do modelo selecionado.

Passo 4: Obtenha Sua Chave de API

Para autenticar com a API, forneceremos uma nova chave de API para você. Acessando a página “Configurações”, você pode copiar a chave de API conforme indicado na imagem.

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking alcança desempenho de raciocínio visual-linguístico quase de nível topo de linha, ativando apenas 3B parâmetros por token, permitindo raciocínio de baixa latência e alta frequência dentro de fluxos de trabalho de ferramentas. Seus pontos fortes comprovados em benchmarks de compreensão de documentos, fundamentação visual e raciocínio STEM permitem que ele atue como um coordenador de raciocínio, em vez de um motor de sintaxe. Como resultado, é muito adequado para desenvolvedores que precisam integrar diagramas, capturas de tela e documentos técnicos em ferramentas de código, sem sacrificar velocidade ou eficiência de custos.

Perguntas Frequentes

Para que tipo de tarefas de raciocínio o ERNIE-4.5-VL-28B-A3B-Thinking é mais adequado?

O ERNIE-4.5-VL-28B-A3B-Thinking é mais adequado para tarefas de raciocínio visual-linguístico, como interpretação de diagramas, compreensão de documentos e decomposição estruturada de problemas, em vez de geração de código pura em nível de sintaxe.

O ERNIE-4.5-VL-28B-A3B-Thinking pode substituir um LLM especializado em código?

Não. O ERNIE-4.5-VL-28B-A3B-Thinking foi projetado para complementar modelos especializados em código, lidando com compreensão visual, planejamento e validação, não execução de código de baixo nível.

O que torna a capacidade visual-linguística do ERNIE-4.5-VL-28B-A3B-Thinking diferente de modelos baseados em OCR?

O ERNIE-4.5-VL-28B-A3B-Thinking raciocina sobre a estrutura visual e a intenção, permitindo tarefas como compreensão de sistemas baseada em diagramas e depuração orientada por capturas de tela, em vez de simples extração de texto.

A Novita AI é a plataforma de nuvem tudo-em-um que capacita suas ambições de IA. APIs integradas, serverless, Instâncias de GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA uma realidade.

Como Acessar o ERNIE-4.5-VL-A3B em Fluxos de Trabalho Aprimorados por Ferramentas

Arquitetura do ERNIE-4.5-VL-28B-A3B

Caso 1: Raciocínio com Imagens do ERNIE-4.5-VL-28B-A3B

Caso: Resolução de um Circuito em Ponte para Calcular a Resistência Equivalente

Por que o ERNIE-4.5-VL-28B-A3B-Thinking pode Melhorar Fluxos de Trabalho de Código Aprimorados por Ferramentas

O que o ERNIE-4.5-VL-28B-A3B-Thinking Realmente Faz Dentro de um Fluxo de Trabalho de Ferramenta de Código

1. Compreensão de Diagramas e Arquitetura

2. Compreensão de Contexto de Código Baseada em Capturas de Tela

3. Raciocínio de Código Centrado em Documentos

4. Raciocínio Visual para Decomposição de Problemas