Como Acessar o Qwen 3 Localmente ou via API: Um Guia Completo

Índice

O que é o Qwen 3?
Arquitetura da Série Qwen 3
Benchmark da Série Qwen 3
Como Acessar o Qwen 3 Localmente?
Como Acessar o Qwen 3 via API
Quais Métodos São Adequados para Você?

Indique seus amigos para a Novita AI e ambos ganharão $10 em créditos de API LLM — até $500 em recompensas totais.

Para apoiar a comunidade de desenvolvedores, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B estão atualmente disponíveis gratuitamente na Novita AI.

O Qwen 3 é uma família de modelos de linguagem de código aberto versátil e poderosa criada pela Alibaba. Com arquitetura de ponta e raciocínio de modo duplo, ele é projetado para atender tanto dispositivos de borda quanto necessidades empresariais de grande escala. Este artigo explora suas capacidades, tipos de modelos e como usá-lo — localmente ou através de API.

O que é o Qwen 3?

Qwen 3 é a família de modelos de linguagem de código aberto de 2025 da Alibaba, com modos alternáveis de “pensamento” e “não pensamento” para raciocínio aprimorado e desempenho multilíngue em mais de 119 idiomas. A linha de modelos Qwen 3 inclui:

Modelos densos:
Modelos Mixture-of-Experts (MoE):
- Qwen 3 30B A3B
- Qwen 3 235B A22B

Código Aberto e Amigável para Comércio

Licença Apache 2.0, pesos disponíveis gratuitamente para pesquisa e uso comercial. ### Núcleo Transformer Eficiente

Decoder-only com Grouped-Query-Attention para economia de memória KV de contexto longo de até 128 K tokens. ### Modos Duais “Pensamento / Não Pensamento”

Cadeia de pensamento detalhada quando necessário, respostas diretas rápidas quando a velocidade importa. ### Corpus Massivo de 36 T tokens

119 idiomas com dados expandidos de STEM e código para habilidades de raciocínio e programação mais fortes. ### Pré-treinamento em Três Estágios

Habilidades básicas → enriquecimento STEM → adaptação de contexto longo de 32 K tokens. ### Pós-treinamento em Quatro Estágios

Long CoT SFT → RL de raciocínio → fusão de modos → alinhamento geral RLHF. ### Seguimento de Instruções Multilíngue

Forte em inglês e chinês, robusto em mais de 100 idiomas para aplicações globais. ### Prontidão para Ferramentas / Agentes

Esquema de chamada de função embutido para decidir e formatar invocações de ferramentas externas. ### Modalidade Texto-in / Texto-out

Otimizado para tarefas de linguagem hoje; variantes de visão planejadas para versões futuras.

Arquitetura da Série Qwen 3

Benchmark da Série Qwen 3

Modelos de alta parametrização como Qwen-23B e Qwen-14B seguem consistentemente as regras, com modelos maiores e versões com raciocínio habilitado obtendo pontuações mais altas. Essas discrepâncias em modelos de baixa parametrização podem decorrer de limitações em suas capacidades de raciocínio, pois eles não têm capacidade para aproveitar totalmente os mecanismos de raciocínio, levando a um desempenho abaixo do ideal.

Como Acessar o Qwen 3 Localmente?

Requisitos de Hardware

Modelo	GPU Recomendada	VRAM	vCPUs	RAM	Armazenamento
Qwen3-0.6B	RTX 3060 / T4	8 GB	4	8 GB	20 GB
Qwen3-1.7B	RTX 3060 / A5000	12–24 GB	6–8	16 GB	30 GB
Qwen3-4B	A100 40GB / RTX 3090	24–40 GB	12+	24 GB	40 GB
Qwen3-8B	A100 80GB / H100	40–80 GB	16+	48 GB	60 GB
Qwen3-14B	2× A100 80GB / 1× H100	80 GB+	24+	64 GB	80 GB
Qwen3-30B (MoE)	2× H100 / 4× A100	160 GB	48+	128 GB	160 GB
Qwen3-32B	2× H100 / 4× A100	160 GB	64	160 GB	200 GB
Qwen3-235B (MoE)	8× H100 / 8× A100	640 GB	128+	512 GB	500+ GB

Guia de Instalação Passo a Passo

# Passo 1: Instalar Python e Criar um Ambiente Virtual
# Certifique-se de que Python (>=3.8) está instalado. Em seguida, crie e ative um ambiente virtual.
python3 -m venv llama_env
source llama_env/bin/activate  # No Windows, use `llama_env\Scripts\activate`

# Passo 2: Instalar Bibliotecas Necessárias
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # Para otimização de GPU
pip install bitsandbytes  # Utilização eficiente de memória GPU

# Passo 3: Instalar a CLI do Hugging Face e Fazer Login
pip install huggingface-cli
huggingface-cli login  # Siga as instruções para autenticar

# Passo 4: Solicitar Acesso ao Llama-3.3 70B
# Visite a página do modelo no Hugging Face para Llama-3.3 70B e solicite acesso.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# Passo 5: Baixar os Arquivos do Modelo
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# Passo 6: Carregar o Modelo Localmente
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# ID do modelo e diretório local
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# Carregar o modelo com otimização de GPU
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # Mapear automaticamente as camadas do modelo para GPU(s)
    torch_dtype=torch.bfloat16  # Usar bfloat16 para uso eficiente de memória
)

# Carregar o tokenizer
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# Passo 7: Executar Inferência
# Definir texto de entrada
input_text = "Explique a teoria da relatividade em termos simples."

# Tokenizar a entrada
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # Enviar entradas para GPU

# Gerar uma resposta
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # Definir comprimento máximo da resposta
        temperature=0.7,  # Ajustar criatividade (menor = menos criativo, maior = mais criativo)
        top_k=50,         # Amostragem top-k para diversidade
    )

# Decodificar os tokens de saída
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Resposta:", response)

Como Acessar o Qwen 3 via API

Novita AI oferece uma plataforma de inferência acessível, confiável e simples com a API Llama 3.3 70b escalável, capacitando desenvolvedores a criar aplicações de IA. Experimente o Demo da API Llama 3.3 70b da Novita AI hoje!

Opção 1: Integração Direta com API (Exemplo em Python)

Experimente o Qwen3 a um preço muito baixo agora!

Principais Recursos:

Endpoint unificado:/v3/openai suporta o formato da API Chat Completions do OpenAI.
Controles flexíveis: Ajuste temperatura, top-p, penalidades e mais para resultados personalizados.
Streaming e lote: Escolha o modo de resposta preferido.

Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK

Construa sistemas multiagente avançados integrando a Novita AI ao OpenAI Agents SDK:

Plug-and-play: Use os LLMs da Novita AI em qualquer fluxo de trabalho do OpenAI Agents.
Suporta handoffs, roteamento e uso de ferramentas: Projete agentes que podem delegar, triar ou executar funções, todos alimentados pelos modelos da Novita AI.
Integração Python: Basta apontar o SDK para o endpoint da Novita (https://api.novita.ai/v3/openai) e usar sua chave de API.

Conecte a API Qwen 3 em Plataformas de Terceiros

Hugging Face: Use o Qwen 3 em Spaces, pipelines ou com a biblioteca Transformers através dos endpoints da Novita AI.

Frameworks de Agentes e Orquestração: Conecte facilmente a Novita AI com plataformas parceiras como Continue, AnythingLLM, LangChain, Dify e Langflow através de conectores oficiais e guias de integração passo a passo.
API Compatível com OpenAI: Desfrute de migração e integração sem complicações com ferramentas como Cline e Cursor, projetadas para o padrão da API OpenAI.

Quais Métodos São Adequados para Você?

Comparação entre Acesso Local e via API


Aspecto	Acesso Local	Acesso via API
Escalabilidade	Limitado; requer atualizações manuais.	Escala automática e eficiente.
Flexibilidade	Alta flexibilidade; controle total sobre as configurações.	Menos flexível; depende das configurações do provedor.
Usabilidade	Requer conhecimento técnico.	Mais fácil de usar, sem configuração complexa.
Custo-benefício	Alto custo inicial, baixo custo contínuo. Melhor para uso a longo prazo.	Pagamento por uso, ideal para uso em pequena escala ou ocasional.

Recomendações para Diferentes Grupos de Usuários

Pesquisadores → Preferem acesso local para controle total e flexibilidade em experimentos.
Desenvolvedores → Usam API para testes rápidos e criação de aplicativos; vão para local para treinamento personalizado.
Empresas → API é ótima para integração fácil; local adequado para equipes com necessidades estáveis.
Pequenas Equipes e Indivíduos → API é mais econômica e mais fácil de começar.
Usuários Não Técnicos → Definitivamente escolha API — sem configuração complexa.

Seja você um pesquisador, desenvolvedor ou equipe empresarial, o Qwen 3 se adapta às suas necessidades. O acesso local oferece controle e personalização, enquanto as APIs oferecem escalabilidade instantânea e baixa barreira de entrada. O design do Qwen 3 garante fortes capacidades multilíngues, de raciocínio e aumentadas por ferramentas para tarefas do mundo real.

Perguntas Frequentes

O que torna o Qwen 3 diferente de outros LLMs?

Ele suporta modos de pensamento duplo, instruções multilíngues fortes e contexto longo (128k tokens), com pesos abertos e licenciamento amigável para uso comercial.

Posso executar o Qwen 3 no meu PC?

Apenas os modelos menores (por exemplo, 0.6B) são adequados para GPUs de consumo. Modelos maiores exigem configurações A100/H100.

O acesso via API é mais fácil?

Sim! A Novita AI e o Hugging Face oferecem APIs Qwen 3 de baixo custo e plug-and-play — perfeitas para integração rápida e uso de baixa latência.

Novita AI é a plataforma all-in-one na nuvem que impulsiona suas ambições de IA. APIs integradas, serverless, Instância GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA realidade.

Como Acessar o Qwen 3 Localmente ou via API: Um Guia Completo