Qwen 3 em Pipelines RAG: Solução Tudo-em-Um de LLM, Embedding e Reclassificação

Índice

Como LLM, Modelos de Embedding e Modelos de Reclassificação Trabalham Juntos?
Quais São os Modelos Qwen 3 para RAG?
Por que os Desenvolvedores Estão Migrando para o Qwen3 em RAG?
Como Acessar os Modelos Qwen 3?

Qwen 3 para RAG (LLM, embedding, reclassificação) é uma solução de IA de código aberto projetada para Geração Aumentada por Recuperação. Ela combina três modelos principais: modelos de embedding para encontrar documentos relevantes, modelos de reclassificação para classificar os melhores resultados e um LLM poderoso para gerar respostas claras e precisas. O Qwen 3 oferece suporte a contexto longo, vários idiomas e é fácil de usar, sendo ideal para construir sistemas inteligentes de busca e perguntas e respostas.

Como LLM, Modelos de Embedding e Modelos de Reclassificação Trabalham Juntos?

1. Modelos de Embedding: Entendendo a Recuperação

Propósito:
Encontrar informações relevantes em uma grande coleção de documentos.

Como funciona:

Cada documento (ou fragmento de texto) é convertido em um vetor (um conjunto de números) usando um modelo de embedding (ex.: Ada da OpenAI, Sentence Transformers).
A consulta do usuário também é transformada em um vetor.
O sistema busca vetores de documentos mais semelhantes ao vetor da consulta (usando métricas de similaridade como similaridade de cosseno).
Os N documentos mais semelhantes são recuperados.

2. Modelos de Reclassificação: Melhorando a Relevância

Propósito:
Refinar os resultados obtidos na etapa de recuperação por embedding, classificando-os com mais precisão com base em sua relevância para a consulta.

Como funciona:

O conjunto inicial de documentos recuperados (por exemplo, os 20 principais) é avaliado novamente usando um reclassificador.
Reclassificadores frequentemente usam modelos de codificador cruzado (como BERT, RoBERTa) que recebem tanto a consulta quanto cada documento como entrada e produzem uma pontuação de relevância.
Os documentos mais bem classificados são selecionados para a próxima etapa.

3. LLM (Modelo de Linguagem de Grande Escala): Gerando Respostas

Propósito:
Gerar uma resposta coerente e informativa com base no contexto recuperado.

Como funciona:

Os documentos mais bem classificados são concatenados ou resumidos como “contexto”.
O LLM recebe a pergunta do usuário e o contexto recuperado como entrada.
O LLM gera uma resposta, idealmente citando ou utilizando as informações recuperadas.

Como Todos Trabalham Juntos (Pipeline RAG)

Usuário envia consulta.
Modelo de embedding recupera documentos relevantes.
Reclassificador ordena esses documentos por relevância.
LLM usa os documentos principais para gerar uma resposta.

Quais São os Modelos Qwen 3 para RAG?

Modelo de Embedding Qwen 3

Modelo	Tamanho	Camadas	Comprimento da Sequência	Dimensão do Embedding	Suporte MRL	Consciente de Instrução
Qwen3 Embedding 0.6B	0.6B	28	32K	1024	Sim	Sim
Qwen3 Embedding 4B	4B	36	32K	2560	Sim	Sim
Qwen3 Embedding 8B	8B	36	32K	4096	Sim	Sim

Modelo de Reclassificação Qwen 3


Modelo	Tamanho	Camadas	Comprimento da Sequência	Consciente de Instrução
Qwen3-Reranker-0.6B	0.6B	32	32K	Sim
Qwen3-Reranker-4B	4B	36	32K	Sim
Qwen3-Reranker-8B	8B	36	32K	Sim

Modelo LLM Qwen 3

Modelo	Arquitetura	Parâmetros (Total / Ativados)	Camadas	Cabeças de Atenção (Q / KV)	Experts (Total / Ativos)	Janela de Contexto (tokens)
Qwen3-235B-A22B	MoE	235B / 22B	94	64 / 4	128 / 8	32.768 (131.072 c/ YaRN)
Qwen3-30B-A3B	MoE	30.5B / 3.3B	48	32 / 4	128 / 8	32.768 (131.072 c/ YaRN)
Qwen3-32B	Denso	32.8B	64	64 / 8	-	32.768 (131.072 c/ YaRN)
Qwen3-14B	Denso	14.8B	40	40 / 8	-	32.768 (131.072 c/ YaRN)
Qwen3-8B	Denso	8.2B	36	32 / 8	-	32.768 (131.072 c/ YaRN)
Qwen3-4B	Denso	4.0B	36	32 / 8	-	32.768 (131.072 c/ YaRN)
Qwen3-1.7B	Denso	1.7B	28	16 / 8	-	32.768
Qwen3-0.6B	Denso	0.6B	28	16 / 8	-	32.768

Por que os Desenvolvedores Estão Migrando para o Qwen3 em RAG?

Característica	Qwen 3
Janela de Contexto Longa	32.000 tokens
Múltiplos Tamanhos de Modelo	0.6B / 4B / 8B
Suporte Multilíngue	100+ idiomas
Arquiteturas Avançadas	Modelos de reclassificação usam configuração de codificador cruzado / Modelos de embedding usam configuração de bi-codificador
Código Aberto	Apache-2.0
Consciência de Instrução	Suporta compreensão e seguimento de instruções específicas

O Desempenho dos Modelos Qwen 3

Você pode conferir a avaliação dos modelos de embedding neste leaderboard!

Como Acessar os Modelos Qwen 3?

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer GPU em nuvem acessível e confiável para construir e escalar.

Além do Qwen 3 Reranker 8B e Embedding 8B, a Novita AI também oferece o bge-m3 gratuito para apoiar o desenvolvimento da comunidade de código aberto!

Passo 1: Faça Login e Acesse a Biblioteca de Modelos

Faça login na sua conta e clique no botão Model Library.

Experimente os Modelos Qwen 3 Agora!

Passo 2: Escolha Seu Modelo e Inicie um Teste Gratuito

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 3: Obtenha Sua Chave de API

Para autenticar na API, forneceremos uma nova chave de API. Acessando a página “Settings”, você pode copiar a chave de API conforme indicado na imagem.

Passo 4: Instale a API (Exemplo: Modelo Qwen 3 Ranker)

Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com os modelos da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.

from openai import OpenAI

base_url = "https://api.novita.ai/v3/openai"
api_key = "<Your API Key>"
model = "qwen/qwen3-reranker-8b"

client = OpenAI(
    base_url=base_url,
    api_key=api_key,
)

stream = True # or False
max_tokens = 1000

response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    extra_body={
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

À medida que as aplicações de IA exigem uma compreensão mais precisa da intenção do usuário, os modelos de reclassificação se tornaram ferramentas essenciais para entregar resultados de busca mais inteligentes. Atuando como uma segunda camada de inteligência após a recuperação inicial, os reclassificadores ajustam as classificações dos documentos usando uma análise contextual mais profunda. A série Qwen 3 Reranker estabelece um novo padrão nesse espaço, oferecendo desempenho impressionante em vários idiomas, documentos longos e até mesmo tarefas de recuperação de código. Com a implantação simplificada através da Novita AI, os desenvolvedores podem aproveitar esses modelos avançados sem infraestrutura pesada — tornando a recuperação de alta precisão mais acessível do que nunca.

Perguntas Frequentes

O que é um modelo de reclassificação?

Um reclassificador reordena uma lista de documentos recuperados, pontuando sua relevância para uma consulta, melhorando a precisão em sistemas de busca baseados em IA.

Qual a diferença entre um reclassificador e um modelo de embedding?

Modelo de Embedding: Converte cada texto em um vetor e os compara usando similaridade.
Modelo de Reclassificação: Lê tanto a consulta quanto o documento juntos e fornece uma pontuação inteligente de relevância.

Qual o desempenho do Qwen 3 Reranker?

Qwen3-Reranker-8B alcança pontuações de alto nível:
MTEB-R: 69,02,
CMTEB-R: 77,45,
MTEB-Code: 81,22
Supera modelos populares como BGE e GTE em várias categorias.

Novita AI é a plataforma de nuvem tudo-em-um que impulsiona suas ambições de IA. APIs integradas, serverless, Instância GPU — as ferramentas econômicas que você precisa. Elimine infraestrutura, comece gratuitamente e transforme sua visão de IA em realidade.

Qwen 3 em Pipelines RAG: Solução Tudo-em-Um de LLM, Embedding e Reclassificação

Como LLM, Modelos de Embedding e Modelos de Reclassificação Trabalham Juntos?

1. Modelos de Embedding: Entendendo a Recuperação

2. Modelos de Reclassificação: Melhorando a Relevância

3. LLM (Modelo de Linguagem de Grande Escala): Gerando Respostas

Como Todos Trabalham Juntos (Pipeline RAG)