Qwen 3 en pipelines RAG: solución todo en uno de LLM, incrustación y reordenamiento

Qwen 3 en pipelines RAG: solución todo en uno de LLM, incrustación y reordenamiento

Qwen 3 para RAG (llm, incrustación, reordenamiento) es una solución de IA de código abierto diseñada para Generación Aumentada por Recuperación. Combina tres modelos principales: modelos de incrustación para encontrar documentos relevantes, modelos de reordenamiento para ordenar los mejores resultados y un poderoso LLM para generar respuestas claras y precisas. Qwen 3 admite contexto largo, varios idiomas y es fácil de usar, lo que lo hace ideal para construir sistemas inteligentes de búsqueda y respuesta a preguntas.

¿Cómo funcionan juntos LLM, los modelos de incrustación y los modelos de reordenamiento?

1. Modelos de incrustación: comprensión de la recuperación

Propósito:
Encontrar información relevante de una gran colección de documentos.

Cómo funciona:

  • Cada documento (o fragmento de texto) se convierte en un vector (un arreglo de números) usando un modelo de incrustación (por ejemplo, Ada de OpenAI, Sentence Transformers).
  • La consulta del usuario también se convierte en un vector.
  • El sistema busca vectores de documentos que sean más similares al vector de consulta (usando métricas de similitud como la similitud coseno).
  • Se recuperan los N documentos más similares.

2. Modelos de reordenamiento: mejora de la relevancia

Propósito:
Refinar los resultados del paso de recuperación de incrustación clasificándolos más precisamente según su relevancia para la consulta.

Cómo funciona:

  • El conjunto inicial de documentos recuperados (digamos, los 20 mejores) se evalúa nuevamente usando un reordenador.
  • Los reordenadores suelen usar modelos de codificador cruzado (como BERT, RoBERTa) que toman tanto la consulta como cada documento como entrada y generan una puntuación de relevancia.
  • Los documentos mejor clasificados se seleccionan para el siguiente paso.

3. LLM (Modelo de Lenguaje Grande): generación de respuestas

Propósito:
Generar una respuesta coherente e informativa basada en el contexto recuperado.

Cómo funciona:

  • Los documentos mejor clasificados se concatenan o resumen como “contexto”.
  • Se le indica al LLM la pregunta del usuario y el contexto recuperado.
  • El LLM genera una respuesta, idealmente citando o usando la información recuperada.

Cómo funcionan todos juntos (Pipeline RAG)

  1. El usuario envía una consulta.
  2. El modelo de incrustación recupera documentos relevantes.
  3. El reordenador clasifica estos documentos por relevancia.
  4. El LLM usa los documentos principales para generar una respuesta.

¿Cuáles son los modelos Qwen 3 para RAG?

Modelo de incrustación Qwen 3

Modelo Tamaño Capas Longitud de secuencia Dimensión de incrustación Soporte MRL Atención a instrucciones
Qwen3 Embedding 0.6B 0.6B 28 32K 1024
Qwen3 Embedding 4B 4B 36 32K 2560
Qwen3 Embedding 8B 8B 36 32K 4096

Modelo de reordenamiento Qwen 3

Modelo Tamaño Capas Longitud de secuencia Atención a instrucciones
Qwen3-Reranker-0.6B 0.6B 32 32K
Qwen3-Reranker-4B 4B 36 32K
Qwen3-Reranker-8B 8B 36 32K

Modelo LLM Qwen 3

Modelo Arquitectura Parámetros (Total / Activados) Capas Cabezas de atención (Q / KV) Expertos (Total / Activos) Ventana de contexto (tokens)
Qwen3-235B-A22B MoE 235B / 22B 94 64 / 4 128 / 8 32,768 (131,072 con YaRN)
Qwen3-30B-A3B MoE 30.5B / 3.3B 48 32 / 4 128 / 8 32,768 (131,072 con YaRN)
Qwen3-32B Denso 32.8B 64 64 / 8 - 32,768 (131,072 con YaRN)
Qwen3-14B Denso 14.8B 40 40 / 8 - 32,768 (131,072 con YaRN)
Qwen3-8B Denso 8.2B 36 32 / 8 - 32,768 (131,072 con YaRN)
Qwen3-4B Denso 4.0B 36 32 / 8 - 32,768 (131,072 con YaRN)
Qwen3-1.7B Denso 1.7B 28 16 / 8 - 32,768
Qwen3-0.6B Denso 0.6B 28 16 / 8 - 32,768

¿Por qué los desarrolladores están cambiando a Qwen3 para RAG?

Característica Qwen 3
Ventana de contexto larga 32,000 tokens
Múltiples tamaños de modelo 0.6B / 4B / 8B
Soporte multilingüe 100+ idiomas
Arquitecturas avanzadas Los modelos de reordenamiento usan configuración de codificador cruzado / Los modelos de incrustación usan configuración de bi-codificador
Código abierto Apache-2.0
Atención a instrucciones Capacidad de entender y seguir instrucciones específicas

El rendimiento de los modelos Qwen 3

Puedes consultar la evaluación de los modelos de incrustación en este leaderboard !

¿Cómo acceder a los modelos Qwen 3?

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una manera fácil de implementar modelos de IA usando nuestra API simple, además de proporcionar GPU en la nube asequible y confiable para construir y escalar.

Además de Qwen 3 Reranker 8B y Embedding 8B, Novita AI también ofrece bge-m3 de forma gratuita para apoyar el desarrollo de la comunidad de código abierto.

Paso 1: Inicia sesión y accede a la Biblioteca de modelos

Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de modelos.

Inicia sesión y accede a la Biblioteca de modelos

¡Prueba los modelos Qwen 3 ahora!

Paso 2: Elige tu modelo y comienza una prueba gratuita

Navega por las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

lista de modelos qwen 3 embedding 8b

Paso 2: Elige tu modelo y comienza una prueba gratuita

Paso 3: Obtén tu clave API

Para autenticarte con la API, te proporcionaremos una nueva clave API. Ingresa a la página de “Configuración” y copia la clave API como se indica en la imagen.

obtener clave api

Paso 4: Instala la API (Ejemplo: Modelo de reordenamiento Qwen 3)

Instala la API usando el gestor de paquetes específico para tu lenguaje de programación.

Paso 4: Instala la API

Después de la instalación, importa las bibliotecas necesarias en tu entorno de desarrollo. Inicializa la API con tu clave API para comenzar a interactuar con los modelos de Novita AI. Este es un ejemplo de uso de la API de chat completions para usuarios de Python.

from openai import OpenAI

base_url = "https://api.novita.ai/v3/openai"
api_key = "<Your API Key>"
model = "qwen/qwen3-reranker-8b"

client = OpenAI(
    base_url=base_url,
    api_key=api_key,
)

stream = True # or False
max_tokens = 1000

response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    extra_body={
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
    

A medida que las aplicaciones de IA demandan una comprensión más precisa de la intención del usuario, los modelos de reordenamiento se han convertido en herramientas esenciales para ofrecer resultados de búsqueda más inteligentes. Actuando como una segunda capa de inteligencia después de la recuperación inicial, los reordenadores ajustan la clasificación de documentos mediante un análisis contextual más profundo. La serie Qwen 3 Reranker establece un nuevo estándar en este espacio, ofreciendo un rendimiento impresionante en varios idiomas, documentos largos e incluso tareas de recuperación de código. Con una implementación simplificada a través de Novita AI, los desarrolladores pueden aprovechar estos modelos avanzados sin una infraestructura pesada, haciendo que la recuperación de alta precisión sea más accesible que nunca.

Preguntas frecuentes

¿Qué es un modelo de reordenamiento?

Un reordenador reordena una lista de documentos recuperados puntuando su relevancia para una consulta, mejorando la precisión en los sistemas de búsqueda de IA.

¿En qué se diferencia un reordenador de un modelo de incrustación?

Modelo de incrustación: Convierte cada texto en un vector y los compara usando similitud.
Modelo de reordenamiento: Lee tanto la consulta como el documento juntos y asigna una puntuación inteligente de relevancia.

¿Cómo se desempeña Qwen 3 Reranker?

Qwen3-Reranker-8B alcanza puntuaciones de primer nivel:
MTEB-R: 69.02,
CMTEB-R: 77.45,
MTEB-Code: 81.22
Supera a modelos populares como BGE y GTE en múltiples categorías.

Novita AI es la plataforma en la nube todo en uno que impulsa tus ambiciones de IA. APIs integradas, serverless, GPU Instance: las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lecturas recomendadas