Qwen3 Reranker 8B 现已在 Novita AI 上线：提升 AI 搜索精度

什么是重排序模型？
什么是 Qwen 3 重排序模型？
如何访问 Qwen 3 重排序模型？

立即推荐好友，**你们双方均可获得 $10 的 LLM API 额度 **——总计最高 $500 奖励 等你来拿！

Llama 3.2 1B、Qwen2.5 7B、Qwen 3 (0.6B、1.7B、4B)、GLM 4 —— 现已在 Novita AI 上线，无需花费一分钱即可赋能您的项目！

重排序模型（Reranker）通过优化初始检索文档的顺序，在提升 AI 搜索系统准确性方面发挥着关键作用。

Qwen 3 Reranker 8B 在多语言和代码相关任务上展现出卓越的基准性能。通过 Novita AI 的 API 平台，开发者可以轻松地将其强大的重排序能力集成到自己的应用中。

立即使用 Novita AI 开始构建！

什么是重排序模型？

重排序模型（Reranker）是一种专门的 AI 模型，它根据特定查询的相关性，对一组初始检索到的文档或条目进行重新排序。通常，在初始检索阶段（使用 BM25 或基于嵌入的搜索等方法）之后，重排序模型会更精确地评估 top-k 结果，以确保最相关的条目获得优先排序。

来自 mongodb

重排序模型是为查询和检索到的文档分配相关性分数的模型。通过基于相关性对文档进行评分，重排序模型能够选择出初始检索结果中最相关的文档子集，从而提升检索准确性。

重排序模型解决的问题

增强相关性：优化初始搜索结果，使其更好地匹配用户意图。
降低噪声：过滤掉不相关的条目，提升信息呈现质量。
改进 RAG 系统：在 RAG 流水线中，重排序模型确保最相关的文档被用于生成响应。

如何评估重排序模型

MTEB-R：来自 MTEB（大规模文本嵌入基准）的英文检索任务。
CMTEB-R：来自 MTEB 的中文检索任务（聚焦中文语言性能）。
MMTEB-R：多语言检索任务（跨多种语言进行评估）。
MLDR：多语言长文档检索（测试多种语言的长文本检索能力）。
MTEB-Code：代码相关检索任务的基准测试（例如代码搜索、代码理解）。
FollowIR：衡量模型在搜索查询中遵循复杂用户指令的能力。

重排序模型 vs 嵌入模型

方面	嵌入模型	重排序模型
功能	基于向量相似度检索文档	基于相关性重新排序检索到的文档
效率	高（适用于大规模检索）	较低（用于对较小集合进行重新排序）
准确性	中等	高
使用场景	初始检索	检索后精炼

https://youtu.be/1QCwtyQ7Ctc

什么是 Qwen 3 重排序模型？


模型	参数量	层数	序列长度	指令感知
Qwen3-Reranker-0.6B	28	32K	32K	是
Qwen3-Reranker-4B	4B	36	32K	是
Qwen3-Reranker-8B	8B	36	32K	是

Qwen 3 重排序模型如何工作？

来自 Qwen

嵌入（Embedding）

目标：将文本转化为向量，以便高效搜索和比较。

输入：{指令} + {查询} / {文档} [EOS]
- 模型将 查询 ** 和 ** 文档 以组合输入格式呈现。
经过 Qwen3 模型 处理，在末尾（[EOS] 处）获取一个隐藏状态（类似于“摘要向量”）。
该向量即成为 **嵌入 ——一种用数字表示文本的方式，以便与其它文本 ** 进行比较。

重排序（Reranker）

目标：给出一个智能分数，指示文档与查询的匹配程度。

输入：{指令} + {查询} + {文档} Assistant:
- 这是一个更详细的输入——Qwen3 将查询和文档一起读取，如同逐行对比。
模型采用 交叉编码器 结构，对两段文本进行深度比较。
然后，LM 头（语言模型头）给出一个分数（例如“是”的概率）。
- 该分数告诉我们：“该文档与查询的相关性有多高？”

Qwen 3 重排序模型的基准性能

模型	参数量	MTEB-R	CMTEB-R	MMTEB-R	MLDR	MTEB-Code	FollowIR
Jina-multilingual-reranker-v2-base	0.3B	58.22	63.37	63.73	39.66	58.98	-0.68
gte-multilingual-reranker-base	0.3B	59.51	74.08	59.44	66.33	54.18	-1.64
BGE-reranker-v2-m3	0.6B	57.03	72.16	58.36	59.51	41.38	-0.01
Qwen3-Reranker-0.6B	0.6B	65.80	71.31	66.36	67.28	73.42	5.41
Qwen3-Reranker-4B	4B	69.76	75.94	72.74	69.97	81.20	14.84
Qwen3-Reranker-8B	8B	69.02	77.45	72.94	70.19	81.22	8.05

您可以在这个排行榜上查看嵌入模型的评估结果！

如何访问 Qwen 3 重排序模型？

Novita AI 是一个 AI 云平台，为开发者提供简单的 API 来部署 AI 模型，同时还提供经济可靠的 GPU 云用于构建和扩展。

除了 Qwen 3 Reranker 8B 和 Embedding 8B 之外，Novita AI 还免费提供 bge-m3 以支持开源社区的发展！

第 1 步：登录并访问模型库

登录您的账户，点击 模型库 按钮。

立即使用 Qwen 3 Reranker 8B！

第 2 步：选择模型并开始免费试用

浏览可用选项，选择适合您需求的模型。

第 3 步：获取您的 API 密钥

为了通过 API 进行身份验证，我们将为您提供一个新的 API 密钥。进入“设置”页面，您可以按照图中所示复制 API 密钥。

第 4 步：安装 API

使用您编程语言对应的包管理器安装 API。

安装完成后，将必要的库导入到您的开发环境中。使用您的 API 密钥初始化 API，开始与 Novita AI 模型交互。这是一个面向 Python 用户的聊天补全 API 示例。

from openai import OpenAI

base_url = "https://api.novita.ai/v3/openai"
api_key = "<您的API密钥>"
model = "qwen/qwen3-reranker-8b"

client = OpenAI(
    base_url=base_url,
    api_key=api_key,
)

stream = True # 或 False
max_tokens = 1000

response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    extra_body={
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

随着 AI 应用对用户意图理解精度的要求越来越高，重排序模型已成为提供更智能搜索结果的必备工具。作为初始检索后的第二层智能模块，重排序模型通过更深入的上下文分析来微调文档排名。**Qwen 3 重排序系列 ** 在该领域树立了新的标杆，在跨语言、长文档甚至代码检索任务上均表现出色。通过 Novita AI 的简化部署，开发者无需繁重的基础设施即可利用这些先进模型——让高精度检索变得比以往任何时候都更易获取。

常见问题

什么是重排序模型？

重排序模型通过对检索到的文档列表进行相关性评分并重新排序，从而提升 AI 搜索系统的精确度。

重排序模型与嵌入模型有何不同？

嵌入模型：将每个文本转换为向量，并通过相似度进行比较。
重排序模型：将查询和文档一起读取，并给出一个智能相关性分数。

Qwen 3 重排序模型的性能如何？

Qwen3-Reranker-8B 取得了顶尖分数：
MTEB-R：69.02，
CMTEB-R：77.45，
MTEB-Code：81.22
在多个类别中优于 BGE 和 GTE 等热门模型。

Novita AI 是一个一体化云平台，为您的 AI 愿景提供动力。集成 API、无服务器计算、GPU 实例——您需要的经济高效的工具。无需基础设施、免费开始，将您的 AI 愿景变为现实。

Qwen3 Reranker 8B 现已在 Novita AI 上线：提升 AI 搜索精度