关键亮点
奎文 3 8B:以推理为中心的模型 8.19B参数、119 种语言以及 128,000 个令牌上下文长度,非常适合高级多语言和长上下文任务。
奎文 2.5 7B:轻量、高效的模型,具有 7.61B参数、29 种语言和 128 个令牌上下文长度,适用于通用和资源受限的应用程序。
性能:Qwen 3 8B 在 MMLU-pro 等基准测试中优于 Qwen 2.5 7B(与74 45.0), GPQA (与59 36.4)和数学(与90 49.8).
硬件:Qwen 3 8B 需要稍微多一点的 VRAM 来进行推理(17.89GB) 和微调 (105.25GB) 与 Qwen 2.5 7B 相比。
推荐您的朋友 Novita AI 你们俩都会赚 10 美元 LLM API 积分——总奖励高达 500 美元。
为了支持开发者社区,Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前可在 Novita AI.
Qwen 3 8B 和 Qwen 2.5 7B 是两种最先进的开源语言模型,专为各种 AI 应用而设计。 奎文 3 8B 是一个推理引擎,具有先进的多语言能力和对长上下文处理的支持, 奎文 2.5 7B 是一种高效且资源友好的模型,专为通用任务量身定制。无论您是构建轻量级聊天机器人,还是构建强大的人工智能系统,这些模型都能满足各种需求。
Qwen 3 8B 与 Qwen 2.5 7B:基本介绍
Qwen 3 8B 是一个推理模型!
| 类别 | 奎文 2.5 7B | 奎文 3 8B |
|---|---|---|
| 型号尺寸 | 7.61B参数 | 8.19B参数 |
| 开源 | 可选 | 可选 |
| 卓越 | 具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏差的 Transformer | 稠密 |
| 语境 | 128令牌 | 128,000令牌 |
| 语言支持 | 支持29多种语言 | 支持119种语言和方言 |
| 多式联运能力 | 文本到文本 | 文本到文本 |
| 培训实施 | 在包含超过 18 万亿个 token 的庞大数据集上进行训练 | 由 Qwen 3 32B 蒸馏 |
Qwen 3 8B 与 Qwen 2.5 7B:基准测试
如果您想亲自测试,可以在 Novita AI 网站。

| 基准 | Qwen2.5-7B | 奎文 3 8B | 米斯特拉尔-7B | 骆驼3-8B | Gemma2-9B |
|---|---|---|---|---|---|
| MMLU-pro | 45.0 | 74 | 30.9 | 35.4 | 44.7 |
| GP质量保证 | 36.4 | 59 | 24.7 | 25.8 | 32.8 |
| 数学 | 49.8 | 90 | 10.2 | 20.5 | 37.7 |
Qwen 3 8B 与 Qwen 2.5 7B:硬件要求
奎文 3 8B
| 精准 | 大约需要 VRAM 推断 |
| FP32 | 34.31GB |
| FP16 | 17.89GB |
| 精准 | 大约需要对 VRAM 进行微调 |
| FP16 | 105.25GB |
奎文 2.5 7B
| 精准 | 大约需要 VRAM 推断 |
| FP32 | 32.26GB |
| FP16 | 17.18GB |
| 精准 | 大约需要对 VRAM 进行微调 |
| FP16 | 92.57GB |
奎文 2.5 7B 对于资源有限的用户或专注于 FP16 推理和微调而不需要 Qwen 3 8B 的扩展上下文或多语言功能的用户来说,这是一个高效的模型。
Qwen 3 8B 与 Qwen 2.5 7B:应用程序
奎文 3 8B
全球多语言应用程序:支持 119 种语言,实现国际化和跨文化使用。
长上下文处理:使用 128,000 个标记处理扩展对话、大型文档或多轮对话。
高级推理和 STEM 任务:擅长复杂推理、解决问题和数学密集型应用。
企业级微调:需要高端硬件,适合大规模、专业化的微调。
高性能人工智能系统:专为跨行业的强大、可扩展和先进的 AI 应用而设计。
奎文 2.5 7B
轻量级部署:适合资源有限的团队;可部署在单个 GPU类似于 RTX 4090(24GB)。
一般语言任务:适用于摘要、情感分析和问答。
多语言应用程序:支持 29 种语言,满足基本的多语言需求。
简短上下文任务:最适合聊天互动或小文档处理等短输入任务。
特定领域微调:适合在中等硬件设置上进行高效微调。
如何通过 Novita API 访问 Qwen 3 8B 和 Qwen 2.5 7B?
步骤 1:登录并访问模型库
登录您的帐户并点击 模型库 按钮。

步骤 2:选择您的型号
浏览可用的选项并选择适合您需求的模型。

第 3 步:开始免费试用
开始免费试用,探索所选型号的功能。

步骤 4:获取您的 API 密钥
为了通过 API 进行身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图中所示复制 API 密钥。

步骤 5:安装 API
使用特定于您的编程语言的包管理器安装 API。

安装完成后,将必要的库导入到你的开发环境中。使用你的 API 密钥初始化 API,即可开始与 Novita AI LLM。这是 Python 用户使用聊天完成 API 的示例。
从 openai 导入 OpenAI 客户端 = OpenAI(base_url="https://api.novita.ai/v3/openai", api_key=" Novita AI API Key>", ) model = "qwen/qwen3-8b-fp8" stream = True # 或 False max_tokens = 2048 system_content = """做一个有用的助手""" temperature = 1 top_p = 1 min_p = 0 top_k = 50 presence_penalty = 0 frequency_penalty = 0 repetition_penalty = 1 response_format = { "type": "text" } chat_completion_res = client.chat.completions.create( model=model, messages=[ { "role": "system", "content": system_content, }, { "role": "user", "content": "Hi there!", } ], stream=stream, max_tokens=max_tokens, temperature=temp, top_p=top_p, presence_penalty=presence_penalty, frequency_penalty=frequency_penalty, respond_format=response_format,extra_body={ “top_k”:top_k,“repetition_penalty”:repetition_penalty,“min_p”:min_p })如果流:对于chat_completion_res中的块:打印(chunk.choices[0].delta.content或“”,end="”)否则:打印(chat_completion_res.choices[0].message.content)
Qwen 3 8B 是 企业级人工智能系统, 复杂推理和 多语言应用程序而 Qwen 2.5 7B 则是一款经济高效的解决方案,适合资源有限或用例较简单的团队。这两款型号均性能卓越,并可通过 Novita AI的平台,您今天就可以开始免费试用!
常見問題解答
Qwen 3 8B 有一个 更大的参数大小(8.19B),支持更多语言(119 种 vs. 29 种),并提供 128,000 个令牌上下文长度 与 Qwen 2.5 7B 相比 128令牌.
Qwen 3 8B 更好,因为它支持 119 种语言和方言使其成为全球用例的理想选择。
登录到 Novita AI 平台,选择您的模型,然后按照步骤通过 API 将其集成到您的开发环境中。
Novita AI 是一个 AI 云平台,它为开发人员提供了一种使用我们简单的 API 轻松部署 AI 模型的方法,同时还提供经济实惠且可靠的 GPU 用于构建和扩展的云。
推荐阅读
探索 Novita 的更多内容
订阅即可将最新帖子发送到您的电子邮箱。






