Novita AI 的 LLM 专用端点 是一项新推出的服务,让您能够轻松部署自己的自定义或微调 Hugging Face 模型。
专用 H100 GPU 起价 $1.86/小时,H200 起价 $2.99/小时,Novita AI 提供极具竞争力的价格——通常比 Together AI、Fireworks AI 和 Friendli AI 等替代方案更具成本效益。
享受灵活的 LoRA 支持、99.5% SLA 以及可扩展的 GPU 选项。您可以在数分钟内设置好生产就绪的 LLM 端点,并通过透明、可预测的定价自信地管理资源。
什么是 LLM 专用端点?
LLM 专用端点 提供一个私有的、基于云的 API,用于在仅为您保留的基础设施上运行大型语言模型。这种设置能确保您的模型具有一致的性能、高可靠性以及完全的资源隔离——这与共享或无服务器替代方案不同。
通过专用端点,您可以部署 Hugging Face 上的开源和私有模型,包括您的自定义或微调变体。敏感数据和知识产权将得到保护,因为您的模型和流量永远不会暴露给其他用户。
为什么选择 LLM 专用端点?
借助 Novita AI 的 LLM 专用端点,您可以为您的 AI 工作负载获得一个强大且灵活的环境:
- 自定义模型部署: 在隔离的专用环境中轻松服务任何 Hugging Face 模型,包括私有和微调版本。
- 灵活的 LoRA 适配器管理: 在单个端点上附加并切换多个 LoRA 适配器。无需重新部署基础模型即可进行实验、迭代和支持多样化任务。
- 可预测的性能: 专用资源确保一致的吞吐量和低延迟,不受其他用户影响。没有硬速率限制;端点的容量取决于您选择的硬件和配置。
- 可扩展的硬件: 从空闲(0 个副本)扩展到每个端点最多 10 个副本,并选择满足您需求的 GPU 类型。每个用户最多可使用 8 个 GPU,企业版可扩展。
- 透明的定价: H100 起价 $1.86/hr,H200 起价 $2.99/hr——只为实际使用付费。在高使用率或持续使用情况下,专用端点通常比无服务器解决方案更具成本效益。
- 用户友好的管理: 直观的 Web 控制台用于部署和管理,加上即时 Playground 测试以便快速验证。
- 生产级可靠性: 99.5% 的正常运行时间保证,由 Novita AI 完全管理,让您高枕无忧。
如何选择:专用端点 vs. 无服务器端点
选择合适的 LLM 推理端点类型取决于您的用例、工作负载和运营需求。以下快速指南可帮助您做出决定:
如果符合以下情况,请选择 LLM 无服务器端点:
- 您希望快速、灵活地访问公共 LLM,无需管理基础设施。
- 您的使用量低、波动大,或用于原型设计。
- 您希望采用简单的按使用量付费定价。
如果符合以下情况,请选择 LLM 专用端点:
- 您希望部署任何 Hugging Face 模型(包括私有、微调或受限模型)。
- 您需要灵活配置 LoRA 适配器和参数。
- 您需要专用硬件、稳定的高吞吐量和生产级可靠性。
- 您希望优化行业最低 GPU 成本。
- 每个用户最多需要 8 个 GPU,或更多。
如果您需要更多资源,请联系我们的 销售团队 获取定制企业解决方案。
| 方面 | LLM 无服务器端点 | LLM 专用端点 (DE) |
| 计费模式 | 按使用量付费(按 token) | 按 GPU 每小时付费 |
| 资源类型 | 共享、无服务器(多租户) | 专用、用户控制(单租户) |
| 性能一致性 | 可能有波动(共享负载) | 可预测,不受其他用户影响 |
| 速率限制 | 是(按用户层级有 TPM、RPM) | 无硬速率限制;受用户 GPU 配额限制 |
| 模型选择 | 仅限公共模型 | 从 Hugging Face 仓库(公共、私有或受限)加载自定义基础模型;支持 LoRA 参数配置 |
| 硬件选择 | 不可选择 | 灵活:H100、H200、4090 等 |
| 部署区域 | 用户不可选择 | 用户可选择区域 |
| SLA | 无正式保证 | 99.5% SLA |
| 高利用率成本 | 规模越大越贵 | 高利用率时更便宜 |
| 安全性与数据隔离 | 共享环境 | 完全租户隔离,私有端点 |
| 最适合 | 初创公司、原型设计、波动的使用量 | 企业、生产环境、稳定的高吞吐量、自定义基础模型 |
专用端点 GPU 价格对比
选择提供商时,成本效率至关重要——尤其是对于生产级部署。在领先提供商中,Novita AI 提供最低的专用 H100 和 H200 GPU 每小时费率:
| 提供商 | H100 (1卡/小时) | H200 (1卡/小时) |
| Novita AI | $1.86 | $2.99 |
| Fireworks AI | $5.80 | $9.99 |
| Friendli AI | $4.90 | $5.90 |
| Together AI | $3.36 | $4.99 |
| Deepinfra | $2.40 | $3.00 |
如上所示,Novita AI 始终为 H100 和 H200 GPU 提供最具竞争力的定价——比其他热门提供商低 60%。
这意味着通过选择 Novita AI,您可以显著降低高吞吐量或长期运行的 LLM 部署的基础设施成本。
如何开始使用 Novita AI LLM 专用端点
1. 访问控制台
- 登录您的 Novita AI 控制台。
- 在左侧边栏中,点击 LLM 专用端点。
2. 创建新端点
- 点击右上角的 + 新端点 按钮。

3. 配置您的端点
使用以下选项填写配置表单:

- 端点名称: 为您的部署起一个唯一且描述性的名称。
- 基础模型: 输入基础模型的 Hugging Face 仓库名称(仅支持 Hugging Face 模型,包括公共、私有或受限)。
- LoRA 适配器(可选): 添加一个或多个 Hugging Face 模型 ID,将 LoRA 适配器附加到您的基础模型。
- 实例类型: 选择 GPU 硬件(例如 H100、H200、RTX4090)。每个用户在所有端点中最多可使用 8 个 GPU。
- 自动缩放配置:
- 最小副本数: 设置为
0以允许端点在空闲时休眠(节省成本),或设置为更高值以始终保持最小数量的活动副本。 - 最大副本数: 设置用于缩放的最大副本数(最多 10)。
- 冷却时间: 设置在缩减副本之前的延迟(秒),以避免在短暂流量下降时过早缩减。
- 最小副本数: 设置为
- 引擎配置:
- 引擎类型: 选择推理引擎(
vLLM或SGLang)。 - 引擎版本: 使用默认(最新)或指定版本。
- 上下文长度: 可选设置最大 token 上下文长度;如果省略,将从模型配置中派生。
- 最大运行请求数: 设置每次迭代处理的序列最大数量。
- 附加参数: 添加任何额外的引擎参数以进行高级自定义。
- 引擎类型: 选择推理引擎(
完成后,点击 创建 以部署您的端点。
4. 端点部署状态

创建后,您的端点将经历多个状态:
- 休眠: 端点空闲,不消耗计算资源(如果最小副本数设置为 0)。
- 待处理: 部署正在初始化。
- 滚动中: 模型和基础设施正在设置。
- 运行中: 端点已激活,可以处理请求。
您可以在控制台的端点页面上监控此状态。
5. 在 Playground 中测试您的端点

- 部署完成且状态变为 **运行中 ** 后,点击您的端点并打开 Playground 选项卡。
- 在 Playground 中,您可以:
- 向基础模型和任何附加的 LoRA 适配器发送测试提示。
- 即时比较不同适配器与基础模型的输出。
6. 下一步
- 多 LoRA 端点: 在单个端点上部署多个 LoRA 适配器,实现灵活的模型切换。
- API 集成: 使用提供的 API 端点发送请求,将您的模型集成到自己的应用程序中。
- 优化和扩展: 随着需求增长,调整自动缩放、引擎配置和 GPU 配额。
- 需要更多资源? 如果您需要超过 8 个 GPU 或需要企业级功能,请联系我们的 销售团队 获取企业解决方案。
代码示例(适用于 Python 用户)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/dedicated/v1/openai",
api_key="<Your API Key>",
)
model = "deepseek-ai/DeepSeek-R1-0528-"
stream = True # or False
max_tokens = 512
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "you are a professional AI helper.",
},
{
"role": "user",
"content": "Where can the example of GPU provided by novita ai be adapted?",
}
],
stream=stream,
max_tokens=max_tokens,
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
结论
Novita AI 的全新 LLM 专用端点让您能够自信地部署和扩展自定义 Hugging Face 模型。享受灵活的 LoRA 适配器集成、简单直接的自动缩放、有竞争力的透明定价以及 99.5% SLA 的保证。无论您是启动首个微调模型,还是管理生产工作负载,Novita AI 都能让您从原型到生产的过程变得快速、安全且高效。
准备好体验无缝的 LLM 部署了吗? 立即注册 ** 或 ** 联系我们的销售团队 ** 获取企业演示和定制方案。**
常见问题
我可以在专用端点上部署哪些模型?
您可以部署任何来自 Hugging Face 的模型,包括公共、私有、微调或专有模型。支持基础模型以及带有自定义或 LoRA 适配器的模型。
专用端点与无服务器端点有何不同?
专用端点为您提供预留、隔离的硬件,以获得一致的性能、高级自定义和更高的吞吐量。相比之下,无服务器端点运行在共享基础设施上,最适合低波动使用量,适合无需硬件管理的快速原型设计。
我可以随着工作负载增长而扩展我的专用端点吗?
是的。专用端点支持基于实时需求的自动缩放。您可以从一个 GPU 开始,并扩展到每个用户最多 8 个 GPU(企业选项可提供更多),确保您的应用程序即使在高峰流量期间也能保持响应。
如何监控和管理我的专用端点?
每个专用端点都附带详细的指标和日志。您可以通过 Web 控制台或 API 跟踪性能、监控使用情况并排查问题,使管理和优化变得简单明了。
定价选项有哪些?我如何控制成本?
定价透明且基于使用量,H100 GPU 起价 $1.86/hr,H200 GPU 起价 $3.00/hr。您只需为实际使用付费。自动缩放和灵活的管理可帮助您优化利用率并保持成本可预测,尤其适用于生产工作负载。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷途径,同时还提供经济可靠且可扩展的 GPU 云服务。
