使用LLM专用端点部署自定义基础模型：灵活、可靠、可扩展

什么是 LLM 专用端点？
为什么选择 LLM 专用端点？
如何选择：专用端点 vs. 无服务器端点
专用端点 GPU 价格对比
如何开始使用 Novita AI LLM 专用端点
结论

Novita AI 的 LLM 专用端点是一项新推出的服务，让您能够轻松部署自己的自定义或微调 Hugging Face 模型。

专用 H100 GPU 起价 $1.86/小时，H200 起价 $2.99/小时，Novita AI 提供极具竞争力的价格——通常比 Together AI、Fireworks AI 和 Friendli AI 等替代方案更具成本效益。

享受灵活的 LoRA 支持、99.5% SLA 以及可扩展的 GPU 选项。您可以在数分钟内设置好生产就绪的 LLM 端点，并通过透明、可预测的定价自信地管理资源。

什么是 LLM 专用端点？

LLM 专用端点 提供一个私有的、基于云的 API，用于在仅为您保留的基础设施上运行大型语言模型。这种设置能确保您的模型具有一致的性能、高可靠性以及完全的资源隔离——这与共享或无服务器替代方案不同。

通过专用端点，您可以部署 Hugging Face 上的开源和私有模型，包括您的自定义或微调变体。敏感数据和知识产权将得到保护，因为您的模型和流量永远不会暴露给其他用户。

为什么选择 LLM 专用端点？

借助 Novita AI 的 LLM 专用端点，您可以为您的 AI 工作负载获得一个强大且灵活的环境：

自定义模型部署： 在隔离的专用环境中轻松服务任何 Hugging Face 模型，包括私有和微调版本。
灵活的 LoRA 适配器管理： 在单个端点上附加并切换多个 LoRA 适配器。无需重新部署基础模型即可进行实验、迭代和支持多样化任务。
可预测的性能： 专用资源确保一致的吞吐量和低延迟，不受其他用户影响。没有硬速率限制；端点的容量取决于您选择的硬件和配置。
可扩展的硬件： 从空闲（0 个副本）扩展到每个端点最多 10 个副本，并选择满足您需求的 GPU 类型。每个用户最多可使用 8 个 GPU，企业版可扩展。
透明的定价： H100 起价 $1.86/hr，H200 起价 $2.99/hr——只为实际使用付费。在高使用率或持续使用情况下，专用端点通常比无服务器解决方案更具成本效益。
用户友好的管理： 直观的 Web 控制台用于部署和管理，加上即时 Playground 测试以便快速验证。
生产级可靠性： 99.5% 的正常运行时间保证，由 Novita AI 完全管理，让您高枕无忧。

如何选择：专用端点 vs. 无服务器端点

选择合适的 LLM 推理端点类型取决于您的用例、工作负载和运营需求。以下快速指南可帮助您做出决定：

如果符合以下情况，请选择 LLM 无服务器端点：

您希望快速、灵活地访问公共 LLM，无需管理基础设施。
您的使用量低、波动大，或用于原型设计。
您希望采用简单的按使用量付费定价。

如果符合以下情况，请选择 LLM 专用端点：

您希望部署任何 Hugging Face 模型（包括私有、微调或受限模型）。
您需要灵活配置 LoRA 适配器和参数。
您需要专用硬件、稳定的高吞吐量和生产级可靠性。
您希望优化行业最低 GPU 成本。
每个用户最多需要 8 个 GPU，或更多。

如果您需要更多资源，请联系我们的销售团队获取定制企业解决方案。


方面	LLM 无服务器端点	LLM 专用端点 (DE)
计费模式	按使用量付费（按 token）	按 GPU 每小时付费
资源类型	共享、无服务器（多租户）	专用、用户控制（单租户）
性能一致性	可能有波动（共享负载）	可预测，不受其他用户影响
速率限制	是（按用户层级有 TPM、RPM）	无硬速率限制；受用户 GPU 配额限制
模型选择	仅限公共模型	从 Hugging Face 仓库（公共、私有或受限）加载自定义基础模型；支持 LoRA 参数配置
硬件选择	不可选择	灵活：H100、H200、4090 等
部署区域	用户不可选择	用户可选择区域
SLA	无正式保证	99.5% SLA
高利用率成本	规模越大越贵	高利用率时更便宜
安全性与数据隔离	共享环境	完全租户隔离，私有端点
最适合	初创公司、原型设计、波动的使用量	企业、生产环境、稳定的高吞吐量、自定义基础模型

专用端点 GPU 价格对比

选择提供商时，成本效率至关重要——尤其是对于生产级部署。在领先提供商中，Novita AI 提供最低的专用 H100 和 H200 GPU 每小时费率：


提供商	H100 (1卡/小时)	H200 (1卡/小时)
Novita AI	$1.86	$2.99
Fireworks AI	$5.80	$9.99
Friendli AI	$4.90	$5.90
Together AI	$3.36	$4.99
Deepinfra	$2.40	$3.00

如上所示，Novita AI 始终为 H100 和 H200 GPU 提供最具竞争力的定价——比其他热门提供商低 60%。

这意味着通过选择 Novita AI，您可以显著降低高吞吐量或长期运行的 LLM 部署的基础设施成本。

如何开始使用 Novita AI LLM 专用端点

1. 访问控制台

登录您的 Novita AI 控制台。
在左侧边栏中，点击 LLM 专用端点。

2. 创建新端点

点击右上角的 + 新端点 按钮。

3. 配置您的端点

使用以下选项填写配置表单：

端点名称： 为您的部署起一个唯一且描述性的名称。
基础模型： 输入基础模型的 Hugging Face 仓库名称（仅支持 Hugging Face 模型，包括公共、私有或受限）。
LoRA 适配器（可选）： 添加一个或多个 Hugging Face 模型 ID，将 LoRA 适配器附加到您的基础模型。
实例类型： 选择 GPU 硬件（例如 H100、H200、RTX4090）。每个用户在所有端点中最多可使用 8 个 GPU。
自动缩放配置：
- 最小副本数： 设置为 0 以允许端点在空闲时休眠（节省成本），或设置为更高值以始终保持最小数量的活动副本。
- 最大副本数： 设置用于缩放的最大副本数（最多 10）。
- 冷却时间： 设置在缩减副本之前的延迟（秒），以避免在短暂流量下降时过早缩减。
引擎配置：
- 引擎类型： 选择推理引擎（vLLM 或 SGLang）。
- 引擎版本： 使用默认（最新）或指定版本。
- 上下文长度： 可选设置最大 token 上下文长度；如果省略，将从模型配置中派生。
- 最大运行请求数： 设置每次迭代处理的序列最大数量。
- 附加参数： 添加任何额外的引擎参数以进行高级自定义。

完成后，点击创建以部署您的端点。

4. 端点部署状态

创建后，您的端点将经历多个状态：

休眠： 端点空闲，不消耗计算资源（如果最小副本数设置为 0）。
待处理： 部署正在初始化。
滚动中： 模型和基础设施正在设置。
运行中： 端点已激活，可以处理请求。

您可以在控制台的端点页面上监控此状态。

5. 在 Playground 中测试您的端点

部署完成且状态变为 **运行中 ** 后，点击您的端点并打开 Playground 选项卡。
在 Playground 中，您可以：
- 向基础模型和任何附加的 LoRA 适配器发送测试提示。
- 即时比较不同适配器与基础模型的输出。

6. 下一步

多 LoRA 端点： 在单个端点上部署多个 LoRA 适配器，实现灵活的模型切换。
API 集成： 使用提供的 API 端点发送请求，将您的模型集成到自己的应用程序中。
优化和扩展： 随着需求增长，调整自动缩放、引擎配置和 GPU 配额。
需要更多资源？ 如果您需要超过 8 个 GPU 或需要企业级功能，请联系我们的销售团队获取企业解决方案。

代码示例（适用于 Python 用户）

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/dedicated/v1/openai",
    api_key="<Your API Key>",
)

model = "deepseek-ai/DeepSeek-R1-0528-"
stream = True  # or False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "you are a professional AI helper.",
        },
        {
            "role": "user",
            "content": "Where can the example of GPU provided by novita ai be adapted?",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

结论

Novita AI 的全新 LLM 专用端点让您能够自信地部署和扩展自定义 Hugging Face 模型。享受灵活的 LoRA 适配器集成、简单直接的自动缩放、有竞争力的透明定价以及 99.5% SLA 的保证。无论您是启动首个微调模型，还是管理生产工作负载，Novita AI 都能让您从原型到生产的过程变得快速、安全且高效。

准备好体验无缝的 LLM 部署了吗？ 立即注册 ** 或 ** 联系我们的销售团队 ** 获取企业演示和定制方案。**

常见问题

我可以在专用端点上部署哪些模型？

您可以部署任何来自 Hugging Face 的模型，包括公共、私有、微调或专有模型。支持基础模型以及带有自定义或 LoRA 适配器的模型。

专用端点与无服务器端点有何不同？

专用端点为您提供预留、隔离的硬件，以获得一致的性能、高级自定义和更高的吞吐量。相比之下，无服务器端点运行在共享基础设施上，最适合低波动使用量，适合无需硬件管理的快速原型设计。

我可以随着工作负载增长而扩展我的专用端点吗？

是的。专用端点支持基于实时需求的自动缩放。您可以从一个 GPU 开始，并扩展到每个用户最多 8 个 GPU（企业选项可提供更多），确保您的应用程序即使在高峰流量期间也能保持响应。

如何监控和管理我的专用端点？

每个专用端点都附带详细的指标和日志。您可以通过 Web 控制台或 API 跟踪性能、监控使用情况并排查问题，使管理和优化变得简单明了。

定价选项有哪些？我如何控制成本？

定价透明且基于使用量，H100 GPU 起价 $1.86/hr，H200 GPU 起价 $3.00/hr。您只需为实际使用付费。自动缩放和灵活的管理可帮助您优化利用率并保持成本可预测，尤其适用于生产工作负载。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷途径，同时还提供经济可靠且可扩展的 GPU 云服务。

使用LLM专用端点部署自定义基础模型：灵活、可靠、可扩展

什么是 LLM 专用端点？

为什么选择 LLM 专用端点？

如何选择：专用端点 vs. 无服务器端点

专用端点 GPU 价格对比