使用LLM专用端点部署自定义基础模型:灵活、可靠、可扩展

使用LLM专用端点部署自定义基础模型:灵活、可靠、可扩展

Novita AI 的 LLM 专用端点 是一项新推出的服务,让您能够轻松部署自己的自定义或微调 Hugging Face 模型。

专用 H100 GPU 起价 $1.86/小时,H200 起价 $2.99/小时,Novita AI 提供极具竞争力的价格——通常比 Together AI、Fireworks AI 和 Friendli AI 等替代方案更具成本效益。

享受灵活的 LoRA 支持、99.5% SLA 以及可扩展的 GPU 选项。您可以在数分钟内设置好生产就绪的 LLM 端点,并通过透明、可预测的定价自信地管理资源。

什么是 LLM 专用端点?

LLM 专用端点 提供一个私有的、基于云的 API,用于在仅为您保留的基础设施上运行大型语言模型。这种设置能确保您的模型具有一致的性能、高可靠性以及完全的资源隔离——这与共享或无服务器替代方案不同。

通过专用端点,您可以部署 Hugging Face 上的开源和私有模型,包括您的自定义或微调变体。敏感数据和知识产权将得到保护,因为您的模型和流量永远不会暴露给其他用户。

为什么选择 LLM 专用端点?

借助 Novita AI 的 LLM 专用端点,您可以为您的 AI 工作负载获得一个强大且灵活的环境:

  • 自定义模型部署: 在隔离的专用环境中轻松服务任何 Hugging Face 模型,包括私有和微调版本。
  • 灵活的 LoRA 适配器管理: 在单个端点上附加并切换多个 LoRA 适配器。无需重新部署基础模型即可进行实验、迭代和支持多样化任务。
  • 可预测的性能: 专用资源确保一致的吞吐量和低延迟,不受其他用户影响。没有硬速率限制;端点的容量取决于您选择的硬件和配置。
  • 可扩展的硬件: 从空闲(0 个副本)扩展到每个端点最多 10 个副本,并选择满足您需求的 GPU 类型。每个用户最多可使用 8 个 GPU,企业版可扩展。
  • 透明的定价: H100 起价 $1.86/hr,H200 起价 $2.99/hr——只为实际使用付费。在高使用率或持续使用情况下,专用端点通常比无服务器解决方案更具成本效益。
  • 用户友好的管理: 直观的 Web 控制台用于部署和管理,加上即时 Playground 测试以便快速验证。
  • 生产级可靠性: 99.5% 的正常运行时间保证,由 Novita AI 完全管理,让您高枕无忧。

如何选择:专用端点 vs. 无服务器端点

选择合适的 LLM 推理端点类型取决于您的用例、工作负载和运营需求。以下快速指南可帮助您做出决定:

如果符合以下情况,请选择 LLM 无服务器端点:

  • 您希望快速、灵活地访问公共 LLM,无需管理基础设施。
  • 您的使用量低、波动大,或用于原型设计。
  • 您希望采用简单的按使用量付费定价。

如果符合以下情况,请选择 LLM 专用端点:

  • 您希望部署任何 Hugging Face 模型(包括私有、微调或受限模型)。
  • 您需要灵活配置 LoRA 适配器和参数。
  • 您需要专用硬件、稳定的高吞吐量和生产级可靠性。
  • 您希望优化行业最低 GPU 成本。
  • 每个用户最多需要 8 个 GPU,或更多。

如果您需要更多资源,请联系我们的 销售团队 获取定制企业解决方案。

方面 LLM 无服务器端点 LLM 专用端点 (DE)
计费模式 按使用量付费(按 token) 按 GPU 每小时付费
资源类型 共享、无服务器(多租户) 专用、用户控制(单租户)
性能一致性 可能有波动(共享负载) 可预测,不受其他用户影响
速率限制 是(按用户层级有 TPM、RPM) 无硬速率限制;受用户 GPU 配额限制
模型选择 仅限公共模型 从 Hugging Face 仓库(公共、私有或受限)加载自定义基础模型;支持 LoRA 参数配置
硬件选择 不可选择 灵活:H100、H200、4090 等
部署区域 用户不可选择 用户可选择区域
SLA 无正式保证 99.5% SLA
高利用率成本 规模越大越贵 高利用率时更便宜
安全性与数据隔离 共享环境 完全租户隔离,私有端点
最适合 初创公司、原型设计、波动的使用量 企业、生产环境、稳定的高吞吐量、自定义基础模型

专用端点 GPU 价格对比

选择提供商时,成本效率至关重要——尤其是对于生产级部署。在领先提供商中,Novita AI 提供最低的专用 H100 和 H200 GPU 每小时费率:

提供商 H100 (1卡/小时) H200 (1卡/小时)
Novita AI $1.86 $2.99
Fireworks AI $5.80 $9.99
Friendli AI $4.90 $5.90
Together AI $3.36 $4.99
Deepinfra $2.40 $3.00

如上所示,Novita AI 始终为 H100 和 H200 GPU 提供最具竞争力的定价——比其他热门提供商低 60%。

这意味着通过选择 Novita AI,您可以显著降低高吞吐量或长期运行的 LLM 部署的基础设施成本。

如何开始使用 Novita AI LLM 专用端点

1. 访问控制台

2. 创建新端点

  • 点击右上角的 + 新端点 按钮。

创建新端点

3. 配置您的端点

使用以下选项填写配置表单:

配置您的端点

  • 端点名称: 为您的部署起一个唯一且描述性的名称。
  • 基础模型: 输入基础模型的 Hugging Face 仓库名称(仅支持 Hugging Face 模型,包括公共、私有或受限)。
  • LoRA 适配器(可选): 添加一个或多个 Hugging Face 模型 ID,将 LoRA 适配器附加到您的基础模型。
  • 实例类型: 选择 GPU 硬件(例如 H100、H200、RTX4090)。每个用户在所有端点中最多可使用 8 个 GPU。
  • 自动缩放配置:
    • 最小副本数: 设置为 0 以允许端点在空闲时休眠(节省成本),或设置为更高值以始终保持最小数量的活动副本。
    • 最大副本数: 设置用于缩放的最大副本数(最多 10)。
    • 冷却时间: 设置在缩减副本之前的延迟(秒),以避免在短暂流量下降时过早缩减。
  • 引擎配置:
    • 引擎类型: 选择推理引擎(vLLMSGLang)。
    • 引擎版本: 使用默认(最新)或指定版本。
    • 上下文长度: 可选设置最大 token 上下文长度;如果省略,将从模型配置中派生。
    • 最大运行请求数: 设置每次迭代处理的序列最大数量。
    • 附加参数: 添加任何额外的引擎参数以进行高级自定义。

完成后,点击 创建 以部署您的端点。

4. 端点部署状态

端点部署状态

创建后,您的端点将经历多个状态:

  • 休眠: 端点空闲,不消耗计算资源(如果最小副本数设置为 0)。
  • 待处理: 部署正在初始化。
  • 滚动中: 模型和基础设施正在设置。
  • 运行中: 端点已激活,可以处理请求。

您可以在控制台的端点页面上监控此状态。

5. 在 Playground 中测试您的端点

专用端点 Playground

  • 部署完成且状态变为 **运行中 ** 后,点击您的端点并打开 Playground 选项卡。
  • 在 Playground 中,您可以:
    • 向基础模型和任何附加的 LoRA 适配器发送测试提示。
    • 即时比较不同适配器与基础模型的输出。

6. 下一步

  • 多 LoRA 端点: 在单个端点上部署多个 LoRA 适配器,实现灵活的模型切换。
  • API 集成: 使用提供的 API 端点发送请求,将您的模型集成到自己的应用程序中。
  • 优化和扩展: 随着需求增长,调整自动缩放、引擎配置和 GPU 配额。
  • 需要更多资源? 如果您需要超过 8 个 GPU 或需要企业级功能,请联系我们的 销售团队 获取企业解决方案。

代码示例(适用于 Python 用户)

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/dedicated/v1/openai",
    api_key="<Your API Key>",
)

model = "deepseek-ai/DeepSeek-R1-0528-"
stream = True  # or False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "you are a professional AI helper.",
        },
        {
            "role": "user",
            "content": "Where can the example of GPU provided by novita ai be adapted?",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

结论

Novita AI 的全新 LLM 专用端点让您能够自信地部署和扩展自定义 Hugging Face 模型。享受灵活的 LoRA 适配器集成、简单直接的自动缩放、有竞争力的透明定价以及 99.5% SLA 的保证。无论您是启动首个微调模型,还是管理生产工作负载,Novita AI 都能让您从原型到生产的过程变得快速、安全且高效。

准备好体验无缝的 LLM 部署了吗? 立即注册 ** 或 ** 联系我们的销售团队 ** 获取企业演示和定制方案。**

常见问题

我可以在专用端点上部署哪些模型?

您可以部署任何来自 Hugging Face 的模型,包括公共、私有、微调或专有模型。支持基础模型以及带有自定义或 LoRA 适配器的模型。

专用端点与无服务器端点有何不同?

专用端点为您提供预留、隔离的硬件,以获得一致的性能、高级自定义和更高的吞吐量。相比之下,无服务器端点运行在共享基础设施上,最适合低波动使用量,适合无需硬件管理的快速原型设计。

我可以随着工作负载增长而扩展我的专用端点吗?

是的。专用端点支持基于实时需求的自动缩放。您可以从一个 GPU 开始,并扩展到每个用户最多 8 个 GPU(企业选项可提供更多),确保您的应用程序即使在高峰流量期间也能保持响应。

如何监控和管理我的专用端点?

每个专用端点都附带详细的指标和日志。您可以通过 Web 控制台或 API 跟踪性能、监控使用情况并排查问题,使管理和优化变得简单明了。

定价选项有哪些?我如何控制成本?

定价透明且基于使用量,H100 GPU 起价 $1.86/hr,H200 GPU 起价 $3.00/hr。您只需为实际使用付费。自动缩放和灵活的管理可帮助您优化利用率并保持成本可预测,尤其适用于生产工作负载。

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷途径,同时还提供经济可靠且可扩展的 GPU 云服务。