幕后揭秘:我们如何在Novita AI上托管模型

幕后揭秘:我们如何在Novita AI上托管模型

DeepSeek V3、Qwen3 Coder等开源模型不仅正在追赶闭源同类产品,更以6-10倍的性价比优势提供顶尖性能。但这一巨大潜力背后隐藏着一个挑战:开源模型很少被托管,而闭源模型几乎都有托管服务。

对大多数团队而言,在内部部署这些模型存在三大核心挑战:

  1. 成本高昂:要运行Llama 3.3 70B这类模型,你很可能需要2块H100 GPU,这是一笔巨大的前期支出。更糟糕的是,在需求低迷期,这些昂贵的硬件往往处于闲置状态,导致利用率低下、投资浪费。
  2. 技术复杂:部署和维护大语言模型(LLM)需要深厚的推理优化与GPU运维专业知识,对多数公司来说,组建一整个MLOps团队并不现实。
  3. 流程繁琐:新模型发布频率很高,但内部部署架构僵化,导致测试新模型或应对突发需求波动进行扩容的速度慢、难度大。

在Novita AI,我们相信你无需在开源模型的能力与托管服务的便捷性之间做取舍。我们的平台旨在为你提供顶级闭源模型才有的稳定性、性能和开发者体验,同时享受开源生态的成本优势。我们为开源大语言模型提供生产级托管服务。

接下来就让我们带你看看我们是如何实现这一目标的。

模型托管幕后揭秘

当你在Novita AI上托管自定义模型,或调用我们的开源大语言模型API时,背后有大量工作正在运行。大规模托管模型涉及复杂的编排、优化和持续监控流程,旨在确保每一次请求都快且可靠。

模型存储与硬件

我们维护了一个热门开源模型(如Llama、Qwen、DeepSeek)的热启动库,这些模型都是数十亿参数级别的大模型。由于运行这些大语言模型需要专用硬件,我们与全球各地的数据中心合作,为所有地区的用户提供快速可靠的服务,负责管理:

  • 足以支撑推理工作负载的服务器
  • 可快速传输请求与响应的网络
  • 保障设备24/7稳定运行的电力供应

我们承担硬件成本,并提供以下服务:

  • 热启动模型库:我们维护了数百个热启动模型,你可以即时测试和验证适用于你使用场景的最新大语言模型。
  • 按需付费无服务器端点:你仅需为你使用的token付费。这种按token计价的模式非常适合聊天机器人、文本生成等需求波动较大的应用,确保你无需为闲置容量付费。
  • 按需自定义部署:当你需要更高控制权时,可以租用NVIDIA H100等高性能GPU,最低仅需1.85美元/小时。你可以根据需求灵活调整资源规模,将高额资本支出转化为可预测的运营成本。
  • 开发者友好集成:我们准备了统一的API,屏蔽了底层复杂性。这些API兼容OpenAI API等主流框架,切换服务商非常简单:只需修改基础URL和密钥,即可访问我们库中的所有开源模型。我们还与LangChain、LiteLLM、LlamaIndex等框架无缝集成,切换或试验新模型不会影响你现有的工作流。

推理优化

原始模型运行只是第一步。为了在最低成本下提供最佳性能,我们采用多种技术优化推理过程:

  1. 量化:降低模型权重的精度,在保持性能的同时让模型更小、运行更快
  2. 批处理:同时处理多个用户请求,最大化GPU利用率
  3. 负载均衡:将请求分发到多台服务器,避免单台服务器过载,维持低延迟

我们处理所有底层复杂性,为你提供打磨完善的开发者友好体验,让开源AI触手可及。

  • 我们为函数调用(Function Calling)、结构化输出(Structured Outputs)和批量推理等核心功能提供内置支持,无需你自行搭建这些复杂系统,加速产品上线。
  • 全工作负载弹性伸缩:我们的基础设施完全支持弹性扩展。无服务器端点可自动扩缩容,应对高并发场景,首Token延迟(TTFT)低于300ms。自定义和企业级部署支持GPU自动扩缩容,满足任何需求的同时保障性能与数据隔离。

对于关键业务场景,我们提供“零运维”解决方案。你只需提交需求(模型名称、输入输出长度、性能SLA),我们的大语言模型优化引擎就会为你定制最具成本效益的方案。我们的专家团队还会负责模型的部署与运维,提供99.5%的SLA保障、性能承诺以及直接的技术支持。

自托管与使用托管模型的对比

部分开发者倾向于自行托管模型以获得最大控制权。如果你是这类用户,我们也提供支持:你可以通过Novita AI按小时租用GPU,自由调整你的技术栈。

但自托管也存在明显的权衡:部署和维护需要投入时间与专业知识,扩容难度高,平衡成本与性能更是一项长期挑战。

使用Novita这类托管式开源大语言模型API可以消除这些额外负担,为你提供开箱即用的生产级解决方案,性能可预测,运维压力极小。我们优化了Novita AI的基础设施,旨在以最低成本为你提供最佳体验。通过大规模运行模型,我们的定价低于个人或小型公司自托管的成本。我们按处理的token数量收费,你只需为你实际使用的部分付费。

我们设计了三个服务层级,适配你AI旅程的每一个阶段。

无服务器端点 自定义部署 企业级部署
模型支持 Qwen3、DeepSeek、LLaMA3等最新大语言模型 数百个热启动模型 + 自定义模型上传 数百个热启动模型 + 自定义模型上传
定价模式 按需按token付费 按需按GPU小时计费 基于性能的按token计费
集成方式 自助服务,一行代码集成 自助GPU部署,一行代码集成 专家部署与企业级服务
弹性伸缩 速率限制内的弹性伸缩 专属端点:基于使用量的GPU自动扩缩容 基于性能的弹性伸缩
最佳适用场景 无需管理基础设施即可快速获取新模型 需要更高模型控制权与自定义配置 全托管部署,性能有保障

注:专属端点的最大GPU数量为8块。如果需要更多GPU,可联系销售获取企业级服务。

总结

无论你是为垂直场景运行微调模型,还是试验最新的开源大语言模型,Novita AI都能让你以开源价格享受闭源模型的便捷。如果你对定制方案感兴趣,或想和我们的工程师讨论你的部署架构,可以点击此处预约沟通。

致谢:特别感谢Novita大语言模型项目经理Charles为本文做出的贡献与提供的见解。