幕後揭秘:我們如何在 Novita AI 上託管模型

幕後揭秘:我們如何在 Novita AI 上託管模型

像 Deepseek V3、Qwen3 Coder 這類開源模型,不僅追趕上閉源模型的步伐,更以 6 到 10 倍的價格優勢提供頂尖效能。但這項驚人潛力背後隱藏著一個挑戰:開源模型極少被託管,而閉源模型幾乎都有對應的託管服務。

對多數團隊而言,在內部部署這些模型有三個主要難題:

  1. 成本高昂:要運行像 Llama 3.3 70B 這類模型,你很可能需要兩張 H100 顯示卡,這是一筆巨大的前期支出。更糟的是,這類昂貴硬體在需求低迷期往往閒置,導致使用率低落、投資浪費。
  2. 流程複雜:部署與維護大型語言模型(LLM)需要深厚的推論優化與顯示卡運維專業知識,對多數企業而言聘請完整的 MLOps 團隊並不切實際。
  3. 操作繁瑣:新模型頻繁發布,但內部部署架構較為僵化,要測試新模型或因應突發需求波動進行擴展,過程緩慢且困難。

在 Novita AI,我們認為你不應該要在開源模型的強大能力與託管服務的流暢體驗之間做取捨。我們的平台專為提供高階閉源模型具備的穩定性、效能與開發者體驗而生,同時享有開源生態系的成本優勢。我們為開源 LLM 提供生產級別的託管服務。

接下來就讓我們帶你一窺幕後,看看我們是如何實現這些目標的。

模型託管幕後揭秘

當你在 Novita AI 上託管自訂模型,或呼叫我們的開源 LLM API 時,背後有許多運作在支撐。大規模託管模型涉及複雜的編排、優化與持續監控流程,確保每個請求都能快速、可靠地完成。

模型儲存與硬體

我們維護了一個熱備的熱門開源模型庫(例如 Llama、Qwen、DeepSeek),儲存這些數十億參數的模型。由於運行這些 LLM 需要專用硬體,我們與全球各地的資料中心合作,確保各地使用者都能獲得快速、可靠的服務,負責管理:

  • 能勝任推論工作負載的高效能伺服器
  • 能快速傳輸請求與回應的網路架構
  • 讓所有設備 24 小時不間斷運行的電力供應

我們承擔硬體成本,並提供以下服務:

  • 熱備模型庫:我們維護數百個已熱啟動的模型,讓你可以立即測試、驗證最新 LLM 是否符合你的使用場景。
  • 隨用隨付無伺服器端點:你只需為使用的 token 付費。這種基於 token 的計費模式非常適合需求波動的應用場景,例如聊天機器人、文字生成,確保你永遠不會為閒置容量買單。
  • 隨選自訂部署:當你需要更多控制權時,可以租用 NVIDIA H100 這類高效能顯示卡,最低每小時只要 1.85 美元。你可以根據需求彈性調整資源,將沉重的前期資本支出轉為可預測的營運成本。
  • 開發者友善整合:我們準備了統一的 API,隱藏底層複雜度。這些 API 設計為與熱門框架相容,例如 OpenAI API,切換供應商非常簡單:只要修改 base URL 與金鑰,就能存取我們模型庫中的所有開源模型。我們也與 LangChain、LiteLLM、LlamaIndex 等框架無縫整合,切換或試驗新模型時不會影響你現有的工作流程。

推論優化

原始模型執行只是第一步。為了在最低成本下提供最佳效能,我們使用多種技術優化推論流程:

  1. 量化:降低模型權重的精度,讓模型更小、運行更快,同時維持效能表現。
  2. 批次處理:同時處理多個使用者請求,最大化顯示卡使用率。
  3. 负载平衡:將請求分散到多台伺服器,避免單一伺服器過載,維持低延遲。

我們處理所有底層複雜度,提供流暢、開發者友善的體驗,讓開源 AI 對所有人都觸手可及。

  • 我們內建支援函數呼叫(Function Calling)、結構化輸出(Structured Outputs)、批次推論等關鍵功能,你不需要自行搭建這些複雜系統,能大幅縮短產品上市時間。
  • 任意工作負載的彈性擴展:我們的基礎設施設計為完全彈性。無伺服器端點會自動擴展以應對高併發,首個 token 延遲(TTFT)低於 300 毫秒。自訂與企業級部署提供顯示卡自動擴展功能,能滿足任何需求,同時確保效能與資料隔離。

對於關鍵任務應用場景,我們提供「零運維(Zero-Ops)」解決方案。只要提交你的需求(模型名稱、輸入輸出長度、效能 SLA),我們的 LLM 優化引擎就會為你客製化設計最具成本效益的方案。我們的專家團隊也會為你部署、管理模型,並提供 99.5% 的 SLA 保障、效能保證與直接技術支援。

自行託管 vs 使用託管模型

部分開發者偏好自行託管模型以獲得最大控制權。如果你是這類開發者,我們也提供支援:可以透過 Novita AI 按小時租用顯示卡,隨意調整你的技術堆疊。

不過,自行託管也有顯然的取捨:搭建與維護需要時間與專業知識,擴展過程可能很棘手,平衡成本與效能的取捨更是長期挑戰。

使用像 Novita 這類託管開源 LLM API 能消除這些額外負擔,為你提供開箱即用的生產級解決方案,效能可預測且營運負擔極低。我們優化了 Novita AI 的基礎設施,以最低成本為你提供最佳體驗。由於我們大規模運行模型,因此能提供比個人或小型企業自行託管更低的價格。我們按處理的 token 數量計費,你只需為實際使用的資源付費。

我們設計了三種服務方案,完美契合你 AI 旅程的每個階段。

無伺服器端點 自訂部署 企業級部署
模型支援 Qwen3、DeepSeek、LLaMA3 等最新 LLM 數百個熱備模型 + 自訂模型上傳 數百個熱備模型 + 自訂模型上傳
計費方式 隨用隨付基於 token 計費 按需顯示卡/小時 基於效能的 token 計費
整合方式 自助服務、一行程式碼整合 自助服務顯示卡部署、一行程式碼整合 專家部署與企業級服務
彈性擴展 速率限制內的彈性擴展 專用端點:根據使用量自動擴展顯示卡 基於效能的彈性擴展
最佳適用場景 無需管理基礎設施即可快速存取新模型 需要更大的模型控制權與自訂架構 完全託管部署,效能有保障

註:專用端點的最大顯示卡數量為 8 張。如果需要更多顯示卡,請聯絡業務團隊取得企業級服務。

總結

無論你是要運行針對特定場景微調的模型,還是試驗最新的開源 LLM,Novita AI 都能讓你以開源價格享受閉源模型的便利。如果你對自訂解決方案有興趣,或是想討論你的部署架構,可以點此預約與我們的工程師對談。

致謝:特別感謝 Novita 的 LLM 專案經理 Charles 為本文提供的貢獻與見解。