如何為你的應用程式選擇合適的模型

為你的特定應用程式找到最佳模型並將其投入生產是困難的。與 OpenAI 或 Claude 的閉源選項不同，開源模型很少直接託管。你往往需要自行配置運算、延遲和吞吐量需求。這種複雜性導致許多開發者和公司預設使用熟悉的通用模型（如 GPT-4 或 Claude），即使開源替代方案（包括輕量級專家和強大的通用模型）能提供更好的性能、更快的回應和更低的成本。這就是 Novita 登場的地方。Novita 託管開源模型，並在必要時根據你的特定需求進行配置，讓你無需麻煩即可使用這些模型。

為什麼每個人都用 GPT-4？

AI 模型領域正在快速成長，包含數百個模型，每個都有其獨特的優勢和劣勢。然而，儘管開源模型的性能持續提升，GPT-4x 系列、Claude 3x 系列和其他閉源模型仍然是許多團隊的預設選擇。在這篇文章中，我們將分析何時該使用閉源模型、何時不該使用，以及 Novita 如何讓部署開源 LLM 變得與使用閉源模型一樣簡單。

這些流行的閉源模型是託管式的且易於使用，因此無需擔心基礎設施、設定或部署。你只需呼叫 API 即可獲得推理結果。這些模型也具有廣泛的能力，在寫作、推理和編碼等各種通用任務上表現良好。而且由於它們被廣泛採用，因此被認為是低風險的選擇。

…但代價是什麼？

預設使用封閉的通用模型可能感覺是最安全的選擇，但這往往會帶來隱藏成本。僅依賴閉源模型可能會讓你無法使用強大的開源替代方案（如 Qwen 和 DeepSeek），這些方案能提供相當或更好的結果，同時具有更高的控制性、透明度和長期成本效益。事實上，許多團隊最終為他們實際上不需要的規模和功能支付了過高的費用，在不需要龐大 100B+ 參數模型的任務上浪費了運算資源和能源，並帶來相應的環境影響。此外，在較小和/或更專業的模型表現出色的利基任務上，通用性能可能會受到影響。

許多開源模型現在在關鍵任務上能與頂級閉源模型匹敵或超越：

Kimi K2、DeepSeek R1 和 Qwen 3 235B A22B 在編碼和數學推理任務上以更低的成本超越 GPT-4x 系列 （來源：Huggingface、GeeksforGeeks、Artificial Analysis）
Qwen 2.5 7B Instruct 在 GPQA、HumanEval 和 MATH 基準測試上超越 GPT-4，同時僅使用極少的資源 （來源：LLM Stats）
Qwen3-Coder-480B-A35B-Instruct 與 Claude 4 Sonnet 相當 （來源：Huggingface、Venture Beat）
DeepSeek V3 支援比 GPT-4o 更多代表性不足的語言 （來源：Machine Translation）
Llama 3.1 在數學和長上下文方面優於 GPT-4 和 Claude 3.5 Sonnet （來源：OpenAI Developer Community）

這些結果突顯了一個日益明顯的現實：如果你了解自己的任務和限制條件，通常可以用更低的成本透過開源模型獲得更好的結果。

預設使用 GPT-4 而非根據你的需求來選擇，會有以下後果：

依賴專業推理的產品，只能從通用模型中獲得勉強可接受的輸出，而更專業（且通常更小）的模型能提供更好的性能
當較小模型就能勝任時使用大型模型，會增加能源使用並對環境造成顯著的負面影響
新創公司和小型團隊常常將預算燒在昂貴的 API 上，而開源模型可以輕鬆達到相同（或更好）的結果
大規模企業在高吞吐量推理上累積巨額成本，卻不知開源替代方案可以將費用削減一半或更多

使用開源模型的理由

像 GPT-4x 和 Claude 3 系列這樣的模型是強大的通才，在從編碼到創意寫作的廣泛任務中具有廣泛能力。但它們的水平能力往往意味著它們並非針對特定工作負載或受限環境的最有效或最具成本效益的選擇。許多開源模型，包括緊湊型專家和大型通用替代方案，都能夠匹敵或超越它們，提供更好的速度、控制性和成本效益。

但為你的特定應用程式找到最佳模型並將其投入生產是困難的。與 OpenAI 或 Claude 的閉源選項不同，開源模型很少直接託管。你往往需要自行配置運算、延遲和吞吐量需求。這種複雜性導致許多開發者和公司預設使用熟悉的通用模型（如 GPT-4 或 Claude），即使開源替代方案（包括輕量級專家和強大的通用模型）能提供更好的性能、更快的回應和更低的成本。這就是 Novita 登場的地方。Novita 託管開源模型，並在必要時根據你的特定需求進行配置，讓你無需麻煩即可使用這些模型。

Moonshot AI 的 Kimi K2 是一個出色的開源 LLM 範例，其性能超越 GPT-4.1。在編碼和數學推理方面，Kimi-K2 達到了 53.7% 的準確率，而 GPT-4.1 為 44.7%（來源：Huggingface）。

標題：Kimi K2 與 GPT-4.1 及其他業界領導者的性能比較
來源：Huggingface

何時該使用通用模型

像 GPT-4、Claude 和 Gemini 這樣的閉源模型仍有其用武之地，尤其是在快速原型設計且需要強通用性能基準的情況下。當你的工作負載涵蓋廣泛任務且沒有明確專業化時，或者當你進行低流量推理且成本還不是主要考量時，它們也是不錯的選擇。在這些情況下，通用模型的便利性、廣泛能力和開箱即用的性能可以勝過其取捨。

隨著使用量的成長，為你的應用程式找到合適的模型是值得的。這個模型應根據你的特定任務、限制條件和規模進行最佳化，而不是根據流行或方便與否。這就引出了下一個問題：如何為你的應用程式選擇合適的模型？