2026年にあなたのプロジェクトに最適なオープンソースLLMは、ベンチマークの見出しではなく、タスクによって決まります。DeepSeek V4 Pro、Qwen 3.5、Kimi K2、GLM-5といったモデルは、特定のベンチマークにおいてクローズドAPIに匹敵するか、それを上回る性能を示しています。しかし、実際的な問題はよりシンプルです。モデルを自分で実行する必要があるのか、それともGPU運用チームなしで本番環境で確実に動作させる必要があるのか、ということです。このガイドでは、主要なオープンソースLLM、セルフホスティングとホステッドAPIアクセスの選択方法、そしてNovita AIを使用してオープンソースモデルをコーディングエージェントに組み込む方法について説明します。
オープンソースLLMとは何か?
「オープンソース」は実際には幅広い範囲をカバーしています。運用上最も重要な区別は、トレーニングコードが公開されているかどうかではなく、モデルの重みを自分で実行できるかどうかです。一般的なケースは以下の通りです。
- 寛容なライセンス(Apache 2.0、MIT)の完全オープンウェイト: 制限なくモデルを商用利用、改変、提供できます。例:Qwen 3.5(Apache 2.0)、DeepSeek R1(MIT)、GLM-5(MIT)。
- カスタムライセンスのオープンウェイト: ウェイトはダウンロード可能ですが、商用利用、再配布、ファインチューニングに制限がある場合があります。MetaのLlama 4は、月間ユーザー数が7億人を超える場合にしきい値を設けたカスタムライセンスを使用しています。
- 研究目的のみ、またはゲート付きウェイト: ウェイトは利用可能ですが、非商用利用に制限されているか、承認が必要です。本番環境のチームにはあまり関係ありません。
ほとんどのプロダクションの意思決定において、実際的なフィルターは次のとおりです。このモデルをユーザーに合法的に提供できるか、そしてライセンスが必要な商用ユースケースを許可しているかどうか。
2026年の最高のオープンソースLLM
オープンウェイトの層は大幅に圧縮されました。2026年4月だけで7つの主要なオープンソースモデルがリリースされました。以下が評価に値するモデルです。
汎用・推論
DeepSeek V4 Pro(685B、MITに準拠)は、エージェント型コーディングにおける現在のベンチマークリーダーです。SWE-Benchや関数呼び出しのベンチマークでクローズドなフロンティアモデルに匹敵するか、それを上回り、大規模なコードベースを読み取り、マルチステップのツール呼び出しを実行する必要があるコーディングエージェントにとって実用的な選択肢となっています。685Bモデルを実行するインフラがない場合は、ホステッドAPIとして利用できます。
Qwen 3.5(397B MoE、Apache 2.0)は、最も強力な完全寛容ライセンスモデルです。合計397B、アクティブパラメータ17Bで、競争力のある推論とコーディングスコアを達成しながら、トークンあたりのコスト効率を維持しています。Apache 2.0ライセンスは、ライセンスの互換性が重要な場合のデフォルトの選択肢となります。
Kimi K2(約1T MoE、Moonshot AI)は、Artificial Analysis Indexのオープンモデルの中でトップに位置し、特にツール使用と長いコンテキストタスクに優れています。1兆パラメータのMoEをセルフホスティングしたくない場合は、ホステッドAPI経由で利用できます。
DeepSeek R1(685B、MIT)は、数学と形式的推論において最も強力な選択肢であり続けています(AIMEスコア79.8%)。アプリケーションがコード検証、形式的証明、または構造化された推論チェーンを含む場合、R1がベンチマークの基準点となります。
GLM-5(744B、MIT、Zhipu AI)は、AI Intelligence Indexで50に到達した最初のオープンウェイトモデルであり、BenchLMのオープンウェイトリーダーボードで85をスコアリングしています。自律的なバグ修正ワークフローに強みがあります。
コーディング特化型
Qwen 2.5 Coder 32B(Apache 2.0)は、HumanEvalで92%を達成し、単一のRTX 4090で動作します。コンシューマーハードウェアでセルフホスティングできるコーディングモデルが必要な場合、これが実用的な選択肢です。
Kimi K2 Code は、Kimi K2のAPIアクセス可能なコーディングバリアントで、コード生成とエージェント型コーディングタスクに最適化されています。Novita AIで262Kコンテキストで利用可能です。
小型・効率的
Phi-4 14B(Microsoft)は、8GBのVRAMで動作し、指示追従、コーディング、軽い推論を適切に処理します。ピーク品質よりもレイテンシとハードウェア制約が重要な場合に使用します。
Llama 4 Scout(Meta)は、最大1000万トークンのコンテキストをサポートし、16GBのVRAMに収まります。ワークロードが長文書処理を含む場合に適切な選択肢です。
モデル比較一覧
| モデル | サイズ | ライセンス | 最適な用途 | コンテキスト |
|---|---|---|---|---|
| DeepSeek V4 Pro | 685B | MIT準拠 | エージェント型コーディング、SWE-Bench | 1M |
| Qwen 3.5 | 397B MoE | Apache 2.0 | 推論、商用利用 | 128K |
| Kimi K2 | ~1T MoE | カスタム | ツール使用、長いコンテキスト | 128K |
| DeepSeek R1 | 685B | MIT | 数学、形式的推論 | 163K |
| GLM-5 | 744B | MIT | バグ修正、汎用 | 128K |
| Qwen 2.5 Coder 32B | 32B | Apache 2.0 | コード、セルフホスト | 128K |
| Phi-4 14B | 14B | MIT | 低VRAM、開発用 | 128K |
| Llama 4 Scout | ~109B | カスタム | 長文書コンテキスト | 10M |
セルフホスティング vs. ホステッドAPI推論
これは、実際のコストと時間投資を決定する運用上の判断です。簡潔に言うと、ホステッドAPI推論は、1日あたり約200万〜500万トークンを超え、12ヶ月間にわたって持続的なトラフィックがある場合を除き、運用コストが安く、迅速です。
ホステッドAPI推論が有利なケース
- チームにGPU運用の経験がない
- まだプロトタイピング中、またはモデル選定を繰り返している
- トークン量がセルフホスティングの損益分岐点を下回っている
- 新しいリリースが登場するたびにモデルを迅速に切り替える必要がある
- コスト最適化よりも信頼性と自動スケーリングが重要
OpenAI互換のホステッドLLM APIを使用すると、ベースURLとモデルIDを一行変更するだけで新しいモデルを追加できます。コールドスタート管理、量子化のトレードオフ、バッチ設定、サービングフレームワークのアップグレードを回避できます。
セルフホスティングが有利なケース
- データをインフラから出せない(医療、金融、法務、規制産業)
- 予測可能なトラフィックで1日あたり500万トークン以上を処理している
- ホステッドプロバイダーが提供していないファインチューニング済みまたは適応済みチェックポイントを提供する必要がある
- 利用可能な容量を持つ既存のGPUクラスターがある
H100上でSGLangやvLLMを使用したセルフホスティングは、大規模になると真にコスト効率が良くなります。最近のベンチマークでは、標準的なワークロードでSGLangがvLLMより29%高いスループットを示し、RadixAttentionによるプレフィックスが多いRAGパイプラインでは最大6倍高速です。しかし、これらの利点は、モデルアップデート、ハードウェア障害、トラフィックスパイクを通じてサービングスタックを維持する運用能力がある場合にのみ意味があります。
ハイブリッドパス
ほとんどのチームはハイブリッドに行き着きます。プロトタイピングと柔軟なモデルアクセスにはホステッドAPI、専用容量を正当化するワークロードにはGPUインスタンスです。単一のAIクラウドプラットフォームに留まることの実用的な利点は、サーバーレスAPIから専用エンドポイント、カスタムGPUインスタンスに移行する際に、認証、課金、可観測性、デプロイメントパイプラインを再構築する必要がないことです。
APIを介したオープンソースLLMへのアクセス方法
Novita AIは、DeepSeek V4 Pro、DeepSeek V4 Flash、Kimi K2、Qwen 3.5、GLM-5、MiniMax M3などを含むオープンソースモデルのカタログへのOpenAI互換APIアクセスを提供しています。エンドポイント構造はOpenAIと同じなので、openai SDKを使用する既存のコードは、最小限の変更でNovitaモデルに接続できます。
基本的なAPI呼び出し
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="YOUR_NOVITA_API_KEY",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{"role": "system", "content": "あなたは役立つアシスタントです。"},
{"role": "user", "content": "DeepSeek R1とV4 Proの違いを説明してください。"},
],
)
print(response.choices[0].message.content)
モデルを切り替えるには、modelパラメータを変更します。他の変更は必要ありません。サポートされているモデルIDの完全なリストは、novita.ai/docs/model-api/reference/llm/models.html で入手できます。
TypeScript
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.novita.ai/v3/openai",
apiKey: process.env.NOVITA_API_KEY,
});
const response = await client.chat.completions.create({
model: "qwen/qwen3.5-397b-a17b",
messages: [{ role: "user", content: "JSONを解析するPython関数を書いてください。" }],
});
console.log(response.choices[0].message.content);
料金参考
料金はモデルによって異なり、100万トークンあたりで請求されます。DeepSeek V4 Flashは入力$0.14/Mt、出力$0.28/Mtで、最もコスト効率の高い汎用オプションです。DeepSeek V4 Proは入力$1.60/Mt、出力$3.20/Mtで、モデルの品質がタスク完了率に直接影響するエージェント型およびコーディングワークフロー向けのプレミアムな選択肢です。最新の料金は novita.ai/models/llm で確認してください。新しいモデルの追加に伴い変更される可能性があります。
コーディングエージェントのためのオープンソースLLM
2026年における最も効果的なコーディングエージェントのセットアップは、推論とコード生成のためのオープンソースLLMと、コードを実行するためのサンドボックス化された実行環境を組み合わせたものです。これは単純なAPI呼び出しとは異なるアーキテクチャです。エージェントはファイルを読み取り、コードを書き、コマンドを実行し、出力を検査し、反復する必要があります。
回避すべき2つの障害モードは次のとおりです。
- エージェントが生成したコードを開発マシンや本番サーバーで実行する — モデルが破壊的または予期しないものを生成した場合に問題となる
- エージェントセッションごとに自分で完全なVMをセットアップする — すぐに成長しきれなくなり、スケールが遅くなる
Novita Agent Sandbox
Novitaの Agent Sandbox は、200ms未満で起動する分離されたLinux環境を提供します。各サンドボックスには、エージェントが読み書きできるファイルシステム、エージェントがコマンドを実行できるシェル、そしてモデルが生成したものが他のサンドボックスやインフラに影響を与えないようにするための分離機構があります。セッションはリクエスト間で永続化されるため、エージェントはマルチステップのタスク全体で状態を維持できます。
Python SDKは簡単です。
from novita_sandbox.code_interpreter import Sandbox
sandbox = Sandbox.create()
# エージェントがファイルを書き込む
sandbox.files.write("/workspace/app.py", code_content)
# エージェントが実行する
result = sandbox.commands.run("python /workspace/app.py")
print(result.stdout)
# クリーンアップ
sandbox.kill()
これをNovitaのLLM API上の任意のOpenAI互換モデルと組み合わせると、APIキー以外のインフラを必要とせずに、コードを生成、実行、検査、修正できるコーディングエージェントが完成します。
オープンソースエージェントフレームワーク
いくつかのオープンソースコーディングエージェントが、NovitaのAgent Sandbox上でドロップインランタイムとして利用可能です。
- OpenClaw on Novita — Novitaサンドボックスを介して永続的なOpenClawエージェントをセッション上限なしでデプロイします。NovitaのLLM APIとサンドボックスに自動的に接続するため、長時間実行される自動化タスクに実用的です。
- Hermes Agent — Nous Researchによる永続メモリを持つ自律エージェント。単一セッションではなく、長期間稼働するプロセスとして実行されます。
- Goose — オープンソースのコーディングエージェント(GitHubスター45K以上)で、Novitaをネイティブプロバイダーとしており、単一の認証情報で200以上のモデルにアクセスできます。
既存のフレームワークをデプロイするのではなく、カスタムコーディングエージェントを構築しているチーム向けに、Novita Agent Runtimeは、サンドボックスのライフサイクル、ツール呼び出しルーティング、セッション永続化を処理する軽量なスキャフォールディングレイヤーを提供します。
どのオープンソースLLMを使用すべきか?
決定木は短いです。
コーディングおよびエージェント型タスクの場合: API経由でDeepSeek V4 Proから始めてください。SWE-Benchとマルチステップツール使用において現在のパフォーマンスリーダーです。コストが制約の場合は、DeepSeek V4 Flashがよりシンプルなコードタスクを数分の一の価格で処理します。
推論および数学の場合: DeepSeek R1は、AIMEおよび形式的推論のベンチマークリファレンスとして依然として基準です。コード実行よりも構造化された問題解決が伴うタスクに使用します。
オープンライセンスでの商用利用の場合: Apache 2.0のQwen 3.5は、法務チームがクリーンなライセンスを必要とする場合に最も安全な選択肢です。397B MoEアーキテクチャは、パラメータ数が多いにもかかわらず、トークンあたりのコストを低く抑えます。
コンシューマーGPUでのセルフホストコーディングの場合: Qwen 2.5 Coder 32Bは単一のRTX 4090で動作し、HumanEvalで92%をスコアリングします。ハイエンドGPUインフラなしでコーディングモデルをセルフホストする必要がある場合、これが実用的な選択肢です。
長文書の場合: Llama 4 Scoutは1000万トークンのコンテキストウィンドウを持ち、他のモデルではチャンク化が必要なワークロードを処理します。
小規模環境の場合: Phi-4 14Bは8GBのVRAMに収まり、指示追従、コード生成、軽い推論を適切に処理します。
これらすべての選択肢に共通するパターンは、ホステッドAPIアクセスが運用上のオーバーヘッドを排除し、状況の変化に応じてモデルを切り替えられるようにすることです。セルフホスティングは、データ主権または大規模なトークン経済がGPU運用への投資を正当化する場合に意味を持ちます。ほとんどのプロダクションチームは、結局両方を行うことになります。
結論
2026年のオープンソースLLMの状況は、2年前とは根本的に異なります。DeepSeek V4 Pro、Qwen 3.5、Kimi K2などのモデルは、もはや「ほとんどのタスクに十分良い」ものではなく、エージェント型コーディング、形式的推論、長文書処理といった特定のワークロードにとって第一の選択肢です。
実際的な決定は、リーダーボード上でどのモデルが最適かということではありません。それは、どのモデルが自身の運用モデルに適合するかです。迅速に動き、GPU運用を避けたい場合はホステッドAPI、データをインフラから出せない場合やトークン経済が投資を正当化する場合はセルフホスティング、モデルがコードを生成するだけでなくコードに対してアクションを起こす必要がある場合はサンドボックス実行レイヤーです。
Novita AIのLLM APIは、OpenAI互換エンドポイントの背後にある主要なオープンソースモデルをカバーしているため、モデルリリースごとにスタックを再構築することなく、DeepSeek、Qwen、Kimi、GLMに対して同じ統合コードを実行できます。タスクにコード実行が必要な場合はAgent Sandboxと組み合わせることで、基盤となるインフラを自分で管理することなく、プロダクション対応のコーディングエージェントの中核を手に入れることができます。
FAQ
2026年で最高のオープンソースLLMは何ですか?
DeepSeek V4 ProとKimi K2が一般的なベンチマークをリードしており、特にDeepSeek V4 Proはエージェント型コーディングとSWE-Benchで優れています。Qwen 3.5は最も強力な寛容ライセンス(Apache 2.0)のオプションです。正しい答えは、コーディング、推論、長いコンテキスト、低VRAMなど、タスクによって異なります。
ローカル使用に最適なオープンソースLLMは何ですか?
Qwen 2.5 Coder 32B(単一RTX 4090)、Phi-4 14B(8GB VRAM)、Llama 4 Scout(16GB VRAM、10Mコンテキスト)が、ローカル推論の実用的な選択肢です。70Bを超えるモデルは通常、マルチGPUセットアップが必要です。
オープンソースの大規模言語モデルはクローズドモデルと同じくらい優れていますか?
特定のタスクにおいては、はい。DeepSeek V4 ProはSWE-BenchおよびコーディングベンチマークにおいてGPT-4.1に匹敵するか、それを上回ります。一般的なオープンエンドタスクについては、トップのクローズドモデルが依然としてアドバンテージを持っています。その差は特定のタスクとベンチマークに大きく依存します。
今日のオープンソースLLMニュースは何ですか?
2026年のオープンソースLLMのリリース頻度はおおよそ毎月です。最近の主要なリリースには、GLM-5、Kimi K2、DeepSeek V4 Pro、Qwen 3.5が含まれます。最新ニュースについては、Novita AIブログをフォローし、Artificial Analysisリーダーボードで更新されたランキングを確認してください。
セルフホスティングせずにオープンソースLLMモデルにアクセスするにはどうすればよいですか?
ホステッド推論APIを使用します。Novita AIは、DeepSeek、Qwen、Kimi、GLM、MiniMax、その他のオープンソースモデルへのOpenAI互換アクセスを提供しています。ベースURLを https://api.novita.ai/v3/openai に変更し、モデルIDを希望のものに変更するだけで、既存のコードに他の変更は必要ありません。
オープンソースLLMとオープンソース言語モデルの違いは何ですか?
これらの用語は、ほとんどの文脈で互換的に使用されます。技術的には、「大規模言語モデル」は特に大規模にトレーニングされたトランスフォーマーベースの言語モデルを指します。「オープンソース言語モデル」は、より小さなモデルやトランスフォーマーアーキテクチャ以外のモデルを指すこともありますが、現在の使用法では、両方の用語は同じカテゴリのモデルを説明しています。
