2026年オープンソースLLMガイド：最適なモデル、APIアクセス、コーディングエージェント

オープンソースLLMとは何か？
2026年の最高のオープンソースLLM
セルフホスティング vs. ホスト型API推論
API経由でオープンソースLLMにアクセスする方法
コーディングエージェント向けオープンソースLLM
どのオープンソースLLMを使用すべきか？
結論
FAQ
おすすめ記事

2026年7月時点で、プロジェクトに最適なオープンソースLLMは、ベンチマークの見出しではなく、タスクに依存します。現在の選択肢には、DeepSeek V4 Pro、Qwen3.6、Kimi K2.6、GLM-5.1などがあり、それぞれ推論、コーディング、長文脈処理、ライセンスにおいて異なる強みを持っています。実用的な問題は、ダウンロード可能な重みが必要か、GPU運用チームなしで動作するホスト型APIが必要かです。このガイドでは、現在の分野を比較し、セルフホスティングとAPIアクセスの違いを説明し、Novita AIを使用してコーディングエージェントでオープンウェイトモデルを活用する方法を示します。

オープンソースLLMとは何か？

「オープンソース」は実際には幅広い範囲をカバーしています。運用上最も重要な区別は、トレーニングコードが公開されているかどうかではなく、モデルの重みを自分で実行できるかどうかです。一般的なケースは以下の通りです。

寛容なライセンス（Apache 2.0、MIT）で完全にオープンな重み：ライセンス条件に従って、モデルを商用利用、変更、提供できます。例：Qwen3.6（Apache 2.0）、DeepSeek R1（MIT）、GLM-5.1（MIT）。
カスタムライセンスのオープンウェイト：重みはダウンロード可能ですが、商用利用、再配布、ファインチューニングに制限がある場合があります。MetaのLlama 4は、月間アクティブユーザー数が7億人を超える場合の閾値を設けたカスタムライセンスを使用しています。
研究目的のみ、またはゲート付き重み：重みは利用可能ですが、非商用利用に制限されているか、承認が必要です。プロダクションチームにとっては関連性が低いです。

ほとんどのプロダクション決定において、実用的なフィルターは次のとおりです。このモデルをユーザーに法的に提供できるか、そしてライセンスがあなたが必要とする商用利用ケースを許可しているか。

2026年の最高のオープンソースLLM

オープンウェイト層は大幅に圧縮されました。このリストは2026年7月22日に更新され、新しいQwen、Kimi、GLMのリリースが含まれています。重要な境界：Moonshotは7月16日にKimi K3を発表しましたが、完全な重みは7月27日に公開予定です。これらの重みが実際に公開されるまで、Kimi K2.6がここでカバーされる最新のダウンロード可能なKimiモデルです。

汎用・推論

DeepSeek V4 Pro（685B、MIT準拠）は、エージェント型コーディングの現在のベンチマークリーダーです。SWE-Benchや関数呼び出しベンチマークでクローズドフロンティアモデルに匹敵するか、それを上回り、大規模なコードベースを読み取り、マルチステップのツール呼び出しを実行する必要があるコーディングエージェントにとって実用的な選択肢です。685Bモデルを自分で実行するインフラがない場合は、ホスト型APIとして利用できます。

Qwen3.6 は、オープンウェイトのQwenファミリーを拡張し、高密度およびスパースMoEバリアント、マルチモーダル入力、262Kのネイティブコンテキストウィンドウを備えています。Apache 2.0ライセンスにより商用展開が実用的であり、モデルサイズの範囲により、チームは品質とサービスコストのトレードオフをより柔軟に調整できます。

Kimi K2.6 は、Moonshot AIのオープンウェイト1TパラメータMoEモデルで、32Bのアクティブパラメータと256Kのコンテキストウィンドウを備えています。長期的なエージェント型コーディング、ツール使用、マルチエージェント連携向けに設計されており、フルモデルを自分で運用したくない場合は、ホスト型APIアクセスを通じて利用できます。

DeepSeek R1（685B、MIT）は、数学と形式的推論において依然として最強の選択肢です（AIME 79.8%）。アプリケーションがコード検証、形式的証明、構造化推論チェーンを伴う場合、R1がベンチマークの基準点となります。

GLM-5.1 は、Z.aiのMITライセンスによるGLM-5のアップデートで、40Bのアクティブパラメータと204.8Kのコンテキストウィンドウを備えています。主な用途は、モデルが反復を続け、結果を検査し、短いコーディングパスの後に停止するのではなく戦略を変更する必要がある、長期的なエージェント型作業です。

コーディング特化型

Qwen 2.5 Coder 32B（Apache 2.0）は、HumanEvalで92%を達成し、単一のRTX 4090で動作します。コンシューマー向けハードウェアでセルフホスティング可能なコーディングモデルが必要な場合、これが実用的な選択肢です。

Kimi K2.6 は、現在のコーディング特化型Kimiの選択肢でもあります。その長いコンテキストと長期的な設計により、持続的なリポジトリ作業、ツールを多用するワークフロー、自律的なデバッグにおいて、以前のKimi K2 Codeバリアントよりも関連性が高くなっています。

小型・効率的

Phi-4 14B（Microsoft）は8GBのVRAMで動作し、指示追従、コード、軽い推論を適切に処理します。レイテンシとハードウェアの制約がピーク品質よりも重要である場合に使用します。

Llama 4 Scout（Meta）は最大10Mトークンのコンテキストをサポートし、16GBのVRAMに収まります。ワークロードが長いドキュメント処理を伴う場合に適した選択肢です。

モデル比較一覧

モデル	サイズ	ライセンス	最適な用途	コンテキスト
DeepSeek V4 Pro	685B	MIT準拠	エージェント型コーディング、SWE-Bench	1M
Qwen3.6	高密度・MoEバリアント	Apache 2.0	マルチモーダル推論、商用利用	262K
Kimi K2.6	1T MoE、32Bアクティブ	修正MIT	エージェント型コーディング、ツール使用	256K
DeepSeek R1	685B	MIT	数学、形式的推論	163K
GLM-5.1	MoE、40Bアクティブ	MIT	長期的エージェント型作業	204.8K
Qwen 2.5 Coder 32B	32B	Apache 2.0	コード、セルフホスト	128K
Phi-4 14B	14B	MIT	低VRAM、開発用途	128K
Llama 4 Scout	~109B	カスタム	長文書処理	10M

セルフホスティング vs. ホスト型API推論

これは実際のコストと時間投資を決定する運用上の判断です。簡潔に言えば、ホスト型API推論は、1日あたりおよそ200万〜500万トークンを超え、12ヶ月間にわたって持続的なトラフィックがある場合を除き、運用コストが安く、迅速です。

ホスト型API推論が有効な場合

チームにGPU運用の経験がない
プロトタイピング中、またはモデル選定を繰り返している
トークン量がセルフホスティングの損益分岐点を下回っている
新しいリリースに応じてモデルを迅速に切り替える必要がある
信頼性と自動スケーリングがコスト最適化よりも重要である

OpenAI互換のホスト型LLM APIを使用すると、ベースURLとモデルIDを1行変更するだけで新しいモデルを追加できます。コールドスタート管理、量子化のトレードオフ、バッチ構成、サービングフレームワークのアップグレードを回避できます。

セルフホスティングが有効な場合

データをインフラストラクチャ外に持ち出せない（医療、金融、法務、規制産業）
1日あたり500万トークン以上を処理し、トラフィックが予測可能である
ホスト型プロバイダーが提供していないファインチューニング済みまたは適応済みチェックポイントを提供する必要がある
既存のGPUクラスターに利用可能な容量がある

H100でSGLangやvLLMを使用したセルフホスティングは、スケール時に真にコスト効率が高くなります。最近のベンチマークでは、標準ワークロードでSGLangがvLLMよりもスループットが29%高く、RadixAttentionを介したプレフィックスが多いRAGパイプラインでは最大6倍高速です。ただし、これらの利点は、モデル更新、ハードウェア障害、トラフィックの急増を通じてサービングスタックを維持する運用能力がある場合にのみ意味があります。

ハイブリッドパス

ほとんどのチームはハイブリッドで終わります。プロトタイピングと柔軟なモデルアクセスにはホスト型API、専用容量を正当化するワークロードにはGPUインスタンスです。単一のAIクラウドプラットフォームに留まる実用的な利点は、サーバーレスAPIから専用エンドポイント、カスタムGPUインスタンスに移行する際に、認証、課金、可観測性、デプロイパイプラインを再構築する必要がないことです。

API経由でオープンソースLLMにアクセスする方法

Novita AIは、DeepSeek V4 Pro、DeepSeek V4 Flash、Kimi K2.6、Qwen3.6、GLM-5.1、MiniMax M3などを含む、オープンソースモデルのカタログへのOpenAI互換APIアクセスを提供しています。エンドポイント構造はOpenAIと同じであるため、openai SDKを使用する既存のコードは、最小限の変更でNovitaモデルに接続できます。

基本的なAPI呼び出し

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain the difference between DeepSeek R1 and V4 Pro."},
    ],
)

print(response.choices[0].message.content)

モデルを切り替えるには、modelパラメータを変更します。その他の変更は必要ありません。サポートされているモデルIDの完全なリストは、novita.ai/docs/model-api/reference/llm/models.html で入手できます。

TypeScript

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.novita.ai/v3/openai",
  apiKey: process.env.NOVITA_API_KEY,
});

const response = await client.chat.completions.create({
  model: "qwen/qwen3.5-397b-a17b",
  messages: [{ role: "user", content: "Write a Python function to parse JSON." }],
});

console.log(response.choices[0].message.content);

料金の参考

価格はモデルによって異なり、百万トークンあたりで課金されます。DeepSeek V4 Flashは入力$0.14/Mt、出力$0.28/Mtで、最もコスト効率の高い汎用オプションです。DeepSeek V4 Proは入力$1.60/Mt、出力$3.20/Mtで、モデルの品質がタスク完了率に直接影響するエージェント型およびコーディングワークフロー向けのプレミアム選択肢です。最新の価格は novita.ai/models/llm で確認してください。新しいモデルの追加に伴い変更される可能性があります。

コーディングエージェント向けオープンソースLLM

2026年の最も効果的なコーディングエージェント設定は、推論とコード生成用のオープンソースLLMと、コードを実行するためのサンドボックス化された実行環境を組み合わせたものです。これは単純なAPI呼び出しとは異なるアーキテクチャです。エージェントはファイルを読み取り、コードを書き、コマンドを実行し、出力を検査し、反復する必要があります。

回避すべき2つの障害モード：

エージェントが生成したコードを開発マシンやプロダクションサーバーで実行する — モデルが破壊的または予期しないものを生成した場合の誤り
エージェントセッションごとにフルVMを自分でセットアップする — すぐに拡張性に限界が来て、スケールが遅い

Novita Agent Sandbox

NovitaのAgent Sandboxは、200ms未満で起動する分離されたLinux環境を提供します。各サンドボックスには、エージェントが読み書きできるファイルシステム、エージェントがコマンドを実行できるシェル、およびモデルが生成したものが他のサンドボックスやインフラストラクチャに影響を与えないようにするための分離があります。セッションはリクエスト間で持続するため、エージェントはマルチステップタスク全体で状態を維持できます。

Python SDKは簡単です：

from novita_sandbox.code_interpreter import Sandbox

sandbox = Sandbox.create()

# Agent writes a file
sandbox.files.write("/workspace/app.py", code_content)

# Agent runs it
result = sandbox.commands.run("python /workspace/app.py")
print(result.stdout)

# Clean up
sandbox.kill()

これをNovitaのLLM API上の任意のOpenAI互換モデルと組み合わせると、APIキー以外のインフラストラクチャなしでコードを生成、実行、検査、修正できるコーディングエージェントが完成します。

オープンソースエージェントフレームワーク

NovitaのAgent Sandboxでは、いくつかのオープンソースコーディングエージェントをドロップインランタイムとして利用できます。

OpenClaw on Novita — Novitaサンドボックスを介して永続的なOpenClawエージェントをセッション上限なしでデプロイします。自動的にNovitaのLLM APIとサンドボックスに接続するため、長期実行の自動化タスクに実用的です。
Hermes Agent — Nous Researchによる永続メモリを持つ自律エージェント。単一セッションではなく、長期実行プロセスとして動作します。
Goose — オープンソースのコーディングエージェント（GitHubスター45,000以上）で、Novitaをネイティブプロバイダーとしており、単一の認証情報で200以上のモデルにアクセスできます。

既存のフレームワークをデプロイするのではなく、カスタムコーディングエージェントを構築しているチーム向けに、Novita Agent Runtimeは、サンドボックスのライフサイクル、ツール呼び出しルーティング、セッション永続性を処理する軽量なスキャフォールディング層を提供します。

どのオープンソースLLMを使用すべきか？

決定木は短いです：

コーディングおよびエージェント型タスクの場合： まずはAPI経由でDeepSeek V4 Proから始めてください。SWE-Benchおよびマルチステップのツール使用において現在のパフォーマンスリーダーです。コストが制約である場合、DeepSeek V4 Flashはよりシンプルなコードタスクをはるかに低価格で処理します。

推論と数学の場合： DeepSeek R1は、AIMEおよび形式的推論において依然としてベンチマークの基準です。コード実行ではなく構造化された問題解決を伴うタスクに使用します。

オープンライセンスでの商用利用の場合： Apache 2.0のQwen3.6は、法務チームがなじみのある寛容なライセンスを必要とする場合の実用的な出発点です。サービング予算とタスク品質テストに基づいて、高密度およびMoEバリアントから選択します。

コンシューマーGPUでのセルフホスト型コーディングの場合： Qwen 2.5 Coder 32Bは単一のRTX 4090で動作し、HumanEvalで92%を達成します。高性能なGPUインフラなしでコーディングモデルをセルフホストする必要がある場合、これが実用的な選択肢です。

長いドキュメントの場合： Llama 4 Scoutは10Mトークンのコンテキストウィンドウを備えており、他のモデルではチャンク化が必要なワークロードを処理します。

小規模環境の場合： Phi-4 14Bは8GBのVRAMに収まり、指示追従、コード生成、軽い推論を適切に処理します。

これらすべての選択肢に共通するパターン：ホスト型APIアクセスは運用上のオーバーヘッドを取り除き、状況の変化に応じてモデルを切り替えることを可能にします。セルフホスティングは、データ主権またはスケール時のトークン経済がGPU運用への投資を正当化する場合に意味を持ちます。ほとんどのプロダクションチームは両方を行うことになります。

結論

2026年のオープンソースLLMの状況は、2年前とは根本的に異なります。DeepSeek V4 Pro、Qwen3.6、Kimi K2.6、GLM-5.1などのモデルは、エージェント型コーディング、形式的推論、マルチモーダル分析、長文脈処理などの特定のワークロードにおいて第一候補です。

実用的な決定は、リーダーボード上でどのモデルが最適かではありません。それは、あなたの運用モデルにどのモデルが適合するかです。迅速に動き、GPU運用を避けたい場合はホスト型API、データをインフラ外に出せない場合やトークン経済が投資を正当化する場合はセルフホスティング、モデルがコードを生成するだけでなく実行する必要がある場合はサンドボックス実行層です。

Novita AIのLLM APIは、OpenAI互換エンドポイントの背後にある主要なオープンソースモデルをカバーしているため、DeepSeek、Qwen、Kimi、GLMに対して同じ統合コードを実行でき、モデルリリースごとにスタックを再構築する必要はありません。タスクにコード実行が必要な場合はAgent Sandboxと組み合わせることで、基盤となるインフラストラクチャを管理することなく、プロダクション対応のコーディングエージェントの中核を手に入れることができます。

FAQ

2026年の最高のオープンソースLLMは何ですか？

DeepSeek V4 Proはエージェント型コーディングの有力候補、Kimi K2.6は長期的なツール使用を対象とし、Qwen3.6は複数のサイズでApache 2.0オプションを提供し、GLM-5.1は持続的なエージェント実行を対象としています。最適な答えは、タスク、ライセンス要件、ハードウェア、およびセルフホストするかどうかによって異なります。

ローカル使用に最適なオープンソースLLMは何ですか？

Qwen 2.5 Coder 32B（単一RTX 4090）、Phi-4 14B（8GB VRAM）、Llama 4 Scout（16GB VRAM、10Mコンテキスト）が、ローカル推論の実用的な選択肢です。70Bを超えるモデルは通常、マルチGPUセットアップが必要です。

オープンソース大規模言語モデルはクローズドモデルと同じくらい優れていますか？

特定のタスクでは、その通りです。DeepSeek V4 Proは、SWE-BenchおよびコーディングベンチマークでGPT-4.1に匹敵するか、それを上回ります。一般的なオープンエンドタスクでは、トップのクローズドモデルが依然として優位性を持っています。その差は特定のタスクとベンチマークに大きく依存します。

今日のオープンソースLLMニュースは何ですか？

2026年7月22日現在、最近のオープンウェイトリリースには、Qwen3.6、Kimi K2.6、GLM-5.1、DeepSeek V4 Proが含まれます。Kimi K3は発表されましたが、完全な重みは7月27日に公開予定であるため、まだダウンロード可能なオープンウェイトオプションとして扱うべきではありません。

セルフホスティングなしでオープンソースLLMモデルにアクセスするにはどうすればよいですか？

ホスト型推論APIを使用します。Novita AIは、DeepSeek、Qwen、Kimi、GLM、MiniMax、およびその他のオープンソースモデルへのOpenAI互換アクセスを提供しています。ベースURLを https://api.novita.ai/v3/openai に変更し、モデルIDを希望のものに変更するだけです。既存のコードにその他の変更は必要ありません。

オープンソースLLMとオープンソース言語モデルの違いは何ですか？

これらの用語はほとんどの文脈で同じ意味で使用されます。技術的には、「大規模言語モデル」は特に大規模にトレーニングされたトランスフォーマーベースの言語モデルを指します。「オープンソース言語モデル」は、より小さなモデルやトランスフォーマーアーキテクチャ以外のモデルを指すこともありますが、現在の用法ではどちらの用語も同じカテゴリのモデルを表します。

2026年オープンソースLLMガイド：最適なモデル、APIアクセス、コーディングエージェント

オープンソースLLMとは何か？

2026年の最高のオープンソースLLM

汎用・推論

コーディング特化型

小型・効率的

モデル比較一覧

セルフホスティング vs. ホスト型API推論

ホスト型API推論が有効な場合

セルフホスティングが有効な場合

ハイブリッドパス

API経由でオープンソースLLMにアクセスする方法

基本的なAPI呼び出し

TypeScript

料金の参考

コーディングエージェント向けオープンソースLLM

Novita Agent Sandbox

オープンソースエージェントフレームワーク

どのオープンソースLLMを使用すべきか？

結論

FAQ

2026年の最高のオープンソースLLMは何ですか？

ローカル使用に最適なオープンソースLLMは何ですか？

オープンソース大規模言語モデルはクローズドモデルと同じくらい優れていますか？

今日のオープンソースLLMニュースは何ですか？

セルフホスティングなしでオープンソースLLMモデルにアクセスするにはどうすればよいですか？

オープンソースLLMとオープンソース言語モデルの違いは何ですか？

おすすめ記事

Product

RESOURCES

Partners

Company

オープンソースLLMとは何か？

2026年の最高のオープンソースLLM

汎用・推論

コーディング特化型

小型・効率的

モデル比較一覧

セルフホスティング vs. ホスト型API推論

ホスト型API推論が有効な場合

セルフホスティングが有効な場合

ハイブリッドパス

API経由でオープンソースLLMにアクセスする方法

基本的なAPI呼び出し

TypeScript

料金の参考

コーディングエージェント向けオープンソースLLM

Novita Agent Sandbox

オープンソースエージェントフレームワーク

どのオープンソースLLMを使用すべきか？

結論

FAQ

2026年の最高のオープンソースLLMは何ですか？

ローカル使用に最適なオープンソースLLMは何ですか？

オープンソース大規模言語モデルはクローズドモデルと同じくらい優れていますか？

今日のオープンソースLLMニュースは何ですか？

セルフホスティングなしでオープンソースLLMモデルにアクセスするにはどうすればよいですか？

オープンソースLLMとオープンソース言語モデルの違いは何ですか？

おすすめ記事

関連記事

Product

RESOURCES

Partners

Company