予算を圧迫しない強力なLLMをお探しですか? 2026年にNovita AIで利用可能な最も安いLLM APIモデル10個をランキングしました。価格はわずか0.02ドル/100万トークンから。MetaのLlama 3.1 8BからAlibabaのQwen3 Coderまで、これらのモデルは汎用チャット、推論、コード生成、多言語サポート、長文コンテキストタスクをカバーしており、すべてプレミアムモデルの数分の一のコストです。トップ3は、Llama 3.1 8B Instruct(0.02ドル/100万トークン)、Qwen3 4B(0.03ドル/100万トークン)、Llama 3 8B Instruct(0.04ドル/100万トークン)です。
ランキング方法
以下の3つの基準でモデルを選定しました。
- 価格 — Novita AIでの入力100万トークンあたりのコスト。低い順にランク付け。
- 実用性 — 単に安いだけでなく、実際のタスク(汎用チャット、コード生成、推論、ツール使用)に役立つこと。
- 可用性 — すべてのモデルがNovita AIのServerlessエンドポイントで提供されており、OpenAI互換APIで今すぐ利用可能。
OCR専用モデル、専用エンドポイント、汎用LLMとして機能しない高度に特化したツールは除外しました。
Novita AIで最も安いLLM API 10選
1. Meta Llama 3.1 8B Instruct
| スペック | 詳細 |
| 開発元 | Meta |
| パラメータ数 | 80億 |
| コンテキスト長 | 16K |
| 価格(入力 / 出力) | 100万トークンあたり0.02ドル / 0.05ドル |
| 量子化 | FP8 |
| 最適な用途 | 汎用チャット、コンテンツ生成、軽量タスク |
MetaのLlama 3.1 8B Instructは、API経由でアクセスできる最も手頃な汎用LLMです。15兆以上のトークンでトレーニングされ、教師あり学習とRLHFでファインチューニングされたこの80億パラメータモデルは、コンパクトなサイズにもかかわらず、業界ベンチマークでいくつかのクローズドソースモデルを上回る性能を発揮します。
Novita AIでは入力100万トークンあたりわずか0.02ドル。チャットアプリケーション、コンテンツ生成、簡単な指示追従タスクのために、信頼性が高く高速なLLMを必要とし、かつほとんどコストをかけられない開発者にとって最適な選択肢です。
メリット
- このリストで最安値: Novita AIで入力トークン100万あたり0.02ドル。
- 80億パラメータモデルとしては強力な汎用性能。
- 数千の本番環境デプロイで実証済み。
デメリット
- 16Kのコンテキストウィンドウは新しいモデルと比べて限定的。
- テキストのみ — マルチモーダル機能なし。
最適な用途
予算重視で、高頻度・低複雑度のタスクに依存できる汎用LLMが必要な開発者。
2. Qwen3 4B
| スペック | 詳細 |
| 開発元 | Alibaba (Qwen Team) |
| パラメータ数 | 40億 |
| コンテキスト長 | 128K |
| 価格(入力 / 出力) | 100万トークンあたり0.03ドル / 0.03ドル |
| 量子化 | FP8 |
| 最適な用途 | 長文書処理、クリエイティブライティング、ロールプレイ |
Qwen3 4Bは、Novita AIで注目すべき組み合わせを提供します:128Kのコンテキスト長で、入力・出力ともに100万トークンあたりわずか0.03ドル。この価格帯では圧倒的に長いコンテキストウィンドウです。
わずか40億パラメータながら、推論モードと非推論モードの両方をサポートし、会話中にシームレスに切り替え可能。クリエイティブライティング、ロールプレイ、マルチターンダイアログ、指示追従で高い性能を示し、サイズ以上の汎用性を発揮します。
メリット
- Novita AIで128Kコンテキストを0.03ドル/100万トークン — 長文書タスクに比類のない価値。
- 入力と出力の価格が同一でコスト見積もりが容易。
- ツール呼び出しと推論モードをサポート。
デメリット
- 40億パラメータでは複雑な推論タスクの性能が限定的。
- 最大出力は20Kトークンに制限。
最適な用途
厳しい予算の中で長文書、会話履歴、大規模なコードファイルを処理する必要がある開発者。
3. Meta Llama 3 8B Instruct
| スペック | 詳細 |
| 開発元 | Meta |
| パラメータ数 | 80億 |
| コンテキスト長 | 8K |
| 価格(入力 / 出力) | 100万トークンあたり0.04ドル / 0.04ドル |
| 量子化 | BF16 |
| 最適な用途 | シンプルな対話、コンテンツ生成、バランスのとれた価格設定 |
Llama 3 8B Instructは3.1の前身ですが、Novita AIで入力・出力ともに100万トークンあたり0.04ドルというフラットで予測可能な価格設定により、今も人気の選択肢です。これにより、大量のワークロードでもコスト見積もりが非常に簡単です。
対話ユースケースに最適化されており、人間による評価で主要なクローズドソースモデルと比較して優れた性能を発揮します。8Kのコンテキストウィンドウは新しいモデルより短いですが、単純なチャット、Q&A、コンテンツ生成タスクには十分です。
メリット
- Novita AIで入力・出力ともに0.04ドル/100万トークンのフラット料金 — 最もシンプルなコストモデル。
- 人間評価で実証済みの強力な対話性能。
- 成熟した、十分に文書化されたモデルと巨大なエコシステム。
デメリット
- 8Kコンテキストウィンドウ — このリストで最短。
- 推論モードやツール呼び出しのサポートなし。
最適な用途
シンプルで高頻度のチャットや生成タスクに対して、入力・出力のフラット価格で予測可能なコストを求めるチーム。
4. OpenAI GPT-OSS 20B
| スペック | 詳細 |
| 開発元 | OpenAI |
| パラメータ数 | 210億(アクティブ36億、MoE) |
| コンテキスト長 | 131K |
| 価格(入力 / 出力) | 100万トークンあたり0.04ドル / 0.15ドル |
| 量子化 | FP4 |
| 最適な用途 | 推論、ツール使用、エージェントワークフロー |
GPT-OSS 20Bは、オープンウェイト領域へのOpenAIの参入作品 — Apache 2.0ライセンスで公開された210億パラメータのMixture-of-Expertsモデルです。フォワードパスあたりアクティブなパラメータはわずか36億で、低レイテンシ推論を実現しながら、はるかに大きなモデルに匹敵する推論能力を提供します。
構成可能な推論深度、関数呼び出し、ツール使用、構造化出力、JSONモードをサポートしており、このリストで最も機能豊富な安価なモデルの一つです。Novita AIで入力0.04ドル/100万トークンと、GPT-4oの数分の一のコストでOpenAI品質の推論を利用できます。
メリット
- Novita AIでオープンソース価格でOpenAI品質。
- MoEアーキテクチャ — アクティブパラメータは36億のみで高速推論。
- ツール使用、関数呼び出し、構造化出力を完全サポート。
デメリット
- 比較的新しい — Llamaに比べてコミュニティエコシステムが小さい。
- MoEモデルはニッチなタスクで出力品質に一貫性を欠く可能性がある。
最適な用途
Novita AIでOpenAIレベルの推論を低コストで利用し、エージェント型アプリケーションを構築する開発者。
5. Mistral Nemo
| スペック | 詳細 |
| 開発元 | Mistral AI × NVIDIA |
| パラメータ数 | 120億 |
| コンテキスト長 | 60K |
| 価格(入力 / 出力) | 100万トークンあたり0.04ドル / 0.17ドル |
| 量子化 | FP8 |
| 最適な用途 | 多言語アプリケーション、関数呼び出し |
Mistral Nemoは、Mistral AIとNVIDIAのコラボレーションによる120億パラメータモデルです。英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、中国語、日本語、韓国語、アラビア語、ヒンディー語の11言語をサポートし、Novita AIのこの価格帯で最も強力な多言語オプションです。
60Kのコンテキストウィンドウ、関数呼び出しサポート、構造化出力機能を備え、多言語チャット、翻訳、ドキュメント処理タスクを容易に処理するバランスの取れたモデルです。Novita AIで入力0.04ドル/100万トークンと、グローバルユーザーベースにサービスを提供する最も費用対効果の高い方法の一つです。
メリット
- 11言語サポート — Novita AIで0.05ドル/100万トークン未満の最良の多言語モデル。
- NVIDIAと共同開発 — 効率的な推論に最適化。
- 関数呼び出しと構造化出力をサポート。
デメリット
- 60Kコンテキスト — Qwen3やGPT-OSSモデルより短い。
- 推論モードなし。
最適な用途
多様な市場で信頼性の高い言語サポートを必要とする、Novita AI上で多言語製品を構築するチーム。
6. OpenAI GPT-OSS 120B
| スペック | 詳細 |
| 開発元 | OpenAI |
| パラメータ数 | 1170億(アクティブ51億、MoE) |
| コンテキスト長 | 131K |
| 価格(入力 / 出力) | 100万トークンあたり0.05ドル / 0.25ドル |
| 量子化 | FP4 |
| 最適な用途 | 高度な推論タスク、本番エージェントシステム |
GPT-OSS 120Bは大型の兄弟モデル — 1170億パラメータのMoEモデルで、フォワードパスあたりアクティブになるのはわずか51億パラメータ、単一のH100 GPUで動作するように設計されています。本番グレードの推論、完全なチェーン・オブ・ソートへのアクセス、構成可能な推論深度、関数呼び出しやブラウジングを含むネイティブのツール使用を提供します。
Novita AIで入力0.05ドル/100万トークンと、これは100万トークンあたり10セント未満で入手できる、間違いなく最も強力なLLMです。タスクに高度な推論能力が要求されるが、予算がGPT-4oの価格設定を許さない場合に選ぶべきモデルです。
メリット
- 1170億パラメータ、アクティブは51億のみ — 巨大な能力、効率的な推論。
- Novita AIでツール使用をフルサポート:関数呼び出し、ブラウジング、構造化出力。
- コスト/品質のトレードオフのため構成可能な推論深度。
デメリット
- 出力価格(0.25ドル/100万トークン)はこのリストの単純なモデルより高い。
- 一部のタスクでは同程度の総サイズの高密度モデルに劣る可能性がある。
最適な用途
プレミアムクローズドソースAPIのコストをかけずに、高い推論力を大規模に必要とするNovita AI上の本番AIシステム。
7. Qwen 2.5 7B Instruct
| スペック | 詳細 |
| 開発元 | Alibaba (Qwen Team) |
| パラメータ数 | 70億 |
| コンテキスト長 | 32K |
| 価格(入力 / 出力) | 100万トークンあたり0.07ドル / 0.07ドル |
| 量子化 | BF16 |
| 最適な用途 | 汎用タスク、構造化出力、ツール使用 |
Qwen 2.5 7B Instructは、AlibabaのQwenシリーズのバランスの取れた70億パラメータモデルで、知識、コーディング、数学、指示追従において前世代から大幅に改善されています。ツール呼び出し、JSONモード、構造化出力をサポート — Novita AIのこの価格帯のモデルでは珍しい機能セットです。
入力・出力ともに100万トークンあたり0.07ドルとフラットで予測可能な価格設定。32Kのコンテキストウィンドウと29以上の言語サポートにより、大規模モデルにコストをかけずに有能なオールラウンダーを必要とするチームにとって汎用性の高い選択肢です。
メリット
- Novita AIで入力・出力ともに0.07ドル/100万トークンのフラット価格 — 予算管理が容易。
- ツール呼び出し、JSONモード、構造化出力をサポート。
- 29以上の言語サポートと強力な多言語性能。
デメリット
- 32Kコンテキスト — このリストの128K+モデルより短い。
- 70億パラメータ — 複雑なタスクでは大規模モデルに劣る。
最適な用途
多様なアプリケーションのために、ツール使用と構造化出力をサポートする汎用性が高く手頃なモデルを必要とするNovita AI上の開発者。
8. GLM-4.7-Flash
| スペック | 詳細 |
| 開発元 | Z.AI |
| パラメータ数 | 約300億 |
| コンテキスト長 | 200K |
| 価格(入力 / 出力) | 100万トークンあたり0.07ドル / 0.40ドル |
| 量子化 | BF16 |
| 最適な用途 | エージェントコーディング、ツール使用、長文コンテキストワークフロー |
GLM-4.7-Flashは、このリスト最長のコンテキストウィンドウ — 200Kトークン — と最大128Kトークンの出力を誇ります。Zhipu AIによる300億-A30億のMoEモデル(合計300億、フォワードパスあたりアクティブ30億)で、エージェントコーディングに最適化されています。SWE-bench Verifiedなどの人気ベンチマークで300億パラメータクラス最強のモデルとしてランク付けされ、コーディング熟練度、長期間計画、ツール使用、指示追従で優れた性能を発揮します。
Novita AIで入力0.07ドル/100万トークンで、ツール、JSONモード、構造化出力、推論、そしてここにある他のすべてを凌駕するコンテキストウィンドウをフルサポートする価値があります。コード生成エージェントや複雑なマルチステップワークフローを構築しているなら、Novita AIでこれを実現する最も安い方法です。
メリット
- 200Kコンテキストウィンドウ — このリストで群を抜いて最大。
- 128K最大出力 — 1回の呼び出しでコードベース全体を生成可能。
- Novita AIで完全なエージェント機能セット:ツール、推論、構造化出力。
デメリット
- 出力コスト(0.40ドル/100万トークン)は重い生成タスクには高め。
- 繰り返しのプロンプトには入力キャッシュ価格(0.01ドル/100万トークン)が利用可能。
最適な用途
思考とツール使用の両方を必要とする、Novita AI上のAIコーディングエージェントと長文書分析。
9. Qwen3 Coder 30B-A3B
| スペック | 詳細 |
| 開発元 | Alibaba (Qwen Team) |
| パラメータ数 | 305億(MoE、アクティブ33億) |
| コンテキスト長 | 160K |
| 価格(入力 / 出力) | 100万トークンあたり0.07ドル / 0.27ドル |
| 量子化 | FP8 |
| 最適な用途 | コード生成、リポジトリ規模の理解、エージェントツール使用 |
Qwen3 Coder 30B-A3Bは、フォワードパスあたり33億の活性化重みを持つ305億パラメータのMoEモデルで、高度なコード生成専用に設計されています。リポジトリ規模のコード理解、マルチファイル編集、エージェントツール使用を、最大256Kトークン(Novita AIでは160K)のネイティブコンテキスト長で処理します。
入力0.07ドル / 出力0.27ドル(100万トークンあたり)で、このリストで最も手頃な専用コーディングモデルです。ツール呼び出し、JSONモード、構造化出力をサポート — AI駆動の開発ツールを構築するために必要なすべての機能を備えています。
メリット
- コード専用に設計され、リポジトリ規模の理解を実現。
- 160Kコンテキスト — 1回の呼び出しで大規模コードベースを処理。
- MoE効率:合計305億パラメータだが、呼び出しあたりアクティブな重みは33億のみ。
デメリット
- コードに特化 — 汎用会話タスクでは性能が低下する可能性がある。
- 出力コスト(0.27ドル/100万トークン)は汎用モデルより高い。
最適な用途
Novita AI上でAIコーディングアシスタント、自動コードレビューツール、マルチファイルコード生成パイプラインを構築する開発者。
10. ERNIE 4.5 21B-A3B
| スペック | 詳細 |
| 開発元 | Baidu |
| パラメータ数 | 210億(MoE) |
| コンテキスト長 | 120K |
| 価格(入力 / 出力) | 100万トークンあたり0.07ドル / 0.28ドル |
| 量子化 | BF16 |
| 最適な用途 | 中国語タスク、クロスモーダル知識、ツール使用 |
ERNIE 4.5 21B-A3Bは、BaiduがApache 2.0ライセンスで公開したオープンソースMoEモデルです。革新的なマルチモーダル異種アーキテクチャを採用し、論理的推論、数学的計算、コード生成能力が向上しています。BaiduのPaddlePaddleフレームワーク上に構築され、パラメータ共有メカニズムを通じてクロスモーダル知識融合を実現し、Novita AI上で強力なパフォーマンスを維持します。
入力0.07ドル / 出力0.28ドル(100万トークンあたり)で、ツール呼び出しをサポートし競争力のある価格設定です。特に中国語タスクで優れており、Novita AIを通じて中国語圏の市場にサービスを提供するチームに最適な選択肢です。
メリット
- Baiduの専門知識に裏打ちされた強力な中国語性能。
- Novita AIで0.07ドル/100万トークンのMoEアーキテクチャによる効率的な推論。
- 120Kコンテキストウィンドウで長文書処理に対応。
デメリット
- LlamaやQwenと比較して、中国語タスク以外での実績が少ない。
- 最大出力は8Kトークンに制限 — このリストで最低。
最適な用途
Novita AI上で中国語圏市場をターゲットとするチーム、または手頃な価格でクロスモーダル知識機能を必要とするチーム。
価格比較表
すべての価格は2026年3月時点のNovita AIのものです。
| # | モデル | 開発元 | パラメータ数 | コンテキスト | 入力/100万トークン | 出力/100万トークン | 主な強み |
| 1 | Llama 3.1 8B Instruct | Meta | 80億 | 16K | 0.02ドル | 0.05ドル | 最安の汎用LLM |
| 2 | Qwen3 4B | Alibaba | 40億 | 128K | 0.03ドル | 0.03ドル | 最安の128Kコンテキストモデル |
| 3 | Llama 3 8B Instruct | Meta | 80億 | 8K | 0.04ドル | 0.04ドル | フラット価格、実績ある定番 |
| 4 | GPT-OSS 20B | OpenAI | 210億(MoE) | 131K | 0.04ドル | 0.15ドル | OpenAI品質、オープンソース価格 |
| 5 | Mistral Nemo | Mistral × NVIDIA | 120億 | 60K | 0.04ドル | 0.17ドル | 0.05ドル未満で最高の多言語モデル |
| 6 | GPT-OSS 120B | OpenAI | 1170億(MoE) | 131K | 0.05ドル | 0.25ドル | 最強の格安LLM |
| 7 | Qwen 2.5 7B Instruct | Alibaba | 70億 | 32K | 0.07ドル | 0.07ドル | バランスの取れたオールラウンダー、フラット価格 |
| 8 | GLM-4.7-Flash | Zhipu AI | 300億(MoE、30億アクティブ) | 200K | 0.07ドル | 0.40ドル | 最長コンテキスト+エージェントコーディング |
| 9 | Qwen3 Coder 30B-A3B | Alibaba | 305億(MoE、33億アクティブ) | 160K | 0.07ドル | 0.27ドル | コード専用設計 |
| 10 | ERNIE 4.5 21B-A3B | Baidu | 210億(MoE) | 120K | 0.07ドル | 0.28ドル | 中国語に最適 |
Novita AIを始める方法
10個すべてのモデルはNovita AIのAPIで利用可能です。数分でいずれかのモデルを使い始められます。
ステップ1: APIキーを取得
Novita AIにサインアップし、ダッシュボードからAPIキーを取得してください。

ステップ2: 最初の呼び出しを行う
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="meta-llama/llama-3.1-8b-instruct",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=16384,
temperature=0.7
)
print(response.choices[0].message.content)
結論
2026年で最も安いLLM APIは、驚くほど高性能です。Novita AIで入力100万トークンあたりわずか0.02ドルから0.07ドルで、シンプルなチャットから高度な推論やエージェントコーディングまであらゆるタスクを処理できるモデルにアクセスできます。本番品質のAIにプレミアム価格を支払う時代は終わりました。
Novita AIでのクイックピック:
- 予算が最も厳しい場合? Llama 3.1 8B、0.02ドル/100万トークン — 対抗不能。
- 長いコンテキストが必要? Qwen3 4B、128Kトークンを0.03ドル/100万トークンで提供。
- 推論が必要? GPT-OSS 120B、1170億パラメータを入力0.05ドル/100万トークンでパック。
- コード生成が必要? Qwen3 Coder 30B、リポジトリ規模の理解を0.07ドル/100万トークンで提供。
10個すべてのモデルがNovita AIで稼働中、API、従量課金制、レート制限なし。サインアップしてキーを取得し、ビルドを始めましょう。
Novita AI は、開発者がシンプルなAPIを使用してAIモデルを簡単にデプロイできるAIクラウドプラットフォームであり、手頃で信頼性の高いGPUクラウドをスケーリングのために提供します。
よくある質問
2026年で最も安いLLM APIは何ですか?
2026年3月時点では、MetaのLlama 3.1 8B Instructが、Novita AIで入力100万トークンあたり0.02ドルと、最も安い汎用LLM APIです。Novita AIはこのモデルに対して最低価格帯を提供しており、レート制限なし、従量課金制です。
コーディングタスクに最適な格安LLMは?
Qwen3 Coder 30B-A3B(Novita AIで入力0.07ドル/100万トークン)は、160Kコンテキストとリポジトリ規模の理解を備え、コード生成専用に設計されています。GLM-4.7-Flash(Novita AIで0.07ドル/100万トークン)も、200Kコンテキストとエージェントコーディング機能を備えた有力な選択肢です。
格安LLM APIに最適なプラットフォームは?
Novita AIは、手頃なLLM APIのトップチョイスです。このリストの10個すべてのモデルを、OpenAI互換の単一APIで提供し、0.02ドル/100万トークンからの従量課金制、レート制限なし、最小契約なし。API呼び出しのパラメータを変更するだけでモデルを切り替えられます。
