- GPT OSS 120B と Qwen3 235B Thinking 2507 のアーキテクチャ
- GPT OSS 120B と Qwen3 235B Thinking 2507 のリソース要件
- GPT-OSS-120B と Qwen-3 235B Thinking 2507 の主な違い
- GPT OSS 120B と Qwen 3 235B Thinking 2507 のコード生成
- GPT-OSS-120B と Qwen-3 235B Thinking 2507:高精度・低レイテンシチャットボット
- コスト効率よく高速なAPIでGPT OSS 120BとQwen3 235B Thinking 2507にアクセスする方法
適切な大規模言語モデル(LLM)を選ぶ際は、推論の深さ、速度、ハードウェアコスト、統合要件のバランスが重要です。
本記事では、現在最も高性能なオープンソースモデルの2つである GPT‑OSS‑120B と Qwen‑3 235B (Thinking 2507) を比較します。
アーキテクチャ、性能、リソース要件、コーディング能力、実用的なユースケースの違いを学ぶことで、低レイテンシのチャットボットから高精度なコードシステムまで、あなたのアプリケーションに最適なモデルを選べるようになります。
GPT OSS 120B と Qwen3 235B Thinking 2507 のアーキテクチャ
アーキテクチャの詳細
| 項目 | GPT-OSS-120B | Qwen3-235B-Thinking-2507 |
|---|---|---|
| 総パラメータ数 | 117B | 235B |
| 1トークンあたりのアクティブ化パラメータ数 | 5.1B | 22B |
| アクティブ化率 | 4.36% | 9.36% |
| Transformerレイヤー数 | 36 | 94 |
| MoEエキスパート数 | 128 | 128 |
| 1トークンあたりのアクティブ化エキスパート数 | 4 | 8 |
| アテンション機構 | 高密度アテンションと局所帯域スパースアテンションの交互使用、GQA | 明示されていない(標準的なものに最適化が加わっている可能性が高い) |
| 量子化 | MXFP4(4ビット) | 明示されていない |
| ネイティブコンテキスト長 | 128K | 32K |
| 拡張コンテキスト長 | 明示されていない(ネイティブで既に128K) | 262K以上(YaRNなどを使用) |
性能ベンチマーク

Qwen3-235B-Thinking-2507 はコーディングタスクと長コンテキスト推論に優れ、一部の推論ベンチマークで小幅なリードがあります。GPT-OSS-120B は指示への追従性、競技数学、1つの推論重視ベンチマークで優れています。両モデルは科学的推論(ほぼ同点)で競争力があります。
GPT OSS 120B と Qwen3 235B Thinking 2507 のリソース要件
必要なGPU
| モデル | 量子化 | 必要VRAM | GPU要件* |
|---|---|---|---|
| Qwen3-235B-Thinking-2507 | FP16 | 611.09 GB | 8 × 80 GB H100/A100 |
| FP8 | 606.67 GB | 8 × 80 GB H100/A100 | |
| INT8 | 606.67 GB | 8 × 80 GB H100/A100 | |
| INT4 | 604.45 GB | 8 × 80 GB H100/A100 | |
| GPT-OSS-120B | FP16 | 246.34 GB | 4 × 80 GB H100/A100 |
| Q8 | 124.03 GB | 2 × 80 GB H100/A100 | |
| Q4 | 62.87 GB | 1 × 80 GB H100/A100 |
MXFP4量子化を採用しているため、GPT OSS 120BはNVIDIA H100やA100などの単一の80GB GPUで実行可能です。
GPUの価格については、以下のボタンをクリックして詳細をご確認ください。
APIへのアクセス
Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる開発者向けのAIクラウドプラットフォームであり、構築とスケーリングのための手頃で信頼性の高いGPUクラウドも提供しています。
| モデル | コンテキスト長 | 入力価格 | 出力価格 |
| Qwen3-235B-Thinking-2507 | 131072 Context | $0.3 / 1M | $3.0/ 1M |
| GPT-OSS-120B | 131072 Context | $0.1 / 1M | $0.5 / 1M |
GPT-OSS-120B と Qwen-3 235B Thinking 2507 の主な違い
能力の違い
| 項目 | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| 推論の深さの調整 | ✅ 可能(低 / 中 / 高の選択肢あり) | ❌ 不可(最大推論深度固定) |
| 思考連鎖(CoT)の常時出力 | ❌ 不可(デフォルトで非表示) | ✅ 可能(<think> タグで出力) |
| 開発者がアクセス可能な隠れた推論 | ✅ 可能 | ❌ 不可 |
| 思考モード / 高速モードの切替 | ✅ 可能(高速モード搭載) | ❌ 不可(思考モードのみ) |
| ツール利用機能 | ✅ 対応 | ✅ 対応 |
| 公開安全性評価結果 | ✅ あり(敵対的セーフティテスト実施) | ❌ 言及のみ |
| Apache 2.0 オープンソースライセンス | ✅ 対応 | ✅ 対応 |
用途の違い
| 必要な場合は… | GPT-OSS-120B を選択 | Qwen-3 235B (Thinking 2507) を選択 |
|---|---|---|
| 限られたハードウェアで実行したい | ✅ MoE + MXFP4圧縮により単一の80GB GPU(例:1× NVIDIA H100)で実行可能。エッジデバイス向けに16GB VRAM対応の20Bモデルも存在 | ❌ フルパフォーマンスを発揮するにはマルチGPUサーバー(例:4×40GB または 8×80GB GPU)が必要 |
| 低レイテンシと推論コストの削減 | ✅ 速度と効率性に最適化 | ❌ レイテンシが高く、計算コストも高い |
| 常時最大推論深度での実行 | ❌ 推論深度は調整可能(低/中/高) | ✅ 常に最大推論深度で実行され、<think> トレースが表示される |
| 研究級の推論(数学的証明、複雑なコード、科学的マルチホップ推論)に最適 | ❌ 高品質だがバランス重視にチューニング | ✅ 数学、コーディングコンペティション、構造化ロジックにおいてオープンモデル最高クラスの性能 |
| 汎用チャットボット / 本番AIアシスタント | ✅ 指示への追従性が高く、ツール利用に対応、低レイテンシでデプロイ可能 | ❌ 実行可能だが、重く速度が遅い |
| 既存のOpenAI API/ツールとの統合 | ✅ OpenAIツールやHarmonyチャット形式とAPI互換 | ❌ Qwen固有のチャットテンプレートとツール(SGLang、Qwen-Agent)を使用 |
| 多言語でのやり取り | ⚠️ 主に英語向けに最適化 | ✅ 多言語対応が強力 |
GPT OSS 120B と Qwen 3 235B Thinking 2507 のコード生成
| 項目 | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| 関数呼び出し(OpenAI API仕様) | ✅ ネイティブ対応 — OpenAIスキーマに従ってfunction_call / tool_calls形式のJSONを正確に出力するよう学習済み。初期状態で安定して動作 |
❌ ネイティブ非対応 — プロンプトエンジニアリングで形式を模倣可能だが、安定させるには外部のパース/検証が必要 |
| ツール統合 | ✅ API経由でOpenAIエコシステム(Pythonインタープリタ、Web検索、コード実行)と直接互換 | ⚠️ ツール統合にQwen-Agent / SGLangを使用。スキーマが異なるため、OpenAI形式から移行する場合は適応が必要 |
| コード出力の長さとスタイル | デフォルトで簡潔。速度/効率を優先する場合、部分的な解決策を出力することがある(推論深度調整可能) | デフォルトで長く、完全でコンパイル可能な関数を出力。エッジケースの処理やコメントが充実 |
| コード生成における推論 | 推論深度を調整可能(低/中/高)。高速なコード出力のために冗長な推論をスキップできる | コードの前に<think>タグで完全な推論トレースを常に出力。詳細な説明が埋め込まれている |
GPT-OSS-120B と Qwen-3 235B Thinking 2507:高精度・低レイテンシチャットボット

タスクに合わせて3段階の推論レベルを調整できます:
- 低: 一般的な会話向けの高速な応答
- 中: 速度と詳細さのバランスが取れた応答
- 高: 深く詳細な分析
推論レベルはシステムプロンプトで設定可能です。例:「Reasoning: high」
コスト効率よく高速なAPIでGPT OSS 120BとQwen3 235B Thinking 2507にアクセスする方法
ステップ1:ログインしてモデルライブラリにアクセス
アカウントにログインし、モデルライブラリボタンをクリックしてください。

ステップ2:モデルを選択
利用可能なオプションを閲覧し、ニーズに合ったモデルを選択してください。

ステップ3:無料トライアルを開始
選択したモデルの機能を探索するために、無料トライアルを開始してください。

ステップ4:APIキーを取得
APIでの認証のために、新しいAPIキーを発行します。「設定」ページに移動すると、画像の指示に従ってAPIキーをコピーできます。

ステップ5:APIをインストール
使用するプログラミング言語に対応したパッケージマネージャーを使用してAPIをインストールしてください。
インストール後、開発環境に必要なライブラリをインポートし、APIキーでAPIを初期化してNovita AI LLMとのやり取りを開始できます。以下はPythonユーザー向けのチャット補完APIの使用例です。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
- GPT‑OSS‑120B は、柔軟性、速度、容易なデプロイを求める開発者に最適です。
- 単一の80GB GPU(エッジデバイス向けの小型20Bモデルも存在)で実行可能。
- クエリごとに速度と精度のトレードオフを調整可能な推論深度(
low/medium/high)を搭載。 - OpenAI APIの関数呼び出しとツール統合にネイティブ対応。
- 本番アシスタント、インタラクティブアプリ、コスト-sensitiveなデプロイに最適。
- Qwen‑3 235B (Thinking 2507) は、常に最大の推論精度を求める場合に最適です。
<think>トレース付きの高推論モードで常時動作。- 複雑なコーディング、数学的証明、長コンテキスト推論に優れる。
- 多言語対応が強力で研究級のタスクに強いが、マルチGPU環境を必要とし、応答速度が遅い。
- 正確性が速度よりも重視される専門家アドバイザー用途に最適。
結論:
速度と効率性を優先する場合は → GPT‑OSS‑120B を選択してください。
複雑な推論の精度が最優先の場合は → Qwen‑3 235B (Thinking 2507) を選択してください。
よくある質問
Qwen‑3 235B はOpenAIの関数呼び出しAPIを使用できますか?
ネイティブでは対応していません。プロンプトエンジニアリングで形式を模倣することは可能ですが、安定した結果を得るには外部のパースと検証が必要です。GPT‑OSS‑120Bは初期状態でこの機能をサポートしています。
どのモデルがより少ないハードウェアで動作しますか?
GPT‑OSS‑120B です。MXFP4量子化により単一の80GB GPUで実行可能です。Qwen‑3 235Bがフルパフォーマンスを発揮するには最低4〜8台のGPUが必要です。
リアルタイムチャットにはどちらが適していますか?
GPT‑OSS‑120B です。レイテンシが低く、推論深度を調整可能で、アクティブパラメータが小さいため応答性が高いです。
Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる開発者向けのAIクラウドプラットフォームであり、構築とスケーリングのための手頃で信頼性の高いGPUクラウドも提供しています。
