GPT OSS 120B と Qwen3 235B Thinking 2507 の比較:チャット向け?コード向け?

GPT OSS 120B と Qwen3 235B Thinking 2507 の比較:チャット向け?コード向け?

適切な大規模言語モデル(LLM)を選ぶ際は、推論の深さ速度ハードウェアコスト統合要件のバランスが重要です。
本記事では、現在最も高性能なオープンソースモデルの2つである GPT‑OSS‑120BQwen‑3 235B (Thinking 2507) を比較します。
アーキテクチャ、性能、リソース要件、コーディング能力、実用的なユースケースの違いを学ぶことで、低レイテンシのチャットボットから高精度なコードシステムまで、あなたのアプリケーションに最適なモデルを選べるようになります。

GPT OSS 120B と Qwen3 235B Thinking 2507 のアーキテクチャ

アーキテクチャの詳細

項目 GPT-OSS-120B Qwen3-235B-Thinking-2507
総パラメータ数 117B 235B
1トークンあたりのアクティブ化パラメータ数 5.1B 22B
アクティブ化率 4.36% 9.36%
Transformerレイヤー数 36 94
MoEエキスパート数 128 128
1トークンあたりのアクティブ化エキスパート数 4 8
アテンション機構 高密度アテンションと局所帯域スパースアテンションの交互使用、GQA 明示されていない(標準的なものに最適化が加わっている可能性が高い)
量子化 MXFP4(4ビット) 明示されていない
ネイティブコンテキスト長 128K 32K
拡張コンテキスト長 明示されていない(ネイティブで既に128K) 262K以上(YaRNなどを使用)

性能ベンチマーク

Qwen3-235B-Thinking-2507 と GPT-OSS-120B のベンチマークスコア

Qwen3-235B-Thinking-2507コーディングタスク長コンテキスト推論に優れ、一部の推論ベンチマークで小幅なリードがあります。GPT-OSS-120B指示への追従性競技数学、1つの推論重視ベンチマークで優れています。両モデルは科学的推論(ほぼ同点)で競争力があります。

GPT OSS 120B と Qwen3 235B Thinking 2507 のリソース要件

必要なGPU

モデル 量子化 必要VRAM GPU要件*
Qwen3-235B-Thinking-2507 FP16 611.09 GB 8 × 80 GB H100/A100
FP8 606.67 GB 8 × 80 GB H100/A100
INT8 606.67 GB 8 × 80 GB H100/A100
INT4 604.45 GB 8 × 80 GB H100/A100
GPT-OSS-120B FP16 246.34 GB 4 × 80 GB H100/A100
Q8 124.03 GB 2 × 80 GB H100/A100
Q4 62.87 GB 1 × 80 GB H100/A100

MXFP4量子化を採用しているため、GPT OSS 120BはNVIDIA H100やA100などの単一の80GB GPUで実行可能です。

GPUの価格については、以下のボタンをクリックして詳細をご確認ください。

GPU価格を取得

APIへのアクセス

Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる開発者向けのAIクラウドプラットフォームであり、構築とスケーリングのための手頃で信頼性の高いGPUクラウドも提供しています。

モデル コンテキスト長 入力価格 出力価格
Qwen3-235B-Thinking-2507 131072 Context $0.3 / 1M $3.0/ 1M
GPT-OSS-120B 131072 Context $0.1 / 1M $0.5 / 1M

GPT-OSS-120B と Qwen-3 235B Thinking 2507 の主な違い

能力の違い

項目 GPT-OSS-120B Qwen3-235B (Thinking 2507)
推論の深さの調整 ✅ 可能(低 / 中 / 高の選択肢あり) ❌ 不可(最大推論深度固定)
思考連鎖(CoT)の常時出力 ❌ 不可(デフォルトで非表示) ✅ 可能(<think> タグで出力)
開発者がアクセス可能な隠れた推論 ✅ 可能 ❌ 不可
思考モード / 高速モードの切替 ✅ 可能(高速モード搭載) ❌ 不可(思考モードのみ)
ツール利用機能 ✅ 対応 ✅ 対応
公開安全性評価結果 ✅ あり(敵対的セーフティテスト実施) ❌ 言及のみ
Apache 2.0 オープンソースライセンス ✅ 対応 ✅ 対応

用途の違い

必要な場合は… GPT-OSS-120B を選択 Qwen-3 235B (Thinking 2507) を選択
限られたハードウェアで実行したい ✅ MoE + MXFP4圧縮により単一の80GB GPU(例:1× NVIDIA H100)で実行可能。エッジデバイス向けに16GB VRAM対応の20Bモデルも存在 ❌ フルパフォーマンスを発揮するにはマルチGPUサーバー(例:4×40GB または 8×80GB GPU)が必要
低レイテンシと推論コストの削減 ✅ 速度と効率性に最適化 ❌ レイテンシが高く、計算コストも高い
常時最大推論深度での実行 ❌ 推論深度は調整可能(低/中/高) ✅ 常に最大推論深度で実行され、<think> トレースが表示される
研究級の推論(数学的証明、複雑なコード、科学的マルチホップ推論)に最適 ❌ 高品質だがバランス重視にチューニング ✅ 数学、コーディングコンペティション、構造化ロジックにおいてオープンモデル最高クラスの性能
汎用チャットボット / 本番AIアシスタント ✅ 指示への追従性が高く、ツール利用に対応、低レイテンシでデプロイ可能 ❌ 実行可能だが、重く速度が遅い
既存のOpenAI API/ツールとの統合 ✅ OpenAIツールやHarmonyチャット形式とAPI互換 ❌ Qwen固有のチャットテンプレートとツール(SGLang、Qwen-Agent)を使用
多言語でのやり取り ⚠️ 主に英語向けに最適化 ✅ 多言語対応が強力

GPT OSS 120B と Qwen 3 235B Thinking 2507 のコード生成

項目 GPT-OSS-120B Qwen3-235B (Thinking 2507)
関数呼び出し(OpenAI API仕様) ✅ ネイティブ対応 — OpenAIスキーマに従ってfunction_call / tool_calls形式のJSONを正確に出力するよう学習済み。初期状態で安定して動作 ❌ ネイティブ非対応 — プロンプトエンジニアリングで形式を模倣可能だが、安定させるには外部のパース/検証が必要
ツール統合 ✅ API経由でOpenAIエコシステム(Pythonインタープリタ、Web検索、コード実行)と直接互換 ⚠️ ツール統合にQwen-Agent / SGLangを使用。スキーマが異なるため、OpenAI形式から移行する場合は適応が必要
コード出力の長さとスタイル デフォルトで簡潔。速度/効率を優先する場合、部分的な解決策を出力することがある(推論深度調整可能) デフォルトで長く、完全でコンパイル可能な関数を出力。エッジケースの処理やコメントが充実
コード生成における推論 推論深度を調整可能(低/中/高)。高速なコード出力のために冗長な推論をスキップできる コードの前に<think>タグで完全な推論トレースを常に出力。詳細な説明が埋め込まれている

GPT-OSS-120B と Qwen-3 235B Thinking 2507:高精度・低レイテンシチャットボット

GPT-OSS-120B と Qwen-3 235B Thinking 2507:高精度・低レイテンシチャットボット

タスクに合わせて3段階の推論レベルを調整できます:

  • 低: 一般的な会話向けの高速な応答
  • 中: 速度と詳細さのバランスが取れた応答
  • 高: 深く詳細な分析

推論レベルはシステムプロンプトで設定可能です。例:「Reasoning: high」

コスト効率よく高速なAPIでGPT OSS 120BとQwen3 235B Thinking 2507にアクセスする方法

ステップ1:ログインしてモデルライブラリにアクセス

アカウントにログインし、モデルライブラリボタンをクリックしてください。

ログインしてモデルライブラリにアクセス

今すぐGPT OSSを試す!

ステップ2:モデルを選択

利用可能なオプションを閲覧し、ニーズに合ったモデルを選択してください。

ステップ2:モデルを選択

ステップ3:無料トライアルを開始

選択したモデルの機能を探索するために、無料トライアルを開始してください。

ステップ3:無料トライアルを開始

ステップ4:APIキーを取得

APIでの認証のために、新しいAPIキーを発行します。「設定」ページに移動すると、画像の指示に従ってAPIキーをコピーできます。

APIキーを取得

ステップ5:APIをインストール

使用するプログラミング言語に対応したパッケージマネージャーを使用してAPIをインストールしてください。

インストール後、開発環境に必要なライブラリをインポートし、APIキーでAPIを初期化してNovita AI LLMとのやり取りを開始できます。以下はPythonユーザー向けのチャット補完APIの使用例です。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  • GPT‑OSS‑120B は、柔軟性、速度、容易なデプロイを求める開発者に最適です。
    • 単一の80GB GPU(エッジデバイス向けの小型20Bモデルも存在)で実行可能。
    • クエリごとに速度と精度のトレードオフを調整可能な推論深度(low / medium / high)を搭載。
    • OpenAI APIの関数呼び出しとツール統合にネイティブ対応。
    • 本番アシスタントインタラクティブアプリコスト-sensitiveなデプロイに最適。
  • Qwen‑3 235B (Thinking 2507) は、常に最大の推論精度を求める場合に最適です。
    • <think>トレース付きの高推論モードで常時動作。
    • 複雑なコーディング数学的証明長コンテキスト推論に優れる。
    • 多言語対応が強力で研究級のタスクに強いが、マルチGPU環境を必要とし、応答速度が遅い。
    • 正確性が速度よりも重視される専門家アドバイザー用途に最適。

結論:
速度と効率性を優先する場合は → GPT‑OSS‑120B を選択してください。
複雑な推論の精度が最優先の場合は → Qwen‑3 235B (Thinking 2507) を選択してください。

よくある質問

Qwen‑3 235B はOpenAIの関数呼び出しAPIを使用できますか?

ネイティブでは対応していません。プロンプトエンジニアリングで形式を模倣することは可能ですが、安定した結果を得るには外部のパースと検証が必要です。GPT‑OSS‑120Bは初期状態でこの機能をサポートしています。

どのモデルがより少ないハードウェアで動作しますか?

GPT‑OSS‑120B です。MXFP4量子化により単一の80GB GPUで実行可能です。Qwen‑3 235Bがフルパフォーマンスを発揮するには最低4〜8台のGPUが必要です。

リアルタイムチャットにはどちらが適していますか?

GPT‑OSS‑120B です。レイテンシが低く、推論深度を調整可能で、アクティブパラメータが小さいため応答性が高いです。

Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる開発者向けのAIクラウドプラットフォームであり、構築とスケーリングのための手頃で信頼性の高いGPUクラウドも提供しています。

おすすめの記事