GPT OSS 120B против Qwen3 235B Thinking 2507: для чата или кода?

GPT OSS 120B против Qwen3 235B Thinking 2507: для чата или кода?

Выбор правильной большой языковой модели (LLM) заключается в балансе глубины рассуждений, скорости, стоимости оборудования и требований к интеграции.
В этой статье сравниваются GPT‑OSS‑120B и Qwen‑3 235B (Thinking 2507) — две самые производительные открытые модели на сегодняшний день.
Вы узнаете, чем они отличаются по архитектуре, производительности, требованиям к ресурсам, возможностям генерации кода и вариантам использования в реальных условиях, чтобы вы могли выбрать, какая из них лучше подходит для вашего приложения — от чат-ботов с низкой задержкой до высокоточных систем генерации кода.

GPT OSS 120B против Qwen3 235B Thinking 2507: Архитектура

Детали архитектуры

Feature GPT-OSS-120B Qwen3-235B-Thinking-2507
Total Parameters 117B 235B
Activated Parameters / Token 5.1B 22B
Activation Ratio 4.36% 9.36%
Transformer Layers 36 94
MoE Experts 128 128
Experts Activated / Token 4 8
Attention Mechanism Alternating dense + locally banded sparse attention, GQA Not explicitly stated (likely standard + optimizations)
Quantization MXFP4 (4-bit) Not stated
Native Context Length 128K 32K
Extended Context Length Not stated (native already 128K) 262K+ (via YaRN, etc.)

Бенчмарки производительности

Qwen3-235B-Thinking-2507 vs GPT-OSS-120B Benchmark Scores

Qwen3-235B-Thinking-2507 превосходит в задачах генерации кода и рассуждениях на длинном контексте, с небольшим преимуществом в некоторых бенчмарках рассуждений. GPT-OSS-120B показывает лучшие результаты в следовании инструкциям, олимпиадной математике и одном бенчмарке с высокой нагрузкой на рассуждения. Обе модели конкурентоспособны в научных рассуждениях (практически равны).

GPT OSS 120B против Qwen3 235B Thinking 2507: Требования к ресурсам

Требования к GPU

Model Quantization VRAM Required GPU Requirement*
Qwen3-235B-Thinking-2507 FP16 611.09 GB 8 × 80 GB H100/A100
FP8 606.67 GB 8 × 80 GB H100/A100
INT8 606.67 GB 8 × 80 GB H100/A100
INT4 604.45 GB 8 × 80 GB H100/A100
GPT-OSS-120B FP16 246.34 GB 4 × 80 GB H100/A100
Q8 124.03 GB 2 × 80 GB H100/A100
Q4 62.87 GB 1 × 80 GB H100/A100

Благодаря использованию квантования MXFP4 GPT OSS 120B может работать на одном GPU объемом 80 ГБ, включая такие модели, как NVIDIA H100 или A100.

Что касается стоимости GPU, вы можете нажать кнопку ниже, чтобы получить больше информации.

Узнать стоимость GPU

Доступ по API

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для разработки и масштабирования.

Model Context Length Input Price Output Price
Qwen3-235B-Thinking-2507 131072 Context $0.3 / 1M $3.0/ 1M
GPT-OSS-120B 131072 Context $0.1 / 1M $0.5 / 1M

GPT-OSS-120B против Qwen-3 235B Thinking 2507: Ключевые отличия

Отличия в возможностях

Feature GPT-OSS-120B Qwen3-235B (Thinking 2507)
Adjustable reasoning depth ✅ Yes (Low / Medium / High options) ❌ No (Fixed maximum reasoning)
Always outputs Chain-of-Thought (CoT) ❌ No (Hidden by default) ✅ Yes (<think> tags)
Developer-accessible hidden reasoning ✅ Yes ❌ No
Switch between thinking / fast mode ✅ Yes (Fast mode available) ❌ No (Thinking mode only)
Tool use capability ✅ Supported ✅ Supported
Public safety evaluation results ✅ Yes (Adversarial safety testing) ❌ Limited mention
Apache 2.0 open-source license ✅ Yes ✅ Yes

Отличия в применении

If you need… Choose GPT-OSS-120B Choose Qwen-3 235B (Thinking 2507)
Run on limited hardware ✅ Возможна работа на одном GPU 80 ГБ (например, 1× NVIDIA H100) благодаря сжатию MoE + MXFP4; также есть вариант 20B для edge-устройств с 16 ГБ VRAM ❌ Для полной производительности требуется сервер с несколькими GPU (например, 4×40 ГБ или 8×80 ГБ GPU)
Lower latency & inference cost ✅ Оптимизирован для скорости и эффективности ❌ Более высокая задержка и стоимость вычислений
Maximum reasoning depth (always on) ❌ Глубина рассуждений регулируется (низкая/средняя/высокая) ✅ Всегда работает с максимальной глубиной рассуждений с видимым трейсом <think>
Best for research-grade reasoning (math proofs, complex code, scientific multi-hop) ❌ Высокое качество, но настроен на баланс ✅ Лучшие среди открытых моделей результаты в математике, соревнованиях по программированию и структурированной логике
General-purpose chatbot / production AI assistant ✅ Сильное следование инструкциям, поддержка инструментов, развертывание с низкой задержкой ❌ Возможно, но более тяжелый и медленный
Integration with existing OpenAI API/tools ✅ Совместим по API с инструментами OpenAI, формат чата Harmony ❌ Использует чат-шаблон и инструменты, специфичные для Qwen (SGLang, Qwen-Agent)
Multilingual interaction ⚠️ В первую очередь оптимизирован для английского ✅ Сильные возможности многоязычного взаимодействия

GPT OSS 120B против Qwen 3 235B Thinking 2507: Генерация кода

Aspect GPT-OSS-120B Qwen3-235B (Thinking 2507)
Function Calling (OpenAI API spec) ✅ Нативная поддержка — обучен выводить JSON function_call / tool_calls точно по схеме OpenAI; стабильно работает из коробки. ❌ Нет нативной поддержки — может имитировать формат через инженерию промптов, но для стабильности требуется внешний парсинг и валидация.
Tool Integration ✅ Прямая совместимость с экосистемой OpenAI (интерпретатор Python, веб-поиск, выполнение кода) через API. ⚠️ Для интеграции инструментов используются Qwen-Agent / SGLang; другая схема, требуется адаптация при миграции с формата OpenAI.
Code Output Length & Style Лаконичный по умолчанию; может выдавать частичные решения при приоритете скорости/эффективности (регулируемая глубина рассуждений). Более длинные, полные, компилируемые функции по умолчанию, с большей обработкой крайних случаев и комментариями.
Reasoning in Code Generation Регулируемая глубина рассуждений (низкая/средняя/высокая); может пропускать многословные рассуждения для более быстрого вывода кода. Всегда выводит полный трейс рассуждений в тегах <think> перед кодом, с более подробными встроенными объяснениями.

GPT OSS 120B против Qwen 3 235B Thinking 2507: Высокоточный чат-бот с низкой задержкой

GPT-OSS-120B vs Qwen-3 235B Thinking 2507: High-accuracy, Low-latency Chatbot

Вы можете настроить уровень рассуждений, подходящий для вашей задачи, на одном из трех уровней:

  • Низкий: Быстрые ответы для общего диалога.
  • Средний: Сбалансированная скорость и детализация.
  • Высокий: Глубокий и детальный анализ.

Уровень рассуждений можно задать в системных промптах, например, Reasoning: high.

Как получить доступ к GPT OSS 120B и Qwen3 235B Thinking 2507 через экономически выгодный и быстрый API?

Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей

Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Log In and Access the Model Library

Попробуйте GPT OSS сейчас!

Шаг 2: Выберите нужную модель

Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Step 2: Choose Your Model

Шаг 3: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Step 3: Start Your Free Trial

Шаг 4: Получите ваш API-ключ

Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

get api key

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с помощью вашего API-ключа, чтобы начать взаимодействие с LLM Novita AI. Это пример использования API завершения чата для пользователей Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  • GPT‑OSS‑120B — оптимальный выбор для разработчиков, которым нужна гибкость, скорость и простота развертывания.
    • Работает на одном GPU 80 ГБ (или меньшем варианте 20B для edge-устройств).
    • Регулируемая глубина рассуждений (low / medium / high) для компромисса между скоростью и точностью для каждого запроса.
    • Нативная поддержка вызова функций API OpenAI и интеграции инструментов.
    • Идеально подходит для производственных ассистентов, интерактивных приложений и развертываний с ограниченным бюджетом.
  • Qwen‑3 235B (Thinking 2507) создан для максимальной точности рассуждений в каждом случае.
    • Всегда работает в режиме высокоуровневых рассуждений с трейсами <think>.
    • Превосходит в сложной генерации кода, математических доказательствах и рассуждениях на длинном контексте.
    • Поддерживает многоязычность и силен в исследовательских задачах, но требует настройки из нескольких GPU и имеет более высокую задержку ответов.
    • Лучше всего подходит для экспертных советников, где правильность ответа важнее скорости.

Итог:
Если для вас в приоритете скорость и эффективность → выбирайте GPT‑OSS‑120B.
Если точность для сложных рассуждений является обязательным требованием → выбирайте Qwen‑3 235B (Thinking 2507).

Часто задаваемые вопросы

Может ли Qwen‑3 235B использовать API вызова функций OpenAI?

Нет, не нативно. Он может имитировать формат через инженерию промптов, но для стабильных результатов вам потребуется внешний парсинг и валидация. GPT‑OSS‑120B поддерживает это из коробки.

Какая модель требует меньше оборудования?

GPT‑OSS‑120B — он может работать на одном GPU 80 ГБ благодаря квантованию MXFP4. Qwen‑3 235B требует как минимум 4–8 GPU для полной производительности.

Какая модель лучше подходит для чата в реальном времени?

GPT‑OSS‑120B — более низкая задержка, регулируемые рассуждения и меньшие активные параметры делают его более отзывчивым.

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для разработки и масштабирования.

Рекомендуемые материалы для чтения