- GPT OSS 120B против Qwen3 235B Thinking 2507: Архитектура
- GPT OSS 120B против Qwen3 235B Thinking 2507: Требования к ресурсам
- GPT-OSS-120B против Qwen-3 235B Thinking 2507: Ключевые отличия
- GPT OSS 120B против Qwen 3 235B Thinking 2507: Генерация кода
- GPT OSS 120B против Qwen 3 235B Thinking 2507: Высокоточный чат-бот с низкой задержкой
- Как получить доступ к GPT OSS 120B и Qwen3 235B Thinking 2507 через экономически выгодный и быстрый API?
Выбор правильной большой языковой модели (LLM) заключается в балансе глубины рассуждений, скорости, стоимости оборудования и требований к интеграции.
В этой статье сравниваются GPT‑OSS‑120B и Qwen‑3 235B (Thinking 2507) — две самые производительные открытые модели на сегодняшний день.
Вы узнаете, чем они отличаются по архитектуре, производительности, требованиям к ресурсам, возможностям генерации кода и вариантам использования в реальных условиях, чтобы вы могли выбрать, какая из них лучше подходит для вашего приложения — от чат-ботов с низкой задержкой до высокоточных систем генерации кода.
GPT OSS 120B против Qwen3 235B Thinking 2507: Архитектура
Детали архитектуры
| Feature | GPT-OSS-120B | Qwen3-235B-Thinking-2507 |
|---|---|---|
| Total Parameters | 117B | 235B |
| Activated Parameters / Token | 5.1B | 22B |
| Activation Ratio | 4.36% | 9.36% |
| Transformer Layers | 36 | 94 |
| MoE Experts | 128 | 128 |
| Experts Activated / Token | 4 | 8 |
| Attention Mechanism | Alternating dense + locally banded sparse attention, GQA | Not explicitly stated (likely standard + optimizations) |
| Quantization | MXFP4 (4-bit) | Not stated |
| Native Context Length | 128K | 32K |
| Extended Context Length | Not stated (native already 128K) | 262K+ (via YaRN, etc.) |
Бенчмарки производительности

Qwen3-235B-Thinking-2507 превосходит в задачах генерации кода и рассуждениях на длинном контексте, с небольшим преимуществом в некоторых бенчмарках рассуждений. GPT-OSS-120B показывает лучшие результаты в следовании инструкциям, олимпиадной математике и одном бенчмарке с высокой нагрузкой на рассуждения. Обе модели конкурентоспособны в научных рассуждениях (практически равны).
GPT OSS 120B против Qwen3 235B Thinking 2507: Требования к ресурсам
Требования к GPU
| Model | Quantization | VRAM Required | GPU Requirement* |
|---|---|---|---|
| Qwen3-235B-Thinking-2507 | FP16 | 611.09 GB | 8 × 80 GB H100/A100 |
| FP8 | 606.67 GB | 8 × 80 GB H100/A100 | |
| INT8 | 606.67 GB | 8 × 80 GB H100/A100 | |
| INT4 | 604.45 GB | 8 × 80 GB H100/A100 | |
| GPT-OSS-120B | FP16 | 246.34 GB | 4 × 80 GB H100/A100 |
| Q8 | 124.03 GB | 2 × 80 GB H100/A100 | |
| Q4 | 62.87 GB | 1 × 80 GB H100/A100 |
Благодаря использованию квантования MXFP4 GPT OSS 120B может работать на одном GPU объемом 80 ГБ, включая такие модели, как NVIDIA H100 или A100.
Что касается стоимости GPU, вы можете нажать кнопку ниже, чтобы получить больше информации.
Доступ по API
Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для разработки и масштабирования.
| Model | Context Length | Input Price | Output Price |
| Qwen3-235B-Thinking-2507 | 131072 Context | $0.3 / 1M | $3.0/ 1M |
| GPT-OSS-120B | 131072 Context | $0.1 / 1M | $0.5 / 1M |
GPT-OSS-120B против Qwen-3 235B Thinking 2507: Ключевые отличия
Отличия в возможностях
| Feature | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| Adjustable reasoning depth | ✅ Yes (Low / Medium / High options) | ❌ No (Fixed maximum reasoning) |
| Always outputs Chain-of-Thought (CoT) | ❌ No (Hidden by default) | ✅ Yes (<think> tags) |
| Developer-accessible hidden reasoning | ✅ Yes | ❌ No |
| Switch between thinking / fast mode | ✅ Yes (Fast mode available) | ❌ No (Thinking mode only) |
| Tool use capability | ✅ Supported | ✅ Supported |
| Public safety evaluation results | ✅ Yes (Adversarial safety testing) | ❌ Limited mention |
| Apache 2.0 open-source license | ✅ Yes | ✅ Yes |
Отличия в применении
| If you need… | Choose GPT-OSS-120B | Choose Qwen-3 235B (Thinking 2507) |
|---|---|---|
| Run on limited hardware | ✅ Возможна работа на одном GPU 80 ГБ (например, 1× NVIDIA H100) благодаря сжатию MoE + MXFP4; также есть вариант 20B для edge-устройств с 16 ГБ VRAM | ❌ Для полной производительности требуется сервер с несколькими GPU (например, 4×40 ГБ или 8×80 ГБ GPU) |
| Lower latency & inference cost | ✅ Оптимизирован для скорости и эффективности | ❌ Более высокая задержка и стоимость вычислений |
| Maximum reasoning depth (always on) | ❌ Глубина рассуждений регулируется (низкая/средняя/высокая) | ✅ Всегда работает с максимальной глубиной рассуждений с видимым трейсом <think> |
| Best for research-grade reasoning (math proofs, complex code, scientific multi-hop) | ❌ Высокое качество, но настроен на баланс | ✅ Лучшие среди открытых моделей результаты в математике, соревнованиях по программированию и структурированной логике |
| General-purpose chatbot / production AI assistant | ✅ Сильное следование инструкциям, поддержка инструментов, развертывание с низкой задержкой | ❌ Возможно, но более тяжелый и медленный |
| Integration with existing OpenAI API/tools | ✅ Совместим по API с инструментами OpenAI, формат чата Harmony | ❌ Использует чат-шаблон и инструменты, специфичные для Qwen (SGLang, Qwen-Agent) |
| Multilingual interaction | ⚠️ В первую очередь оптимизирован для английского | ✅ Сильные возможности многоязычного взаимодействия |
GPT OSS 120B против Qwen 3 235B Thinking 2507: Генерация кода
| Aspect | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| Function Calling (OpenAI API spec) | ✅ Нативная поддержка — обучен выводить JSON function_call / tool_calls точно по схеме OpenAI; стабильно работает из коробки. |
❌ Нет нативной поддержки — может имитировать формат через инженерию промптов, но для стабильности требуется внешний парсинг и валидация. |
| Tool Integration | ✅ Прямая совместимость с экосистемой OpenAI (интерпретатор Python, веб-поиск, выполнение кода) через API. | ⚠️ Для интеграции инструментов используются Qwen-Agent / SGLang; другая схема, требуется адаптация при миграции с формата OpenAI. |
| Code Output Length & Style | Лаконичный по умолчанию; может выдавать частичные решения при приоритете скорости/эффективности (регулируемая глубина рассуждений). | Более длинные, полные, компилируемые функции по умолчанию, с большей обработкой крайних случаев и комментариями. |
| Reasoning in Code Generation | Регулируемая глубина рассуждений (низкая/средняя/высокая); может пропускать многословные рассуждения для более быстрого вывода кода. | Всегда выводит полный трейс рассуждений в тегах <think> перед кодом, с более подробными встроенными объяснениями. |
GPT OSS 120B против Qwen 3 235B Thinking 2507: Высокоточный чат-бот с низкой задержкой

Вы можете настроить уровень рассуждений, подходящий для вашей задачи, на одном из трех уровней:
- Низкий: Быстрые ответы для общего диалога.
- Средний: Сбалансированная скорость и детализация.
- Высокий: Глубокий и детальный анализ.
Уровень рассуждений можно задать в системных промптах, например,
Reasoning: high.
Как получить доступ к GPT OSS 120B и Qwen3 235B Thinking 2507 через экономически выгодный и быстрый API?
Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей
Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Шаг 2: Выберите нужную модель
Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Шаг 3: Начните бесплатный пробный период
Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Шаг 4: Получите ваш API-ключ
Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

Шаг 5: Установите API
Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.
После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с помощью вашего API-ключа, чтобы начать взаимодействие с LLM Novita AI. Это пример использования API завершения чата для пользователей Python.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
- GPT‑OSS‑120B — оптимальный выбор для разработчиков, которым нужна гибкость, скорость и простота развертывания.
- Работает на одном GPU 80 ГБ (или меньшем варианте 20B для edge-устройств).
- Регулируемая глубина рассуждений (
low/medium/high) для компромисса между скоростью и точностью для каждого запроса. - Нативная поддержка вызова функций API OpenAI и интеграции инструментов.
- Идеально подходит для производственных ассистентов, интерактивных приложений и развертываний с ограниченным бюджетом.
- Qwen‑3 235B (Thinking 2507) создан для максимальной точности рассуждений в каждом случае.
- Всегда работает в режиме высокоуровневых рассуждений с трейсами
<think>. - Превосходит в сложной генерации кода, математических доказательствах и рассуждениях на длинном контексте.
- Поддерживает многоязычность и силен в исследовательских задачах, но требует настройки из нескольких GPU и имеет более высокую задержку ответов.
- Лучше всего подходит для экспертных советников, где правильность ответа важнее скорости.
- Всегда работает в режиме высокоуровневых рассуждений с трейсами
Итог:
Если для вас в приоритете скорость и эффективность → выбирайте GPT‑OSS‑120B.
Если точность для сложных рассуждений является обязательным требованием → выбирайте Qwen‑3 235B (Thinking 2507).
Часто задаваемые вопросы
Может ли Qwen‑3 235B использовать API вызова функций OpenAI?
Нет, не нативно. Он может имитировать формат через инженерию промптов, но для стабильных результатов вам потребуется внешний парсинг и валидация. GPT‑OSS‑120B поддерживает это из коробки.
Какая модель требует меньше оборудования?
GPT‑OSS‑120B — он может работать на одном GPU 80 ГБ благодаря квантованию MXFP4. Qwen‑3 235B требует как минимум 4–8 GPU для полной производительности.
Какая модель лучше подходит для чата в реальном времени?
GPT‑OSS‑120B — более низкая задержка, регулируемые рассуждения и меньшие активные параметры делают его более отзывчивым.
Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для разработки и масштабирования.
