Крупные языковые модели всегда сталкивались с фундаментальным компромиссом: больше параметров означает лучшую производительность, но также более высокие затраты и более медленный вывод. Qwen3-Next-80B-A3B полностью ломает это правило.
Имея 80 миллиардов общих параметров, но всего 3 миллиарда активных во время вывода, эта ультра-разреженная модель MoE превосходит Qwen3-32B, используя менее 1/10 ресурсов для обучения. Её революционная архитектура, включающая Hybrid Attention, разреженность MoE 1:50 и Multi-Token Prediction, обеспечивает более чем 10-кратное ускорение вывода на длинных контекстах.
Novita AI теперь предлагает два варианта из серии Qwen3-Next:
- qwen/qwen3-next-80b-a3b-instruct: $0.15 за миллион входных токенов, $1.5 за миллион выходных токенов
- qwen/qwen3-next-80b-a3b-thinking: $0.15 за миллион входных токенов, $1.5 за миллион выходных токенов
Обе модели готовы к использованию через платформу Novita AI: вы можете экспериментировать с ними в playground или интегрировать через API — не требуется настройка инфраструктуры.
Серия Qwen3-Next
Серия Qwen3-Next представляет собой следующее поколение базовых моделей, оптимизированных для работы с экстремальной длиной контекста и эффективности использования большого количества параметров. Эта инновационная серия включает архитектурные нововведения, разработанные для максимизации производительности при минимизации вычислительных затрат:

Источник: Официальный блог Qwen3-Next
- Hybrid Attention: заменяет стандартное внимание комбинацией Gated DeltaNet и Gated Attention, что позволяет эффективно моделировать контекст.
- High-Sparsity MoE: обеспечивает крайне низкое соотношение активации 1:50 в слоях MoE — значительно снижает количество операций с плавающей запятой (FLOPs) на токен при сохранении ёмкости модели.
- Multi-Token Prediction (MTP): повышает производительность модели на этапе предобучения и ускоряет вывод.
- Другие оптимизации: включают такие техники, как zero-centered и weight-decayed layernorm, Gated Attention и другие стабилизирующие улучшения для устойчивого обучения.
Построенная на этой архитектуре, Qwen3-Next-80B-A3B имеет 80 миллиардов общих параметров, из которых только 3 миллиарда активны — что обеспечивает крайнюю разреженность и эффективность.
Несмотря на свою ультра-эффективность, она превосходит Qwen3-32B на downstream-задачах, при этом требуя менее 1/10 затрат на обучение. Более того, она обеспечивает более чем 10-кратный рост пропускной способности вывода по сравнению с Qwen3-32B при работе с контекстами длиннее 32K токенов.
Бенчмарки производительности Qwen3-Next-80B-A3B
Производительность Instruct-модели

Источник: Официальный блог Qwen3-Next
Производительность Thinking-модели

Источник: Официальный блог Qwen3-Next
Как получить доступ к Qwen3-Next-80B-A3B на Novita AI
Получите доступ к революционной модели Qwen3-Next-80B-A3B через инфраструктуру Novita AI, используя крайнюю разреженность для беспрецедентной эффективности. Платформа Novita AI исключает сложность развертывания, полностью раскрывая потенциал этой архитектуры следующего поколения.
Используйте веб-интерфейс Playground (не требуется написание кода)
Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с Qwen3-Next-80B-A3B за несколько секунд через веб-интерфейс Novita AI — не требуется настройка инфраструктуры.
Интерактивное тестирование: Изучите механизм Hybrid Attention и возможности Multi-Token Prediction модели через интуитивно понятный интерфейс playground Novita AI.
Ключевые параметры конфигурации:
- max_tokens: протестируйте исключительные возможности Qwen3-Next по работе с длинными контекстами
- temperature & top_p: тонко настройте креативность и разнообразие ответов
- System Prompt: мгновенно настройте поведение модели
- Function Calling: протестируйте интеграцию инструментов прямо в playground
Сравнение моделей: Переключайтесь между вариантами Qwen3-Next-80B-A3B-Instruct и Thinking, или сравнивайте с другими моделями, доступными на Novita AI, чтобы оценить производительность для ваших сценариев использования.
Интеграция через API (для разработчиков)
Подключите Qwen3-Next-80B-A3B к вашим приложениям через REST API Novita AI — получайте преимущества 10-кратной пропускной способности вывода модели на длинных контекстах без необходимости управления инфраструктурой.
Вариант 1: Прямая интеграция через API (пример на Python)
Получите доступ к эффективной архитектуре Qwen3-Next через совместимый с OpenAI endpoint Novita AI:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="your_api_key_here",
)
model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Возможности платформы:
- Совместимый с OpenAI endpoint:
/v3/openaiдля бесшовной интеграции - Гибкие параметры: управляйте генерацией с помощью temperature, top-p, штрафов и других параметров
- Поддержка потоковой передачи: выбирайте между потоковыми или пакетными ответами
- Выбор модели: доступны как instruct, так и thinking варианты
Вариант 2: Мультиагентные рабочие процессы с OpenAI Agents SDK
Создавайте агентные системы, использующие эффективность Qwen3-Next через инфраструктуру Novita AI:
- Совместимость с OpenAI Agents SDK: используйте OpenAI Agents SDK с endpoint Novita для агентных рабочих процессов
- Возможности агентов: проектируйте системы, которые получают преимущества от крайней разреженности и производительности на длинных контекстах
- Простая интеграция: укажите SDK адрес
https://api.novita.ai/v3/openai
Интеграции со сторонними сервисами
- Интеграция с фреймворками: получайте доступ к Qwen3-Next-80B-A3B через LangChain, Dify и Langflow
- Инструменты для разработки: совместим со стандартными для OpenAI инструментами, включая Trae, Claude Code, Qwen Code, Cline и Cursor
- Экосистема Hugging Face: интегрируйте в Spaces и пайплайны через API Novita AI
Заключение
Qwen3-Next-80B-A3B — это не просто ещё одна эффективная модель, она демонстрирует, что архитектурные инновации могут обеспечить возможности корпоративного масштаба без соответствующих затрат.
Оба варианта модели — instruct и thinking — уже доступны на Novita AI и готовы к немедленному использованию. Получите доступ к 80 миллиардам параметров интеллекта со скоростью и стоимостью модели с 3 миллиардами параметров через playground, API или сторонние интеграции Novita AI.
Испытайте будущее эффективного ИИ уже сегодня с Qwen3-Next-80B-A3B на Novita AI.
Novita AI — ведущая облачная ИИ-платформа, которая предоставляет разработчикам простые в использовании API и доступную надёжную GPU-инфраструктуру для создания и масштабирования ИИ-приложений.
