Qwen3-Next-80B-A3B на Novita AI: следующее поколение модели MoE с высокой разреженностью

Содержание

Серия Qwen3-Next
Бенчмарки производительности Qwen3-Next-80B-A3B
Как получить доступ к Qwen3-Next-80B-A3B на Novita AI
Заключение

Крупные языковые модели всегда сталкивались с фундаментальным компромиссом: больше параметров означает лучшую производительность, но также более высокие затраты и более медленный вывод. Qwen3-Next-80B-A3B полностью ломает это правило.

Имея 80 миллиардов общих параметров, но всего 3 миллиарда активных во время вывода, эта ультра-разреженная модель MoE превосходит Qwen3-32B, используя менее 1/10 ресурсов для обучения. Её революционная архитектура, включающая Hybrid Attention, разреженность MoE 1:50 и Multi-Token Prediction, обеспечивает более чем 10-кратное ускорение вывода на длинных контекстах.

Novita AI теперь предлагает два варианта из серии Qwen3-Next:

qwen/qwen3-next-80b-a3b-instruct: $0.15 за миллион входных токенов, $1.5 за миллион выходных токенов
qwen/qwen3-next-80b-a3b-thinking: $0.15 за миллион входных токенов, $1.5 за миллион выходных токенов

Обе модели готовы к использованию через платформу Novita AI: вы можете экспериментировать с ними в playground или интегрировать через API — не требуется настройка инфраструктуры.

Серия Qwen3-Next

Серия Qwen3-Next представляет собой следующее поколение базовых моделей, оптимизированных для работы с экстремальной длиной контекста и эффективности использования большого количества параметров. Эта инновационная серия включает архитектурные нововведения, разработанные для максимизации производительности при минимизации вычислительных затрат:

Источник: Официальный блог Qwen3-Next

Hybrid Attention: заменяет стандартное внимание комбинацией Gated DeltaNet и Gated Attention, что позволяет эффективно моделировать контекст.
High-Sparsity MoE: обеспечивает крайне низкое соотношение активации 1:50 в слоях MoE — значительно снижает количество операций с плавающей запятой (FLOPs) на токен при сохранении ёмкости модели.
Multi-Token Prediction (MTP): повышает производительность модели на этапе предобучения и ускоряет вывод.
Другие оптимизации: включают такие техники, как zero-centered и weight-decayed layernorm, Gated Attention и другие стабилизирующие улучшения для устойчивого обучения.

Построенная на этой архитектуре, Qwen3-Next-80B-A3B имеет 80 миллиардов общих параметров, из которых только 3 миллиарда активны — что обеспечивает крайнюю разреженность и эффективность.

Несмотря на свою ультра-эффективность, она превосходит Qwen3-32B на downstream-задачах, при этом требуя менее 1/10 затрат на обучение. Более того, она обеспечивает более чем 10-кратный рост пропускной способности вывода по сравнению с Qwen3-32B при работе с контекстами длиннее 32K токенов.

Бенчмарки производительности Qwen3-Next-80B-A3B

Производительность Instruct-модели

Источник: Официальный блог Qwen3-Next

Производительность Thinking-модели

Источник: Официальный блог Qwen3-Next

Как получить доступ к Qwen3-Next-80B-A3B на Novita AI

Получите доступ к революционной модели Qwen3-Next-80B-A3B через инфраструктуру Novita AI, используя крайнюю разреженность для беспрецедентной эффективности. Платформа Novita AI исключает сложность развертывания, полностью раскрывая потенциал этой архитектуры следующего поколения.

Используйте веб-интерфейс Playground (не требуется написание кода)

Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с Qwen3-Next-80B-A3B за несколько секунд через веб-интерфейс Novita AI — не требуется настройка инфраструктуры.

Интерактивное тестирование: Изучите механизм Hybrid Attention и возможности Multi-Token Prediction модели через интуитивно понятный интерфейс playground Novita AI.

Ключевые параметры конфигурации:

max_tokens: протестируйте исключительные возможности Qwen3-Next по работе с длинными контекстами
temperature & top_p: тонко настройте креативность и разнообразие ответов
System Prompt: мгновенно настройте поведение модели
Function Calling: протестируйте интеграцию инструментов прямо в playground

Сравнение моделей: Переключайтесь между вариантами Qwen3-Next-80B-A3B-Instruct и Thinking, или сравнивайте с другими моделями, доступными на Novita AI, чтобы оценить производительность для ваших сценариев использования.

Интеграция через API (для разработчиков)

Подключите Qwen3-Next-80B-A3B к вашим приложениям через REST API Novita AI — получайте преимущества 10-кратной пропускной способности вывода модели на длинных контекстах без необходимости управления инфраструктурой.

Вариант 1: Прямая интеграция через API (пример на Python)

Получите доступ к эффективной архитектуре Qwen3-Next через совместимый с OpenAI endpoint Novita AI:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Возможности платформы:

Совместимый с OpenAI endpoint: /v3/openai для бесшовной интеграции
Гибкие параметры: управляйте генерацией с помощью temperature, top-p, штрафов и других параметров
Поддержка потоковой передачи: выбирайте между потоковыми или пакетными ответами
Выбор модели: доступны как instruct, так и thinking варианты

Вариант 2: Мультиагентные рабочие процессы с OpenAI Agents SDK

Создавайте агентные системы, использующие эффективность Qwen3-Next через инфраструктуру Novita AI:

Совместимость с OpenAI Agents SDK: используйте OpenAI Agents SDK с endpoint Novita для агентных рабочих процессов
Возможности агентов: проектируйте системы, которые получают преимущества от крайней разреженности и производительности на длинных контекстах
Простая интеграция: укажите SDK адрес https://api.novita.ai/v3/openai

Интеграции со сторонними сервисами

Интеграция с фреймворками: получайте доступ к Qwen3-Next-80B-A3B через LangChain, Dify и Langflow
Инструменты для разработки: совместим со стандартными для OpenAI инструментами, включая Trae, Claude Code, Qwen Code, Cline и Cursor
Экосистема Hugging Face: интегрируйте в Spaces и пайплайны через API Novita AI

Заключение

Qwen3-Next-80B-A3B — это не просто ещё одна эффективная модель, она демонстрирует, что архитектурные инновации могут обеспечить возможности корпоративного масштаба без соответствующих затрат.

Оба варианта модели — instruct и thinking — уже доступны на Novita AI и готовы к немедленному использованию. Получите доступ к 80 миллиардам параметров интеллекта со скоростью и стоимостью модели с 3 миллиардами параметров через playground, API или сторонние интеграции Novita AI.

Испытайте будущее эффективного ИИ уже сегодня с Qwen3-Next-80B-A3B на Novita AI.

Novita AI — ведущая облачная ИИ-платформа, которая предоставляет разработчикам простые в использовании API и доступную надёжную GPU-инфраструктуру для создания и масштабирования ИИ-приложений.

Qwen3-Next-80B-A3B на Novita AI: следующее поколение модели MoE с высокой разреженностью

Серия Qwen3-Next