Как получить доступ к Qwen 3 локально или через API: полное руководство

Как получить доступ к Qwen 3 локально или через API: полное руководство

Порекомендуйте друзьям Novita AI — и вы оба получите по 10 $ в виде кредитов на LLM API — до 500 $ суммарного вознаграждения.

В поддержку сообщества разработчиков модели Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B сейчас доступны бесплатно на Novita AI.

qwen 2.5 7b

Qwen 3 — это универсальное и мощное семейство открытых языковых моделей, созданное Alibaba. Благодаря передовой архитектуре и двум режимам рассуждения оно подходит как для периферийных устройств, так и для крупных корпоративных задач. В этой статье мы рассмотрим его возможности, типы моделей и способы использования — локально или через API.

Что такое Qwen 3?

Qwen 3 — это семейство открытых больших языковых моделей Alibaba 2025 года с переключаемыми режимами «мышления» и «без мышления», что обеспечивает улучшенное рассуждение и многоязычную производительность на 119+ языках. Линейка моделей Qwen 3 включает:

Открытый исходный код и коммерческое использование

Лицензия Apache 2.0, веса свободно доступны для исследований и коммерческого применения. ### Эффективное ядро Transformer

Decoder-only с Grouped-Query-Attention для экономии памяти KV при длинном контексте до 128 K токенов. ### Двойные режимы «мышления / без мышления»

Подробная цепочка рассуждений, когда это нужно, и быстрые прямые ответы, когда важна скорость. ### Огромный корпус из 36 T токенов

119 языков с расширенными данными по STEM и коду для более сильных навыков рассуждения и программирования. ### Трёхэтапное предобучение

Базовые навыки → обогащение STEM → адаптация к длинному контексту в 32 K токена. ### Четырёхэтапное пост-обучение

Длинная цепочка рассуждений (SFT) → RL на рассуждениях → слияние режимов → общая RLHF-калибровка. ### Многоязычное следование инструкциям

Сильные стороны в английском и китайском, надёжная работа на 100+ языках для глобальных приложений. ### Готовность к инструментам / агентам

Встроенная схема вызова функций для определения и форматирования вызовов внешних инструментов. ### Модальность текст-на-вход / текст-на-выход

Сегодня оптимизирована для языковых задач; в будущих релизах планируются варианты с поддержкой зрения.

Архитектура серии Qwen 3

qwen 3

Бенчмарки серии Qwen 3

Qwen 3 Series Benchmark

Qwen 3 Series Benchmark

Модели с большим количеством параметров, такие как Qwen-23B и Qwen-14B, стабильно следуют правилам, причём более крупные модели и версии с включённым рассуждением набирают больше очков. Эти расхождения в моделях с малым количеством параметров могут быть связаны с ограничениями их способности к рассуждению: им не хватает вычислительной мощности, чтобы полностью использовать механизмы рассуждения, что приводит к неоптимальной производительности.

Как получить доступ к Qwen 3 локально?

Требования к оборудованию

Модель Рекомендуемый GPU VRAM vCPU RAM Хранилище
Qwen3-0.6B RTX 3060 / T4 8 ГБ 4 8 ГБ 20 ГБ
Qwen3-1.7B RTX 3060 / A5000 12–24 ГБ 6–8 16 ГБ 30 ГБ
Qwen3-4B A100 40GB / RTX 3090 24–40 ГБ 12+ 24 ГБ 40 ГБ
Qwen3-8B A100 80GB / H100 40–80 ГБ 16+ 48 ГБ 60 ГБ
Qwen3-14B 2× A100 80GB / 1× H100 80 ГБ+ 24+ 64 ГБ 80 ГБ
Qwen3-30B (MoE) 2× H100 / 4× A100 160 ГБ 48+ 128 ГБ 160 ГБ
Qwen3-32B 2× H100 / 4× A100 160 ГБ 64 160 ГБ 200 ГБ
Qwen3-235B (MoE) 8× H100 / 8× A100 640 ГБ 128+ 512 ГБ 500+ ГБ

Пошаговая инструкция по установке

# Шаг 1: Установите Python и создайте виртуальное окружение
# Убедитесь, что Python (>=3.8) установлен. Затем создайте и активируйте виртуальное окружение.
python3 -m venv llama_env
source llama_env/bin/activate  # На Windows используйте `llama_env\Scripts\activate`

# Шаг 2: Установите необходимые библиотеки
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # Для оптимизации GPU
pip install bitsandbytes  # Эффективное использование памяти GPU

# Шаг 3: Установите интерфейс командной строки Hugging Face и войдите в систему
pip install huggingface-cli
huggingface-cli login  # Следуйте инструкциям для аутентификации

# Шаг 4: Запросите доступ к Llama-3.3 70B
# Перейдите на страницу модели Llama-3.3 70B на Hugging Face и запросите доступ.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# Шаг 5: Загрузите файлы модели
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# Шаг 6: Загрузите модель локально
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# ID модели и путь к локальной директории
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# Загрузите модель с оптимизацией GPU
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # Автоматическое распределение слоёв модели по GPU
    torch_dtype=torch.bfloat16  # Использование bfloat16 для эффективного использования памяти
)

# Загрузите токенизатор
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# Шаг 7: Запустите инференс
# Определите входной текст
input_text = "Explain the theory of relativity in simple terms."

# Токенизируйте входные данные
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # Отправьте входные данные на GPU

# Сгенерируйте ответ
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # Установите максимальную длину ответа
        temperature=0.7,  # Настройте креативность (ниже = менее креативно, выше = более креативно)
        top_k=50,         # Top-k сэмплирование для разнообразия
    )

# Декодируйте выходные токены
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)

Как получить доступ к Qwen 3 через API

Novita AI предлагает доступную, надёжную и простую платформу для инференса с масштабируемым Llama 3.3 70b API, позволяя разработчикам создавать AI-приложения. Попробуйте демо Novita AI Llama 3.3 70b API уже сегодня!

Вариант 1: Прямая интеграция через API (пример на Python)

qwen 3 api

Попробуйте Qwen3 по очень низкой цене сейчас!

Ключевые особенности:

  • Единый эндпоинт: /v3/openai поддерживает формат Chat Completions API от OpenAI.
  • Гибкие настройки: Регулируйте температуру, top-p, штрафы и другие параметры для точной настройки результатов.
  • Потоковый режим и пакетная обработка: Выбирайте предпочтительный режим ответа.

Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK

Создавайте продвинутые многоагентные системы, интегрируя Novita AI с OpenAI Agents SDK:

  • Подключи и работай: Используйте LLM Novita AI в любых рабочих процессах OpenAI Agents.
  • Поддержка передачи, маршрутизации и использования инструментов: Создавайте агентов, которые могут делегировать задачи, сортировать их или выполнять функции, используя модели Novita AI.
  • Интеграция с Python: Просто укажите SDK эндпоинт Novita (https://api.novita.ai/v3/openai) и используйте ваш API-ключ.

Подключение Qwen 3 API на сторонних платформах

  • Hugging Face: Используйте Qwen 3 в Spaces, пайплайнах или с библиотекой Transformers через эндпоинты Novita AI.

Qwen 3 API на сторонних платформах

  • Фреймворки для агентов и оркестрации: Легко подключайте Novita AI к партнёрским платформам, таким как Continue, AnythingLLM, LangChain, Dify и Langflow через официальные коннекторы и пошаговые руководства по интеграции.
  • API, совместимый с OpenAI: Наслаждайтесь простой миграцией и интеграцией с такими инструментами, как Cline и Cursor, разработанными для стандарта API OpenAI.

Какие методы подходят вам?

Сравнение локального доступа и API

Аспект Локальный доступ API-доступ
Масштабируемость Ограничена; требует ручного обновления. Масштабируется автоматически и эффективно.
Гибкость Высокая гибкость; полный контроль над настройками. Менее гибкий; зависит от конфигураций провайдера.
Удобство использования Требует технических знаний. Проще в использовании, не требует сложной настройки.
Стоимость Высокие начальные затраты, низкие текущие. Лучше для долгосрочного использования. Оплата по мере использования, идеально для небольших проектов или периодического использования.

Рекомендации для разных групп пользователей

  • Исследователи → Предпочитают локальный доступ для полного контроля и гибкости экспериментов.
  • Разработчики → Используйте API для быстрого тестирования и создания приложений; переходите на локальный для кастомного обучения.
  • КомпанииAPI отлично подходит для лёгкой интеграции; локальный — для команд со стабильными потребностями.
  • Небольшие команды и частные лицаAPI более бюджетный и простой для начала.
  • Нетехнические пользователи → Однозначно выбирайте API — никакой сложной настройки.

Независимо от того, являетесь ли вы исследователем, разработчиком или бизнес-командой, Qwen 3 адаптируется под ваши нужды. Локальный доступ обеспечивает контроль и кастомизацию, а API — мгновенную масштабируемость и низкий порог входа. Архитектура Qwen 3 гарантирует мощные многоязычные способности, рассуждение и расширение с помощью инструментов для реальных задач.

Часто задаваемые вопросы

Что отличает Qwen 3 от других LLM?

Он поддерживает два режима мышления, многоязычное следование инструкциям и длинный контекст (128k токенов), а также открытые веса и коммерчески дружественную лицензию.

Могу ли я запустить Qwen 3 на своём ПК?

Только самые маленькие модели (например, 0.6B) подходят для потребительских GPU. Более крупные модели требуют конфигураций A100/H100.

Доступ через API проще?

Да! Novita AI и Hugging Face предлагают недорогие API Qwen 3 с возможностью быстрого подключения, идеально подходящие для быстрой интеграции и работы с низкой задержкой.

Novita AI — это универсальная облачная платформа, которая воплощает ваши AI-амбиции. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Избавьтесь от инфраструктурных забот, начните бесплатно и воплотите ваше AI-видение в реальность.

Рекомендуем к прочтению