Порекомендуйте друзьям Novita AI — и вы оба получите по 10 $ в виде кредитов на LLM API — до 500 $ суммарного вознаграждения.
В поддержку сообщества разработчиков модели Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B сейчас доступны бесплатно на Novita AI.
Qwen 3 — это универсальное и мощное семейство открытых языковых моделей, созданное Alibaba. Благодаря передовой архитектуре и двум режимам рассуждения оно подходит как для периферийных устройств, так и для крупных корпоративных задач. В этой статье мы рассмотрим его возможности, типы моделей и способы использования — локально или через API.
Что такое Qwen 3?
Qwen 3 — это семейство открытых больших языковых моделей Alibaba 2025 года с переключаемыми режимами «мышления» и «без мышления», что обеспечивает улучшенное рассуждение и многоязычную производительность на 119+ языках. Линейка моделей Qwen 3 включает:
- Плотные модели:
- Модели на основе смеси экспертов (MoE):
Открытый исходный код и коммерческое использование
Лицензия Apache 2.0, веса свободно доступны для исследований и коммерческого применения. ### Эффективное ядро Transformer
Decoder-only с Grouped-Query-Attention для экономии памяти KV при длинном контексте до 128 K токенов. ### Двойные режимы «мышления / без мышления»
Подробная цепочка рассуждений, когда это нужно, и быстрые прямые ответы, когда важна скорость. ### Огромный корпус из 36 T токенов
119 языков с расширенными данными по STEM и коду для более сильных навыков рассуждения и программирования. ### Трёхэтапное предобучение
Базовые навыки → обогащение STEM → адаптация к длинному контексту в 32 K токена. ### Четырёхэтапное пост-обучение
Длинная цепочка рассуждений (SFT) → RL на рассуждениях → слияние режимов → общая RLHF-калибровка. ### Многоязычное следование инструкциям
Сильные стороны в английском и китайском, надёжная работа на 100+ языках для глобальных приложений. ### Готовность к инструментам / агентам
Встроенная схема вызова функций для определения и форматирования вызовов внешних инструментов. ### Модальность текст-на-вход / текст-на-выход
Сегодня оптимизирована для языковых задач; в будущих релизах планируются варианты с поддержкой зрения.
Архитектура серии Qwen 3

Бенчмарки серии Qwen 3


Модели с большим количеством параметров, такие как Qwen-23B и Qwen-14B, стабильно следуют правилам, причём более крупные модели и версии с включённым рассуждением набирают больше очков. Эти расхождения в моделях с малым количеством параметров могут быть связаны с ограничениями их способности к рассуждению: им не хватает вычислительной мощности, чтобы полностью использовать механизмы рассуждения, что приводит к неоптимальной производительности.
Как получить доступ к Qwen 3 локально?
Требования к оборудованию
| Модель | Рекомендуемый GPU | VRAM | vCPU | RAM | Хранилище |
|---|---|---|---|---|---|
| Qwen3-0.6B | RTX 3060 / T4 | 8 ГБ | 4 | 8 ГБ | 20 ГБ |
| Qwen3-1.7B | RTX 3060 / A5000 | 12–24 ГБ | 6–8 | 16 ГБ | 30 ГБ |
| Qwen3-4B | A100 40GB / RTX 3090 | 24–40 ГБ | 12+ | 24 ГБ | 40 ГБ |
| Qwen3-8B | A100 80GB / H100 | 40–80 ГБ | 16+ | 48 ГБ | 60 ГБ |
| Qwen3-14B | 2× A100 80GB / 1× H100 | 80 ГБ+ | 24+ | 64 ГБ | 80 ГБ |
| Qwen3-30B (MoE) | 2× H100 / 4× A100 | 160 ГБ | 48+ | 128 ГБ | 160 ГБ |
| Qwen3-32B | 2× H100 / 4× A100 | 160 ГБ | 64 | 160 ГБ | 200 ГБ |
| Qwen3-235B (MoE) | 8× H100 / 8× A100 | 640 ГБ | 128+ | 512 ГБ | 500+ ГБ |
Пошаговая инструкция по установке
# Шаг 1: Установите Python и создайте виртуальное окружение
# Убедитесь, что Python (>=3.8) установлен. Затем создайте и активируйте виртуальное окружение.
python3 -m venv llama_env
source llama_env/bin/activate # На Windows используйте `llama_env\Scripts\activate`
# Шаг 2: Установите необходимые библиотеки
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # Для оптимизации GPU
pip install bitsandbytes # Эффективное использование памяти GPU
# Шаг 3: Установите интерфейс командной строки Hugging Face и войдите в систему
pip install huggingface-cli
huggingface-cli login # Следуйте инструкциям для аутентификации
# Шаг 4: Запросите доступ к Llama-3.3 70B
# Перейдите на страницу модели Llama-3.3 70B на Hugging Face и запросите доступ.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
# Шаг 5: Загрузите файлы модели
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
# Шаг 6: Загрузите модель локально
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# ID модели и путь к локальной директории
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"
# Загрузите модель с оптимизацией GPU
model = AutoModelForCausalLM.from_pretrained(
local_model_dir,
device_map="auto", # Автоматическое распределение слоёв модели по GPU
torch_dtype=torch.bfloat16 # Использование bfloat16 для эффективного использования памяти
)
# Загрузите токенизатор
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)
# Шаг 7: Запустите инференс
# Определите входной текст
input_text = "Explain the theory of relativity in simple terms."
# Токенизируйте входные данные
inputs = tokenizer(input_text, return_tensors="pt").to("cuda") # Отправьте входные данные на GPU
# Сгенерируйте ответ
with torch.no_grad():
outputs = model.generate(
**inputs,
max_length=100, # Установите максимальную длину ответа
temperature=0.7, # Настройте креативность (ниже = менее креативно, выше = более креативно)
top_k=50, # Top-k сэмплирование для разнообразия
)
# Декодируйте выходные токены
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)
Как получить доступ к Qwen 3 через API
Novita AI предлагает доступную, надёжную и простую платформу для инференса с масштабируемым Llama 3.3 70b API, позволяя разработчикам создавать AI-приложения. Попробуйте демо Novita AI Llama 3.3 70b API уже сегодня!
Вариант 1: Прямая интеграция через API (пример на Python)

Попробуйте Qwen3 по очень низкой цене сейчас!
Ключевые особенности:
- Единый эндпоинт:
/v3/openaiподдерживает формат Chat Completions API от OpenAI. - Гибкие настройки: Регулируйте температуру, top-p, штрафы и другие параметры для точной настройки результатов.
- Потоковый режим и пакетная обработка: Выбирайте предпочтительный режим ответа.
Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK
Создавайте продвинутые многоагентные системы, интегрируя Novita AI с OpenAI Agents SDK:
- Подключи и работай: Используйте LLM Novita AI в любых рабочих процессах OpenAI Agents.
- Поддержка передачи, маршрутизации и использования инструментов: Создавайте агентов, которые могут делегировать задачи, сортировать их или выполнять функции, используя модели Novita AI.
- Интеграция с Python: Просто укажите SDK эндпоинт Novita (
https://api.novita.ai/v3/openai) и используйте ваш API-ключ.
Подключение Qwen 3 API на сторонних платформах
- Hugging Face: Используйте Qwen 3 в Spaces, пайплайнах или с библиотекой Transformers через эндпоинты Novita AI.

- Фреймворки для агентов и оркестрации: Легко подключайте Novita AI к партнёрским платформам, таким как Continue, AnythingLLM, LangChain, Dify и Langflow через официальные коннекторы и пошаговые руководства по интеграции.
- API, совместимый с OpenAI: Наслаждайтесь простой миграцией и интеграцией с такими инструментами, как Cline и Cursor, разработанными для стандарта API OpenAI.
Какие методы подходят вам?
Сравнение локального доступа и API
| Аспект | Локальный доступ | API-доступ |
| Масштабируемость | Ограничена; требует ручного обновления. | Масштабируется автоматически и эффективно. |
| Гибкость | Высокая гибкость; полный контроль над настройками. | Менее гибкий; зависит от конфигураций провайдера. |
| Удобство использования | Требует технических знаний. | Проще в использовании, не требует сложной настройки. |
| Стоимость | Высокие начальные затраты, низкие текущие. Лучше для долгосрочного использования. | Оплата по мере использования, идеально для небольших проектов или периодического использования. |
Рекомендации для разных групп пользователей
- Исследователи → Предпочитают локальный доступ для полного контроля и гибкости экспериментов.
- Разработчики → Используйте API для быстрого тестирования и создания приложений; переходите на локальный для кастомного обучения.
- Компании → API отлично подходит для лёгкой интеграции; локальный — для команд со стабильными потребностями.
- Небольшие команды и частные лица → API более бюджетный и простой для начала.
- Нетехнические пользователи → Однозначно выбирайте API — никакой сложной настройки.
Независимо от того, являетесь ли вы исследователем, разработчиком или бизнес-командой, Qwen 3 адаптируется под ваши нужды. Локальный доступ обеспечивает контроль и кастомизацию, а API — мгновенную масштабируемость и низкий порог входа. Архитектура Qwen 3 гарантирует мощные многоязычные способности, рассуждение и расширение с помощью инструментов для реальных задач.
Часто задаваемые вопросы
Что отличает Qwen 3 от других LLM?
Он поддерживает два режима мышления, многоязычное следование инструкциям и длинный контекст (128k токенов), а также открытые веса и коммерчески дружественную лицензию.
Могу ли я запустить Qwen 3 на своём ПК?
Только самые маленькие модели (например, 0.6B) подходят для потребительских GPU. Более крупные модели требуют конфигураций A100/H100.
Доступ через API проще?
Да! Novita AI и Hugging Face предлагают недорогие API Qwen 3 с возможностью быстрого подключения, идеально подходящие для быстрой интеграции и работы с низкой задержкой.
Novita AI — это универсальная облачная платформа, которая воплощает ваши AI-амбиции. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Избавьтесь от инфраструктурных забот, начните бесплатно и воплотите ваше AI-видение в реальность.

