Пригласите своих друзей Novita AI и вы оба заработаете по 10 долларов в LLM API-кредиты — до 500 долларов США в общей сумме вознаграждений.
Для поддержки сообщества разработчиков Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B в настоящее время доступны бесплатно на Novita AI.
Qwen 3 — это универсальное и мощное семейство языковых моделей с открытым исходным кодом, разработанное Alibaba. Благодаря передовой архитектуре и двухрежимному подходу, оно предназначено как для периферийных устройств, так и для крупных корпоративных задач. В этой статье рассматриваются его возможности, типы моделей и способы использования — локально или через API.
Квен 3 — это семейство моделей языков с открытым исходным кодом Alibaba 2025 года, включающее переключаемые режимы «мышления» и «немышления» для улучшенного мышления и многоязыковой производительности на более чем 119 языках. Модельный ряд Qwen 3 включает в себя:
Эффективен на английском и китайском языках, надежен на более чем 100 языках для применения по всему миру.
Готовность инструмента/агента
Встроенная схема вызова функций для принятия решения и форматирования вызовов внешних инструментов.
Модальность ввода/вывода текста
Оптимизирован для решения языковых задач на сегодняшний день; варианты визуализации запланированы на будущие выпуски.
Архитектура серии Qwen 3
Тест серии Qwen 3
Модели с высокими параметрами Такие модели, как Qwen-23B и Qwen-14B, последовательно следуют правилам, при этом более крупные модели и версии с поддержкой рассуждений получают более высокие оценки. Эти расхождения в моделях с низкими параметрами могут быть связаны с ограничениями их возможностей рассуждений, поскольку они не способны в полной мере использовать механизмы рассуждений, что приводит к неоптимальной производительности.
Как получить локальный доступ к Qwen 3?
Требования к оборудованию
Модель
Рекомендованные GPU
VRAM
VCPU будут
Оперативная память
Память
Квен3-0.6Б
RTX 3060 / T4
8 ГБ
4
8 ГБ
20 ГБ
Квен3-1.7Б
RTX 3060 / A5000
12–24 ГБ
6-8
16 ГБ
30 ГБ
Квен3-4Б
A100 40 ГБ / RTX 3090
24–40 ГБ
12+
24 ГБ
40 ГБ
Квен3-8Б
A100 80 ГБ / H100
40–80 ГБ
16+
48 ГБ
60 ГБ
Квен3-14Б
2× A100 80 ГБ / 1× H100
80 ГБ +
24+
64 ГБ
80 ГБ
Qwen3-30B (MoE)
2× H100 / 4× A100
160 ГБ
48+
128 ГБ
160 ГБ
Квен3-32Б
2× H100 / 4× A100
160 ГБ
64
160 ГБ
200 ГБ
Qwen3-235B (MoE)
8× H100 / 8× A100
640 ГБ
128+
512 ГБ
500+ ГБ
Пошаговое Руководство по Установке
# Шаг 1: Установка Python и создание виртуального окружения # Убедитесь, что установлен Python (>=3.8). Затем создайте и активируйте виртуальное окружение. python3 -m venv llama_env source llama_env/bin/activate # В Windows используйте `llama_env\Scripts\activate` # Шаг 2: Установка необходимых библиотек pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # Для GPU оптимизация pip install bitsandbytes # Эффективно GPU Использование памяти # Шаг 3: Установите Hugging Face CLI и войдите в систему pip install huggingface-cli huggingface-cli login # Следуйте инструкциям для аутентификации # Шаг 4: Запросите доступ к Llama-3.3 70B # Посетите страницу модели Hugging Face для Llama-3.3 70B и запросите доступ. # URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct # Шаг 5: Загрузите файлы модели huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct # Шаг 6: Загрузите модель локально import torch from transformers import AutoModelForCausalLM, AutoTokenizer # Идентификатор модели и путь к локальному каталогу model_id = "meta-llama/Llama-3.3-70B-Instruct" local_model_dir = "./Llama-3.3-70B-Instruct" # Загрузите модель с GPU модель оптимизации = AutoModelForCausalLM.from_pretrained( local_model_dir, device_map="auto", # Автоматически сопоставлять слои модели с GPU(s) torch_dtype=torch.bfloat16 # Используйте bfloat16 для эффективного использования памяти ) # Загрузите токенизатор tokenizer = AutoTokenizer.from_pretrained(local_model_dir) # Шаг 7: Запустите вывод # Определите входной текст input_text = "Объясните теорию относительности простыми терминами." # Токенизируйте входные данные inputs = tokenizer(input_text, return_tensors="pt").to("cuda") # Отправьте входные данные в GPU
# Сгенерируйте ответ с помощью torch.no_grad(): outputs = model.generate( **inputs, max_length=100, # Установите максимальную длину ответа temperature=0.7, # Отрегулируйте креативность (ниже = менее креативно, выше = более креативно) top_k=50, # Выборка top-k для разнообразия ) # Расшифруйте выходные токены response = tokenizer.decode(outputs[0], skip_special_tokens=True) print("Response:", response)
Как получить доступ к Qwen 3 через API
Novita AI предлагает доступную, надежную и простую платформу вывода с масштабируемостью Llama 3.3 70b API, предоставляя разработчикам возможность создавать приложения на базе ИИ. Попробуйте Novita AI Демонстрация API Llama 3.3 70b Cегодня!
Вариант 1: Прямая интеграция API (пример на Python)
Единая конечная точка:/v3/openai поддерживает формат API завершения чата OpenAI.
Гибкое управление: Отрегулируйте температуру, верхний предел, штрафы и многое другое для получения индивидуальных результатов.
Потоковая передача и пакетная обработка: Выберите предпочитаемый вами режим ответа.
Вариант 2: Многоагентные рабочие процессы сOpenAIАгентSDK
Создавайте передовые многоагентные системы путем интеграции Novita AI с SDK агентов OpenAI:
Подключи и играй: Используйте Novita AIАвтора LLMв любом рабочем процессе OpenAI Agents.
Поддерживает передачу данных, маршрутизацию и использование инструментов: Проектирование агентов, которые могут делегировать, сортировать или выполнять функции, все это работает на Novita AIмодели.
Интеграция Python: Просто укажите SDK на конечную точку Novita (https://api.novita.ai/v3/openai) и используйте свой ключ API.
Подключите Qwen 3 API на сторонних платформах
Обнимая лицо: Используйте Qwen 3 в пространствах, трубопроводах или с библиотекой Transformers через Novita AI конечные точки.
Агентские и оркестровочные фреймворки: Легко подключиться Novita AI с партнерскими платформами, такими как Продолжить, ВсеLLM,Лангчейн, Диди и Лангфлоу через официальные соединители и пошаговые руководства по интеграции.
API, совместимый с OpenAI: Наслаждайтесь простой миграцией и интеграцией с помощью таких инструментов, как Cline и Курсор, разработанный для стандарта API OpenAI.
Какие методы подходят именно вам?
Сравнение локального и API-доступа
Аспект
Локальный доступ
Доступ API
Масштабируемость
Ограничено; требует ручного обновления.
Масштабируется автоматически и эффективно.
Гибкость
Высокая гибкость; полный контроль над настройками.
Менее гибкий; зависит от настроек провайдера.
Удобство использования
Требуется техническая экспертиза.
Проще в использовании, не требует сложной настройки.
Доступность
Высокая первоначальная стоимость, низкие текущие расходы. Оптимально для долгосрочного использования.
Оплата по факту использования, идеально подходит для небольших объемов или нерегулярного использования.
Рекомендации для различных групп пользователей
Исследователи → Предпочитать локальный доступ для полного контроля и гибкости эксперимента.
Застройщики → Использовать API для быстрого тестирования и создания приложений; перейдите локальным для индивидуального обучения.
Компании → API отлично подходит для легкой интеграции; локальным подходит командам со стабильными потребностями.
Небольшие команды и отдельные лица → API более выгоден с точки зрения бюджета и с него проще начать.
Нетехнические пользователи → Определенно пойду с API— не требуется сложной настройки.
Независимо от того, являетесь ли вы исследователем, разработчиком или бизнес-командой, Qwen 3 адаптируется к вашим потребностям. Локальный доступ обеспечивает управление и настройку, а API обеспечивают мгновенную масштабируемость и низкий порог входа. Архитектура Qwen 3 обеспечивает мощные многоязычные возможности, возможности логического мышления и инструментальные средства для решения реальных задач.
Часто задаваемые вопросы
Что отличает Qwen 3 от других LLMs?
Он поддерживает режимы двойного мышления, мощное многоязычное обучение и длинный контекст (128 тыс. токенов), с открытыми весами и коммерчески выгодным лицензированием.
Могу ли я запустить Qwen 3 на моем ПК?
Только самые маленькие модели (например, 0.6B) подходят для потребительского использования. GPUs. Для более крупных моделей требуются настройки A100/H100.
Проще ли получить доступ через API?
Да! Novita AI и Hugging Face предлагают недорогие, готовые к использованию API Qwen 3, которые идеально подходят для быстрой интеграции и использования с малой задержкой.
Novita AI — это комплексная облачная платформа, которая поможет вам реализовать ваши амбиции в области искусственного интеллекта. Интегрированные API, бессерверные решения, GPU Instance — необходимые вам экономичные инструменты. Избавьтесь от инфраструктуры, начните бесплатно и воплотите свою идею ИИ в реальность.