Как получить доступ к Qwen 2.5 7B с помощью API или локально: полное руководство

как получить доступ к qwen 2.5 7b

Ключевые моменты

Квен2.5-7Б это среднемасштабная компания с открытым исходным кодом LLM с 7.6 млрд параметров, поддержкой 128 КБ контекста и надежной производительностью общего назначения.

Qwen2.5-7B может быть развернут локально с GPUs (например, RTX 4090), но высокоточные форматы, такие как FP32, требуют дорогостоящих аппаратных настроек.

Для более широкой доступности, API-доступ через Novita AI предлагает масштабируемую, экономически эффективную альтернативу, полностью совместимую с SDK OpenAI.

Пригласите своих друзей Novita AI и вы оба заработаете по 10 долларов в LLM API-кредиты — до 500 долларов в общей сумме вознаграждений. Для поддержки сообщества разработчиков Qwen2.5-7B в настоящее время доступен бесплатно на Novita AI.

qwen 2.5 7б

Qwen2.5-7B — это универсальный проект с открытым исходным кодом LLM Разработан для решения общих задач, сочетая в себе производительность и эффективность. Поддержка более 29 языков и объём контекста до 128 КБ обеспечивает расширенные рассуждения и широкий охват приложений.

Что такое Qwen 2.5 7B?

Квен 2.5 7B — мощная языковая модель среднего размера с открытым исходным кодом, содержащая 7.6 млрд параметров, поддерживающая 128 КБ контекста и оптимизированная для задач общего назначения.

Обзор модели

  • Модель Размер: 7.61B параметры
  • Open Source: Открыть
  • Архитектура: Трансформаторы со смещением RoPE, SwiGLU, RMSNorm и Attention QKV
  • Длина контекста: 128 жетонов

Язык и мультимодальные

  • Поддерживаемые Языки: Поддерживает более 29 многоязычных языков
  • Мультимодальные возможности: Только текст в текст
Детали обучения
  • Объем обучающих данных: Обучение проведено на наборе данных, содержащем более 18 триллионов токенов.

эталонный тест

qwen 2.5 7b бенчмарк

По сравнению с другими моделями Qwen 2.5

Серия Qwen 2.5 предлагает масштабируемое семейство моделей с диапазоном параметров от 0.5 млрд до 72 млрд, включая общие, кодирующие и математические варианты, предназначенные для удовлетворения разнообразных потребностей: от легкого развертывания до высокопроизводительных приложений ИИ.

модели qwen 2.5
С Qwen
  1. Широкий выбор размеров моделей для различных вариантов использования
    Серия Qwen 2.5 охватывает период от от 0.5Б до 72Б параметры, включая общие, Кодер и Математики варианты — обеспечивающие гибкость для различных задач и вычислительных бюджетов.
  2. Более крупные модели оснащены длинными контекстными окнами
    Большинство моделей поддерживают 128K или 32K Длина контекста позволяет проводить развернутые рассуждения и вести многовариантные диалоги. Только математические модели используют более короткие 4K контексты, оптимизированные для плотных вычислений.
  3. Встраивание галстука используется выборочно
    Встраивание связей разрешено для небольших и специализированных моделей (например, вариантов 1.5B), что, вероятно, позволяет сократить количество параметров, в то время как для более крупных моделей оно отключено для повышения репрезентативности.
  4. Архитектура предсказуемо масштабируется в зависимости от размера модели
    • Слои: от 24 до 80
    • Внимание головок: от 14/2 до 64/8 (разделение Q/KV)
      Это отражает структурированную стратегию масштабирования с увеличением глубины и ширины.
  5. Специализированные модели кодирования и математики имеют более короткую длину генерации
    В этих моделях используется Длина поколения 2К и оптимизированы для задач, специфичных для предметной области, таких как генерация кода или математические рассуждения, отдавая предпочтение точности, а не охвату контекста.

Как получить локальный доступ к Qwen 2.5 7B

GPU СОВЕТЫ

квантованиеМодель РазмерРекомендованные GPUТребования к VRAMПриблизительный GPU Стоимость (USD)
FP16~ 16.1 ГБ1× RTX 4090 (24 ГБ)≥24 ГБ~$1,600–$1,800
FP32~ 32.2 ГБ2× RTX 4090 (по 24 ГБ каждая)≥48 ГБ~$3,200–$3,600
4-битный (Q4)~ 4.02 ГБRTX 3060 (12 ГБ)≥8 ГБ~$300–$350

Быстрое начало

from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda" # устройство для загрузки модели model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-7B-Instruct", torch_dtype="auto", device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-7B-Instruct") prompt = "Дайте мне краткое введение в большую языковую модель." messages = [ {"role": "system", "content": "Вы полезный помощник."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(device) generated_ids = model.generate( model_inputs.input_ids, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

Хотя локальная работа Qwen2.5-7B обеспечивает полный контроль и более быстрое время отклика, первоначальные затраты на приобретение высокопроизводительного оборудования GPUs, особенно при развертывании с полной точностью (FP32), может быть значительно выше, чем при использовании API с оплатой по факту использования. Для разработчиков или команд с ограниченным бюджетом доступ к API часто оказывается гораздо более экономичным и масштабируемым решением.

Как получить доступ к Qwen 2.5 7B через API?

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступный и надежный GPU облако для строительства и масштабирования.

Вы можете начать бесплатную пробную версию, чтобы изучить возможности выбранной модели. После установки импортируйте необходимые библиотеки в свою среду разработки. Инициализируйте API, используя свой ключ API, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API завершения чата для пользователей Python.

qwen 2.5 7b свободный маршрут

Прямая интеграция API

из openai импорт OpenAI клиент = OpenAI( base_url="https://api.novita.ai/v3/openai", api_key=" Novita AI API Key>", ) model = "qwen/qwen2.5-7B-Instruct" stream = True # или False max_tokens = 2048 system_content = """Будьте полезным помощником""" temperature = 1 top_p = 1 min_p = 0 top_k = 50 attendance_penalty = 0 frequency_penalty = 0 repeat_penalty = 1 response_format = { "type": "text" } chat_completion_res = client.chat.completions.create( model=model, messages=[ { "role": "system", "content": system_content, }, { "role": "user", "content": "Привет!", } ], stream=stream, max_tokens=max_tokens, temperature=temperature, top_p=top_p, attendance_penalty=presence_penalty, frequency_penalty= frequency_penalty, response_format=response_format, extra_body={ "top_k": top_k, "repetition_penalty": repeat_penalty, "min_p": min_p } ) если поток: для фрагмента в chat_completion_res: print(chunk.choices[0].delta.content или "", end="") иначе: print(chat_completion_res.choices[0].message.content)

Многоагентные рабочие процессы с OpenAI Агент SDK

Создавайте передовые многоагентные системы путем интеграции Novita AI с SDK агентов OpenAI:

  • Подключи и играй: Используйте Novita AIАвтора LLMв любом рабочем процессе OpenAI Agents.
  • Поддерживает передачу данных, маршрутизацию и использование инструментов: Проектирование агентов, которые могут делегировать, сортировать или выполнять функции, все это работает на Novita AIмодели.
  • Интеграция Python: Просто укажите SDK на конечную точку Novita (https://api.novita.ai/v3/openai) и используйте свой ключ API.

На сторонних платформах

  • Обнимая лицо: Используйте Qwen 3 в пространствах, трубопроводах или с библиотекой Transformers через Novita AI конечные точки.
  • Агентские и оркестровочные фреймворки: Легко подключиться Novita AI с партнерскими платформами, такими как Продолжить, ВсеLLM,Лангчейн, Диди и Лангфлоу через официальные соединители и пошаговые руководства по интеграции.
  • API, совместимый с OpenAI: Наслаждайтесь простой миграцией и интеграцией с помощью таких инструментов, как Cline и Курсор, разработанный для стандарта API OpenAI.

Независимо от того, запускают ли Qwen2.5-7B локально или через API, разработчики получают доступ к мощному набору инструментов. Однако локальные затраты на развертывание GPUкак RTX 4090 может быть запретительным, делая Novita AIИнтеграция API — более разумный и масштабируемый выбор для большинства команд.

Часто задаваемые вопросы

Как запустить Qwen 2.5 7B локально?

Используйте высококачественный GPU Например, RTX 4090. Для FP16 требуется около 24 ГБ видеопамяти, а для FP32 — около 48 ГБ. Вам также потребуется установить библиотеку Transformers и загрузить модель с помощью AutoModelForCausalLM.

Как доступ через API соотносится с локальным запуском модели?

Доступ к API исключает необходимость предварительной оплаты GPU Стоимость и гибкость масштабирования. Локальное развертывание обеспечивает контроль, но гораздо дороже для полноточных конфигураций.

Как получить доступ к Qwen 2.5 7B через API?

Novita AI обеспечивает API-интерфейс, совместимый с OpenAI, работающий по принципу plug-and-play.

Novita AI — это комплексная облачная платформа, которая поможет вам реализовать ваши амбиции в области искусственного интеллекта. Интегрированные API, бессерверные решения, GPU Instance — необходимые вам экономичные инструменты. Избавьтесь от инфраструктуры, начните бесплатно и воплотите свою идею ИИ в реальность.


Узнайте больше от Novita

Подпишитесь, чтобы получать последние публикации на вашу электронную почту.

Оставьте комментарий

Наверх

Узнайте больше от Novita

Подпишитесь сейчас, чтобы продолжить чтение и получить доступ к полному архиву.

Подробнее