Ключевые моменты
DeepSeek R1: Известен своими продвинутыми способностями к рассуждению, разработанными с помощью обучения с подкреплением (RL) в сочетании с контролируемой тонкой настройкой (SFT). Включает специализированные варианты, такие как DeepSeek-R1-Zero, обученный исключительно с помощью крупномасштабного RL (без SFT), демонстрирующий такие возможности, как самопроверка, рефлексивное рассуждение и расширенная генерация цепочек мыслей.
Qwen 2.5 72B: Превосходен в программировании, решении математических задач и выполнении инструкций. Эффективно генерирует длинные тексты (более 8 тысяч токенов), точно обрабатывает структурированные данные (например, таблицы) и выдает структурированные результаты в форматах, таких как JSON. Кроме того, обеспечивает надежную многоязычную поддержку более чем 29 языков.
Novita AI запускает Turbo-версию с 3-кратной пропускной способностью и временной скидкой 20%! Вы можете начать бесплатную пробную версию в Novita AI Playground!

Большие языковые модели (LLM) продолжают быстро развиваться, и такие передовые модели, как DeepSeek-R1 и Qwen 2.5 72B, сейчас находятся на переднем крае. В этой статье представлено углубленное техническое сравнение DeepSeek-R1 и Qwen 2.5 72B, рассматриваются их архитектуры, характеристики производительности и практические сценарии использования.
Основное описание моделей
Чтобы начать сравнение, сначала разберемся с фундаментальными характеристиками каждой модели.
DeepSeek R1
- Дата выпуска: 21 января 2025 г.
- Масштабы модели:
- Ключевые особенности:
- Размер модели: 671 млрд параметров (37 млрд активных на токен)
- Токенизатор: Улучшенный токенизатор с тегами саморефлексии
- Поддерживаемые языки: Многоязычный с культурной адаптацией
- Мультимодальность: Только текст
- Контекстное окно: 128 тысяч токенов
- Форматы хранения: Поддержка квантования Q8/Q5
- Архитектура: Смесь экспертов (MoE) + конвейер обучения с усилением RL
- Метод обучения: Построен на базе V3 с конвейером RL (SFT → RL → SFT → RL)
- Обучающие данные: База V3 + данные оптимизации RL
Qwen 2.5 72B
- Дата выпуска: 19 сентября 2024 г. (серия Qwen 2.5)
- Масштабы модели:
- Ключевые особенности:
- Размер модели: 72 млрд параметров
- Поддерживаемые языки: мощная многоязычная поддержка более чем 29 языков
- Мультимодальность: Только текст
- Контекстное окно: поддержка до 128 тысяч токенов и генерация до 8 тысяч токенов
- Архитектура: Смесь экспертов (MoE) + многоголовое латентное внимание
- Обучающие данные: Обучение на обширном наборе данных из 18 триллионов токенов
- Метод обучения: предварительное обучение на основе различных данных
Основное различие между DeepSeek R1 и Qwen 2.5 72B заключается в их подходе к обучению. DeepSeek R1 широко использует обучение с подкреплением (RL) (SFT → RL → SFT → RL), улучшая способности к рассуждению. В отличие от этого, Qwen 2.5 72B в основном полагается на контролируемую тонкую настройку (SFT) и обширное предварительное обучение без явной оптимизации RL, фокусируясь на многоязычной производительности и производительности общего назначения.
Сравнение скорости
Если вы хотите протестировать самостоятельно, вы можете начать бесплатную пробную версию на сайте Novita AI.

Попробуйте экономичную, но полноценную версию DeepSeek R1 Turbo прямо сейчас!
Сравнение скорости


по данным artificial analysis
Сравнение стоимости
| Модель | Контекст | Цена ввода ($/М токенов) | Цена вывода ($/М токенов) |
|---|---|---|---|
| deepseek/deepseek-r1-turbo | 64000 | $0.7 | $2.5 |
| deepseek/deepseek_r1 | 64000 | $4 | $4 |
| qwen/qwen-2.5-72b-instruct | 32000 | $0.38 | $0.4 |
Qwen 2.5 72B превосходит DeepSeek R1 по скорости вывода и задержке. Цены ввода и вывода DeepSeek R1 значительно выше, чем у Qwen 2.5 72B.
Сравнение бенчмарков
Теперь, когда мы определили основные характеристики каждой модели, давайте углубимся в их производительность по различным бенчмаркам. Это сравнение поможет проиллюстрировать их сильные стороны в разных областях.
| Бенчмарк | DeepSeek-R1 (%) | Qwen 2.5 72B (%) |
|---|---|---|
| LiveCodeBench (Кодинг) | 62 | 28 |
| GPQA Diamond | 71 | 49 |
| MATH-500 | 96 | 86 |
| MMLU-Pro | 84 | 72 |
Эти результаты позволяют предположить, что итеративный подход DeepSeek R1 с обучением с подкреплением может быть особенно эффективным для развития более сильных способностей в специализированных технических областях, требующих точного рассуждения и структурированных навыков решения проблем.
Если вы хотите увидеть больше сравнений, вы можете ознакомиться с этими статьями:
- Deepseek V3 vs Llama 3.3 70b: Языковые задачи против кода и математики
- DeepSeek R1 vs OpenAI o1: Различные архитектуры GRPO и PPO
- DeepSeek V3 vs. Qwen 2.5 72B: Точность против многоязычной эффективности
Требования к оборудованию
| Модель | Размер параметров | Конфигурация GPU |
|---|---|---|
| DeepSeek-R1-Distill-Llama-8B | 4.9B | 1 x NVIDIA RTX 4090 (24 ГБ VRAM) с шардированием модели |
| DeepSeek-R1-Distill-Qwen-14B | 9.0B | 1 x NVIDIA A100 (40 ГБ VRAM) или 2 x RTX 4090 (24 ГБ VRAM) с тензорным параллелизмом |
| DeepSeek-R1-Distill-Qwen-32B | 32B | 2 x NVIDIA A100 (40 ГБ VRAM) или 1 x NVIDIA H100 (80 ГБ VRAM) или 4 x RTX 4090 (24 ГБ VRAM) с тензорным параллелизмом |
| DeepSeek-R1-Distill-Llama-70B | 70B | 4 x NVIDIA A100 (40 ГБ VRAM) или 2 x NVIDIA H100 (80 ГБ VRAM) или 8 x RTX 4090 (24 ГБ VRAM) с тяжелым параллелизмом |
| DeepSeek-R1:671B | 671B (37 млрд активных параметров) | 16 x NVIDIA A100 (40 ГБ VRAM) или 8 x NVIDIA H100 (80 ГБ VRAM), требуется распределенный кластер GPU с InfiniBand |
| Qwen 2.5 72B | 72B | 8x RTX4090 или 4 x A100 или 2 x H100 |
Применение и варианты использования
DeepSeek R1
- Оптимизирован для сложных рассуждений, логических выводов и математических вычислений.
- Улучшен с помощью обучения с подкреплением (RL), что значительно повышает точность в задачах рассуждения.
- Очень эффективен для задач кодирования, алгоритмического решения проблем и генерации технического контента.
Qwen 2.5 72B
- Отлично подходит для многоязычных приложений, свободно поддерживая более 29 языков.
- Способен генерировать связный длинный контент с контекстными окнами до 128 тысяч токенов.
- Идеален для задач обработки структурированных данных, включая взаимодействие с чат-ботами, анализ данных, суммаризацию и извлечение информации.
Доступность и развертывание через Novita AI
Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предлагает доступный и надежный GPU-облачный сервис для создания и масштабирования.
Шаг 1: Войдите и откройте библиотеку моделей
Войдите в свою учетную запись и нажмите кнопку Model Library.

Попробуйте демо DeepSeek R1 сейчас!
Шаг 2: Выберите модель
Просмотрите доступные варианты и выберите модель, подходящую для ваших нужд.

Шаг 3: Начните бесплатную пробную версию
Начните бесплатную пробную версию, чтобы изучить возможности выбранной модели.

Шаг 4: Получите ваш API-ключ
Для аутентификации в API мы предоставим вам новый API-ключ. Перейдите на страницу «Settings» и скопируйте API-ключ, как показано на изображении.

Шаг 5: Установите API
Установите API с помощью менеджера пакетов, специфичного для вашего языка программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API завершения чата для пользователей Python.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
После регистрации Novita AI предоставляет $0.5 кредита для начала работы!
Если бесплатные кредиты закончатся, вы можете оплатить и продолжить использование.
И DeepSeek-R1, и Qwen 2.5 72B являются мощными большими языковыми моделями, каждая со своими явными преимуществами. DeepSeek-R1 специализируется на сложных рассуждениях и задачах решения проблем, в то время как Qwen 2.5 72B демонстрирует более широкие возможности, превосходя в многоязычных приложениях, обработке больших контекстов и структурированных данных.
Часто задаваемые вопросы
Что уникально в методологии обучения DeepSeek-R1-Zero?
DeepSeek-R1-Zero уникален тем, что является одной из первых моделей, подтверждающих, что сильные способности к рассуждению в LLM могут быть стимулированы исключительно с помощью обучения с подкреплением.
Где я могу получить доступ и использовать эти модели?
Обе модели DeepSeek-R1 и Qwen2.5 можно использовать через Novita AI по очень выгодной цене.
Что такое «дистилляция» в контексте DeepSeek-R1?
Дистилляция означает процесс переноса способностей к рассуждению более крупной модели (например, DeepSeek-R1) в меньшие модели.
Novita AI — это универсальная облачная платформа, которая расширяет ваши амбиции в области ИИ. Интегрированные API, бессерверные решения, GPU-инстансы — экономичные инструменты, которые вам нужны. Устраните инфраструктурные проблемы, начните бесплатно и воплотите свое видение ИИ в реальность.
