DeepSeek-R1 против Qwen 2.5 72B: Рассуждения против многоязычности и обработки данных

Содержание

Основное описание моделей
Сравнение скорости
Сравнение бенчмарков
Требования к оборудованию
Применение и варианты использования
Доступность и развертывание через Novita AI

Ключевые моменты

DeepSeek R1: Известен своими продвинутыми способностями к рассуждению, разработанными с помощью обучения с подкреплением (RL) в сочетании с контролируемой тонкой настройкой (SFT). Включает специализированные варианты, такие как DeepSeek-R1-Zero, обученный исключительно с помощью крупномасштабного RL (без SFT), демонстрирующий такие возможности, как самопроверка, рефлексивное рассуждение и расширенная генерация цепочек мыслей.

Qwen 2.5 72B: Превосходен в программировании, решении математических задач и выполнении инструкций. Эффективно генерирует длинные тексты (более 8 тысяч токенов), точно обрабатывает структурированные данные (например, таблицы) и выдает структурированные результаты в форматах, таких как JSON. Кроме того, обеспечивает надежную многоязычную поддержку более чем 29 языков.

Novita AI запускает Turbo-версию с 3-кратной пропускной способностью и временной скидкой 20%! Вы можете начать бесплатную пробную версию в Novita AI Playground!

Большие языковые модели (LLM) продолжают быстро развиваться, и такие передовые модели, как DeepSeek-R1 и Qwen 2.5 72B, сейчас находятся на переднем крае. В этой статье представлено углубленное техническое сравнение DeepSeek-R1 и Qwen 2.5 72B, рассматриваются их архитектуры, характеристики производительности и практические сценарии использования.

Основное описание моделей

Чтобы начать сравнение, сначала разберемся с фундаментальными характеристиками каждой модели.

DeepSeek R1

Дата выпуска: 21 января 2025 г.
Масштабы модели:
Ключевые особенности:
- Размер модели: 671 млрд параметров (37 млрд активных на токен)
- Токенизатор: Улучшенный токенизатор с тегами саморефлексии
- Поддерживаемые языки: Многоязычный с культурной адаптацией
- Мультимодальность: Только текст
- Контекстное окно: 128 тысяч токенов
- Форматы хранения: Поддержка квантования Q8/Q5
- Архитектура: Смесь экспертов (MoE) + конвейер обучения с усилением RL
- Метод обучения: Построен на базе V3 с конвейером RL (SFT → RL → SFT → RL)
- Обучающие данные: База V3 + данные оптимизации RL

Qwen 2.5 72B

Дата выпуска: 19 сентября 2024 г. (серия Qwen 2.5)
Масштабы модели:
- qwen/qwen-2.5-72b-instruct
Ключевые особенности:
- Размер модели: 72 млрд параметров
- Поддерживаемые языки: мощная многоязычная поддержка более чем 29 языков
- Мультимодальность: Только текст
- Контекстное окно: поддержка до 128 тысяч токенов и генерация до 8 тысяч токенов
- Архитектура: Смесь экспертов (MoE) + многоголовое латентное внимание
- Обучающие данные: Обучение на обширном наборе данных из 18 триллионов токенов
- Метод обучения: предварительное обучение на основе различных данных

Основное различие между DeepSeek R1 и Qwen 2.5 72B заключается в их подходе к обучению. DeepSeek R1 широко использует обучение с подкреплением (RL) (SFT → RL → SFT → RL), улучшая способности к рассуждению. В отличие от этого, Qwen 2.5 72B в основном полагается на контролируемую тонкую настройку (SFT) и обширное предварительное обучение без явной оптимизации RL, фокусируясь на многоязычной производительности и производительности общего назначения.

Сравнение скорости

Если вы хотите протестировать самостоятельно, вы можете начать бесплатную пробную версию на сайте Novita AI.

Попробуйте экономичную, но полноценную версию DeepSeek R1 Turbo прямо сейчас!

Сравнение скорости

по данным artificial analysis

Сравнение стоимости

Модель	Контекст	Цена ввода ($/М токенов)	Цена вывода ($/М токенов)
deepseek/deepseek-r1-turbo	64000	$0.7	$2.5
deepseek/deepseek_r1	64000	$4	$4
qwen/qwen-2.5-72b-instruct	32000	$0.38	$0.4

Qwen 2.5 72B превосходит DeepSeek R1 по скорости вывода и задержке. Цены ввода и вывода DeepSeek R1 значительно выше, чем у Qwen 2.5 72B.

Сравнение бенчмарков

Теперь, когда мы определили основные характеристики каждой модели, давайте углубимся в их производительность по различным бенчмаркам. Это сравнение поможет проиллюстрировать их сильные стороны в разных областях.

Бенчмарк	DeepSeek-R1 (%)	Qwen 2.5 72B (%)
LiveCodeBench (Кодинг)	62	28
GPQA Diamond	71	49
MATH-500	96	86
MMLU-Pro	84	72

Эти результаты позволяют предположить, что итеративный подход DeepSeek R1 с обучением с подкреплением может быть особенно эффективным для развития более сильных способностей в специализированных технических областях, требующих точного рассуждения и структурированных навыков решения проблем.

Если вы хотите увидеть больше сравнений, вы можете ознакомиться с этими статьями:

Требования к оборудованию

Модель	Размер параметров	Конфигурация GPU
DeepSeek-R1-Distill-Llama-8B	4.9B	1 x NVIDIA RTX 4090 (24 ГБ VRAM) с шардированием модели
DeepSeek-R1-Distill-Qwen-14B	9.0B	1 x NVIDIA A100 (40 ГБ VRAM) или 2 x RTX 4090 (24 ГБ VRAM) с тензорным параллелизмом
DeepSeek-R1-Distill-Qwen-32B	32B	2 x NVIDIA A100 (40 ГБ VRAM) или 1 x NVIDIA H100 (80 ГБ VRAM) или 4 x RTX 4090 (24 ГБ VRAM) с тензорным параллелизмом
DeepSeek-R1-Distill-Llama-70B	70B	4 x NVIDIA A100 (40 ГБ VRAM) или 2 x NVIDIA H100 (80 ГБ VRAM) или 8 x RTX 4090 (24 ГБ VRAM) с тяжелым параллелизмом
DeepSeek-R1:671B	671B (37 млрд активных параметров)	16 x NVIDIA A100 (40 ГБ VRAM) или 8 x NVIDIA H100 (80 ГБ VRAM), требуется распределенный кластер GPU с InfiniBand
Qwen 2.5 72B	72B	8x RTX4090 или 4 x A100 или 2 x H100

Применение и варианты использования

DeepSeek R1

Оптимизирован для сложных рассуждений, логических выводов и математических вычислений.
Улучшен с помощью обучения с подкреплением (RL), что значительно повышает точность в задачах рассуждения.
Очень эффективен для задач кодирования, алгоритмического решения проблем и генерации технического контента.

Qwen 2.5 72B

Отлично подходит для многоязычных приложений, свободно поддерживая более 29 языков.
Способен генерировать связный длинный контент с контекстными окнами до 128 тысяч токенов.
Идеален для задач обработки структурированных данных, включая взаимодействие с чат-ботами, анализ данных, суммаризацию и извлечение информации.

Доступность и развертывание через Novita AI

Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предлагает доступный и надежный GPU-облачный сервис для создания и масштабирования.

Шаг 1: Войдите и откройте библиотеку моделей

Войдите в свою учетную запись и нажмите кнопку Model Library.

Попробуйте демо DeepSeek R1 сейчас!

Шаг 2: Выберите модель

Просмотрите доступные варианты и выберите модель, подходящую для ваших нужд.

Шаг 3: Начните бесплатную пробную версию

Начните бесплатную пробную версию, чтобы изучить возможности выбранной модели.

Шаг 4: Получите ваш API-ключ

Для аутентификации в API мы предоставим вам новый API-ключ. Перейдите на страницу «Settings» и скопируйте API-ключ, как показано на изображении.

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, специфичного для вашего языка программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API завершения чата для пользователей Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="&lt;YOUR Novita AI API Key&gt;",
)

model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

После регистрации Novita AI предоставляет $0.5 кредита для начала работы!

Если бесплатные кредиты закончатся, вы можете оплатить и продолжить использование.

И DeepSeek-R1, и Qwen 2.5 72B являются мощными большими языковыми моделями, каждая со своими явными преимуществами. DeepSeek-R1 специализируется на сложных рассуждениях и задачах решения проблем, в то время как Qwen 2.5 72B демонстрирует более широкие возможности, превосходя в многоязычных приложениях, обработке больших контекстов и структурированных данных.

Часто задаваемые вопросы

Что уникально в методологии обучения DeepSeek-R1-Zero?

DeepSeek-R1-Zero уникален тем, что является одной из первых моделей, подтверждающих, что сильные способности к рассуждению в LLM могут быть стимулированы исключительно с помощью обучения с подкреплением.

Где я могу получить доступ и использовать эти модели?

Обе модели DeepSeek-R1 и Qwen2.5 можно использовать через Novita AI по очень выгодной цене.

Что такое «дистилляция» в контексте DeepSeek-R1?

Дистилляция означает процесс переноса способностей к рассуждению более крупной модели (например, DeepSeek-R1) в меньшие модели.

Novita AI — это универсальная облачная платформа, которая расширяет ваши амбиции в области ИИ. Интегрированные API, бессерверные решения, GPU-инстансы — экономичные инструменты, которые вам нужны. Устраните инфраструктурные проблемы, начните бесплатно и воплотите свое видение ИИ в реальность.

DeepSeek-R1 против Qwen 2.5 72B: Рассуждения против многоязычности и обработки данных

Ключевые моменты

Основное описание моделей

DeepSeek R1

Qwen 2.5 72B

Сравнение скорости

Сравнение скорости

Сравнение стоимости

Сравнение бенчмарков

Требования к оборудованию

Применение и варианты использования

DeepSeek R1

Qwen 2.5 72B

Доступность и развертывание через Novita AI

Шаг 1: Войдите и откройте библиотеку моделей

Шаг 2: Выберите модель

Шаг 3: Начните бесплатную пробную версию

Шаг 4: Получите ваш API-ключ

Шаг 5: Установите API

Часто задаваемые вопросы

Рекомендуемое чтение

Product

RESOURCES

Partners

Company

Ключевые моменты

Основное описание моделей

DeepSeek R1

Qwen 2.5 72B

Сравнение скорости

Сравнение скорости

Сравнение стоимости

Сравнение бенчмарков

Требования к оборудованию

Применение и варианты использования

DeepSeek R1

Qwen 2.5 72B

Доступность и развертывание через Novita AI

Шаг 1: Войдите и откройте библиотеку моделей

Шаг 2: Выберите модель

Шаг 3: Начните бесплатную пробную версию

Шаг 4: Получите ваш API-ключ

Шаг 5: Установите API

Часто задаваемые вопросы

Рекомендуемое чтение

Похожие статьи

Product

RESOURCES

Partners

Company