DeepSeek R1 против OpenAI o1: Различные архитектуры GRPO и PPO

DeepSeek R1 против OpenAI o1: Различные архитектуры GRPO и PPO

Ключевые моменты

Архитектурные различия
DeepSeek R1: Использует смесь экспертов (MoE) и GRPO, предоставляет прозрачное цепочное рассуждение и является открытым исходным кодом.
OpenAI o1: Вероятно, использует трансформеры с PPO, имеет непрозрачные процессы рассуждения и является закрытым.

Сравнение стоимости
DeepSeek R1: Гораздо дешевле: вход — $4/миллион токенов, выход — $4/миллион токенов на Novita AI.
OpenAI o1: Дорогой: вход — $15/миллион токенов, выход — $60/миллион токенов.

Производительность и варианты использования
DeepSeek R1: Превосходит в задачах, требующих рассуждений, таких как математика, программирование и предметно-ориентированный анализ (например, здравоохранение, финансы).
OpenAI o1: Силён в задачах общего назначения, таких как креативный контент, многоязычные приложения и широкие рассуждения.

Если вы хотите оценить DeepSeek R1 на своих собственных сценариях — после регистрации Novita AI предоставляет кредит в $0,5 для начала работы!

Область больших языковых моделей (LLM) быстро развивается, и новые модели постоянно переопределяют эталоны. Модель R1 от DeepSeek стала сильным конкурентом, особенно в задачах рассуждения, бросая вызов серии o1 от OpenAI. Эта статья представляет практическое и техническое сравнение этих двух моделей, сосредотачиваясь на их характеристиках, производительности, стоимости, требованиях к оборудованию и вариантах использования.

Базовое описание модели

Чтобы начать сравнение, сначала разберёмся с фундаментальными характеристиками каждой модели.

DeepSeek R1

  • Дата выпуска: 21 января 2025
  • Масштаб модели:
  • Ключевые особенности:
    • Размер модели: 671B параметров (37B активных/токен)
    • Токенизатор: Расширенный токенизатор с тегами саморефлексии
    • Поддерживаемые языки: Многоязычный с культурной адаптацией
    • Мультимодальность: Только текст
    • Контекстное окно: 128K токенов
    • Форматы хранения: Поддержка квантования Q8/Q5
    • Архитектура: Смесь экспертов (MoE) + конвейер обучения с RL
    • Метод обучения: Построен на базе V3 с конвейером RL (SFT → RL → SFT → RL)
    • Обучающие данные: База V3 + данные оптимизации RL

OpenAI o1

  • Дата выпуска: 5 декабря 2024
  • Ключевые особенности:
    • Размер модели: 200 миллиардов параметров
    • Токенизатор: Tiktoken (на основе BPE), общий с GPT-4o, поддерживает большие контексты
    • Поддерживаемые языки: Силён в английском, основных языках (мандаринский, немецкий и т.д.)
    • Мультимодальность: Только текст
    • Контекстное окно: 128K токенов
    • Архитектура: Смесь экспертов (MoE) + конвейер обучения с RL
    • Метод обучения: Оптимизированное рассуждение с RLHF, итеративное уточнение CoT, выводы с учётом безопасности
    • Обучающие данные: Публичные данные (веб, наука), проприетарные партнёрства, пользовательские наборы данных; отфильтрованы по качеству/безопасности

Ключевые различия моделей

grpo vs ppo

Подход OpenAI к обучению с подкреплением:

  • В основном основан на алгоритме PPO (Proximal Policy Optimization).
  • Улучшенный вариант PPO-Clip применяется в таких моделях, как GPT-4.
  • Интегрирован с фреймворком RLHF (Reinforcement Learning from Human Feedback).

Инновации алгоритма DeepSeek-R1:

  • Использует собственный алгоритм GRPO (Grouped Relative Policy Optimization).

  • Ключевые инновации:

    • Групповое контрастное обучение: Разделяет оптимизацию политики на несколько подзадачных групп.
    • Динамическое взвешивание множества целей: Поддерживает синергетическую оптимизацию 8 независимых сигналов вознаграждения.
    • Гибридное офлайн-онлайн обучение: Повышает эффективность использования данных примерно на ~40%.

Сравнение скорости

Если хотите проверить сами, можете начать бесплатную пробную версию на сайте Novita AI.

start a free trail

Попробовать демо DeepSeek R1 сейчас!

Сравнение скорости

outputspeed of o1 anf r1

latencyof o1 anf r1

источник: artificialanalysis

Сравнение стоимости

price of o1 and r1

источник: artificialanalysis

В целом, OpenAI o1 показывает лучшие результаты по задержке и скорости вывода, в то время как модель DeepSeek-R1 имеет преимущество в цене.

Сравнение бенчмарков

Теперь, когда мы установили базовые характеристики каждой модели, давайте углубимся в их производительность по различным бенчмаркам. Это сравнение поможет проиллюстрировать их сильные стороны в разных областях.

Бенчмарк DeepSeek-R1 (%) OpenAI-o1 (%)
Codeforces 96,3 96,6
GPQA Diamond 71,5 75,7
MATH-500 97,3 96,4
MMLU 90,8 91,8

Эти данные показывают, что обе модели — DeepSeek-R1 и OpenAI-o1 — являются высокопроизводительными, но превосходят в разных областях:

  • OpenAI-o1 показывает небольшое преимущество в задачах общего назначения (GPQA Diamond) и многофункциональном понимании языка (MMLU).
  • DeepSeek-R1 лучше справляется со специализированными задачами рассуждения, такими как решение математических задач (MATH-500).
  • Их производительность в задачах программирования (Codeforces) почти идентична, что показывает, что обе модели сильны в решении задач и алгоритмическом мышлении.

Если вы хотите увидеть больше сравнений, можете ознакомиться с этими статьями:

Применения и варианты использования

  • DeepSeek R1:
    Создан для задач, требующих продвинутых рассуждений:
    • Диагностика сложных проблем
    • Многоэтапный анализ сценариев
    • Решение математических задач
    • Задачи программирования
    • Специализированные области: здравоохранение, финансы, юридические услуги
  • OpenAI o1:
    Предназначен для более широких задач общего назначения:
    • Создание креативного контента
    • Многоязычные задачи
    • Сложные рассуждения в разнообразных контекстах

Доступность и развёртывание через Novita AI

Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развёртывания моделей ИИ с помощью нашего простого API, а также доступный и надёжный GPU-облако для построения и масштабирования.

Шаг 1: Войдите и получите доступ к библиотеке моделей

Войдите в свою учётную запись и нажмите кнопку Model Library.

Log In and Access the Model Library

Шаг 2: Выберите свою модель

Просмотрите доступные варианты и выберите модель, которая подходит для ваших задач.

choose models

Шаг 3: Начните бесплатную пробную версию

Начните бесплатную пробную версию, чтобы изучить возможности выбранной модели.

startfreetrail on r1

Шаг 4: Получите свой API-ключ

Для аутентификации с помощью API мы предоставим вам новый API-ключ. Перейдите на страницу «Settings», чтобы скопировать API-ключ, как показано на изображении.

get api key

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

install api

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Это пример использования chat completions API для пользователей Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=&#91;
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices&#91;0].delta.content or "", end="")
else:
    print(chat_completion_res.choices&#91;0].message.content)
  
  

После регистрации Novita AI предоставляет кредит в $0,5 для начала работы!

Если бесплатные кредиты закончились, вы можете оплатить и продолжить использование.

DeepSeek R1 и OpenAI o1 ориентированы на разные приоритеты в сфере ИИ. DeepSeek R1 делает акцент на открытый исходный код, экономическую эффективность и специализированные способности к рассуждению, что делает его идеальным для предметно-ориентированных задач. В отличие от этого, OpenAI o1 превосходит как универсальная модель общего назначения с сильной многоязычной поддержкой. Выбор зависит от конкретных сценариев использования — цените ли вы прозрачность и доступность или более широкую адаптивность.

Часто задаваемые вопросы

Лучше ли DeepSeek R1, чем OpenAI o1?

Это зависит от ваших потребностей. DeepSeek R1 превосходит в задачах рассуждения при более низкой стоимости, в то время как OpenAI o1 предлагает более широкую функциональность.

Какие задачи лучше всего подходят для DeepSeek R1?

Задачи, требующие интенсивного рассуждения, такие как решение математических задач, программирование и отраслевые приложения.

Как обучаются модели?

DeepSeek R1 значительно дешевле, чем модели o1 от OpenAI.

Novita AI — это универсальная облачная платформа, которая поддерживает ваши амбиции в области ИИ. Интегрированные API, serverless, GPU-экземпляры — экономически эффективные инструменты, которые вам нужны. Устраните инфраструктурные сложности, начните бесплатно и воплотите своё видение ИИ в реальность.

Рекомендуемое чтение