Как использовать DeepSeek V4 Flash в Claude Code через Novita AI

Как использовать DeepSeek V4 Flash в Claude Code через Novita AI

DeepSeek V4 Flash — это MoE-модель на 284B с контекстным окном в 1 миллион токенов, доступная через совместимый с Anthropic эндпоинт Novita AI. Это означает, что Claude Code может использовать её напрямую, просто изменив три переменные окружения. При цене $0,14/M входных токенов против $3/M у Claude Sonnet разница в стоимости значительна для команд, работающих в непрерывных сессиях агентного кодинга.

Зачем использовать DeepSeek V4 Flash в Claude Code

Экономия — самая очевидная причина. Claude Code по умолчанию использует Claude Sonnet, который стоит $3/M за входные токены и $15/M за выходные. DeepSeek V4 Flash на Novita AI стоит $0,14/M за вход и $0,28/M за выход — это примерно в 20 раз дешевле на входе и в 50 раз дешевле на выходе. Для команды, использующей Claude Code в течение восьмичасового рабочего дня, эта разница быстро накапливается.

Помимо стоимости, V4 Flash предоставляет две возможности, важные именно для агентного кодинга:

  • Контекстное окно на 1M токенов — Claude Code может загрузить всю кодовую базу в контекст без разбиения на части. Многофайловые рефакторинги, отладка в разных репозиториях и длинные истории диалогов остаются связными без ручного управления контекстом.
  • Выбираемые режимы рассуждения — Режим Non-think даёт быстрые ответы для шаблонных задач; режимы Think и Think Max позволяют пошагово рассуждать при сложных архитектурных решениях или трудных сессиях отладки. Вы выбираете для каждой сессии отдельно, не переключая модели.

Novita AI предоставляет совместимый с Anthropic эндпоинт (/anthropic), поэтому Claude Code воспринимает его как замену «на лету». Никаких изменений SDK, никаких плагинов — только переменные окружения.

Что такое DeepSeek V4 Flash

DeepSeek V4 Flash — это Mixture-of-Experts (MoE) модель от DeepSeek AI. Она имеет 284B общих параметров, но активирует только 13B за один прямой проход, что позволяет сохранить задержку и стоимость за токен на уровне плотной модели на 13B, одновременно сохраняя ёмкость знаний гораздо большей сети.

Ключевые характеристики:

Характеристика Значение
ID модели deepseek/deepseek-v4-flash
Всего параметров 284B (активируется 13B на один вывод)
Контекстное окно 1 048 576 токенов
Макс. выходных токенов 393 216
Цена за вход (Novita AI) $0,14/M токенов
Цена за выход (Novita AI) $0,28/M токенов
Цена чтения из кэша $0,028/M токенов
Режимы рассуждения Non-think, Think, Think Max
Вызов функций Да
Структурированные выходы Да
Лицензия MIT

Три режима рассуждения позволяют настраивать стоимость относительно качества для каждой сессии. Режим Non-think быстрый и дешёвый — подходит для повторяющейся кодогенерации или шаблонных элементов. Режим Think добавляет пошаговые рассуждения для ревью кода, архитектурной работы и отладки. Think Max использует максимальный бюджет рассуждений и сравнивается с V4 Pro по большинству бенчмарков кодинга.

Novita AI предоставляет полное контекстное окно на 1M токенов и надёжное время безотказной работы, что делает её практичным выбором для продакшен-нагрузок агентного типа.

Как получить API-ключ Novita AI

Зарегистрируйте аккаунт Novita AI, чтобы получить бесплатные пробные кредиты. После входа перейдите на страницу Key Management и нажмите Create New Key.

Скопируйте ключ сразу — он больше не будет показан. Храните его в менеджере паролей или хранилище секретов; он понадобится на следующем шаге.

Установка Claude Code

Для Claude Code требуется Node.js версии 18 или выше. Сначала проверьте версию:

node --version

Если версия Node ниже 18, обновитесь с nodejs.org перед продолжением.

Windows

Откройте командную строку и выполните:

npm install -g @anthropic-ai/claude-code

Mac и Linux

Откройте терминал и выполните:

npm install -g @anthropic-ai/claude-code

Глобальная установка делает команду claude доступной из любой директории.

Настройка переменных окружения

Эти четыре переменные перенаправляют Claude Code на совместимый с Anthropic эндпоинт Novita AI с моделью DeepSeek V4 Flash в качестве активной.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Ваш API-ключ Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Эти переменные действуют для текущего сеанса командной строки. Чтобы сделать их постоянными, задайте через System Properties → Environment Variables.

Mac и Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Ваш API-ключ Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Чтобы сохранить настройки между сессиями, добавьте эти строки в ~/.bashrc, ~/.zshrc или аналогичный профиль оболочки.

ANTHROPIC_SMALL_FAST_MODEL управляет лёгкой моделью, которую Claude Code использует для быстрых внутренних задач, таких как поиск файлов и составление сводок. Установка этого же ID модели позволяет направить весь трафик на единую линию биллинга и избежать неожиданных вызовов Anthropic API.

Запуск Claude Code

Перейдите в директорию вашего проекта и запустите Claude Code:

cd <директория-вашего-проекта>
claude .

Claude Code открывает интерактивную сессию в текущей директории. Приглашение появится, как только установится соединение с эндпоинтом Novita AI. После этого описывайте задачу на естественном языке — Claude Code прочитает ваши файлы, предложит изменения и применит их с вашего одобрения.

Работа с большими кодовыми базами

Контекстное окно на 1M токенов — самое практичное преимущество V4 Flash перед альтернативами с меньшим контекстом. Типичная продакшен-кодовая база среднего размера при сведении в плоский вид содержит от 100K до 300K токенов. V4 Flash способен удерживать всё целиком в контексте без какой-либо стратегии разбиения.

Несколько рабочих процессов, которые получают прямую выгоду:

Многофайловые рефакторинги — Попросите Claude Code переименовать модель данных, изменить контракт API или реорганизовать интерфейс сервиса во всех файлах, которые на него ссылаются. При полном контекстном окне он видит все зависимости одновременно, а не файл за файлом.

Длительные сессии отладки — По мере накопления вызовов инструментов, чтений файлов и следов рассуждений, меньшие контекстные окна обрезают раннюю историю. V4 Flash сохраняет всю сессию, поэтому модель может анализировать паттерны, которые она видела 200 вызовов инструментов назад.

Ревью всего репозитория — Передайте всю кодовую базу в режим Think или Think Max V4 Flash и попросите провести проверку безопасности, архитектурную оценку или анализ мёртвого кода. Это быстро исчерпало бы модель на 128K; в окне V4 Flash это помещается с запасом.

Накладные расходы системного промпта — Claude Code использует подробный системный промпт, который может занимать от 10K до 20K токенов. Для модели на 128K эти накладные расходы имеют значение. Окно на 1M делает их незначительными, оставляя почти весь бюджет контекста для реального кода.

Для контроля затрат на длинных сессиях режим Non-think обрабатывает основную массу рутинных правок файлов с наименьшей стоимостью. Переключайтесь на Think, когда задача требует проектных рассуждений, и на Think Max для сложных алгоритмических или отладочных проблем. Цена чтения из кэша Novita ($0,028/M) означает, что повторные инъекции системного промпта обходятся очень дёшево в масштабе.

Выбор режима рассуждения для каждой сессии

DeepSeek V4 Flash поддерживает три режима рассуждения, которыми можно управлять для каждой сессии. Режим Non-think возвращает быстрые прямые завершения — подходит для шаблонной генерации, рутинных правок и быстрых запросов. Режим Think включает пошаговые рассуждения для ревью кода, рефакторинга и архитектурных решений. Think Max выделяет максимальный бюджет рассуждений и сравнивается с V4 Pro по большинству бенчмарков кодинга.

Самый простой способ склонить Claude Code к более глубокому рассуждению — задать собственный системный промпт:

claude --system "Используй расширенное мышление для архитектурных решений и сложной отладки."

Для программного управления эндпоинт Novita AI принимает параметр budget_tokens. Установка его в 0 полностью отключает размышления; любое положительное значение включает размышления с указанным бюджетом токенов. Это полезно в агентных пайплайнах, где глубокое рассуждение нужно только на определённых шагах:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Ваш API-ключ Novita>",
)

# Think Max — максимальный бюджет рассуждений для сложных проблем
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Проверь эту функцию на скрытые ошибки конкурентности."}],
)

Для экономных сессий начинайте в режиме Non-think и переключайтесь на Think только когда столкнётесь с проблемой, требующей этого. Благодаря цене чтения из кэша Novita в $0,028/M токенов повторные инъекции системного промпта остаются дешёвыми даже на длинных многошаговых сессиях.

Заключение

DeepSeek V4 Flash на Novita AI даёт Claude Code мощную и экономичную основу — контекст на 1M, выбираемое рассуждение и вызов функций по цене в разы меньше, чем Claude Sonnet. Настройка занимает меньше пяти минут. После установки переменных окружения ваш существующий рабочий процесс Claude Code будет работать без изменений.

Попробуйте DeepSeek V4 Flash на Novita AI и ознакомьтесь с документацией Novita AI LLM API для получения дополнительных настроек.

FAQ

Нужен ли Claude Code плагин или расширение для использования Novita AI?

Нет. Claude Code считывает переменную окружения ANTHROPIC_BASE_URL при запуске и направляет все вызовы API туда. Никаких плагинов, расширений или изменений кода не требуется — переключение производится исключительно через переменные окружения.

Буду ли я оплачивать счёт от Anthropic при использовании Novita AI?

Нет. Когда ANTHROPIC_BASE_URL указывает на Novita AI, весь трафик и биллинг проходят через ваш аккаунт Novita AI. Ваш аккаунт Anthropic не используется.

Можно ли вернуться к Claude Sonnet без переустановки?

Да. Сбросьте ANTHROPIC_BASE_URL и ANTHROPIC_MODEL — или откройте новую оболочку без этих экспортов — и Claude Code вернётся к эндпоинту Anthropic по умолчанию с Claude Sonnet.

Подходит ли V4 Flash для автоматизированных CI-пайплайнов?

V4 Flash поддерживает вызов функций и структурированные выходы — две возможности, на которые Claude Code полагается больше всего. Это практичный выбор для автоматизированных пайплайнов кодинга, интеграций CI и длительных агентных сессий, где важны непрерывность контекста и предсказуемость затрат.

Что произойдёт, если контекстное окно заполнится?

При объёме 1 048 576 токенов контекстное окно V4 Flash достаточно велико, чтобы большинство сессий его не заполнили. Если вы используете очень длинную сессию — дни накопленной истории, очень большие репозитории — Claude Code начнёт обрезать самые старые сообщения. На практике проще всего для новой задачи начинать свежую сессию, чтобы гарантированно оставаться в пределах лимита.

Novita AI — облачная AI-платформа, предоставляющая разработчикам лёгкий способ развёртывания AI-моделей с помощью простого API, а также доступные и надёжные GPU-облака для создания и масштабирования.

Рекомендованные статьи