Novita AI를 통해 Claude Code에서 DeepSeek V4 Flash 사용하는 방법

Novita AI를 통해 Claude Code에서 DeepSeek V4 Flash 사용하는 방법

DeepSeek V4 Flash는 284B MoE 모델로, 1백만 토큰 컨텍스트 윈도우를 갖추고 있으며 Novita AI의 Anthropic 호환 엔드포인트를 통해 사용할 수 있습니다. 즉, Claude Code에서 세 줄의 환경 변수 변경만으로 바로 사용할 수 있습니다. 입력 토큰당 $0.14/M 대 Claude Sonnet의 $3/M 비용 차이는 지속적인 에이전트 코딩 세션을 운영하는 팀에게 상당한 차이를 만듭니다.

Claude Code에서 DeepSeek V4 Flash를 사용해야 하는 이유

가장 즉각적인 이유는 경제성입니다. Claude Code는 기본적으로 Claude Sonnet을 사용하며, 입력 토큰 $3/M, 출력 토큰 $15/M의 비용이 듭니다. Novita AI의 DeepSeek V4 Flash는 입력 $0.14/M, 출력 $0.28/M으로, 입력에서 약 20배, 출력에서 약 50배의 비용 절감 효과가 있습니다. 8시간 근무일 동안 Claude Code를 실행하는 팀이라면 그 차이가 빠르게 누적됩니다.

비용 외에도 V4 Flash는 에이전트 코딩에 특히 중요한 두 가지 기능을 제공합니다:

  • ** 1M 토큰 컨텍스트 윈도우 ** — Claude Code는 청킹 없이 전체 코드베이스를 컨텍스트에 로드할 수 있습니다. 다중 파일 리팩터링, 크로스 레포 디버깅, 긴 대화 기록이 수동 컨텍스트 관리 없이도 일관성을 유지합니다.
  • ** 선택 가능한 추론 모드 ** — Non-think 모드는 반복적인 작업에 빠른 응답을 제공합니다. Think 및 Think Max 모드는 복잡한 아키텍처 결정이나 어려운 디버깅 세션을 위한 단계별 추론을 가능하게 합니다. 모델 전환 없이 세션별로 선택할 수 있습니다.

Novita AI는 Anthropic 호환 엔드포인트(/anthropic)를 제공하므로 Claude Code는 이를 드롭인 교체로 취급합니다. SDK 변경이나 플러그인이 필요하지 않으며 환경 변수만 설정하면 됩니다.

DeepSeek V4 Flash란?

DeepSeek V4 Flash는 DeepSeek AI의 Mixture-of-Experts(MoE) 모델입니다. 총 284B 파라미터를 가지고 있지만 순방향 패스당 13B만 활성화되어, 훨씬 더 큰 네트워크의 지식 용량을 유지하면서도 13B 밀집 모델에 가까운 지연 시간과 토큰당 비용을 유지합니다.

주요 사양 한눈에 보기:

사양
모델 ID deepseek/deepseek-v4-flash
전체 파라미터 284B (추론당 13B 활성화)
컨텍스트 윈도우 1,048,576 토큰
최대 출력 토큰 393,216
입력 가격 (Novita AI) $0.14/M 토큰
출력 가격 (Novita AI) $0.28/M 토큰
캐시 읽기 가격 $0.028/M 토큰
추론 모드 Non-think, Think, Think Max
함수 호출
구조화된 출력
라이선스 MIT

세 가지 추론 모드를 통해 세션별로 비용과 품질을 조정할 수 있습니다. Non-think 모드는 빠르고 저렴하여 반복적인 스캐폴딩이나 보일러플레이트 생성에 적합합니다. Think 모드는 코드 리뷰, 아키텍처 작업 및 디버깅에 단계별 추론을 추가합니다. Think Max는 최대 추론 예산을 사용하며 대부분의 코딩 벤치마크에서 V4 Pro와 일치합니다.

Novita AI는 완전한 1M 토큰 컨텍스트 윈도우와 안정적인 가동 시간을 제공하므로 프로덕션 에이전트 워크로드에 실용적인 선택입니다.

Novita AI API 키 받기

Novita AI 계정 가입하여 무료 평가판 크레딧을 받으세요. 로그인 후 키 관리 페이지로 이동하여 ** 새 키 생성 ** 을 클릭하세요.

키를 즉시 복사하세요. 다시 표시되지 않습니다. 비밀번호 관리자나 시크릿 저장소에 보관하세요. 다음 단계에서 필요합니다.

Claude Code 설치

Claude Code는 Node.js 18 이상이 필요합니다. 먼저 버전을 확인하세요:

node --version

Node가 18 미만이면 계속하기 전에 nodejs.org에서 업데이트하세요.

Windows

명령 프롬프트를 열고 다음을 실행하세요:

npm install -g @anthropic-ai/claude-code

Mac 및 Linux

터미널을 열고 다음을 실행하세요:

npm install -g @anthropic-ai/claude-code

전역 설치를 통해 모든 디렉토리에서 claude를 사용할 수 있습니다.

환경 변수 구성

이 네 가지 변수는 Claude Code를 DeepSeek V4 Flash를 활성 모델로 하는 Novita AI의 Anthropic 호환 엔드포인트로 리디렉션합니다.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Your Novita API Key>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

이는 현재 명령 프롬프트 세션에 대해서만 유지됩니다. 영구적으로 설정하려면 ** 시스템 속성 → 환경 변수 ** 를 통해 설정하세요.

Mac 및 Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Your Novita API Key>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

세션 간 유지하려면 이 줄을 ~/.bashrc, ~/.zshrc 또는 해당 셸 프로필에 추가하세요.

ANTHROPIC_SMALL_FAST_MODEL은 Claude Code가 파일 조회 및 요약과 같은 빠른 내부 작업에 사용하는 경량 모델을 제어합니다. 동일한 모델 ID로 설정하면 모든 트래픽이 단일 청구 라인에 유지되며 예상치 못한 Anthropic API 호출을 방지합니다.

Claude Code 시작

프로젝트 디렉토리로 이동하여 Claude Code를 실행하세요:

cd <your-project-directory>
claude .

Claude Code는 현재 디렉토리에서 대화형 세션을 엽니다. Novita AI 엔드포인트에 연결되면 프롬프트가 나타납니다. 여기에서 자연어로 작업을 설명하면 Claude Code가 파일을 읽고 변경 사항을 제안하며 승인 후 적용합니다.

대규모 코드베이스 작업

1M 토큰 컨텍스트 윈도우는 더 작은 컨텍스트 대안에 비해 V4 Flash의 가장 실용적인 장점입니다. 일반적인 중간 규모 프로덕션 코드베이스는 평면화될 때 100K~300K 토큰을 사용합니다. V4 Flash는 청킹 전략 없이 전체를 컨텍스트에 유지할 수 있습니다.

직접적인 이점을 얻을 수 있는 몇 가지 워크플로우:

** 크로스 파일 리팩터링 ** — Claude Code에 데이터 모델 이름 변경, API 계약 변경, 또는 해당 모델을 참조하는 모든 파일에서 서비스 인터페이스 리팩터링을 요청하세요. 전체 컨텍스트 윈도우를 사용하면 파일별로 보는 대신 모든 종속성을 동시에 볼 수 있습니다.

** 긴 디버깅 세션 ** — 디버깅 세션이 도구 호출, 파일 읽기 및 추론 추적을 축적함에 따라 더 작은 컨텍스트 윈도우는 초기 기록을 잘라냅니다. V4 Flash는 전체 세션을 유지하므로 모델은 200개의 도구 호출 전에 본 패턴에 대해 추론할 수 있습니다.

** 레포지토리 전체 리뷰 ** — 전체 코드베이스를 V4 Flash의 Think 또는 Think Max 모드에 제공하고 보안 리뷰, 아키텍처 평가 또는 데드 코드 분석을 요청하세요. 이는 128K 모델을 빠르게 소진시키지만 V4 Flash의 윈도우 내에서는 충분히 들어갑니다.

** 시스템 프롬프트 오버헤드 ** — Claude Code는 10K~20K 토큰을 사용하는 상세한 시스템 프롬프트를 사용합니다. 128K 모델에서는 이 오버헤드가 중요합니다. 1M 윈도우에서는 무시할 수 있어 거의 모든 컨텍스트 예산을 실제 코드에 사용할 수 있습니다.

긴 세션의 비용 제어를 위해 Non-think 모드는 가장 낮은 비용으로 일상적인 파일 편집의 대부분을 처리합니다. 작업에 설계 추론이 필요하면 Think 모드로 전환하고, 어려운 알고리즘이나 디버깅 문제에는 Think Max를 사용하세요. Novita 캐시 읽기 가격($0.028/M)은 반복적인 시스템 프롬프트 주입 비용이 대규모로 매우 적게 든다는 것을 의미합니다.

세션별 추론 모드 선택

DeepSeek V4 Flash는 세션별로 제어할 수 있는 세 가지 추론 모드를 지원합니다. Non-think 모드는 빠르고 직접적인 완성을 반환하며 보일러플레이트 생성, 일상적인 편집 및 빠른 조회에 적합합니다. Think 모드는 코드 리뷰, 리팩터링 및 아키텍처 결정에 대한 단계별 추론을 활성화합니다. Think Max는 최대 추론 예산을 할당하며 대부분의 코딩 벤치마크에서 V4 Pro와 일치합니다.

Claude Code가 더 깊은 추론을 하도록 유도하는 가장 간단한 방법은 사용자 정의 시스템 프롬프트입니다:

claude --system "아키텍처 결정 및 복잡한 디버깅에는 확장된 사고를 사용하세요."

프로그래밍 방식 제어를 위해 Novita AI의 엔드포인트는 budget_tokens 매개변수를 허용합니다. 0으로 설정하면 사고가 완전히 비활성화되고, 양수 값은 해당 토큰 예산까지 사고를 활성화합니다. 이는 특정 단계에서만 깊은 추론이 필요한 에이전트 파이프라인에서 유용합니다:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Your Novita API Key>",
)

# Think Max — 어려운 문제에 대한 최대 추론 예산
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "미묘한 동시성 버그가 있는지 이 함수를 검토하세요."}],
)

비용에 민감한 세션의 경우 Non-think 모드로 시작하고 필요한 문제가 발생할 때만 Think로 전환하세요. Novita 캐시 읽기 가격이 $0.028/M 토큰이므로 긴 다단계 세션에서도 반복적인 시스템 프롬프트 주입 비용이 저렴하게 유지됩니다.

결론

Novita AI의 DeepSeek V4 Flash는 Claude Code에 강력하고 비용 효율적인 백본을 제공합니다 — 1M 컨텍스트, 선택 가능한 추론, Claude Sonnet 가격의 일부로 함수 호출이 가능합니다. 설정은 5분 미만이 소요됩니다. 환경 변수가 설정되면 기존 Claude Code 워크플로우가 변경 없이 실행됩니다.

Novita AI에서 DeepSeek V4 Flash 사용해보기 및 추가 구성 옵션은 Novita AI LLM API 문서를 확인하세요.

자주 묻는 질문

** Claude Code가 Novita AI를 사용하기 위해 플러그인이나 확장 기능이 필요한가요? **

아니요. Claude Code는 시작 시 ANTHROPIC_BASE_URL 환경 변수를 읽고 모든 API 호출을 거기로 라우팅합니다. 플러그인, 확장 기능 또는 코드 변경이 필요하지 않습니다. 전환은 전적으로 환경 변수를 통해 이루어집니다.

** Novita AI를 사용할 때 Anthropic에서 청구되나요? **

아니요. ANTHROPIC_BASE_URL이 Novita AI를 가리키면 모든 트래픽과 청구는 Novita AI 계정을 통해 이루어집니다. Anthropic 계정은 사용되지 않습니다.

** 재설치 없이 Claude Sonnet으로 다시 전환할 수 있나요? **

예. ANTHROPIC_BASE_URLANTHROPIC_MODEL을 해제하거나 해당 내보내기가 없는 새 셸을 열면 Claude Code가 기본 Anthropic 엔드포인트와 Claude Sonnet으로 되돌아갑니다.

** V4 Flash는 자동화된 CI 파이프라인에 적합한가요? **

V4 Flash는 함수 호출과 구조화된 출력을 지원하며, 이는 Claude Code가 가장 많이 의존하는 두 가지 기능입니다. 컨텍스트 연속성과 비용 예측 가능성이 중요한 자동화된 코딩 파이프라인, CI 통합 및 긴 에이전트 세션에 실용적인 선택입니다.

** 컨텍스트 윈도우가 가득 차면 어떻게 되나요? **

1,048,576 토큰에서 V4 Flash의 컨텍스트 윈도우는 대부분의 세션이 가득 차지 않을 만큼 큽니다. 극도로 긴 세션(며칠간 누적된 기록, 매우 큰 레포지토리)을 실행하는 경우 Claude Code가 가장 오래된 메시지를 자르기 시작합니다. 실제로 새 작업에 대해 새 세션을 시작하는 것이 한도 내에서 유지하는 가장 간단한 방법입니다.

Novita AI는 개발자에게 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있는 방법을 제공하면서도 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.

추천 문서