Claude Code에서 DeepSeek V4 Flash 사용하기: Novita AI를 통한 설정 가이드

Claude Code에서 DeepSeek V4 Flash를 사용해야 하는 이유
DeepSeek V4 Flash란 무엇인가
Novita AI API 키 받기
Claude Code 설치
환경 변수 구성
Claude Code 시작
대규모 코드베이스 작업
세션별 추론 모드 선택
결론
FAQ
추천 문서

DeepSeek V4 Flash는 284B MoE 모델로, 100만 토큰 컨텍스트 창을 갖추고 있으며 Novita AI의 Anthropic 호환 엔드포인트를 통해 제공됩니다. 즉, 환경 변수 세 줄만 변경하면 Claude Code에서 바로 사용할 수 있습니다. Claude Sonnet의 $3/M 대비 입력 토큰당 $0.14/M으로, 지속적인 에이전트 코딩 세션을 운영하는 팀에게 비용 차이는 상당합니다.

Claude Code에서 DeepSeek V4 Flash를 사용해야 하는 이유

경제성이 가장 즉각적인 이유입니다. Claude Code는 기본적으로 Claude Sonnet을 사용하며, 이는 입력 토큰당 $3/M, 출력 토큰당 $15/M입니다. Novita AI의 DeepSeek V4 Flash는 입력 $0.14/M, 출력 $0.28/M으로, 입력은 약 20배, 출력은 약 50배 절감됩니다. 하루 8시간 근무 시간 내내 Claude Code를 실행하는 팀이라면 이 차이는 빠르게 쌓입니다.

비용 외에도 V4 Flash는 특히 에이전트 코딩에 중요한 두 가지 기능을 제공합니다:

100만 토큰 컨텍스트 창 — Claude Code는 청킹 없이 전체 코드베이스를 컨텍스트에 로드할 수 있습니다. 다중 파일 리팩터링, 저장소 간 디버깅, 긴 대화 기록이 수동 컨텍스트 관리 없이도 일관성을 유지합니다.
선택 가능한 추론 모드 — 비추론(Non-think) 모드는 상용구 작업에 빠른 응답을 제공합니다. Think 및 Think Max 모드는 복잡한 아키텍처 결정이나 어려운 디버깅 세션을 위해 단계별 추론을 가능하게 합니다. 모델을 전환하지 않고 세션별로 선택할 수 있습니다.

Novita AI는 Anthropic 호환 엔드포인트(/anthropic)를 노출하므로 Claude Code가 이를 드롭인 대체품으로 처리합니다. SDK 변경이나 플러그인이 필요 없으며, 환경 변수만 있으면 됩니다.

DeepSeek V4 Flash란 무엇인가

DeepSeek V4 Flash는 DeepSeek AI의 Mixture-of-Experts(MoE) 모델입니다. 총 284B 파라미터를 가지고 있지만, 순방향 패스당 13B만 활성화하므로 훨씬 더 큰 네트워크의 지식 용량을 유지하면서 13B 밀집 모델에 가까운 지연 시간과 토큰당 비용을 유지합니다.

주요 사양 요약:

사양	값
모델 ID	`deepseek/deepseek-v4-flash`
총 파라미터	284B (추론당 활성화 13B)
컨텍스트 창	1,048,576 토큰
최대 출력 토큰	393,216
입력 가격 (Novita AI)	$0.14/M 토큰
출력 가격 (Novita AI)	$0.28/M 토큰
캐시 읽기 가격	$0.028/M 토큰
추론 모드	비추론, Think, Think Max
함수 호출	Yes
구조화된 출력	Yes
라이선스	MIT

세 가지 추론 모드를 사용하면 세션별로 비용과 품질을 조정할 수 있습니다. 비추론 모드는 빠르고 저렴하여 반복적인 스캐폴딩이나 상용구 생성에 적합합니다. Think 모드는 코드 리뷰, 리팩터링, 아키텍처 작업을 위한 단계별 추론을 추가합니다. Think Max는 최대 추론 예산을 할당하며 대부분의 코딩 벤치마크에서 V4 Pro와 일치합니다.

Novita AI는 전체 100만 토큰 컨텍스트 창과 안정적인 가동 시간을 제공하므로 프로덕션 에이전트 워크로드에 실용적인 선택입니다.

Novita AI API 키 받기

Novita AI 계정에 가입하면 무료 평가판 크레딧을 받을 수 있습니다. 로그인 후 키 관리 페이지로 이동하여 새 키 만들기 를 클릭하세요.

키를 즉시 복사하세요. 다시 표시되지 않습니다. 비밀번호 관리자나 비밀 저장소에 보관하세요. 다음 단계에서 필요합니다.

Claude Code 설치

Claude Code를 사용하려면 Node.js 18 이상이 필요합니다. 먼저 버전을 확인하세요:

node --version

Node가 18 미만이면 계속 진행하기 전에 nodejs.org에서 업데이트하세요.

Windows

명령 프롬프트를 열고 실행하세요:

npm install -g @anthropic-ai/claude-code

Mac 및 Linux

터미널을 열고 실행하세요:

npm install -g @anthropic-ai/claude-code

전역 설치를 통해 모든 디렉토리에서 claude를 사용할 수 있습니다.

환경 변수 구성

이 네 가지 변수는 Claude Code를 Novita AI의 Anthropic 호환 엔드포인트로 리디렉션하고 활성 모델로 DeepSeek V4 Flash를 설정합니다.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Your Novita API Key>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

이 설정은 현재 명령 프롬프트 세션 동안 유지됩니다. 영구적으로 설정하려면 시스템 속성 → 환경 변수 에서 설정하세요.

Mac 및 Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Your Novita API Key>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

세션 간에 유지하려면 이 줄을 ~/.bashrc, ~/.zshrc 또는 해당 셸 프로필에 추가하세요.

ANTHROPIC_SMALL_FAST_MODEL은 파일 조회 및 요약과 같은 빠른 내부 작업을 위해 Claude Code가 사용하는 경량 모델을 제어합니다. 동일한 모델 ID로 설정하면 모든 트래픽이 단일 청구 라인에 유지되고 예상치 못한 Anthropic API 호출을 방지할 수 있습니다.

Claude Code 시작

프로젝트 디렉토리로 이동하여 Claude Code를 실행하세요:

cd <your-project-directory>
claude .

Claude Code가 현재 디렉토리에서 대화형 세션을 엽니다. Novita AI 엔드포인트에 연결이 설정되면 프롬프트가 나타납니다. 여기에서 자연어로 작업을 설명하면 Claude Code가 파일을 읽고 변경 사항을 제안하며 승인 시 적용합니다.

대규모 코드베이스 작업

100만 토큰 컨텍스트 창은 더 작은 컨텍스트 대안보다 V4 Flash의 가장 실용적인 장점입니다. 일반적인 중간 규모 프로덕션 코드베이스는 평탄화 시 100K~300K 토큰입니다. V4 Flash는 청킹 전략 없이 전체를 컨텍스트에 담을 수 있습니다.

다음은 직접적인 이점을 얻는 몇 가지 워크플로입니다:

파일 간 리팩터링 — 데이터 모델 이름 바꾸기, API 계약 변경, 또는 서비스 인터페이스를 참조하는 모든 파일에서 리팩터링을 Claude Code에 요청하세요. 전체 컨텍스트 창을 사용하면 파일별로 보는 것이 아니라 모든 종속성을 동시에 볼 수 있습니다.

긴 디버그 세션 — 디버깅 세션이 도구 호출, 파일 읽기, 추론 추적을 축적함에 따라 더 작은 컨텍스트 창은 초기 기록을 자릅니다. V4 Flash는 전체 세션을 유지하므로 모델이 200개의 도구 호출 이전에 본 패턴에 대해 추론할 수 있습니다.

저장소 전체 검토 — 전체 코드베이스를 V4 Flash의 Think 또는 Think Max 모드에 제공하고 보안 검토, 아키텍처 평가, 또는 데드 코드 분석을 요청하세요. 이는 128K 모델을 빠르게 소진시키지만 V4 Flash의 창에는 편안하게 맞습니다.

시스템 프롬프트 오버헤드 — Claude Code는 10K~20K 토큰까지 실행될 수 있는 상세한 시스템 프롬프트를 사용합니다. 128K 모델에서는 이 오버헤드가 중요합니다. 1M 창에서는 무시할 수 있어 거의 모든 컨텍스트 예산을 실제 코드에 사용할 수 있습니다.

긴 세션의 비용 제어를 위해 비추론 모드는 가장 낮은 비용으로 일상적인 파일 편집의 대부분을 처리합니다. 작업에 설계 추론이 필요할 때 Think 모드로 전환하고, 어려운 알고리즘이나 디버깅 문제에는 Think Max를 사용하세요. Novita 캐시 읽기 가격($0.028/M)은 반복적인 시스템 프롬프트 주입이 대규모에서도 매우 저렴함을 의미합니다.

세션별 추론 모드 선택

DeepSeek V4 Flash는 세션별로 제어할 수 있는 세 가지 추론 모드를 지원합니다. 비추론 모드는 빠르고 직접적인 완성을 반환합니다. 상용구 생성, 일상적인 편집, 빠른 조회에 적합합니다. Think 모드는 코드 리뷰, 리팩터링, 아키텍처 결정을 위한 단계별 추론을 활성화합니다. Think Max는 최대 추론 예산을 할당하며 대부분의 코딩 벤치마크에서 V4 Pro와 일치합니다.

Claude Code를 더 깊은 추론으로 유도하는 가장 간단한 방법은 사용자 정의 시스템 프롬프트입니다:

claude --system "아키텍처 결정 및 복잡한 디버깅에는 확장 추론을 사용하세요."

프로그래매틱 제어를 위해 Novita AI의 엔드포인트는 budget_tokens 매개변수를 허용합니다. 0으로 설정하면 생각하기가 완전히 비활성화됩니다. 양수 값은 해당 토큰 예산까지 생각하기를 활성화합니다. 이는 특정 단계만 깊은 추론이 필요한 에이전트 파이프라인에서 유용합니다:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Your Novita API Key>",
)

# Think Max — 어려운 문제를 위한 최대 추론 예산
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "이 함수에서 미묘한 동시성 버그를 검토하세요."}],
)

비용에 민감한 세션의 경우 비추론 모드로 시작하고, 필요한 문제가 발생할 때만 Think로 전환하세요. Novita 캐시 읽기 가격이 $0.028/M 토큰이기 때문에 긴 다단계 세션에서도 반복적인 시스템 프롬프트 주입이 저렴하게 유지됩니다.

결론

Novita AI의 DeepSeek V4 Flash는 Claude Code에 능률적이고 비용 효율적인 백본을 제공합니다. 100만 컨텍스트, 선택 가능한 추론, 함수 호출을 Claude Sonnet 가격의 극히 일부로 제공합니다. 설정은 5분 미만이 소요됩니다. 환경 변수가 준비되면 기존 Claude Code 워크플로가 변경 없이 실행됩니다.

Novita AI에서 DeepSeek V4 Flash 사용해보기 및 추가 구성 옵션은 Novita AI LLM API 문서를 참조하세요.

FAQ

Claude Code가 Novita AI를 사용하려면 플러그인이나 확장 기능이 필요한가요?

아니요. Claude Code는 시작 시 ANTHROPIC_BASE_URL 환경 변수를 읽고 모든 API 호출을 해당 URL로 라우팅합니다. 플러그인, 확장 기능 또는 코드 변경이 필요하지 않습니다. 전환은 전적으로 환경 변수를 통해 이루어집니다.

Novita AI를 사용할 때 Anthropic에서 청구되나요?

아니요. ANTHROPIC_BASE_URL이 Novita AI를 가리키면 모든 트래픽과 청구는 Novita AI 계정을 통해 이루어집니다. Anthropic 계정은 사용되지 않습니다.

재설치 없이 Claude Sonnet으로 다시 전환할 수 있나요?

예. ANTHROPIC_BASE_URL과 ANTHROPIC_MODEL을 설정 해제하거나 해당 내보내기 없이 새 셸을 열면 Claude Code가 기본 Anthropic 엔드포인트와 Claude Sonnet으로 되돌아갑니다.

V4 Flash는 자동화된 CI 파이프라인에 적합한가요?

V4 Flash는 Claude Code가 가장 많이 의존하는 두 가지 기능인 함수 호출과 구조화된 출력을 지원합니다. 자동화된 코딩 파이프라인, CI 통합, 컨텍스트 연속성과 비용 예측 가능성이 중요한 긴 에이전트 세션에 실용적인 선택입니다.

컨텍스트 창이 가득 차면 어떻게 되나요?

1,048,576 토큰에서 V4 Flash의 컨텍스트 창은 대부분의 세션이 가득 차지 않을 만큼 충분히 큽니다. 극도로 긴 세션(며칠 동안 축적된 기록, 매우 큰 저장소)을 실행하는 경우 Claude Code가 가장 오래된 메시지를 자르기 시작합니다. 실제로는 새 작업에 대해 새 세션을 시작하는 것이 한도를 잘 유지하는 가장 간단한 방법입니다.

Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하고, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.

Claude Code에서 DeepSeek V4 Flash 사용하기: Novita AI를 통한 설정 가이드

Claude Code에서 DeepSeek V4 Flash를 사용해야 하는 이유

DeepSeek V4 Flash란 무엇인가

Novita AI API 키 받기

Claude Code 설치

Windows

Mac 및 Linux

환경 변수 구성

Windows

Mac 및 Linux

Claude Code 시작

대규모 코드베이스 작업

세션별 추론 모드 선택

결론

FAQ

추천 문서

Product

RESOURCES

Partners

Company

Claude Code에서 DeepSeek V4 Flash를 사용해야 하는 이유

DeepSeek V4 Flash란 무엇인가

Novita AI API 키 받기

Claude Code 설치

Windows

Mac 및 Linux

환경 변수 구성

Windows

Mac 및 Linux

Claude Code 시작

대규모 코드베이스 작업

세션별 추론 모드 선택

결론

FAQ

추천 문서

관련 게시글

Product

RESOURCES

Partners

Company