Novita AI의 DeepSeek-V4-Flash: 저렴한 비용으로 빠른 추론

Novita AI의 DeepSeek-V4-Flash: 저렴한 비용으로 빠른 추론

Novita AI가 지원하는 DeepSeek-V4-Flash: 토큰당 $0.14/M에 100만 컨텍스트

대부분의 추론 기능을 갖춘 오픈소스 모델은 트레이드오프를 강제합니다. 작은 컨텍스트 창, 느린 처리량, 또는 확장 사고를 활성화하는 즉시 토큰당 $1/M 이상으로 치솟는 가격이 그것입니다. DeepSeek-V4-Flash는 이러한 문제를 완전히 우회합니다. 284B 파라미터, 추론당 13B만 활성화, 기본 1,048,576 토큰 컨텍스트 창, 세 가지 선택 가능한 추론 모드를 제공합니다. 입력 토큰당 $0.14/M의 가격으로, 추론이 가능한 모델이 거의 경쟁하지 못하는 범주에 자리 잡고 있습니다.

요약: DeepSeek-V4-Flash는 DeepSeek AI의 MoE 모델로, 폐쇄형 모델의 프리미엄 가격 없이 처리량이 필요한 개발자에게 100만 토큰 컨텍스트와 조정 가능한 추론 깊이를 제공합니다. 현재 Novita AI API를 통해 사용할 수 있습니다.

여기 클릭

DeepSeek-V4-Flash란 무엇인가요?

DeepSeek-V4-Flash는 DeepSeek AI가 개발한 Mixture-of-Experts (MoE) 언어 모델로, 더 큰 DeepSeek-V4-Pro와 함께 DeepSeek-V4 시리즈의 일부로 출시되었습니다. 이 모델은 총 284B 파라미터를 가지며 추론 시 13B만 활성화되어 토큰당 연산 비용을 낮게 유지하면서도 훨씬 더 큰 모델의 파라미터 용량을 유지합니다.

주요 기능 요약:

  • 284B 총 / 13B 활성화 파라미터 — MoE 아키텍처, 낮은 추론 비용
  • 1,048,576 토큰 컨텍스트 창 (100만 토큰) — 하이브리드 어텐션 아키텍처 지원
  • 세 가지 추론 모드: 비추론(빠름), 추론(단계별), 최대 추론(최대 추론 예산)
  • 함수 호출 지원 — 도구 사용, 구조화된 출력, JSON 모드
  • 32T+ 토큰 학습 및 다단계 사후 학습(SFT, GRPO를 사용한 RL, 온폴리시 증류)
  • MIT 라이선스HuggingFace에서 가중치 다운로드 가능; 상업적 사용 허용
  • FP4 + FP8 혼합 정밀도 — MoE 전문가 가중치는 FP4, 나머지 레이어는 FP8

주요 기능: DeepSeek-V4-Flash가 돋보이는 이유

모델 전환 없이 선택 가능한 추론 깊이

대부분의 모델은 단일 추론 모드(추론 켜짐 또는 꺼짐)로 고정됩니다. DeepSeek-V4-Flash는 동일한 API 엔드포인트에서 세 가지 고유한 작동 모드를 제공합니다:

모드 특징 최적 용도
비추론 빠름, 체인오브생각 없음 대량 작업, 채팅, 요약
추론 단계별 추론, 균형 잡힘 복잡한 Q&A, 코드 생성, 분석
최대 추론 최대 추론 예산 수학 경쟁, 어려운 코딩 작업, 벤치마크

모드 간 차이는 상당합니다: GPQA Diamond에서 V4-Flash 비추론은 71.2점, 추론은 87.4점, 최대 추론은 88.1점입니다. LiveCodeBench에서 최대 추론은 91.6점, 비추론은 55.2점입니다. 요청당 비용과 품질을 선택할 수 있으며 인프라 변경은 필요하지 않습니다.

100만 토큰 컨텍스트를 위한 하이브리드 어텐션 아키텍처

기본 백만 토큰 컨텍스트는 생각보다 어렵습니다. DeepSeek-V4-Flash는 두 가지 메커니즘을 결합한 특수 제작된 하이브리드 어텐션 아키텍처를 통해 이를 달성합니다:

  • 압축 희소 어텐션 (CSA) — 긴 시퀀스에 대한 어텐션 연산 예산을 크게 줄임
  • 고압축 어텐션 (HCA) — 100만 컨텍스트 추론을 위한 KV 캐시 공간을 압축

결과: 100만 토큰 입력에 대한 추론을 관리 가능한 FLOP 및 메모리 비용으로 수행할 수 있습니다. 코드베이스 분석, 법률 문서 검토, 장기 세션 에이전트와 같은 워크로드에서 이 아키텍처는 실행 가능과 불가능의 차이를 만듭니다.

MoE 효율성: 284B 스케일에서 13B 활성화

284B/13B 활성화 비율이 비용 효율성의 핵심입니다. 순방향 패스당 13B 파라미터만 활성화되어 지연 시간과 토큰당 비용을 13B 밀집 모델에 가깝게 유지하는 반면, 전체 284B 파라미터 풀은 훨씬 더 큰 밀집 네트워크에 필적하는 지식 용량을 제공합니다. FP4 + FP8 혼합 정밀도는 전문가 가중치에 대한 메모리 대역폭 압력을 더욱 줄입니다.

강력한 사후 학습 파이프라인

DeepSeek-V4-Flash는 2단계 사후 학습 과정을 따릅니다: 먼저 SFT 및 GRPO를 사용한 강화 학습을 통한 도메인별 전문가 육성, 그 다음 온폴리시 증류를 통한 통합 모델 통합입니다. 이는 코딩, 추론 및 일반 지식 전반에 걸쳐 차별화된 기능 프로필을 가진 단일 모델을 생성합니다. 단순한 지시 따르기 모델이 아닙니다.

벤치마크 성능

DeepSeek-V4-Flash의 벤치마크 성능은 추론 모드 선택에 관한 것입니다. 비추론 모드에서는 효율적인 13B 활성화 모델처럼 작동합니다. 최대 추론으로 올리면 완전히 다른 계층에 도달합니다.

추론 모드별 DeepSeek-V4-Flash 벤치마크 비교 차트

모드별 DeepSeek-V4-Flash 성능 대 최첨단 모델 [출처: DeepSeek AI / HuggingFace]

추론 모드별 성능

다음은 주요 벤치마크에서 V4-Flash의 점수로, 세 가지 작동 모드를 비교합니다:

벤치마크 V4-Flash 비추론 V4-Flash 추론 V4-Flash 최대 추론
LiveCodeBench (Pass@1) 55.2 88.4 91.6
GPQA Diamond (Pass@1) 71.2 87.4 88.1
HMMT 2026 Feb (Pass@1) 40.8 91.9 94.8
IMOAnswerBench (Pass@1) 41.9 85.1 88.4
Codeforces Rating 2816 3052
SWE Verified (해결됨) 73.7 78.6 79.0
MRCR 1M (MMR) 37.5 76.9 78.7
MCPAtlas (Pass@1) 64.0 67.4 69.0
MMLU-Pro (EM) 83.0 86.4 86.2

최종 확인: 2026-04-27. 출처: DeepSeek-V4 기술 보고서 및 HuggingFace 모델 카드.

V4-Flash와 경쟁 모델 비교

V4-Flash 최대 추론 (SWE Verified 79.0, LiveCodeBench 91.6)은 훨씬 높은 토큰당 비용으로 실행되는 모델과 경쟁합니다. 모든 리더보드에서 1위를 차지하지는 않지만(대부분의 최첨단 벤치마크에서 V4-Pro Max가 선두), 작업당 비용을 기준으로 평가하는 개발자에게는 유리한 트레이드오프입니다:

벤치마크 V4-Flash 최대 추론 V4-Pro 최대 추론 Claude Opus 4.6 최대 추론 Gemini 3.1 Pro High
LiveCodeBench (Pass@1) 91.6 93.5 88.8 91.7
GPQA Diamond (Pass@1) 88.1 90.1 91.3 94.3
SWE Verified (해결됨) 79.0 80.6 80.8 80.6
HMMT 2026 Feb (Pass@1) 94.8 95.2 96.2 94.7
MRCR 1M (MMR) 78.7 83.5 92.9 76.3

최종 확인: 2026-04-27. Claude Opus 4.6 최대 추론 및 Gemini 3.1 Pro High 수치는 DeepSeek-V4 기술 보고서에서 가져왔습니다(V4-Pro 최첨단 비교 표). 해당 보고서에서 V4-Flash와 직접 비교 측정된 점수는 아닙니다.

특히 MRCR 1M에서 V4-Flash 최대 추론(78.7)은 장기 컨텍스트 검색 작업에서 Gemini 3.1 Pro High(76.3)를 능가합니다. 이 벤치마크는 100만 컨텍스트 사용 사례를 가장 직접적으로 반영합니다. SWE Verified에서는 네 모델 모두 79–81 사이에 모여 있어, 폐쇄형 모델 가격의 극히 일부로 실제 코딩 에이전트 범주에서 경쟁력이 있습니다.

Novita AI를 통해 DeepSeek-V4-Flash 사용하는 방법

옵션 1: 플레이그라운드 (코드 불필요)

Novita AI 모델 콘솔에서 브라우저에서 직접 모델을 테스트하세요. API 키 없이 시작할 수 있습니다. 채팅 인터페이스에서 비추론, 추론, 최대 추론 모드 간에 전환할 수 있습니다.

옵션 2: API (Python)

DeepSeek-V4-Flash는 OpenAI 호환 API를 사용합니다. Novita 기본 URL과 함께 모델 ID deepseek/deepseek-v4-flash를 사용하세요:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)

추론 또는 최대 추론 모드를 활성화하려면 요청 본문에 reasoning 매개변수를 전달하세요:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# 최대 추론 모드 — 최대 추론 예산
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
    extra_body={"reasoning": {"effort": "high"}}  # "low" = 추론, "high" = 최대 추론
)
print(response.choices[0].message.content)

API 키는 novita.ai/settings에서 받으세요.

옵션 3: 타사 도구

Novita AI는 OpenAI 호환 엔드포인트를 제공하므로 DeepSeek-V4-Flash를 다음 도구와 바로 사용할 수 있습니다:

  • LangChain / LlamaIndexChatOpenAIbase_url="https://api.novita.ai/v3/openai"와 함께 사용
  • OpenWebUI — 사용자 정의 OpenAI 호환 엔드포인트로 추가
  • Continue.dev / Cursor — Novita 기본 URL을 사용하여 사용자 정의 모델로 구성

가격

DeepSeek-V4-Flash는 주요 제공업체에서 일관되게 가격이 책정됩니다. 모든 수치는 백만 토큰 기준이며, 2026-04-27 기준:

제공업체 입력 ($/M) 출력 ($/M) 캐시 읽기 ($/M) 최대 컨텍스트
Novita AI $0.14 $0.28 $0.028 1,048,576 토큰
DeepSeek 공식 $0.14 $0.28 $0.028 131,072 토큰
SiliconFlow $0.14 $0.28 $0.028 65,536 토큰
DeepInfra $0.14 $0.28 16,384 토큰

토큰당 요금은 모든 곳에서 동일하지만 최대 컨텍스트는 크게 다릅니다. Novita AI는 전체 100만 토큰 컨텍스트 창을 제공합니다. DeepInfra는 16,384 토큰으로 제한됩니다. 장문 문서, 코드베이스 또는 다중 턴 에이전트를 다루는 워크로드라면 Novita가 실용적인 선택입니다.

권장 사용 사례

자율 코딩 에이전트

V4-Flash의 100만 컨텍스트 창은 에이전트가 코드베이스 전체를 청킹 없이 컨텍스트에 로드할 수 있음을 의미합니다. 최대 추론 모드에서 SWE Verified 79.0과 결합하여 다중 파일 리팩터링 및 디버깅을 턴 사이에 상태 손실 없이 처리합니다.

장문 문서 QA 및 RAG

MRCR 1M (다중 라운드 컨텍스트 검색) 최대 추론 78.7% — 이 벤치마크는 실제 100만 토큰 창에서의 검색 정확도를 측정합니다. 법률 문서, 학술 논문 또는 긴 기술 사양 색인화에 대해 V4-Flash는 대부분의 모델이 32K 토큰 이후 성능이 저하되는 경우에도 정확하게 검색합니다.

수학 및 과학 추론

HMMT 2026 2월 (경쟁 수학) 최대 추론 94.8%. 예산 생각 모드를 사용하면 비용 대비 정확도를 조정할 수 있습니다. 표준 문제에는 추론을, 어려운 문제에는 최대 추론을 사용하세요. 단일 요청이 고정된 연산 예산을 소모하지 않습니다. 직접 선택할 수 있습니다.

캐싱을 활용한 프로덕션 API

$0.028/M 캐시 읽기 가격으로 반복되는 시스템 프롬프트와 도구 스키마는 규모에서 사실상 비용이 들지 않습니다. 매 호출마다 동일한 컨텍스트를 다시 주입하는 챗봇 제품 및 API 래퍼는 원시 입력 가격 대신 캐시 읽기 가격의 혜택을 받습니다.

자주 묻는 질문

DeepSeek-V4-Flash란 무엇인가요?

DeepSeek-V4-Flash는 DeepSeek AI가 개발한 284B 파라미터 Mixture-of-Experts 언어 모델로, 2026-04-23에 출시되었습니다. 순방향 패스당 13B 파라미터만 활성화하여 비슷한 성능의 밀집 모델보다 훨씬 빠르고 저렴합니다. 1,048,576 토큰 컨텍스트 창과 세 가지 추론 모드(비추론, 예산 추론, 확장 추론(최대 추론))를 지원합니다.

DeepSeek-V4-Flash와 DeepSeek-V4-Pro의 차이점은 무엇인가요?

V4-Flash는 속도와 비용에 최적화된 더 가볍고 빠른 변형입니다. V4-Pro는 더 높은 최고 벤치마크 점수(예: LiveCodeBench 최대 추론에서 93.5 대 91.6)를 가진 플래그십 모델입니다. V4-Flash는 “더 큰 사고 예산이 주어질 때 Pro 버전과 비슷한 추론 성능을 달성합니다.” 실제로 V4-Flash 최대 추론은 더 낮은 토큰당 비용으로 V4-Pro 최대 추론과의 격차를 대부분 좁힙니다.

모델 이름에서 "Flash"는 무엇을 의미하나요?

Flash는 Google이 Gemini Flash에서 사용하는 용어와 일관되게 속도 최적화 변형을 나타냅니다. DeepSeek-V4-Flash는 성능 격차를 좁혀야 할 때 추론 모드를 사용할 수 있도록 하면서, 원시 최대 정확도보다 낮은 지연 시간과 비용을 우선시합니다.

DeepSeek-V4-Flash가 Novita AI에서 100만 컨텍스트 창을 지원하나요?

네. Novita AI는 전체 1,048,576 토큰 컨텍스트 창을 제공합니다. 이는 현재 이 모델에 대해 모든 제공업체 중에서 가장 큰 것입니다. Novita의 최대 완성 토큰은 393,216입니다.

API를 통해 추론 모드를 어떻게 전환하나요?

예산 추론의 경우 extra_body={"reasoning": {"effort": "low"}} 매개변수를 전달하고, 최대 추론의 경우 "effort": "high"를 전달하세요. 모드를 생략하면 비추론(빠름) 모드가 됩니다. API는 OpenAI 호환이므로 SDK 변경이 필요하지 않습니다.

Novita AI가 지원하는 DeepSeek-V4-Flash의 가격은 얼마인가요?

2026-04-27 기준: 입력 토큰 $0.14/M, 출력 토큰 $0.28/M, 캐시 읽기 토큰 $0.028/M입니다. 이는 DeepSeek의 공식 가격과 일치하며 모든 제공업체에서 일관됩니다. Novita의 차별점은 전체 100만 컨텍스트 창과 안정적인 가동 시간입니다.

DeepSeek-V4-Flash는 오픈소스인가요?

네. 모델 가중치는 HuggingFace에서 MIT 라이선스로 제공됩니다. 공식 DeepSeek-V4 저장소에서 확인되었습니다. 자체 호스팅 및 상업적 사용은 MIT 조건에 따라 허용됩니다. Novita AI의 API를 통해 사용하는 경우 자체 호스팅이 전혀 필요하지 않습니다.


지금 DeepSeek-V4-Flash 사용 시작하기

DeepSeek-V4-Flash가 이제 Novita AI에서 전체 100만 컨텍스트 창, 경쟁력 있는 가격, 제로 인프라 오버헤드로 제공됩니다. 추론 모드를 선택하면 Novita가 나머지를 처리합니다.

Novita AI가 지원하는 DeepSeek-V4-Flash 사용해보기

Novita AI LLM API 문서


추천 문서