API를 통해 DeepSeek-V4-Flash에 어떻게 접근할 수 있나요?

DeepSeek-V4-Flash는 다음을 통해 구할 수 있습니다. Novita AI 모델 ID deepseek/deepseek-v4-flash를 사용하는 API입니다. OpenAI 호환 엔드포인트(https://api)를 사용하세요.novita.aiNovita API 키를 사용하여 /v3/openai를 실행하세요.

DeepSeek-V4-Flash의 컨텍스트 윈도우란 무엇입니까?

DeepSeek-V4-Flash는 압축 희소 어텐션(CSA)과 고강도 압축 어텐션(HCA)을 결합한 하이브리드 어텐션 아키텍처를 통해 1,048,576개 토큰(백만 개 토큰) 규모의 컨텍스트 윈도우를 지원합니다.

DeepSeek-V4-Flash는 다음을 지원합니다. Novita AI: 1M 컨텍스트 토큰, $0.14/M

Q: DeepSeek-V4-Flash란 무엇인가요?

DeepSeek-V4-Flash는 DeepSeek AI에서 개발한 284억 개의 매개변수를 가진 Mixture-of-Experts(MoE) 언어 모델로, 13억 개의 활성화된 매개변수를 지원하며 1,048,576개 토큰(1M)의 컨텍스트 윈도우를 지원합니다. 이 모델은 Non-think, Think, Think Max의 세 가지 추론 모드를 제공하며, 낮은 비용으로 빠른 추론을 수행하도록 최적화되어 있습니다.

Q: DeepSeek-V4-Flash는 DeepSeek-V4-Pro와 어떻게 다른가요?

DeepSeek-V4-Flash는 V4 시리즈의 속도 최적화 버전입니다. V4-Pro는 대부분의 주요 벤치마크에서 우위를 점하지만(LiveCodeBench Think Max에서 93.5 vs 91.6), V4-Flash도 Think Max 모드에서 상당한 격차를 좁혔습니다. 두 제품 모두 1만 토큰 컨텍스트 윈도우를 공유합니다. V4-Flash는 가격이 더 저렴하고 가격 대비 처리량이 더 높습니다.

Q: DeepSeek-V4-Flash의 가격은 얼마인가요?

통하다 Novita AIDeepSeek-V4-Flash는 입력 토큰 100만 개당 0.14달러, 출력 토큰 100만 개당 0.28달러, 캐시 읽기 100만 개당 0.028달러의 가격으로 제공됩니다. 100만 개의 컨텍스트 윈도우와 KV 캐시 지원을 통해 장문 문서 워크로드에 비용 효율적입니다.

추론 기능을 갖춘 대부분의 오픈 소스 모델은 작은 컨텍스트 창, 느린 처리 속도, 또는 확장된 사고 기능을 활성화하는 순간 토큰당 1달러 이상으로 치솟는 가격이라는 절충안을 강요합니다. DeepSeek-V4-Flash는 이러한 문제를 완전히 해결합니다. 2840억 개의 파라미터 중 추론당 130억 개만 활성화되고, 기본적으로 1,048,576개의 토큰을 지원하는 컨텍스트 창을 제공하며, 세 가지 추론 모드를 선택할 수 있습니다. 입력 토큰 100만 개당 0.14달러라는 가격은 추론 기능을 갖춘 모델들이 거의 경쟁할 수 없는 수준입니다.

요약하자면, DeepSeek-V4-Flash는 DeepSeek AI에서 개발한 MoE 모델로, 폐쇄형 모델의 높은 가격 부담 없이 높은 처리량을 필요로 하는 개발자에게 1만 토큰 컨텍스트와 조정 가능한 추론 깊이를 제공합니다. 현재 이 모델은 DeepSeek AI를 통해 이용 가능합니다. Novita AI API.

Click Here

차례

DeepSeek-V4-Flash는 다음을 지원합니다. Novita AI: 1M 컨텍스트 토큰, $0.14/M

DeepSeek-V4-Flash란 무엇인가요?

DeepSeek-V4-Flash는 Mixture-of-Experts(MoE) 언어 모델입니다. 딥시크 AI이 모델은 더 큰 규모의 DeepSeek-V4-Pro와 함께 DeepSeek-V4 시리즈의 일부로 출시되었습니다. 총 284억 개의 파라미터를 가지고 있으며, 추론 시 13억 개의 파라미터가 활성화됩니다. 이를 통해 토큰당 컴퓨팅 비용을 낮추면서도 훨씬 더 큰 모델의 파라미터 용량을 유지할 수 있습니다.

주요 기능을 한눈에 살펴보세요:

총 284억 개 / 활성화된 매개변수 13억 개 — MoE 아키텍처, 낮은 추론 비용
1,048,576개 토큰 컨텍스트 창 (1만 토큰) — 하이브리드 어텐션 아키텍처를 통해 구현됨
세 가지 추론 방식: 생각 없이 빠르게 생각하기, 단계적으로 생각하기, 최대한 생각하기 (추론 예산 최대화)
함수 호출 지원 — 도구 사용, 구조화된 출력, JSON 모드
32조 개 이상의 토큰으로 학습됨 다단계 사후 훈련(SFT, GRPO를 사용한 강화 학습, 정책 기반 증류)
MIT 라이센스 — 다운로드 가능한 가중치는 다음과 같습니다. 포옹 얼굴상업적 이용 허용
FP4 + FP8 혼합 정밀도 — FP4에서는 교육부 전문가 가중치를 사용하고, 나머지 레이어는 FP8에서 사용합니다.

주요 특징: DeepSeek-V4-Flash가 돋보이는 이유

모델 전환 없이 추론 깊이 선택 가능

대부분의 모델은 추론 모드 하나를 선택하도록 제한합니다. 즉, 추론 활성화 또는 추론 비활성화 중 하나를 사용해야 합니다. 하지만 DeepSeek-V4-Flash는 동일한 API 엔드포인트에서 세 가지의 서로 다른 작동 모드를 제공합니다.

모드	형질	지원 기기
생각하지 않음	빠르고, 생각의 흐름이 필요 없음	대량 작업, 채팅, 요약
생각	단계별 추론, 균형 잡힌	복잡한 질의응답, 코드 생성, 분석
맥스를 생각하세요	최대 추론 예산	수학 경시대회, 어려운 코딩 과제, 벤치마크

모드 간 성능 차이는 상당합니다. GPQA Diamond 벤치마크에서 V4-Flash Non-think는 71.2점을 기록한 반면, Think는 87.4점, Think Max는 88.1점을 기록했습니다. LiveCodeBench에서는 Think Max가 91.6점을 달성한 반면, Non-think는 55.2점에 그쳤습니다. 인프라 변경 없이 요청별로 비용과 품질 중 원하는 것을 선택할 수 있습니다.

1만 토큰 컨텍스트를 위한 하이브리드 어텐션 아키텍처

수백만 개의 토큰을 처리하는 네이티브 컨텍스트는 생각보다 어렵습니다. DeepSeek-V4-Flash는 두 가지 메커니즘을 결합한 특수 설계된 하이브리드 어텐션 아키텍처를 통해 이를 구현합니다.

압축된 희소 주의(CSA) — 긴 시퀀스에 대한 어텐션 연산 예산을 대폭 줄입니다.
고도로 압축된 주의력(HCA) — 1M 컨텍스트 추론을 위한 KV 캐시 사용량을 압축합니다.

결과적으로, 1만 개 토큰 입력에 대한 추론이 관리 가능한 FLOP 및 메모리 비용으로 가능해졌습니다. 코드베이스 분석, 법률 문서 검토 또는 장기 세션 에이전트와 같은 워크로드의 경우, 이 아키텍처는 실행 가능성과 실행 불가능성을 가르는 중요한 요소가 됩니다.

MoE 효율: 284B 규모에서 13B 활성화

284B/13B 활성화 비율이 비용 효율성의 핵심입니다. 순방향 전달 시 13B개의 파라미터만 활성화되므로 지연 시간과 토큰당 비용이 13B 밀집 모델과 거의 비슷하게 유지됩니다. 동시에 전체 284B 파라미터 풀은 훨씬 더 큰 밀집 네트워크와 유사한 지식 용량을 제공합니다. FP4 + FP8 혼합 정밀도는 전문가 가중치에 대한 메모리 대역폭 부담을 더욱 줄여줍니다.

탄탄한 교육 후 파이프라인

DeepSeek-V4-Flash는 2단계 학습 후 과정을 거칩니다. 첫 번째 단계에서는 SFT와 GRPO를 활용한 강화 학습을 통해 도메인별 전문가를 육성하고, 두 번째 단계에서는 온폴리시 증류를 통해 모델을 통합합니다. 이 과정을 통해 코딩, 추론, 일반 지식 등 다양한 영역에서 차별화된 능력을 갖춘 단일 모델이 생성되며, 단순히 명령을 따르는 일반적인 모델이 아닙니다.

벤치마크 성능

DeepSeek-V4-Flash의 벤치마크 테스트 결과는 추론 모드 선택에 달려 있습니다. 비사고 모드에서는 효율적인 13B 활성화 모델처럼 작동하지만, 사고 최대 모드로 전환하면 완전히 다른 차원의 성능을 보여줍니다.

DeepSeek-V4-Flash 벤치마크 비교 차트로, 다양한 추론 모드에 따른 성능을 보여줍니다. — *DeepSeek-V4-Flash의 다양한 모드별 성능 비교 (최첨단 모델 대비) [출처:] 딥시크 AI / 허깅페이스]*

추론 모드 전반에 걸친 성능

아래는 V4-Flash의 주요 벤치마크 점수이며, 세 가지 작동 모드를 모두 비교한 결과입니다.

기준	V4-플래시 논씽크	V4-플래시 생각하기	V4-플래시 씽크 맥스
LiveCodeBench(Pass@1)	55.2	88.4	91.6
GPQA 다이아몬드 (Pass@1)	71.2	87.4	88.1
HMMT 2026년 2월 (Pass@1)	40.8	91.9	94.8
IMOAnswerBench (Pass@1)	41.9	85.1	88.4
코드포스 평가	-	2816	3052
SWE 확인됨(해결됨)	73.7	78.6	79.0
MRCR 1M (MMR)	37.5	76.9	78.7
MCPAtlas (Pass@1)	64.0	67.4	69.0
MMLU-프로(EM)	83.0	86.4	86.2

최종 확인일: 2026년 04월 27일. 출처: DeepSeek-V4 기술 보고서 및 HuggingFace 모델 카드.

V4-Flash는 경쟁 제품과 어떻게 다를까요?

V4-Flash Think Max(SWE 검증 점수 79.0, LiveCodeBench 점수 91.6)는 토큰당 비용이 훨씬 높은 모델들과 경쟁합니다. 모든 벤치마크에서 1위를 차지하는 것은 아니지만(대부분의 최첨단 벤치마크에서는 V4-Pro Max가 선두입니다), 최고 성능보다는 작업당 비용을 중시하는 개발자에게는 이러한 절충안이 매력적입니다.

기준	V4-플래시 맥스	V4-프로 맥스	클로드 오푸스 4.6 맥스	제미니 3.1 프로 하이
LiveCodeBench(Pass@1)	91.6	93.5	88.8	91.7
GPQA 다이아몬드 (Pass@1)	88.1	90.1	91.3	94.3
SWE 확인됨(해결됨)	79.0	80.6	80.8	80.6
HMMT 2026년 2월 (Pass@1)	94.8	95.2	96.2	94.7
MRCR 1M (MMR)	78.7	83.5	92.9	76.3

최종 확인일: 2026년 04월 27일. Claude Opus 4.6 Max 및 Gemini 3.1 Pro의 최고 성능 수치는 다음에서 가져왔습니다. DeepSeek-V4 기술 보고서 (V4-Pro 성능 비교표). 해당 보고서에서는 이 점수들을 V4-Flash와 직접 비교 측정하지 않았습니다.

특히, V4-Flash Think Max는 MRCR 1M(78.7)에서 Gemini 3.1 Pro High(76.3)를 장기 컨텍스트 검색 작업에서 능가했는데, 이는 1M 컨텍스트 사용 사례와 가장 직접적으로 연결되는 벤치마크입니다. SWE Verified에서 네 가지 모델 모두 79~81 사이의 점수를 기록하여, V4-Flash는 폐쇄형 모델 가격의 일부만으로도 실제 코딩 에이전트 분야에서 경쟁력을 갖추고 있음을 보여줍니다.

DeepSeek-V4-Flash를 사용하는 방법 Novita AI

옵션 1: 플레이그라운드 (코드 필요 없음)

브라우저에서 직접 모델을 테스트해 보세요. Novita AI 모델 콘솔시작하는 데 API 키가 필요하지 않습니다. 채팅 인터페이스를 통해 비사고 모드, 사고 모드, 사고 최대화 모드 간에 전환할 수 있습니다.

옵션 2: API (파이썬)

DeepSeek-V4-Flash는 OpenAI 호환 API를 사용합니다. 모델 ID를 사용하세요. deepseek/deepseek-v4-flash Novita 기본 URL 포함:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)

Think 또는 Think Max 모드를 활성화하려면 다음을 전달하십시오. reasoning 요청 본문의 매개변수:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Think Max mode — maximum reasoning budget
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
    extra_body={"reasoning": {"effort": "high"}}  # "low" = Think, "high" = Think Max
)
print(response.choices[0].message.content)

API 키를 받으세요 novita.ai/ 설정.

옵션 3: 타사 도구

때문에 Novita AI OpenAI와 호환되는 엔드포인트를 제공하며, DeepSeek-V4-Flash는 다음과 같은 환경에서 바로 사용할 수 있습니다.

랭체인 / 라마인덱스 - 사용 ChatOpenAI 과 base_url="https://api.novita.ai/v3/openai"
오픈웹UI — OpenAI 호환 사용자 지정 엔드포인트로 추가
Continue.dev / 커서 — Novita 기본 URL을 사용하여 사용자 지정 모델로 구성합니다.

가격

DeepSeek-V4-Flash는 주요 공급업체에서 일관된 가격으로 제공됩니다. 모든 수치는 2026년 04월 27일 기준 백만 토큰당 가격입니다.

Provider	입력 ($/M)	출력($/M)	캐시 읽기($/M)	최대 컨텍스트
Novita AI	$0.14	$0.28	$0.028	1,048,576 토큰
딥시크 공식 계정	$0.14	$0.28	$0.028	131,072 토큰
실리콘플로우	$0.14	$0.28	$0.028	65,536 토큰
딥인프라	$0.14	$0.28	-	16,384 토큰

토큰당 요금은 어디에서나 동일하지만, 최대 컨텍스트는 크게 다릅니다. Novita AI 1만 토큰 컨텍스트 창을 모두 사용할 수 있습니다. DeepInfra는 16,384개 토큰으로 제한됩니다. 긴 문서, 코드베이스 또는 다중 턴 에이전트와 같은 워크로드를 처리하는 경우 Novita가 실용적인 선택입니다.

권장 사용 사례

자율 코딩 에이전트

V4-Flash의 1M 컨텍스트 윈도우는 에이전트가 코드베이스 전체를 청크 분할 없이 컨텍스트에 로드할 수 있음을 의미합니다. Think Max 모드에서 79.0 SWE 검증을 거친 이 기능은 턴 간 상태 손실 없이 여러 파일로 구성된 리팩토링 및 디버깅을 처리합니다.

장문 문서 QA 및 RAG

MRCR 1M(다중 라운드 컨텍스트 검색)에서 78.7%의 Think Max 벤치마크 성능을 달성했습니다. 이 벤치마크는 실제 1만 토큰 윈도우에서 검색 정확도를 측정합니다. 법률 문서, 학술 논문 또는 장문의 기술 사양을 인덱싱할 때, V4-Flash는 대부분의 모델이 32개 토큰 이후 성능이 저하되는 지점에서도 정확한 검색을 수행합니다.

수학 및 과학적 추론

Think Max를 사용하여 HMMT 2026 2월 시험(수학 경시대회)에서 94.8%의 점수를 획득했습니다. 예산 관리 모드를 통해 비용과 정확도를 조정할 수 있습니다. 일반적인 문제는 Think를 사용하고, 어려운 문제는 Think Max를 사용하세요. 단일 요청에 고정된 컴퓨팅 예산이 소모되지 않으므로, 필요에 따라 선택할 수 있습니다.

캐싱 기능을 갖춘 프로덕션 API

캐시 읽기 비용이 월 0.028달러이므로, 반복적인 시스템 프롬프트와 도구 스키마는 대규모 환경에서 사실상 비용이 들지 않습니다. 모든 호출에서 동일한 컨텍스트를 다시 주입하는 챗봇 제품 및 API 래퍼는 원시 입력 가격 책정보다 캐시 읽기 가격 책정의 이점을 누릴 수 있습니다.

자주 묻는 질문

DeepSeek-V4-Flash란 무엇인가요?

DeepSeek-V4-Flash는 DeepSeek AI에서 개발한 284억 개의 파라미터를 가진 Mixture-of-Experts 언어 모델로, 2026년 04월 23일에 출시되었습니다. 순방향 전달 과정에서 단 13억 개의 파라미터만 활성화하여, 유사한 성능의 밀집 모델보다 훨씬 빠르고 효율적입니다. 1,048,576개의 토큰으로 구성된 컨텍스트 윈도우와 세 가지 추론 모드(비사고(빠른), 예산 사고, 확장 사고(최대 사고))를 지원합니다.

DeepSeek-V4-Flash는 DeepSeek-V4-Pro와 어떻게 다른가요?

V4-Flash는 속도와 비용에 최적화된 더 가볍고 빠른 버전입니다. V4-Pro는 더 높은 최고 벤치마크 점수(예: LiveCodeBench Think Max에서 93.5점 대 91.6점)를 자랑하는 플래그십 모델입니다. V4-Flash는 "더 큰 사고 예산이 주어졌을 때 Pro 버전과 유사한 추론 성능을 달성"합니다. 실제로 V4-Flash Think Max는 토큰당 비용을 낮추면서 V4-Pro Think Max와의 성능 격차를 대부분 좁힙니다.

모델명에 있는 "Flash"는 무슨 뜻인가요?

Flash는 속도 최적화 변형을 나타내며, Google이 Gemini Flash에 사용하는 용어와 일관됩니다. DeepSeek-V4-Flash는 최대 정확도보다는 낮은 지연 시간과 비용을 우선시하며, 성능 격차를 줄여야 할 때 사용할 수 있는 탐색 모드를 제공합니다.

DeepSeek-V4-Flash는 1M 컨텍스트 윈도우를 지원합니까? Novita AI?

예. Novita AI 이 모델은 현재 모든 제공업체 중에서 가장 큰 1,048,576개 토큰 컨텍스트 창을 제공합니다. Novita의 최대 완료 토큰 수는 393,216개입니다.

API를 통해 추론 모드를 전환하는 방법은 무엇인가요?

통과 extra_body={"reasoning": {"effort": "low"}} 예산 사고의 매개변수 또는 "effort": "high" Think Max의 경우 해당 매개변수를 완전히 생략하면 사고를 하지 않는(빠른) 모드가 됩니다. API는 OpenAI와 호환되므로 SDK를 변경할 필요가 없습니다.

DeepSeek-V4-Flash의 가격은 얼마인가요? Novita AI?

2026년 4월 27일 기준: 입력 토큰 1개월당 $0.14, 출력 토큰 1개월당 $0.28, 캐시 읽기 토큰 1개월당 $0.028. 이는 DeepSeek의 공식 가격과 동일하며 모든 제공업체에서 일관된 가격입니다. Novita의 차별점은 1개월 전체 컨텍스트 창과 안정적인 가동 시간입니다.

DeepSeek-V4-Flash는 오픈 소스인가요?

네. 모델 무게 정보는 다음에서 확인할 수 있습니다. 포옹 얼굴 아래 MIT 라이센스 — 공식 DeepSeek-V4 저장소에서 확인되었습니다. MIT 약관에 따라 자체 호스팅 및 상업적 사용이 허용됩니다. 다음을 통해 사용하세요. Novita AI's API는 자체 호스팅이 전혀 필요하지 않습니다.

지금 바로 DeepSeek-V4-Flash를 사용해 보세요.

DeepSeek-V4-Flash는 이제 다음을 통해 이용 가능합니다. Novita AI 최대 1M 컨텍스트 윈도우, 경쟁력 있는 가격, 그리고 인프라 구축 비용이 전혀 들지 않습니다. 추론 모드를 선택하시면 나머지는 Novita가 처리합니다.

→ DeepSeek-V4-Flash를 사용해 보세요. Novita AI

→ Novita AI LLM API 문서

DeepSeek-V4-Flash에서 Novita AI더 낮은 비용으로 빠른 추론이 가능합니다.

DeepSeek-V4-Flash는 다음을 지원합니다. Novita AI: 1M 컨텍스트 토큰, $0.14/M

DeepSeek-V4-Flash란 무엇인가요?