Novita AI의 DeepSeek V3.2는 $0.269/$0.40 (입력/출력 토큰 100만 개당)의 가격으로 개발자에게 금메달 수준의 IMO/IOI 추론 성능을 제공합니다. 685B 파라미터 Mixture-of-Experts 아키텍처와 혁신적인 DeepSeek Sparse Attention(DSA)을 기반으로 구축된 이 모델은 긴 컨텍스트 작업의 계산 복잡성을 줄이면서 추론 벤치마크에서 최고 수준의 결과를 달성합니다.
수학 문제 해결사, 코딩 에이전트, 복잡한 추론 워크플로를 구축하는 개발자에게 Novita AI의 서버리스 인프라는 OpenAI 호환 및 Anthropic 호환 엔드포인트를 통해 업계 최고 수준의 지연 시간을 제공합니다. 기본 URL만 변경하면 2분 만에 실행할 수 있습니다.
DeepSeek V3.2란 무엇인가요?
DeepSeek V3.2는 685.4B 파라미터의 Mixture-of-Experts 추론 모델로, 토큰당 37B의 활성 파라미터를 사용하여 효율적인 긴 컨텍스트 처리와 뛰어난 에이전트 성능을 제공합니다. V3.1-Terminus의 업그레이드 버전으로 출시되었으며, 세 가지 혁신적인 기능을 도입했습니다:
기술 아키텍처
| 사양 | 값 |
|---|---|
| 전체 파라미터 | 685B |
| 활성 파라미터 | 토큰당 37B |
| MoE 구성 | 256개 라우팅 전문가, 8개 활성 |
| 컨텍스트 윈도우 | 163,840 토큰 |
| 어텐션 메커니즘 | DSA + MLA 하이브리드 |
| 정밀도 | BF16; F8_E4M3; F32 |
핵심 혁신
1. DeepSeek Sparse Attention(DSA): 라이트닝 인덱서와 토큰 선택기를 사용하여 컨텍스트를 선택적으로 정리하는 세분화된 희소 메커니즘입니다. 모든 토큰을 처리하는 기존 어텐션과 달리 DSA는 성능을 유지하면서 계산 복잡성을 줄입니다. 특히 128K+ 토큰 컨텍스트에서 중요합니다.
2. 확장 가능한 강화 학습: 강력한 사후 훈련 성능을 가능하게 하는 고급 사후 훈련 프로토콜입니다. 고성능 변형(Speciale)은 최고 수준의 추론 성능을 달성합니다.
3. 에이전트 작업 합성 파이프라인: 대규모로 도구 사용 시나리오에 추론을 체계적으로 통합하여 코딩 에이전트 및 다단계 워크플로에 대한 뛰어난 규정 준수와 일반화를 제공합니다.

DeepSeek-V3.2 훈련을 위한 에이전트 작업. 이미지 출처
성능 벤치마크

Hugging Face에서 가져옴
효율성 대 성능 트레이드오프
DSA는 벤치마크 점수를 유지하면서 Chain-of-Thought 토큰을 20~50% 줄입니다. 하루에 50개의 풀 리퀘스트를 처리하는 코딩 에이전트는 V3.1 대비 토큰 비용으로 월 $180을 절약하며 성능 저하가 없습니다.

DeepSeek Sparse Attention(DSA) 덕분에 추론 비용 절감. DeepSeek V3.2 보고서에서 주석 처리된 그림
Novita AI에서 DeepSeek V3.2를 선택해야 하는 이유는?
Novita AI는 DeepSeek V3.2에 대해 고성능이고 비용 효율적인 프로덕션 배포를 제공하며, 경쟁력 있는 가격을 제공합니다. Novita AI의 DeepSeek V3.2는 $0.269/$0.40 (입력/출력 토큰 100만 개당)의 가격으로 개발자에게 금메달 수준의 IMO/IOI 추론 성능을 제공합니다.
Novita AI에서 DeepSeek V3.2의 Cache Read는 토큰 100만 개당 $0.1345로 청구됩니다.
Cache Read는 이전에 프롬프트 캐시에 저장된 토큰을 읽는 비용을 의미합니다. 동일한 프롬프트 내용이 여러 요청에서 재사용될 때 모델은 처음부터 다시 처리하는 대신 캐시에서 직접 이러한 토큰을 검색합니다. 이는 추론 지연 시간과 비용을 모두 줄입니다.
Novita AI를 선택해야 하는 6가지 이유
1. OpenAI 호환 및 Anthropic 호환: 기본 URL만 변경하면 바로 사용할 수 있는 드롭인 대체품입니다. 기존 OpenAI SDK 코드가 즉시 작동합니다. 재작성이나 학습 곡선이 필요하지 않습니다.
2. 서버리스 자동 확장: 프로비저닝 없이 분당 10개에서 10,000개 요청까지 트래픽 급증을 처리합니다. 사용한 토큰에 대해서만 비용을 지불합니다. 유휴 GPU 비용이 없습니다.
3. 엔터프라이즈급 안정성: SOC 2 규격 인프라와 멀티 리전 중복성을 갖추고 있습니다. 프로덕션 워크로드에 대해 99.5% 가동 시간 SLA를 제공합니다.
4. 200개 이상의 모델 에코시스템: 통합 API를 통해 GLM-5, Qwen3-Coder-Next, MiniMax M2.5 및 기타 최첨단 모델에 액세스할 수 있습니다. 인프라 변경 없이 대안을 테스트할 수 있습니다.
5. 투명한 요금 청구: 숨겨진 수수료 없는 토큰당 가격 책정. 실시간 대시보드에서 요청당 정확한 비용을 확인할 수 있습니다. 자신 있게 예산을 책정하세요.

Novita AI에서 DeepSeek V3.2에 액세스하는 방법
2분 퀵스타트부터 프로덕션 등급 파이프라인까지 세 가지 배포 방법:
방법 1: API 퀵스타트 (2분)
최적 대상: 테스트, 프로토타입, 기존 OpenAI 기반 앱
설정 단계:
- novita.ai에 가입하세요 (무료 티어에 크레딧 포함)
- 대시보드 → API 키로 이동 → 새 키 생성
- 코드를 Novita 엔드포인트로 업데이트하세요:

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="deepseek/deepseek-v3.2",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=65536,
temperature=0.7
)
print(response.choices[0].message.content)
방법 2: Hugging Face 통합 (5분)
최적 대상: ML 파이프라인, Transformers 네이티브 워크플로

from huggingface_hub import InferenceClient
client = InferenceClient(
provider="novita",
api_key="sk_...YxTc",
)
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3.2",
messages=[
{
"role": "user",
"content": "What is the capital of France?"
}
],
)
print(completion.choices[0].message)
방법 3: 프로덕션 배포 (자체 호스팅 옵션)
최적 대상: 대용량 워크로드, 데이터 주권 요구 사항
표준 전체 정밀도(FP16/BF16) 배포에서 DeepSeek-V3.2 추론은 모델 가중치와 런타임 실행에 필요한 결합 GPU 메모리가 약 1.3TB를 초과하므로 매우 높은 하드웨어 요구 사항이 있습니다. BF16/FP16 시나리오의 경우 일반적으로 각각 80GB VRAM을 갖춘 16개의 H100급 GPU 구성이 사용되며, 총 GPU 메모리 용량은 거의 1.3TB에 달합니다.
| 양자화 수준 | 대략적인 메모리 사용량 |
|---|---|
| FP16 / BF16 | 1.3 TB 전체 |
| 8-bit | 780 GB 전체 |
| 4-bit | 380 GB 전체 |

Novita AI는 플랫폼의 유휴 또는 미사용 GPU 용량을 활용하는 비용 최적화 GPU 임대 시스템인 Spot 모드도 제공합니다. 안정적이고 지속적인 사용을 위해 전용 하드웨어를 예약하는 온디맨드 인스턴스와 달리 Spot 인스턴스는 중단 가능합니다. GPU가 시스템에 의해 회수되면 작업이 일시 중지되거나 종료될 수 있습니다. Spot 모드는 그렇지 않으면 유휴 상태인 GPU 리소스를 재할당하기 때문에 일반적으로 온디맨드 가격보다 40~60% 저렴합니다.
실제 사용 사례 및 프롬프트 전략
DeepSeek V3.2는 다단계 추론, 도구 통합 및 긴 컨텍스트 이해가 필요한 시나리오에서 탁월합니다.
사용 사례 1: 에이전트 코딩
DeepSeek V3.2는 OpenCode 또는 Cursor와 같은 AI 코딩 어시스턴트에서 탁월하며, 통합 도구 호출을 통해 풀 리퀘스트를 생성합니다. Novita.ai와 같은 OpenAI 호환 API를 통해 구성하고, 전문 코딩을 위한 시스템 프롬프트와 파일 읽기/쓰기 및 테스트 실행을 위한 도구를 제공합니다. 인증을 세션에서 JWT로 리팩토링하는 사용자 요청은 단계별 추론을 트리거하여 정확성을 위해 낮은 temperature(0.2)로 정확한 코드 변경을 생성합니다.
API 통합 및 단계별 설정 가이드를 사용하여 Novita AI를 Claude Code, Trae, Continue, Codex, OpenCode, AnythingLLM, LangChain, Dify, Langflow, OpenClaw와 같은 파트너 플랫폼과 쉽게 연결하세요.
사용 사례 2: 수학적 증명 생성
√2가 무리수임을 증명하는 것과 같은 수학적 증명의 경우, 단계별 사고를 지시하는 구조화된 프롬프트를 사용합니다: 증명 전략(예: 모순)을 명시하고, 중간 단계를 보여주고, 결론을 확인합니다. 확정적 추론을 위해 temperature 0.1, 자세한 설명을 위해 높은 max_tokens(4096)으로 모델을 호출하여 IMO 수준의 수학 성능을 위한 V3.2의 고급 강화 학습을 활용합니다.
사용 사례 3: 긴 컨텍스트 문서 분석
V3.2의 163K 토큰 컨텍스트는 약 120페이지 분량의 법률 계약서(~150K 토큰)를 처리할 수 있습니다. 전체 문서 텍스트를 로드한 다음 책임 위험과 같은 특정 조항 분석을 위한 프롬프트를 제공합니다. 포괄적인 출력을 위해 중간 temperature(0.3)와 max_tokens(8192)을 사용하고, 정확한 긴 컨텍스트 추출을 위해 희소 어텐션을 최적화하기 위해 시작과 끝 모두에 주요 지침을 배치합니다.
DeepSeek V3.2 vs. Novita의 대안
Novita 카탈로그의 다른 모델보다 V3.2를 선택해야 하는 경우:
| 비교 | 다음과 같은 경우 DeepSeek V3.2 선택 | 다음과 같은 경우 대안 선택 |
|---|---|---|
| vs. GLM-5 | 대규모 추론이 필요한 예산 제약 워크로드 | 원시 추론 성능보다 사실적 안정성과 낮은 환각률을 우선시하는 경우 |
| vs. Qwen3-Coder-Next | 수학, 코딩 및 도구 사용을 결합한 에이전트 워크플로 | 더 낮은 가격대에서 순수 코딩 작업만 필요한 경우 |
| vs. Kimi K2.5 | 출력 비용이 중요한 대량 출력 또는 배치 워크로드 | 엔터프라이즈급 지원 또는 에코시스템 통합이 필요한 경우 |
Novita AI의 DeepSeek V3.2는 혁신적인 DSA 효율성으로 긴 컨텍스트 작업에 대해 토큰 100만 개당 $0.269/$0.40의 고급 추론 성능을 제공합니다. 에이전트 코딩 시스템, 수학 솔버 또는 문서 분석 파이프라인을 구축하는 개발자에게 Novita의 OpenAI 호환 API는 업계 최고의 지연 시간으로 2분 배포를 가능하게 합니다.
결론
Novita AI의 DeepSeek V3.2는 685B 파라미터 MoE 아키텍처와 DeepSeek Sparse Attention을 결합하여 경쟁력 있는 비용으로 고급 추론 성능을 제공합니다. 2분 API 통합, Hugging Face 파이프라인 또는 자체 호스팅 멀티 GPU 클러스터가 필요한 경우 Novita는 프로덕션에 이르는 유연한 경로를 제공합니다.
핵심 요점: 에이전트 코딩 시스템, 수학 솔버 또는 긴 컨텍스트 문서 파이프라인을 구축하는 개발자에게 Novita AI의 OpenAI 호환 API를 통한 DeepSeek V3.2는 실용적이고 비용 효율적인 선택입니다. Novita AI에서 DeepSeek V3.2 사용해보기를 통해 몇 분 만에 구축을 시작하세요.
자주 묻는 질문
DeepSeek V3.2와 V3.2-Exp의 차이점은 무엇인가요?
V3.2-Exp는 DSA를 도입한 실험적 전신입니다. 표준 V3.2는 균형 잡힌 추론/도구 사용을 갖춘 프로덕션 모델입니다. V3.2-Speciale은 연구 전용, 고성능 변형으로 도구 호출이 없습니다.
OpenAI에서 Novita의 DeepSeek V3.2로 어떻게 전환하나요?
두 줄을 변경합니다: base_url="https://api.novita.ai/openai" 및 model="deepseek/deepseek-v3.2"로 업데이트합니다. 기존 OpenAI SDK 코드는 수정 없이 작동하며, API 키를 받으세요!
DeepSeek V3.2에 가장 적합한 temperature 설정은 무엇인가요?
정확성이 중요한 수학/코딩/추론 작업에는 0.1-0.3을 사용하세요. 창의적인 글쓰기 또는 브레인스토밍에는 0.5-0.7을 사용하세요. 낮은 temperature는 V3.2의 확정적 추론 강점을 활용합니다.
Novita AI는 개발자와 스타트업이 고성능, 신뢰성 및 비용 효율성으로 모델과 에이전트 애플리케이션을 구축, 배포 및 확장할 수 있도록 지원하는 AI 및 에이전트 클라우드 플랫폼입니다.
추천 자료
GLM-5 in OpenCode: Claude Code를 위한 오픈소스 대안
