DeepSeek V4 Pro는 모델 ID deepseek/deepseek-v4-pro로 Novita AI에서 사용할 수 있으며, 1,048,576 토큰 컨텍스트 윈도우, 393,216 토큰 최대 출력 설정, 현재 모델 페이지 가격(입력 $1.60, 캐시 읽기 $0.135, 출력 $3.20/100만 토큰)을 제공합니다. 장문 컨텍스트 추론이나 코딩 작업을 테스트할 때는 출시 당시의 이전 가격이 아닌 이 값을 사용하세요.
장문 컨텍스트 추론의 기능
장문 컨텍스트 추론을 사용하면 애플리케이션이 한 번의 요청에 더 많은 작업을 보낼 수 있습니다: 소스 파일, 로그, 검색된 문서, 정책 텍스트, 대화 기록, 테스트 실패 항목, 아키텍처 노트 또는 관련 자료의 혼합 등을 포함할 수 있습니다. 이를 통해 모델은 짧은 프롬프트나 소량의 검색 결과보다 더 많은 컨텍스트를 확보할 수 있습니다.
Novita AI에서 DeepSeek V4 Pro 모델 페이지는 1,048,576 토큰 컨텍스트 윈도우와 추론 지원을 표시합니다. 이는 저장소 수준의 코드 분석, 다중 문서 종합, 에이전트 계획, 짧은 채팅 프롬프트로는 전달할 수 없는 더 많은 컨텍스트가 필요한 디버깅 작업에 적합합니다.
컨텍스트 윈도우는 작업의 일부일 뿐입니다. 프롬프트를 구성하고, 출력을 제한하며, 비용을 추정하고, 응답을 검증하고, 요청이 실패했을 때 어떻게 처리할지 결정해야 합니다.
DeepSeek V4 Pro를 사용해야 하는 경우
답변이 많은 텍스트에 의존하고 해당 자료를 한 번의 요청에 유지하려는 경우 DeepSeek V4 Pro를 사용하세요. 예를 들면:
- 주변 구현 컨텍스트가 포함된 다중 파일 코드 변경 검토
- 긴 기술 문서를 요약하고 실행 항목 추출
- 디버깅 작업에서 로그, 티켓, 코드 조각 비교
- 계획 컨텍스트와 도구 결과가 필요한 에이전트 단계 실행
- 대량의 증거 패킷에서 구조화된 출력 생성
기본적으로 모든 요청을 1M 컨텍스트 요청으로 만들지 마세요. 짧은 프롬프트나 소량의 검색 결과로 질문에 답할 수 있다면 해당 경로가 테스트하기 쉽고, 실행 비용이 저렴하며, 관련 없는 자료를 포함할 가능성이 낮습니다.
DeepSeek V4 Pro는 현재 Novita 모델 페이지에서 텍스트 입력 및 텍스트 출력을 지원합니다. 이미지나 비디오 입력이 필요한 경우, 멀티모달 콘텐츠를 이 요청 경로에 강제로 포함하는 대신 멀티모달 요청을 지원하는 모델을 선택하세요.
1단계: Novita AI에서 기능 지원 확인
확인된 DeepSeek V4 Pro 모델 ID는 다음과 같습니다.
deepseek/deepseek-v4-pro
Novita AI의 OpenAI 호환 기본 URL을 사용하세요:
https://api.novita.ai/openai
채팅 완성 요청은 다음으로 보내십시오:
https://api.novita.ai/openai/v1/chat/completions
첫 번째 요청에는 다음 DeepSeek V4 Pro API 세부 정보를 사용하세요.
| 필드 | 값 |
|---|---|
| 모델 ID | deepseek/deepseek-v4-pro |
| 기본 URL | https://api.novita.ai/openai |
| 컨텍스트 윈도우 | 1,048,576 토큰 |
| 최대 출력 | 393,216 토큰 |
| 입력 | 텍스트 |
| 출력 | 텍스트 |
| 서버리스 지원 | 지원 |
| 함수 호출 | 지원 |
| 구조화된 출력 | 지원 |
| 추론 | 지원 |
| Anthropic API 호환성 | 지원 |
| 양자화 | FP8 |
배포 전에 DeepSeek V4 Pro 모델 문서를 확인하세요. 가용성, 가격, 컨텍스트 및 지원 필드가 변경될 수 있습니다.
2단계: 요청 구성
작은 텍스트 전용 요청으로 시작하세요. 인증 및 라우팅이 작동하면 실제로 사용할 더 긴 프롬프트로 확장하세요.
장문 컨텍스트 추론 요청의 경우, 모델이 지침과 증거를 구분할 수 있도록 프롬프트를 구성하세요:
- 안정적인 동작 규칙은 시스템 메시지에 넣습니다.
- 작업, 예상 출력 형식 및 제약 조건은 사용자 메시지 상단에 넣습니다.
- 대용량 증거 블록은
저장소 요약,변경된 파일,로그,소스 발췌등 명확한 이름으로 레이블을 지정합니다. - 출력을 감사할 수 있어야 하는 경우 모델에 증거 레이블이나 파일 이름을 인용하도록 요청합니다.
max_tokens로 출력을 제한하여 테스트에서 제품이 처리할 수 있는 것보다 더 많은 텍스트가 생성되지 않도록 합니다.
함수 호출이나 구조화된 출력을 사용하는 경우, 일반 채팅 완성이 작동한 후에 해당 기능을 테스트하세요. 긴 추론 프롬프트는 예상보다 더 많은 텍스트를 생성할 수 있으므로, 최종 답변 형태를 정의하고 응답을 사용하기 전에 검증하세요.
3단계: 기능별 응답 읽기
OpenAI 호환 채팅 완성 응답에서 기본 답변은 일반적으로 다음 위치에서 반환됩니다.
choices[0].message.content
장문 컨텍스트 요청의 경우, 응답 처리는 답변을 출력하는 것 이상을 수행해야 합니다. 실패를 디버그하고 비용을 추정하기에 충분한 메타데이터를 저장하세요:
- 사용된 모델 ID
- 프롬프트 크기 또는 토큰 추정치
- 출력 크기
- 캐시된 컨텍스트 사용 여부
- 사용 가능한 경우 애플리케이션 추적 ID 또는 요청 ID
- 프롬프트 템플릿 버전
- 컨텍스트를 조립하는 데 사용된 소스 패키지 버전 또는 검색 쿼리
응답이 구조화된 JSON이어야 하는 경우, 작업을 수행하기 전에 검증하세요. 검증에 실패하면 더 작은 증거 세트, 더 간단한 스키마, 또는 더 엄격한 형식 지정 지침을 사용하여 재시도하세요.
4단계: 실패 사례 테스트
실제 사용자와 함께 DeepSeek V4 Pro를 사용하기 전에 실패 가능성이 가장 높은 경로를 테스트하세요:
- API 키 누락
- 잘못된 모델 ID
- 컨텍스트 한도를 초과하여 조립된 프롬프트
- 요청된 작업에 비해 출력 제한이 너무 작음
- 답변을 변경하는 관련 없는 증거가 포함된 프롬프트
- 구조화된 출력 검증 실패
- 도구 호출 인수가 불완전하거나 안전하지 않음
- 재시도로 인해 사용자에게 표시되는 작업이 중복됨
에이전트 애플리케이션의 경우, 모델 추론과 작업 실행을 분리하세요. 모델이 도구 호출을 제안할 수 있지만, 서버는 실행 전에 인수, 권한 및 멱등성을 검증해야 합니다.
API 빠른 시작 필드
| 필드 | 값 |
|---|---|
| 모델 이름 | DeepSeek V4 Pro |
| 모델 ID | deepseek/deepseek-v4-pro |
| 기본 URL | https://api.novita.ai/openai |
| 채팅 완성 URL | https://api.novita.ai/openai/v1/chat/completions |
| 입력 방식 | 텍스트 |
| 출력 방식 | 텍스트 |
| 컨텍스트 윈도우 | 1,048,576 토큰 |
| 최대 출력 | 393,216 토큰 |
| 현재 입력 가격 | 100만 토큰당 $1.60 |
| 현재 캐시 읽기 가격 | 100만 토큰당 $0.135 |
| 현재 출력 가격 | 100만 토큰당 $3.20 |
위 가격은 현재 모델 페이지에서 가져온 것이며, 이전 DeepSeek 블로그 가격이 아닙니다. 배포 전에 DeepSeek V4 Pro 모델 문서를 다시 확인하세요.
Python 예제
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai/v1",
)
context = """
저장소 요약:
- 서비스는 API 요청을 검증하고 감사 이벤트를 기록합니다.
- 최근 변경으로 비동기 재시도 로직이 추가되었습니다.
문제:
- 일부 재시도 시도가 감사 이벤트를 중복 생성합니다.
관련 로그:
- request_id=abc123 retry=1 audit_event_created=true
- request_id=abc123 retry=2 audit_event_created=true
"""
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{
"role": "system",
"content": "긴 기술 컨텍스트를 분석하고 간결한 엔지니어링 지침을 반환합니다.",
},
{
"role": "user",
"content": (
"가능한 구현 위험을 식별하고 수정 사항을 제안하세요. "
"아래 증거만 사용하세요.\n\n"
f"{context}"
),
},
],
temperature=0.2,
max_tokens=800,
)
cURL로 요청 보내기
payload='{
"model": "deepseek/deepseek-v4-pro",
"messages": [
{
"role": "system",
"content": "긴 기술 컨텍스트를 분석하고 간결한 엔지니어링 지침을 반환합니다."
},
{
"role": "user",
"content": "가능한 구현 위험을 식별하고 수정 사항을 제안하세요. 다음 증거만 사용하세요: 재시도 시도 1에서 감사 이벤트가 생성되었습니다. 동일한 request_id에 대해 재시도 시도 2에서도 감사 이벤트가 생성되었습니다."
}
],
"temperature": 0.2,
"max_tokens": 800
}'
curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data "$payload"
모범 사례
컨텍스트를 정리하세요
1M 토큰 컨텍스트 윈도우는 입력에 레이블이 지정되고 필터링될 때 가장 잘 작동합니다. 소스 파일, 로그, 요구 사항 및 작업 지침을 분리하세요. 크고 구분되지 않은 텍스트 블록을 붙여넣으면 모델이 따라야 할 구조가 줄어들고 팀이 답변을 디버그하는 능력이 저하됩니다.
전체 컨텍스트 프롬프트 전에 검색을 사용하세요
긴 컨텍스트가 검색 규율을 대체해서는 안 됩니다. 프롬프트를 조립하기 전에 검색, 순위 지정 또는 규칙 기반 필터링을 사용하여 관련 없는 자료를 제거하세요. 실제로 함께 유지되어야 하는 정보를 위해 큰 컨텍스트 윈도우를 남겨 두세요.
테스트 중에는 출력을 제한하세요
최대 출력 필드는 393,216 토큰이지만, 대부분의 애플리케이션은 훨씬 더 작은 제한으로 시작해야 합니다. 제품에 실제로 긴 생성 출력이 필요하고 UI, 스토리지 및 비용 제어가 이를 처리할 수 있을 때만 max_tokens를 높이세요.
구조화된 출력 검증
응답이 애플리케이션 작업을 구동하는 경우, 구조화된 최종 답변을 요청하고 서버 측에서 검증하세요. 예를 들어, risk_summary, evidence, recommended_fix, confidence와 같은 필드를 요구하고 스키마와 일치하지 않는 응답을 거부하거나 재시도하세요.
도구 호출을 제안으로 처리
현재 모델 페이지는 함수 호출을 지원합니다. 함수 호출을 애플리케이션이 권한, 인수, 속도 제한 및 부작용을 검증할 때까지 제안된 작업으로 취급하세요.
가격 및 제한 사항 참고
현재 Novita AI의 DeepSeek V4 Pro 가격:
| 토큰 유형 | 가격 |
|---|---|
| 입력 | 100만 토큰당 $1.60 |
| 캐시 읽기 | 100만 토큰당 $0.135 |
| 출력 | 100만 토큰당 $3.20 |
현재 컨텍스트 윈도우는 1,048,576 토큰이고 최대 출력 필드는 393,216 토큰입니다. 대규모 요청이 가능하지만 명확한 비용 및 응답 크기 제어가 필요합니다.
비용 추정을 위해 다음을 계산하세요:
- 요청당 평균 입력 토큰 수
- 캐시된 컨텍스트를 사용하는 요청 비율
- 요청당 평균 출력 토큰 수
- 재시도율
- 도구 또는 구조화된 출력 수정 시도 횟수
- 긴 프롬프트에 필터링해야 할 관련 없는 증거가 포함되어 있는지 여부
현재 비용 추정에 이전 DeepSeek 블로그 가격을 사용하지 마세요. 예산, 청구서 추정 또는 고객 대상 비교를 게시하기 전에 라이브 모델 페이지 또는 최신 플랫폼 가격 출처를 사용하세요.
FAQ
DeepSeek V4 Pro는 Novita AI에서 장문 컨텍스트 추론을 지원하나요?
예. 현재 Novita AI 모델 페이지는 DeepSeek V4 Pro에 대해 1,048,576 토큰 컨텍스트 윈도우와 추론 지원을 표시합니다.
DeepSeek V4 Pro의 모델 ID는 무엇인가요?
deepseek/deepseek-v4-pro를 사용하세요.
요청을 제어하는 매개변수는 무엇인가요?
빠른 시작 경로의 경우 model, messages, temperature, max_tokens를 사용하세요. 기본 요청이 작동한 후, 애플리케이션에 함수 호출이나 구조화된 응답 형식이 필요한 경우 tools를 테스트하세요.
장문 컨텍스트 추론이 가격이나 출력 길이에 영향을 미치나요?
더 긴 프롬프트는 입력 비용을 증가시키고, 더 긴 답변은 출력 비용을 증가시킵니다. 현재 가격은 입력 100만 토큰당 $1.60, 캐시 읽기 100만 토큰당 $0.135, 출력 100만 토큰당 $3.20입니다.
DeepSeek V4 Pro를 피해야 하는 경우는 언제인가요?
작업에 대규모 텍스트 컨텍스트가 필요하지 않거나, 더 작은 프롬프트로 질문에 답할 수 있거나, 애플리케이션에 이미지나 비디오 입력이 필요한 경우 피하세요. DeepSeek V4 Pro는 현재 텍스트 입력 및 텍스트 출력으로 나열되어 있습니다.
이전 DeepSeek 블로그 가격이 여전히 유효한가요?
비용 계획에는 현재 모델 페이지 가격을 사용하세요. 이전 블로그 가격은 더 이상 라이브 모델 페이지와 일치하지 않을 수 있습니다.
