Nemotron 3 Nano 30B A3B는 Novita AI에서 Serverless LLM으로 제공되어 OpenAI 호환 채팅 완료를 지원하며, 모델 ID는 nvidia/nemotron-3-nano-30b-a3b입니다. 256K 컨텍스트 윈도우, 최대 32,768개의 출력 토큰, 텍스트 입출력, 함수 호출, 구조화된 출력 및 추론 기능을 갖추고 있으며, 이는 Novita 모델 페이지에 나와 있습니다. 2026년 6월 11일 기준, Novita의 가격은 입력 토큰 100만 개당 $0.05, 출력 토큰 100만 개당 $0.20입니다. 따라서 모델 인프라를 관리하지 않고도 긴 컨텍스트 에이전트, 코딩, 수학 또는 도구 사용 워크플로가 필요할 때 실용적인 옵션입니다.
Nemotron 3 Nano 30B A3B란 무엇인가요?
Nemotron 3 Nano 30B A3B는 Novita AI Nemotron 3 Nano 30B A3B 모델 페이지에 에이전트 AI를 위한 연산 효율적이고 오픈 웨이트 추론 모델로 등록된 NVIDIA 모델입니다. 이 페이지에서는 이 모델을 Mixture-of-Experts 모델로 설명하며, 총 30B 파라미터와 활성 파라미터 3.5B를 가지고 하이브리드 Mamba-2 및 Transformer 아키텍처를 사용합니다.
개발자에게 중요한 점은 아키텍처 자체보다는, 이 모델이 Novita AI의 Serverless LLM API를 통해 제공된다는 것입니다. 따라서 다른 Novita 언어 모델과 동일한 OpenAI 호환 채팅 완료 패턴으로 호출할 수 있습니다.
| 필드 | 현재 값 |
|---|---|
| 표시 이름 | Nemotron 3 Nano 30B A3B |
| API 모델 ID | nvidia/nemotron-3-nano-30b-a3b |
| Novita 표시 제공업체/시리즈 | Nvidia |
| 카테고리 | LLM, Serverless |
| 엔드포인트 | chat/completions |
| 입력 모달리티 | 텍스트 |
| 출력 모달리티 | 텍스트 |
| 컨텍스트 윈도우 | 256K 토큰 |
| 최대 출력 토큰 | 32,768 |
| 표시된 기능 플래그 | Serverless, 함수 호출, 구조화된 출력, 추론 |
| Novita 표시 양자화 | fp4 |
이로 인해 이 모델은 큰 프롬프트 예산, 도구 사용 패턴, JSON 형태의 응답이 필요하지만 자체 관리 배포보다는 호스팅 API를 선호하는 작업에 적합합니다.
Novita AI 가용성 및 가격
이 모델은 현재 Novita AI에서 NEW Serverless LLM으로 등록되어 있습니다. API 호출 시 정확한 모델 ID nvidia/nemotron-3-nano-30b-a3b를 사용하세요.
2026년 6월 11일 기준, Novita의 토큰 가격은 다음과 같습니다:
| 토큰 유형 | 가격 |
|---|---|
| 입력 토큰 | 100만 개당 $0.05 |
| 출력 토큰 | 100만 개당 $0.20 |
가격과 가용성은 변경될 수 있으므로, 프로덕션 팀은 출시 또는 조달 검토 전에 Nemotron 3 Nano 30B A3B 모델 페이지와 Novita AI 가격 페이지를 확인해야 합니다.
Novita는 또한 OpenAI 호환 API 기본 URL을 통해 모델을 노출합니다:
https://api.novita.ai/openai
채팅 완료를 위한 엔드포인트 경로는 다음과 같습니다:
POST https://api.novita.ai/openai/v1/chat/completions
인증은 Authorization 헤더에 Bearer 토큰을 사용합니다. API 키는 환경 변수나 비밀 관리자에 보관하고, 애플리케이션 코드에 하드코딩하지 마세요.
개발자는 언제 사용해야 하나요?
애플리케이션에 긴 컨텍스트, 구조화된 모델 출력, 또는 Serverless 텍스트 모델의 도구 사용 지향 추론이 필요할 때 Nemotron 3 Nano 30B A3B를 사용하세요.
적합한 평가 사례는 다음과 같습니다:
- 더 큰 프로젝트 파일, 로그, 대본 또는 지식 베이스 청크를 읽어야 하는 긴 컨텍스트 에이전트.
- 계획이나 패치를 생성하기 전에 여러 파일을 검사할 충분한 컨텍스트가 필요한 코딩 어시스턴트.
- 모델의 추론 기능 플래그가 중요한 수학, 계획, 다단계 분석 워크플로.
- 함수 호출을 통해 도구를 호출하는 에이전트 워크플로.
- 자유 형식 산문 대신 구조화된 JSON 응답이 필요한 데이터 추출 작업.
모든 작업에 최적의 모델이라고 가정하지 마세요. 지연 시간에 민감한 짧은 프롬프트, 이미지 또는 오디오 입력, 엄격한 벤치마크 목표, 또는 알려진 모델 선호도가 있는 워크로드의 경우 기존 후보 세트와 비교하여 테스트하세요. 모델 페이지는 가용성과 기능 플래그를 확인하며, 프로덕션 프롬프트에 대한 자체 평가를 대체하지 않습니다.
빠른 시작: Nemotron 3 Nano 30B A3B API 호출하기
가장 간단한 시작 방법은 확인된 모델 ID로 OpenAI 호환 채팅 완료 엔드포인트를 호출하는 것입니다.
cURL
export NOVITA_API_KEY="your_api_key"
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "nvidia/nemotron-3-nano-30b-a3b",
"messages": [
{
"role": "system",
"content": "You are a concise technical assistant."
},
{
"role": "user",
"content": "Summarize the risks in this API migration plan and return three action items."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Python
애플리케이션이 이미 OpenAI Python SDK 패턴을 사용하고 있다면, Novita OpenAI 호환 기본 URL을 설정하고 모델 이름을 업데이트하세요.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-30b-a3b",
messages=[
{"role": "system", "content": "You are a concise technical assistant."},
{
"role": "user",
"content": "Summarize the risks in this API migration plan and return three action items.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
구현 세부 사항은 Novita AI LLM API 가이드와 채팅 완료 API 참조를 참조하세요.
함수 호출, 구조화된 출력 및 추론 기능 신중하게 사용하기
Novita는 함수 호출, 구조화된 출력 및 추론을 모델의 기능 플래그 중 하나로 나열합니다. 이러한 기능은 애플리케이션이 모델과 시스템의 나머지 부분 간에 예측 가능한 인터페이스를 필요로 할 때 가장 유용합니다.
함수 호출을 위해서는 함수 정의가 포함된 tools 배열을 전달하세요. 채팅 완료 API는 이름, 설명, JSON Schema 매개변수 및 strict 옵션이 있는 함수 도구를 지원합니다.
구조화된 출력의 경우, 모델과 스키마가 지원될 때 response_format을 json_schema와 함께 사용하세요. API 참조에는 엄격한 구조화된 출력이 JSON Schema의 하위 집합을 지원하므로, 프로덕션에서 이에 의존하기 전에 정확한 스키마를 테스트해야 한다고 명시되어 있습니다.
추론 동작의 경우, 모델 수준 가용성과 요청 수준 동작을 명확히 구분하세요. Nemotron 모델 페이지는 추론을 기능 플래그로 나열하는 반면, 채팅 완료 API 참조는 separate_reasoning 및 enable_thinking과 같은 요청 매개변수를 모델별 지원 참고 사항과 함께 문서화합니다. 프로덕션에서 추론 필드를 사용하기 전에 이 정확한 모델 ID로 작은 API 테스트를 실행하고 애플리케이션이 처리할 응답 형태를 캡처하세요.
FAQ
Nemotron 3 Nano 30B A3B는 Novita AI에서 사용할 수 있나요?
네. 이 모델은 Novita AI에서 모델 ID nvidia/nemotron-3-nano-30b-a3b의 Serverless LLM으로 등록되어 있습니다.
Nemotron 3 Nano 30B A3B의 컨텍스트 윈도우는 무엇인가요?
Novita는 nvidia/nemotron-3-nano-30b-a3b에 대해 256K 컨텍스트 윈도우와 최대 32,768개의 출력 토큰을 명시합니다.
Novita AI에서 Nemotron 3 Nano 30B A3B API 비용은 얼마인가요?
2026년 6월 11일 기준, Novita의 가격은 입력 토큰 100만 개당 $0.05, 출력 토큰 100만 개당 $0.20입니다.
이 모델은 함수 호출과 구조화된 출력을 지원하나요?
Novita 모델 페이지는 Nemotron 3 Nano 30B A3B에 대해 함수 호출과 구조화된 출력을 기능 플래그로 나열합니다. 프로덕션에서 사용하기 전에 정확한 도구 스키마 또는 JSON 스키마를 API에 대해 검증하세요.
어떤 엔드포인트를 사용해야 하나요?
OpenAI 호환 채팅 완료 엔드포인트를 사용하세요: https://api.novita.ai/openai/v1/chat/completions.
