Step 3.7 Flash가 Novita AI에서 Serverless LLM API로 제공됩니다. 텍스트, 이미지, 비디오 입력을 받고, 도구를 호출하며, 구조화된 출력을 반환하고, 256K 컨텍스트 윈도우를 통해 채팅 완료 엔드포인트와 함께 작동하는 멀티모달 추론 모델이 필요한 개발자에게 적합합니다. 워크플로에 혼합 미디어 컨텍스트와 추론된 실행 계획이 필요할 때 사용하고, 작은 텍스트 전용 모델로도 문제를 해결할 수 있을 때는 사용하지 마십시오.
Novita AI의 Step 3.7 Flash란?
Step 3.7 Flash는 StepFun의 고효율 멀티모달 추론 모델로, Novita AI에서 Serverless LLM 액세스를 위해 호스팅됩니다. API 모델 ID는 stepfun/step-3.7-flash이며, 채팅 완료 엔드포인트를 통해 노출됩니다.
개발자를 위한 실용적인 답변은 간단합니다. 워크플로가 단순 텍스트 채팅 이상을 필요로 할 때 Step 3.7 Flash를 사용하십시오. 긴 지침, 시각적 또는 비디오 컨텍스트, 구조화된 출력, 도구 라우팅을 결합한 에이전트 작업에 적합합니다. 예를 들어 제품 워크스루 비디오 분석, 스크린샷을 구현 작업으로 전환, 혼합 미디어 입력에서 다단계 작업 계획 수립, 모델을 사용하여 애플리케이션 기능이 실행되어야 할 시기를 결정하는 작업 등이 있습니다.
이는 스택에 있는 모든 작은 텍스트 모델을 대체하기 위한 것이 아닙니다. 애플리케이션이 짧은 FAQ 답변, 간단한 추출, 또는 대량 분류만 필요하다면, 먼저 Novita AI 모델 라이브러리와 Novita AI 가격에서 현재 모델을 비교해 보십시오. 멀티모달 입력, 긴 컨텍스트, 또는 도구 인식 계획이 실제 제품 요구 사항의 일부일 때 Step 3.7 Flash가 더 매력적입니다.
Step 3.7 Flash 사양, 가용성 및 가격
Novita AI는 현재 Step 3.7 Flash를 다음 구현 세부 정보와 함께 Serverless LLM 모델로 나열하고 있습니다. 모델 가용성과 가격은 변경될 수 있으므로, 프로덕션 라우팅 전에 라이브 모델 페이지를 확인하십시오.
| 필드 | 현재 Novita AI 값 |
|---|---|
| 표시 이름 | Step 3.7 Flash |
| API 모델 ID | stepfun/step-3.7-flash |
| 액세스 경로 | Serverless LLM |
| 엔드포인트 | chat/completions |
| 입력 모달리티 | 텍스트, 이미지, 비디오 |
| 출력 모달리티 | 텍스트 |
| 컨텍스트 윈도우 | 262,144 토큰 |
| 최대 출력 토큰 | 256,000 토큰 |
| 함수 호출 | 지원 |
| 구조화된 출력 | 지원 |
| 추론 | 지원 |
| 모델 제품군 | StepFun |
| 아키텍처 레이블 | MoE |
stepfun/step-3.7-flash에 대한 현재 토큰 가격은 다음과 같습니다.
| 토큰 유형 | 현재 가격 |
|---|---|
| 입력 토큰 | 백만 토큰당 $0.20 |
| 캐시된 읽기 입력 토큰 | 백만 토큰당 $0.04 |
| 출력 토큰 | 백만 토큰당 $1.15 |
동일한 모델 목록에는 T1부터 T5까지의 요청 속도 등급이 표시됩니다. 표시된 T1 할당량은 30 RPM 및 50,000,000 TPM이며, 더 높은 등급에서는 RPM 값이 더 큽니다. 이는 계정 설정 시 확인해야 하는 플랫폼 제한으로 취급하고, 자체 부하 테스트를 대체하는 것으로 간주하지 마십시오.
멀티모달 및 긴 컨텍스트 요청은 빠르게 증가할 수 있으므로 가격이 중요합니다. 제품 팀은 프롬프트 크기, 미디어 파생 컨텍스트, 캐시된 읽기 재사용 및 출력 길이를 별도로 측정해야 합니다. 워크플로가 동일한 시스템 프롬프트, 도구 스키마 또는 큰 명령 블록을 반복해서 보내는 경우, 캐시된 읽기가 비용 설계의 일부가 될 수 있습니다. 응답이 정기적으로 큰 출력 크기에 도달하면, 출력 토큰이 입력 토큰보다 더 빠르게 비용을 지배할 것입니다.
유용한 예산 책정 패턴 중 하나는 평가 트래픽을 세 개의 버킷으로 분리하는 것입니다. 첫째, 동일한 작업에 대한 일반 텍스트 기준선을 측정합니다. 둘째, 이미지 또는 비디오 입력을 추가하고 추가 컨텍스트가 답변을 얼마나 자주 변경하는지 기록합니다. 셋째, 전체 정책, 스키마 또는 제품 문서가 첨부된 긴 컨텍스트 버전을 테스트합니다. 세 번째 버킷이 라우팅 정확도를 향상시키거나 수동 검토를 줄이는 경우, 더 큰 요청이 정당화될 수 있습니다. 그렇지 않으면, 프로덕션 경로를 더 좁게 유지하십시오.
어떤 멀티모달 추론 작업에 적합한가?
Step 3.7 Flash는 모델이 다양한 종류의 입력에 대해 추론한 다음 계획, 결정 또는 구조화된 답변을 생성해야 할 때 가장 흥미롭습니다.
제품 및 지원 팀의 경우, 모델에게 UI 스크린샷 또는 짧은 비디오 클립을 검사하고, 사용자의 예상 문제를 식별하며, 티켓을 올바른 큐로 라우팅하는 JSON 객체를 반환하도록 요청할 수 있습니다. 개발자 도구의 경우, 버그의 화면 녹화, 관련 오류 텍스트 및 소스 스니펫을 읽은 다음 재현 체크리스트를 생성할 수 있습니다. 운영 워크플로의 경우, 긴 정책 텍스트와 시각적 증거를 결합하고 모델에게 단계별 처리 계획을 생성하도록 요청할 수 있습니다.
중요한 차이점은 Step 3.7 Flash가 작업에 필요한 증거를 수신해야 한다는 것입니다. 제공되지 않은 세부 사항을 추론하도록 요청하지 마십시오. 워크플로가 데이터베이스 조회, 청구 상태, 주문 상태 또는 배포 기록에 의존하는 경우, 모델의 일반 지식에 의존하는 대신 애플리케이션 계층 또는 도구 호출을 통해 해당 데이터를 노출하십시오.
좋은 평가 프롬프트의 예는 다음과 같습니다.
- 하나의 스크린샷, 사용자 설명 및 필수 JSON 스키마가 포함된 지원 분류 프롬프트.
- 짧은 비디오 입력과 버그 보고서 템플릿이 포함된 제품 QA 프롬프트.
- 모델이
create_ticket,search_docs,escalate_to_human중에서 선택해야 하는 도구 라우팅 프롬프트. - 동일한 도구 스키마와 정책 텍스트가 캐시된 읽기의 혜택을 받을 수 있는 긴 컨텍스트 분석 프롬프트.
“이 비디오를 분석하라” 또는 "이 이미지에 대해 추론하라"와 같은 모호한 프롬프트로 시작하지 마십시오. 모델에 작업, 결정 경계 및 출력 형식을 제공하십시오. 이렇게 하면 모델 간 결과를 더 쉽게 비교할 수 있고, 추가 컨텍스트와 멀티모달 입력이 비용을 정당화하는지 측정하기가 더 쉬워집니다.
에이전트 워크플로의 경우, 모델의 도구 지원을 가장 신중하게 테스트해야 합니다. 좋은 도구 호출 평가에는 올바른 답변이 도구를 호출하는 경우, 올바른 답변이 추가 정보를 요청하는 경우, 도구가 실행되지 않아야 하는 경우가 포함되어야 합니다. 이렇게 하면 모델이 함수 호출을 내보낼 수 있다는 이유만으로 지나치게 적극적인 행동을 보상하는 것을 방지할 수 있습니다.
팀은 프로덕션 전에 어떻게 평가해야 합니까?
일반적인 벤치마크 프롬프트가 아닌, 제품과 유사한 작은 테스트 세트로 시작하십시오. 성공 사례, 가장자리 사례 및 도구 호출을 트리거하지 않아야 하는 프롬프트를 포함하십시오. 애플리케이션에 구조화된 출력이 필요한 경우, 수동으로 확인하는 대신 스키마에 대해 출력의 유효성을 검증하십시오.
최소한의 OpenAI 호환 텍스트 요청은 Novita AI 기본 URL과 확인된 모델 ID를 사용합니다.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "You are a practical incident triage assistant. Return concise, structured recommendations.",
},
{
"role": "user",
"content": "Review this incident summary and identify the next three checks: API latency doubled after a deploy, database CPU is normal, error rate is flat.",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
프로덕션 평가의 경우, 실제 사용자 트래픽을 라우팅하기 전에 네 가지 확인 사항을 추가하십시오.
- 비용 확인: 대표적인 요청에 대한 입력, 캐시된 읽기 및 출력 토큰을 기록합니다.
- 스키마 확인: 구조화된 출력을 자동으로 검증하고, 응답이 일치하지 않을 때 재시도하거나 대체합니다.
- 도구 확인: 도구 호출 및 도구 호출 없음의 경우를 모두 테스트하고, 모호한 프롬프트도 포함합니다.
- 미디어 확인: 앱이 보내는 실제 이미지 또는 비디오 형식을 평가하고, 미디어의 텍스트 요약만 사용하지 마십시오.
함수 호출과 구조화된 출력은 유용하지만, 애플리케이션 책임을 없애지 않습니다. 서비스에는 여전히 권한 부여 확인, 입력 유효성 검사, 멱등적인 도구 실행, 사용자 데이터를 변경하는 작업에 대한 감사 로그가 필요합니다.
멀티모달 요청의 경우, 미디어 처리 경로를 명시적으로 유지하십시오. 애플리케이션의 개인 정보 규칙에 따라 자산을 저장하거나 참조하고, 디버깅을 위해 충분한 메타데이터를 보존하며, 어떤 요청 형식이 사용되었는지 기록하십시오. 나중에 프로덕션 문제가 발생하면 모델이 원본 이미지 또는 비디오, 압축 버전, 프레임 샘플 또는 다른 서비스에서 생성된 텍스트 요약을 보았는지 알 수 있어야 합니다.
Step 3.7 Flash는 별도의 빠른 시작 작업과 어떻게 비교됩니까?
이 기사는 출시 및 진실 공급원 개요입니다: 가용성, 모델 ID, 가격, 멀티모달 범위 및 개발자 적합성. 별도의 Step 3.7 Flash 빠른 시작 기사에서는 요청 페이로드, 이미지 및 비디오 입력, 함수 호출 예제 및 구조화된 출력 패턴에 대해 더 깊이 다룰 수 있습니다.
이러한 분리는 출시 독자가 일반적으로 "이 모델을 평가해야 합니까?"라는 질문에 답해야 하기 때문에 유용합니다. 빠른 시작 독자는 "정확히 어떤 요청을 보내야 합니까?"라는 질문에 답해야 합니다. 이러한 작업을 분리하면 긴 튜토리얼 안에 가격 및 기능 사실이 묻히는 것을 방지하면서도 구현 세부 사항이 있어야 할 자리를 남길 수 있습니다.
현재로서 가장 좋은 다음 단계는 Step 3.7 Flash 모델 페이지를 열고, 현재 요금표와 계정 제한을 확인한 다음, 애플리케이션이 필요로 하는 동일한 미디어, 도구 스키마 또는 구조화된 출력을 사용하는 좁은 평가 프롬프트를 실행하는 것입니다.
FAQ
Step 3.7 Flash가 Novita AI에서 제공됩니까?
네. Novita AI는 현재 Step 3.7 Flash를 Serverless LLM 모델로 API 모델 ID stepfun/step-3.7-flash와 함께 나열하고 있습니다.
Step 3.7 Flash는 어떤 입력을 지원합니까?
Novita AI 모델 페이지는 현재 텍스트, 이미지 및 비디오를 지원되는 입력 모달리티로 나열하고 있습니다. 출력 모달리티는 텍스트입니다.
Novita AI에서 Step 3.7 Flash의 비용은 얼마입니까?
현재 Novita AI의 stepfun/step-3.7-flash 가격은 백만 입력 토큰당 $0.20, 백만 캐시된 읽기 입력 토큰당 $0.04, 백만 출력 토큰당 $1.15입니다.
Step 3.7 Flash는 함수 호출을 지원합니까?
네. Novita AI 모델 페이지는 현재 Step 3.7 Flash에 대해 함수 호출, 구조화된 출력 및 추론 지원을 나열하고 있습니다.
개발자는 어떤 엔드포인트를 사용해야 합니까?
Novita AI의 OpenAI 호환 채팅 완료 엔드포인트를 모델 ID stepfun/step-3.7-flash와 함께 사용하십시오. OpenAI 호환 SDK 사용을 위한 기본 URL은 https://api.novita.ai/openai입니다.
