Novita AI의 Step 3.7 Flash API: 멀티모달 추론 가이드

Novita AI의 Step 3.7 Flash란 무엇인가요?
Step 3.7 Flash API 사양, 가용성 및 가격
어떤 멀티모달 추론 작업에 적합한가요?
팀은 프로덕션 전에 어떻게 평가해야 하나요?
시작 개요와 빠른 시작은 어떻게 다른가요?
FAQ
추천 문서

Step 3.7 Flash API는 OpenAI 호환 Serverless LLM API를 통해 멀티모달 추론 모델이 필요한 개발자를 위해 Novita AI에서 제공됩니다. 워크플로우에 텍스트, 이미지 또는 비디오 입력, 도구 호출, 구조화된 출력 및 256K 컨텍스트 윈도우가 필요할 때 Novita AI의 채팅 완성 엔드포인트와 함께 stepfun/step-3.7-flash를 사용하세요. 이미 요청을 보낼 준비가 되었다면 Step 3.7 Flash API 빠른 시작으로 이동하세요. 모델이 제품에 적합한지 결정 중이라면 아래의 사양, 가격 및 평가 지침부터 시작하세요.

Novita AI의 Step 3.7 Flash란 무엇인가요?

Step 3.7 Flash는 StepFun의 고효율 멀티모달 추론 모델로, Serverless LLM 액세스를 위해 Novita AI에서 호스팅됩니다. API 모델 ID는 stepfun/step-3.7-flash이며, 모델은 채팅 완성 엔드포인트를 통해 노출됩니다.

개발자를 위한 실용적인 답변은 간단합니다: 워크플로우에 일반 텍스트 채팅 이상의 것이 필요할 때 Step 3.7 Flash API를 사용하세요. 긴 지침, 시각적 또는 비디오 컨텍스트, 구조화된 출력 및 도구 라우팅을 결합하는 에이전트 작업에 적합합니다. 예를 들어 제품 워크스루 비디오 분석, 스크린샷을 구현 작업으로 전환, 혼합 미디어 입력에서 다단계 작업 계획 수립, 또는 애플리케이션 기능이 실행되어야 하는 시기를 모델이 결정하도록 하는 것 등이 있습니다.

스택의 모든 작은 텍스트 모델을 대체하기 위한 것은 아닙니다. 애플리케이션에 짧은 FAQ 답변, 간단한 추출 또는 대량 분류만 필요한 경우, 먼저 Novita AI 모델 라이브러리와 Novita AI 가격에서 현재 모델을 비교해 보세요. Step 3.7 Flash는 멀티모달 입력, 긴 컨텍스트 또는 도구 인식 계획이 실제 제품 요구 사항의 일부일 때 더 매력적입니다.

Step 3.7 Flash API 사양, 가용성 및 가격

Novita AI는 현재 Step 3.7 Flash를 다음 구현 세부 정보와 함께 Serverless LLM 모델로 나열합니다. 모델 가용성과 가격은 변경될 수 있으므로 프로덕션 라우팅 및 조달 검토 전에 라이브 모델 페이지를 확인하세요.

필드	현재 Novita AI 값
표시 이름	Step 3.7 Flash
API 모델 ID	`stepfun/step-3.7-flash`
액세스 경로	Serverless LLM
엔드포인트	`chat/completions`
입력 모달리티	텍스트, 이미지, 비디오
출력 모달리티	텍스트
컨텍스트 윈도우	262,144 토큰
최대 출력 토큰	256,000 토큰
함수 호출	지원됨
구조화된 출력	지원됨
추론	지원됨
모델 제품군	StepFun
아키텍처 레이블	MoE

stepfun/step-3.7-flash에 대해 표시된 현재 토큰 가격은 다음과 같습니다:

토큰 유형	현재 가격
입력 토큰	백만 토큰당 $0.20
캐시된 읽기 입력 토큰	백만 토큰당 $0.04
출력 토큰	백만 토큰당 $1.15

동일한 모델 목록에는 T1부터 T5까지의 요청 속도 등급이 표시됩니다. 표시된 T1 할당량은 30 RPM 및 50,000,000 TPM이며, 더 높은 등급에서는 더 높은 RPM 값을 가집니다. 이러한 값을 계정 설정 중에 확인해야 하는 플랫폼 제한으로 취급하고, 자체 부하 테스트를 대체하는 것으로 간주하지 마세요.

멀티모달 및 긴 컨텍스트 요청은 빠르게 증가할 수 있으므로 가격 책정이 중요합니다. 제품 팀은 프롬프트 크기, 미디어 파생 컨텍스트, 캐시된 읽기 재사용 및 출력 길이를 별도로 측정해야 합니다. 워크플로우가 동일한 시스템 프롬프트, 도구 스키마 또는 대규모 지침 블록을 반복적으로 전송하는 경우 캐시된 읽기가 비용 설계의 일부가 될 수 있습니다. 응답이 정기적으로 큰 출력 크기에 접근하는 경우 출력 토큰이 입력 토큰보다 더 빠르게 비용을 지배합니다.

유용한 예산 책정 패턴 중 하나는 평가 트래픽을 세 개의 버킷으로 분리하는 것입니다. 첫째, 동일한 작업에 대한 일반 텍스트 기준을 측정합니다. 둘째, 이미지 또는 비디오 입력을 추가하고 추가 컨텍스트가 답변을 얼마나 자주 변경하는지 기록합니다. 셋째, 전체 정책, 스키마 또는 제품 문서를 첨부한 긴 컨텍스트 버전을 테스트합니다. 세 번째 버킷이 라우팅 정확도를 향상시키거나 수동 검토를 줄이는 경우 더 큰 요청이 정당화될 수 있습니다. 그렇지 않은 경우 프로덕션 경로를 더 좁게 유지하세요.

어떤 멀티모달 추론 작업에 적합한가요?

Step 3.7 Flash는 모델이 다양한 종류의 입력을 추론한 다음 계획, 결정 또는 구조화된 답변을 생성해야 할 때 가장 흥미롭습니다.

제품 및 지원 팀의 경우, 모델이 UI 스크린샷이나 짧은 비디오 클립을 검사하고, 사용자의 가능한 문제를 식별하며, 티켓을 올바른 대기열로 라우팅하는 JSON 객체를 반환하도록 요청할 수 있습니다. 개발자 도구의 경우, 버그의 화면 녹화, 관련 오류 텍스트 및 소스 스니펫을 읽은 다음 재현 체크리스트를 생성하는 것을 의미할 수 있습니다. 운영 워크플로우의 경우, 긴 정책 텍스트와 시각적 증거를 결합하고 모델에게 단계별 처리 계획을 생성하도록 요청하는 것을 의미할 수 있습니다.

중요한 차이점은 Step 3.7 Flash가 작업에 필요한 증거를 받아야 한다는 것입니다. 제공된 적이 없는 세부 정보를 추론하도록 요청하지 마세요. 워크플로우가 데이터베이스 조회, 결제 상태, 주문 상태 또는 배포 기록에 의존하는 경우 모델의 일반 지식에 의존하는 대신 애플리케이션 계층 또는 도구 호출을 통해 해당 데이터를 노출하세요.

좋은 평가 프롬프트는 다음과 같습니다:

하나의 스크린샷, 사용자 설명 및 필수 JSON 스키마가 있는 지원 분류 프롬프트.
짧은 비디오 입력과 버그 보고서 템플릿이 있는 제품 QA 프롬프트.
모델이 create_ticket, search_docs 및 escalate_to_human 중에서 선택해야 하는 도구 라우팅 프롬프트.
동일한 도구 스키마와 정책 텍스트가 캐시된 읽기의 이점을 얻을 수 있는 긴 컨텍스트 분석 프롬프트.

“이 비디오를 분석하세요” 또는 "이 이미지에 대해 추론하세요"와 같은 모호한 프롬프트로 시작하지 마세요. 모델에 작업, 결정 경계 및 출력 형식을 제공하세요. 그러면 모델 간 결과를 더 쉽게 비교하고 추가 컨텍스트와 멀티모달 입력이 비용을 정당화하는지 더 쉽게 측정할 수 있습니다.

에이전트 워크플로우의 경우 모델의 도구 지원이 가장 신중하게 테스트해야 할 부분입니다. 좋은 도구 호출 평가에는 올바른 답변이 도구를 호출하는 경우, 올바른 답변이 더 많은 정보를 요청하는 경우, 그리고 도구가 실행되지 않아야 하는 경우가 포함되어야 합니다. 이렇게 하면 모델이 함수 호출을 내보낼 수 있다는 이유만으로 지나치게 적극적인 행동에 점수를 주는 것을 방지할 수 있습니다.

팀은 프로덕션 전에 어떻게 평가해야 하나요?

일반적인 벤치마크 프롬프트가 아닌 제품과 유사한 작은 테스트 세트로 시작하세요. 성공 사례, 에지 케이스 및 도구 호출을 트리거하지 않아야 하는 프롬프트를 포함하세요. 애플리케이션에 구조화된 출력이 필요한 경우 수동으로 확인하는 대신 스키마에 대해 출력의 유효성을 검사하세요.

최소한의 OpenAI 호환 텍스트 요청은 Novita AI LLM API 기본 URL과 확인된 모델 ID를 사용합니다:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "당신은 실용적인 인시던트 분류 도우미입니다. 간결하고 구조화된 권장 사항을 반환하세요.",
        },
        {
            "role": "user",
            "content": "이 인시던트 요약을 검토하고 다음 세 가지 확인 사항을 식별하세요: 배포 후 API 지연 시간이 두 배로 증가했고, 데이터베이스 CPU는 정상이며, 오류율은 변동이 없습니다.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

프로덕션 평가의 경우 실제 사용자 트래픽을 라우팅하기 전에 네 가지 확인 사항을 추가하세요:

비용 확인: 대표적인 요청에 대한 입력, 캐시된 읽기 및 출력 토큰을 기록합니다.
스키마 확인: 구조화된 출력을 자동으로 검증하고 응답이 일치하지 않을 때 재시도하거나 폴백합니다.
도구 확인: 도구 호출 및 도구 호출 없음 사례를 모두 테스트하고, 모호한 프롬프트도 포함합니다.
미디어 확인: 텍스트 미디어 요약만이 아닌 앱이 전송하는 실제 이미지 또는 비디오 형식을 평가합니다.

함수 호출과 구조화된 출력은 유용하지만 애플리케이션 책임을 제거하지는 않습니다. 서비스에는 여전히 권한 부여 확인, 입력 유효성 검사, 멱등적인 도구 실행 및 사용자 데이터를 변경하는 작업에 대한 감사 로그가 필요합니다.

멀티모달 요청의 경우 미디어 처리 경로를 명시적으로 유지하세요. 애플리케이션의 개인정보 보호 규칙에 따라 에셋을 저장하거나 참조하고, 실패를 디버깅할 수 있을 만큼 충분한 메타데이터를 보존하며, 사용된 요청 형식을 기록하세요. 나중에 프로덕션 문제가 나타나면 모델이 원본 이미지나 비디오, 압축 버전, 프레임 샘플 또는 다른 서비스에서 생성된 텍스트 요약을 보았는지 알고 싶을 것입니다.

시작 개요와 빠른 시작은 어떻게 다른가요?

이 문서는 출시 및 진실의 원천 개요입니다: 가용성, 모델 ID, 가격, 멀티모달 범위 및 개발자 적합성. 별도의 Step 3.7 Flash API 빠른 시작은 요청 페이로드, 이미지 및 비디오 입력, 함수 호출 예제 및 구조화된 출력 패턴에 대해 더 자세히 다룹니다.

이러한 분리는 출시 독자들이 일반적으로 "이 모델을 평가해야 할까요?"라는 질문에 답해야 하고, 빠른 시작 독자들이 "정확히 어떤 요청을 보내야 할까요?"라는 질문에 답해야 하기 때문에 유용합니다. 이러한 작업을 분리하면 긴 튜토리얼 내에 가격 및 기능 정보가 묻히는 것을 방지하면서도 구현 세부 정보가 필요한 곳에 여지를 남길 수 있습니다.

현재로서 가장 좋은 다음 단계는 Step 3.7 Flash 모델 페이지를 열고, 계정에 대한 현재 요금표와 제한 사항을 확인한 다음, 애플리케이션에 필요한 동일한 미디어, 도구 스키마 또는 구조화된 출력을 사용하는 좁은 평가 프롬프트를 실행하는 것입니다.

FAQ

Step 3.7 Flash는 Novita AI에서 사용할 수 있나요?

네. Novita AI는 현재 Step 3.7 Flash를 API 모델 ID stepfun/step-3.7-flash를 가진 Serverless LLM 모델로 나열합니다.

Step 3.7 Flash는 어떤 입력을 지원하나요?

Novita AI 모델 페이지는 현재 텍스트, 이미지 및 비디오를 지원되는 입력 모달리티로 나열합니다. 출력 모달리티는 텍스트입니다.

Novita AI에서 Step 3.7 Flash의 비용은 얼마인가요?

stepfun/step-3.7-flash에 대한 현재 Novita AI 가격은 입력 토큰 백만 개당 $0.20, 캐시된 읽기 입력 토큰 백만 개당 $0.04, 출력 토큰 백만 개당 $1.15입니다.

Step 3.7 Flash는 함수 호출을 지원하나요?

네. Novita AI 모델 페이지는 현재 Step 3.7 Flash에 대한 함수 호출, 구조화된 출력 및 추론 지원을 나열합니다.

개발자는 어떤 엔드포인트를 사용해야 하나요?

모델 ID stepfun/step-3.7-flash와 함께 Novita AI의 OpenAI 호환 채팅 완성 엔드포인트를 사용하세요. OpenAI 호환 SDK 사용을 위한 기본 URL은 https://api.novita.ai/openai입니다.