- Что такое Step 3.7 Flash на Novita AI?
- Характеристики, доступность и цены Step 3.7 Flash
- Для каких задач мультимодального рассуждения она подходит?
- Как командам следует оценивать модель перед продакшном?
- Чем Step 3.7 Flash отличается от отдельного быстрого старта?
- Часто задаваемые вопросы
- Рекомендованные статьи
Шаг 3.7 Flash доступен на Novita AI как Serverless LLM API для разработчиков, которым нужна мультимодальная модель рассуждения, способная принимать текст, изображения и видео, вызывать инструменты, возвращать структурированные результаты и работать с окном контекста 256K через endpoint завершения диалогов. Используйте её, когда рабочий процесс требует мультимедийного контекста и обоснованного плана действий, а не когда небольшая текстовая модель уже справилась бы с задачей.
Что такое Step 3.7 Flash на Novita AI?
Step 3.7 Flash — это высокоэффективная мультимодальная модель рассуждения от StepFun, размещённая на Novita AI для доступа через Serverless LLM. Идентификатор модели в API — stepfun/step-3.7-flash, и модель доступна через endpoint завершения диалогов.
Практический ответ для разработчиков прост: используйте Step 3.7 Flash, когда ваш рабочий процесс требует большего, чем просто текстовый чат. Она подходит для агентных задач, объединяющих длинные инструкции, визуальный или видеоконтекст, структурированный вывод и маршрутизацию инструментов. Примеры: анализ видеоролика с обзором продукта, превращение скриншотов в задачи по реализации, планирование многошаговых операций на основе мультимедийных входных данных или использование модели для принятия решения о том, когда должна запускаться функция приложения.
Она не предназначена для замены каждой более мелкой текстовой модели в вашем стеке. Если вашему приложению нужны лишь короткие ответы на часто задаваемые вопросы, простая извлечение или классификация с большим объёмом, начните с сравнения текущих моделей в библиотеке моделей Novita AI и ценах Novita AI. Step 3.7 Flash становится более привлекательной, когда мультимодальный ввод, длинный контекст или планирование с учётом инструментов являются частью реальных требований продукта.
Характеристики, доступность и цены Step 3.7 Flash
Novita AI в настоящее время предлагает Step 3.7 Flash как модель Serverless LLM со следующими деталями реализации. Доступность и цены могут меняться, поэтому перед маршрутизацией в продакшне сверяйтесь с актуальной страницей модели.
| Поле | Текущее значение на Novita AI |
|---|---|
| Отображаемое имя | Step 3.7 Flash |
| Идентификатор модели API | stepfun/step-3.7-flash |
| Путь доступа | Serverless LLM |
| Endpoint | chat/completions |
| Режимы ввода | Текст, изображение, видео |
| Режим вывода | Текст |
| Окно контекста | 262 144 токена |
| Максимум выходных токенов | 256 000 токенов |
| Вызов функций | Поддерживается |
| Структурированный вывод | Поддерживается |
| Рассуждение | Поддерживается |
| Семейство моделей | StepFun |
| Архитектура | MoE |
Текущие цены на токены для stepfun/step-3.7-flash:
| Тип токена | Текущая цена |
|---|---|
| Входные токены | $0,20 за миллион токенов |
| Кэшированные входные токены | $0,04 за миллион токенов |
| Выходные токены | $1,15 за миллион токенов |
В том же списке модели указаны уровни лимитов запросов от T1 до T5. Видимый лимит T1 составляет 30 RPM и 50 000 000 TPM, при этом на более высоких уровнях RPM выше. Воспринимайте их как платформенные ограничения, которые необходимо проверить при настройке учётной записи, а не как замену собственному нагрузочному тестированию.
Цена важна, поскольку мультимодальные и длинноконтекстные запросы могут быстро расти. Команда разработчиков продукта должна измерять отдельно размер промпта, контекст, полученный из медиа, повторное использование кэшированных данных и длину вывода. Если рабочий процесс многократно отправляет один и тот же системный промпт, схему инструментов или большой блок инструкций, кэшированные чтения могут стать частью дизайна стоимости. Если ответы регулярно приближаются к большому размеру вывода, выходные токены будут доминировать в счёте быстрее, чем входные.
Один полезный шаблон бюджетирования — разделить оценочный трафик на три категории. Сначала измерьте базовый уровень для той же задачи, используя только текст. Затем добавьте изображение или видео и запишите, как часто дополнительный контекст меняет ответ. В-третьих, протестируйте версию с длинным контекстом, прикрепив полные политики, схемы или документацию продукта. Если третья категория улучшает точность маршрутизации или сокращает ручную проверку, более крупный запрос оправдан. Если нет — оставьте продакшн-путь уже.
Для каких задач мультимодального рассуждения она подходит?
Step 3.7 Flash наиболее интересна, когда модель должна рассуждать на основе различных типов входных данных, а затем выдавать план, решение или структурированный ответ.
Для команд поддержки и продуктов это может означать просьбу к модели изучить скриншот интерфейса или короткий видеоклип, определить вероятную проблему пользователя и вернуть JSON-объект, направляющий тикет в нужную очередь. Для инструментов разработчика — прочесть запись экрана с ошибкой, соответствующий текст ошибки и фрагмент исходного кода, а затем составить список шагов для воспроизведения. Для операционных процессов — объединить длинный текст политики с визуальными доказательствами и попросить модель составить пошаговый план действий.
Важное различие: Step 3.7 Flash должна получать все необходимые для задачи доказательства. Не просите её выводить детали, которые не были предоставлены. Если рабочий процесс зависит от поиска в базе данных, состояния выставления счетов, статуса заказа или записи о развёртывании, передайте эти данные через уровень приложения или вызов инструмента, а не полагайтесь на общие знания модели.
Хорошие оценочные промпты включают:
- Промпт для триажа поддержки с одним скриншотом, описанием пользователя и требуемой JSON-схемой.
- Промпт для проверки качества продукта с коротким видеовходом и шаблоном отчёта об ошибке.
- Промпт для маршрутизации инструментов, где модель должна выбрать между
create_ticket,search_docsиescalate_to_human. - Промпт для анализа длинного контекста, где одна и та же схема инструментов и текст политики могут выиграть от кэшированных чтений.
Избегайте начинать с расплывчатых промптов вроде «проанализируйте это видео» или «рассмотрите это изображение». Дайте модели задачу, границы решения и формат вывода. Это упростит сравнение результатов между моделями и измерение того, окупаются ли дополнительный контекст и мультимодальный ввод.
Для агентных рабочих процессов поддержка инструментов — та часть, которую нужно тестировать наиболее тщательно. Хорошая оценка вызова инструментов должна включать случаи, когда правильный ответ — вызвать инструмент, случаи, когда правильный ответ — запросить дополнительную информацию, и случаи, когда не должен выполняться ни один инструмент. Это предотвращает оценку, поощряющую излишнюю активность только потому, что модель может сгенерировать вызов функции.
Как командам следует оценивать модель перед продакшном?
Начните с небольшого набора тестов, отражающего ваш продукт, а не с общего бенчмарка. Включите успешные случаи, граничные случаи и промпты, которые не должны вызывать инструмент. Если вашему приложению нужен структурированный вывод, проверяйте его автоматически по вашей схеме, а не вручную.
Минимальный текстовый запрос, совместимый с OpenAI, использует базовый URL Novita AI и проверенный идентификатор модели:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "You are a practical incident triage assistant. Return concise, structured recommendations.",
},
{
"role": "user",
"content": "Review this incident summary and identify the next three checks: API latency doubled after a deploy, database CPU is normal, error rate is flat.",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
Для оценки перед продакшном добавьте четыре проверки, прежде чем направлять реальный пользовательский трафик:
- Проверка стоимости: логируйте входные, кэшированные и выходные токены для репрезентативных запросов.
- Проверка схемы: автоматически проверяйте структурированные выходные данные и повторяйте запрос или используйте запасной вариант, если ответы не соответствуют схеме.
- Проверка инструментов: тестируйте как случаи вызова инструментов, так и случаи без вызова, включая неоднозначные промпты.
- Проверка медиа: оценивайте фактические форматы изображений или видео, которые отправляет ваше приложение, а не только текстовые сводки медиа.
Вызов функций и структурированный вывод полезны, но не снимают ответственности с приложения. Ваш сервис всё равно должен выполнять проверки авторизации, валидацию ввода, идемпотентное выполнение инструментов и аудит действий, изменяющих пользовательские данные.
Для мультимодальных запросов сделайте путь обработки медиа явным. Храните или ссылайтесь на ресурс в соответствии с правилами конфиденциальности вашего приложения, сохраняйте достаточно метаданных для отладки сбоев и фиксируйте, какой формат запроса использовался. Если позже возникнет проблема в продакшне, вы должны знать, видела ли модель исходное изображение или видео, сжатую версию, образец кадра или текстовую сводку, созданную другим сервисом.
Чем Step 3.7 Flash отличается от отдельного быстрого старта?
Эта статья — обзор запуска и основной источник истины: доступность, идентификатор модели, цены, мультимодальные возможности и пригодность для разработчиков. Отдельная статья быстрого старта Step 3.7 Flash может углубиться в полезные нагрузки запросов, ввод изображений и видео, примеры вызова функций и шаблоны структурированного вывода.
Такое разделение полезно, потому что читатели, интересующиеся запуском, обычно хотят ответить на вопрос: «Стоит ли нам оценивать эту модель?» Читателям быстрого старта нужно ответить на вопрос: «Какой именно запрос мне отправить?» Разделение этих задач предотвращает зарывание информации о ценах и возможностях внутри длинного руководства, оставляя место для деталей реализации там, где им место.
Пока лучший следующий шаг — открыть страницу модели Step 3.7 Flash, подтвердить текущий прайс-лист и лимиты для вашей учётной записи, а затем выполнить узкий оценочный промпт, использующий те же медиа, схему инструментов или структурированный вывод, которые понадобятся вашему приложению.
Часто задаваемые вопросы
Доступен ли Step 3.7 Flash на Novita AI?
Да. Novita AI в настоящее время предлагает Step 3.7 Flash как модель Serverless LLM с идентификатором модели API stepfun/step-3.7-flash.
Какие входные данные поддерживает Step 3.7 Flash?
На странице модели Novita AI сейчас указаны текст, изображение и видео как поддерживаемые режимы ввода. Режим вывода — текст.
Сколько стоит Step 3.7 Flash на Novita AI?
Текущие цены Novita AI для stepfun/step-3.7-flash: $0,20 за миллион входных токенов, $0,04 за миллион кэшированных входных токенов и $1,15 за миллион выходных токенов.
Поддерживает ли Step 3.7 Flash вызов функций?
Да. На странице модели Novita AI в настоящее время указана поддержка вызова функций, структурированного вывода и рассуждения для Step 3.7 Flash.
Какой endpoint следует использовать разработчикам?
Используйте совместимый с OpenAI endpoint завершения диалогов Novita AI с идентификатором модели stepfun/step-3.7-flash. Базовый URL для использования SDK, совместимого с OpenAI: https://api.novita.ai/openai.
