FLUX.1 Kontext 是 Black Forest Labs 推出的上下文感知图像编辑模型系列,在 Novita AI 上有三个层级:Dev、Pro 和 Max。与 FLUX.1 文本到图像模型不同,Kontext 接收一张现有图像加上文本提示,并在保持上下文的同时编辑图像——改变主体的服装、替换背景、调整排版或合成新元素,而无需从头重建。本指南涵盖了这三个层级之间的区别、它们的 API 参数、定价,以及在 Novita AI 上应该选择哪一个。
什么是 FLUX.1 Kontext?
FLUX.1 Kontext 是 Black Forest Labs 的图像编辑模型系列,与其 FLUX.1 和 FLUX1.1 文本到图像模型不同。关键能力是上下文感知编辑:你提供一张或多张参考图像以及一条文本指令,模型会将主体的身份、风格和空间关系延续到编辑后的结果中。
它擅长处理的实际任务包括:
- 改变角色的服装、发色或配饰,同时保持面部不变
- 在不影响前景主体的前提下,替换或扩展背景
- 编辑图像内的文字和排版(标志、标签、覆盖层)
- 从多个来源图像合成元素
- 保留结构内容的风格迁移
在 Novita AI 上,所有三个 Kontext 变体都通过标准的异步任务 API 提供服务,地址为 https://api.novita.ai。你向相关端点发送 POST 请求,得到 task_id,然后轮询 Task Result API 直到输出准备就绪。
FLUX.1 Kontext 与 FLUX.1 文本到图像的对比
在选择合适的工具时,这一区别非常重要。Novita AI 上的 FLUX.1 [dev] 和 [schnell] 是文本到图像模型:它们仅根据文本提示生成图像,没有图像输入。而 FLUX.1 Kontext Dev、Pro 和 Max 是图像编辑模型:它们需要至少一张源图像,并生成基于该输入的编辑结果。
如果你想从头生成图像,请使用 FLUX.1 [dev] 或 [schnell]。如果你想编辑、修饰或转换现有图像并保持其上下文,请使用 FLUX.1 Kontext。
你应该使用哪个层级?
| Dev | Pro | Max | |
|---|---|---|---|
| Novita AI 端点 | /v3/async/flux-1-kontext-dev |
/v3/async/flux-1-kontext-pro |
/v3/async/flux-1-kontext-max |
| 每张图像价格 | $0.0225(快速模式 $0.018) | $0.036 | $0.072 |
| 输出尺寸控制 | 像素尺寸(每边 256–1536) | 宽高比预设 | 宽高比预设 |
| 推理步骤 | 可配置(1–50,默认 28) | 固定 | 固定 |
| 快速模式 | 是(更低成本,质量略有下降) | 否 | 否 |
| 安全容忍度 | 否 | 是(1–5,默认 2) | 是(1–5,默认 2) |
| 最大源图像数 | 4 | 4 | 4 |
| 最佳用途 | 高吞吐量管道、成本敏感型工作流、自定义分辨率需求 | 平衡质量与成本、生产环境使用 | 最高输出质量、优质一致性 |
使用 Dev 当: 你需要成本高效的吞吐量,想要调整推理步骤或输出像素尺寸,或者正在运行高容量自动化管道,快速模式有意义时。
使用 Pro 当: 你希望在中价位获得可靠的生产级编辑,且不需要调整推理步骤。宽高比界面对于网页和社交格式来说更易于使用。
使用 Max 当: 输出质量是首要关注点,成本是次要的。Max 面向专业资产、品牌图像或视觉保真度直接影响最终产品的工作,追求优质一致性。
Novita AI 上的 FLUX.1 Kontext Dev
端点: POST https://api.novita.ai/v3/async/flux-1-kontext-dev
Dev 对生成参数提供了最大控制。你可以设置精确的像素尺寸而不是宽高比预设,调整推理步骤,并启用快速模式以降低成本,但会牺牲部分质量。
请求参数:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
prompt |
string | 必填 | 编辑指令 |
images |
string[] | 可选 | Base64 或 URL;最多 4 张图像 |
fast_mode |
boolean | false | 将成本降低至每张 $0.018 |
size |
string | — | width*height,每边 256–1536 |
num_inference_steps |
integer | 28 | 范围 1–50 |
guidance_scale |
number | 2.5 | 范围 1.0–20.0 |
num_images |
integer | 1 | 范围 1–4 |
seed |
integer | -1 | -1 = 随机 |
output_format |
string | jpeg | jpeg、png、webp |
何时调整步骤:对于简单的编辑(颜色更改、文字替换),20 步通常足够。对于复杂的构图变化或多图像混合,28–35 步通常能改善连贯性。超过 40 步在编辑任务中很少增加有意义的质量。
Novita AI 上的 FLUX.1 Kontext Pro
端点: POST https://api.novita.ai/v3/async/flux-1-kontext-pro
Pro 用更简单的界面和更高的输出质量来换取对步骤的精细控制。你指定宽高比而不是像素尺寸,从而轻松定位标准格式(1:1 用于社交,16:9 用于视频缩略图,9:16 用于移动端)。
请求参数:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
prompt |
string | 必填 | 编辑指令 |
images |
string[] | 可选 | Base64 或 URL;最多 4 张图像 |
guidance_scale |
number | 3.5 | 范围 1.0–20.0 |
aspect_ratio |
string | — | 1:1、16:9、4:3、3:2、2:3、3:4、9:16、9:21、21:9 |
seed |
integer | -1 | -1 = 随机 |
safety_tolerance |
string | 2 | 1(严格)到 5(宽松);仅适用于文本到图像模式 |
注意:Novita AI 文档指出,对于 Pro,safety_tolerance 仅在文本到图像模式下应用。当使用 Kontext 进行图像编辑(即传入源图像)时,此参数无效。
Novita AI 上的 FLUX.1 Kontext Max
端点: POST https://api.novita.ai/v3/async/flux-1-kontext-max
Max 的界面与 Pro 几乎完全相同——相同的宽高比预设、相同的安全容忍度控制——但目标是在一致性和保真度上更高。如果你正在使用 Pro 并且输出在批次中不一致,或者某个特定编辑不断偏离源主体,那么 Max 是下一步可以尝试的。
请求参数:
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
prompt |
string | 必填 | 编辑指令 |
images |
string[] | 可选 | Base64 或 URL;最多 4 张图像 |
seed |
integer | — | 范围 -1–2147483647 |
guidance_scale |
number | 3.5 | 范围 1.0–20.0 |
safety_tolerance |
string | 2 | 1(严格)到 5(宽松) |
aspect_ratio |
string | — | 与 Pro 相同的预设 |
与 Pro 的主要实际区别在于输出质量上限和定价。对于大多数 API 工作流,Pro 就能满足需求。Max 适用于最终资产生产,你需要模型的最佳输出,然后再进行人工审核。
FLUX.1 Kontext 在 Novita AI 上的费用是多少?
截止 2026-06-26 的定价(来源:Novita AI 定价页面):
| 变体 | 每张图像价格 |
|---|---|
| FLUX.1 Kontext Dev | $0.0225 |
| FLUX.1 Kontext Dev(快速模式) | $0.018 |
| FLUX.1 Kontext Pro | $0.036 |
| FLUX.1 Kontext Max | $0.072 |
Novita AI 的价格低于 BFL 的直接 API 费率(截止 2026-06-26,BFL 的 Pro: $0.04,Max: $0.08)。对于高容量编辑管道,差异会迅速累积:在 Novita 上 10,000 次 Pro 编辑花费 $360,而直接使用则需 $400。
API 快速入门
从 Novita AI 控制台 获取您的 API 密钥。所有三个 Kontext 端点都使用相同的异步模式:POST 提交,收到 task_id,然后从任务结果端点 GET 直到输出准备就绪。
Python 示例 — FLUX.1 Kontext Pro:
import requests
import time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
def edit_image_kontext_pro(image_url: str, prompt: str, aspect_ratio: str = "1:1") -> str:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-pro",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": prompt,
"images": [image_url],
"aspect_ratio": aspect_ratio,
"guidance_scale": 3.5,
},
)
response.raise_for_status()
task_id = response.json()["task_id"]
# 轮询结果
while True:
result = requests.get(
f"{BASE_URL}/v3/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id},
)
result.raise_for_status()
data = result.json()
if data.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
return data["images"][0]["image_url"]
elif data.get("task", {}).get("status") == "TASK_STATUS_FAILED":
raise RuntimeError(f"任务失败: {data}")
time.sleep(2)
Dev 变体,使用快速模式和自定义分辨率:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-dev",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": "将夹克换成红色皮革",
"images": [image_url],
"fast_mode": True,
"size": "1024*1024",
"num_inference_steps": 28,
"guidance_scale": 2.5,
"output_format": "webp",
},
)
Max 变体,追求最高质量:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-max",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": "将背景替换为山脉上的日落",
"images": [image_url],
"aspect_ratio": "16:9",
"guidance_scale": 3.5,
},
)
实用编辑模式
跨帧的主体一致性: 要在批次中保持角色或产品身份的一致性,为每一帧传入相同的源图像并搭配不同的提示。固定的 seed 会在会话内锁定输出风格。
多图像合成: 所有三个变体最多接受 4 张源图像。将角色参考和背景参考一起传入,并指令模型进行合成。更简单的指令会产生更可预测的结果。
排版编辑: Kontext 处理图像内文字的能力优于大多数编辑模型。在提示中明确指定更改:"将标志文字从 'OPEN' 改为 'CLOSED'"。Pro 和 Max 在排版编辑(尤其是小号或艺术字体)方面比 Dev 更清晰。
迭代细化: Kontext 的输出只是一张图像——将其作为下一次编辑的源图像反馈回去。先用 Dev 快速模式进行粗略编辑,再用 Pro 或 Max 进行最终质量处理。
何时避免使用 Kontext: 对于没有源参考的图像生成,请使用 Novita AI 上的 FLUX.1 Dev 文本到图像——Kontext 需要源图像来进行编辑。
结论
FLUX.1 Kontext 是一个上下文感知的图像编辑模型系列——并非文本到图像系统。其核心能力是在保持主体身份、空间关系和风格的同时,对现有图像应用精确的文本驱动编辑。这一区别在选择 FLUX.1 Dev、Schnell 或其他 T2I 模型时非常重要:Kontext 是当你拥有源图像并需要对其进行特定更改时的正确工具。
在 Novita AI 的三个层级中,选择逻辑很简单。Dev 适合高吞吐量或成本敏感的工作流——它暴露了推理步骤控制和像素级尺寸,快速模式将价格降至每张 $0.018。Pro 是大多数生产用例的默认选择:更简单的宽高比界面、比 Dev 更好的输出一致性,以及适用于持续管道的中等价格(每张 $0.036)。Max 面向最终资产生产,质量上限比成本更重要——它共享 Pro 的界面但提供更高的一致性,适用于品牌图像、印刷级工作或任何未经进一步编辑直接面向受众的输出。
所有三个变体最多接受 4 张源图像,并通过相同的异步任务 API 返回结果,因此层级选择实际上只是端点的一行更改。正确的层级取决于输出的用途:自动化管道倾向于 Dev,生产 API 倾向于 Pro,最终交付倾向于 Max。
常见问题
Q: Dev、Pro 和 Max 之间的最大实际区别是什么?
A: Dev 让你直接控制推理步骤和输出像素尺寸,还有一个快速模式选项,可以降低但牺牲一些质量。Pro 和 Max 使用宽高比预设并固定推理管道——Pro 是平衡的生产选项,Max 是更高质量上限。定价反映了这一点:在 Novita AI 上,Dev 每张 $0.018 起,Pro 每张 $0.036,Max 每张 $0.072(2026-06-26 检查)。
Q: 我应该从哪个层级开始?
A: 从 Pro 开始。它以简单的界面和可靠的输出覆盖了大多数生产图像编辑用例。如果需要吞吐量成本控制或自定义像素尺寸,则切换到 Dev;如果 Pro 输出不一致或正在生产直接面向受众的最终资产,则升级到 Max。
Q: 什么时候值得从 Pro 升级到 Max?
A: 当输出一致性比成本更重要时。常见信号:在身份保持至关重要的批次中(同一角色或产品在多次编辑中)Pro 结果出现漂移;精细排版编辑质量下降;或者输出直接进入生产环节而无人工 QA 步骤。Max 不暴露不同的参数——它与 Pro 的界面相同,只是质量上限更高。
Q: Dev 快速模式是否会明显降低质量?
A: 对于简单编辑——纯色更改、背景替换、对象移除——快速模式的质量通常可以接受。对于复杂合成、精确排版更改或需要强主体一致性的编辑,标准 Dev 或 Pro 能产生更可靠的结果。快速模式最适合作为筛选或原型制作层级,而不是最终输出层级。
Q: FLUX.1 Kontext 和 FLUX.1 文本到图像模型有什么区别?
A: FLUX.1 Kontext(Dev/Pro/Max)是一个图像编辑模型:它接受一张或多张源图像加上文本指令,返回编辑后的版本。FLUX.1 [dev] 和 [schnell] 是文本到图像模型:它们根据文本提示生成图像,无需图像输入。这两个系列解决不同的问题,不可互换——当你有源图像需要编辑时使用 Kontext,从头生成时使用 T2I 模型。
