FLUX.1 Kontext 是 Black Forest Labs 推出的情境感知圖像編輯模型系列,在 Novita AI 上提供 Dev、Pro 和 Max 三種層級。與 FLUX.1 文字轉圖像模型不同,Kontext 接收現有圖片加上文字提示,在保留情境的同時編輯圖片——例如更換主體的服裝、置換背景、調整文字排版,或將新元素合成進去,而無需從頭重建。本指南涵蓋三種層級之間的差異、它們的 API 參數、價格,以及在 Novita AI 上該如何選擇。
什麼是 FLUX.1 Kontext?
FLUX.1 Kontext 是 Black Forest Labs 的圖像編輯模型系列,與其 FLUX.1 和 FLUX1.1 文字轉圖像模型不同。其關鍵能力是 情境感知編輯:您提供一張或多張參考圖片以及文字指令,模型會在編輯結果中保留主體的身份、風格和空間關係。
它能勝任的實際任務包括:
- 更改角色的衣服、頭髮顏色或配件,同時保留臉部
- 不影響前景主體的情況下置換或延伸背景
- 編輯圖像內的文字與排版(招牌、標籤、覆蓋文字)
- 將多張來源圖片的元素合成在一起
- 保留結構內容的風格轉換
在 Novita AI 上,所有三種 Kontext 變體都通過標準的非同步任務 API https://api.novita.ai 提供服務。您向相應的端點發送 POST,取回 task_id,然後輪詢 Task Result API 直到輸出準備就緒。
FLUX.1 Kontext vs FLUX.1 文字轉圖像
這個區別在選擇合適工具時很重要。Novita AI 上的 FLUX.1 [dev] 和 [schnell] 是文字轉圖像模型:它們僅根據文字提示生成圖像,不需要圖像輸入。而 FLUX.1 Kontext Dev、Pro 和 Max 是圖像編輯模型:它們 需要 至少一張來源圖像,並產生基於該輸入的編輯結果。
如果您想從頭生成,請使用 FLUX.1 [dev] 或 [schnell]。如果您想編輯、修飾或轉換現有圖像同時保留其情境,請使用 FLUX.1 Kontext。
您應該使用哪個層級?
| Dev | Pro | Max | |
|---|---|---|---|
| Novita AI 端點 | /v3/async/flux-1-kontext-dev |
/v3/async/flux-1-kontext-pro |
/v3/async/flux-1-kontext-max |
| 每張圖片價格 | $0.0225(快速模式 $0.018) | $0.036 | $0.072 |
| 輸出尺寸控制 | 像素尺寸(每邊 256–1536) | 長寬比預設 | 長寬比預設 |
| 推論步數 | 可設定(1–50,預設 28) | 固定 | 固定 |
| 快速模式 | 有(成本較低,品質略降) | 無 | 無 |
| 安全容忍度 | 無 | 有(1–5,預設 2) | 有(1–5,預設 2) |
| 最大來源圖片數 | 4 | 4 | 4 |
| 最佳用途 | 高量管線、成本敏感工作流程、自訂解析度需求 | 平衡品質與成本,生產環境使用 | 最高輸出品質,頂級一致性 |
使用 Dev 當您: 需要高成本效益的吞吐量、想調整推論步數或輸出圖像像素尺寸,或正在執行快速模式合理的高量自動化管線。
使用 Pro 當您: 想要在中價位區間獲得可靠、生產級別的編輯結果,且不需要調整推論步數。長寬比介面對網頁和社群格式來說使用起來更簡單。
使用 Max 當您: 輸出品質是首要考慮,成本是次要因素。Max 針對專業素材、品牌圖像,或視覺保真度直接影響最終產品的工作提供頂級一致性。
Novita AI 上的 FLUX.1 Kontext Dev
端點: POST https://api.novita.ai/v3/async/flux-1-kontext-dev
Dev 對生成參數提供了最多的控制。您可以設定精確的像素尺寸而非長寬比預設,調整推論步數,並啟用快速模式以降低成本(犧牲部分品質)。
請求參數:
| 參數 | 類型 | 預設值 | 備註 |
|---|---|---|---|
prompt |
string | 必填 | 編輯指令 |
images |
string[] | 選填 | Base64 或 URL;最多 4 張圖片 |
fast_mode |
boolean | false | 將成本降至 $0.018/張 |
size |
string | — | width*height,每邊 256–1536 |
num_inference_steps |
integer | 28 | 範圍 1–50 |
guidance_scale |
number | 2.5 | 範圍 1.0–20.0 |
num_images |
integer | 1 | 範圍 1–4 |
seed |
integer | -1 | -1 = 隨機 |
output_format |
string | jpeg | jpeg、png、webp |
何時調整步數:對於簡單編輯(顏色變更、文字替換),20 步通常足夠。對於複雜的合成變更或多圖融合,28–35 步通常可改善一致性。超過 40 步在編輯任務中很少增加有意義的品質。
Novita AI 上的 FLUX.1 Kontext Pro
端點: POST https://api.novita.ai/v3/async/flux-1-kontext-pro
Pro 以更簡單的介面和更上一層的輸出品質,換取了對步數的細粒度控制。您指定長寬比而非像素尺寸,這使得針對標準格式(社群用 1:1、影片縮圖用 16:9、行動裝置用 9:16)變得直觀。
請求參數:
| 參數 | 類型 | 預設值 | 備註 |
|---|---|---|---|
prompt |
string | 必填 | 編輯指令 |
images |
string[] | 選填 | Base64 或 URL;最多 4 張圖片 |
guidance_scale |
number | 3.5 | 範圍 1.0–20.0 |
aspect_ratio |
string | — | 1:1、16:9、4:3、3:2、2:3、3:4、9:16、9:21、21:9 |
seed |
integer | -1 | -1 = 隨機 |
safety_tolerance |
string | 2 | 1(嚴格)到 5(寬鬆);僅限文字轉圖像模式 |
注意:Novita AI 文件指出,Pro 的 safety_tolerance 僅在文字轉圖像模式下套用。當使用 Kontext 進行圖像編輯(即傳入來源圖片)時,此參數無效。
Novita AI 上的 FLUX.1 Kontext Max
端點: POST https://api.novita.ai/v3/async/flux-1-kontext-max
Max 與 Pro 的介面幾乎完全相同——相同的長寬比預設、相同的安全容忍度控制——但目標是更高的一致性和保真度。如果您正在使用 Pro 但批次輸出不一致,或者特定編輯不斷偏離來源主體,那麼 Max 是下一步要嘗試的。
請求參數:
| 參數 | 類型 | 預設值 | 備註 |
|---|---|---|---|
prompt |
string | 必填 | 編輯指令 |
images |
string[] | 選填 | Base64 或 URL;最多 4 張圖片 |
seed |
integer | — | 範圍 -1–2147483647 |
guidance_scale |
number | 3.5 | 範圍 1.0–20.0 |
safety_tolerance |
string | 2 | 1(嚴格)到 5(寬鬆) |
aspect_ratio |
string | — | 與 Pro 相同的預設 |
與 Pro 之間的主要實際差異在於輸出品質上限和價格。對於大多數 API 工作流程,Pro 已涵蓋使用案例。Max 適用於最終素材生產,您需要在人工審查前取得模型的最佳輸出。
FLUX.1 Kontext 在 Novita AI 上的費用是多少?
截至 2026-06-26 的定價(來源:Novita AI 定價頁面):
| 變體 | 每張圖片價格 |
|---|---|
| FLUX.1 Kontext Dev | $0.0225 |
| FLUX.1 Kontext Dev(快速模式) | $0.018 |
| FLUX.1 Kontext Pro | $0.036 |
| FLUX.1 Kontext Max | $0.072 |
Novita AI 的價格低於 BFL 的直接 API 費率(截至 2026-06-26,BFL 的 Pro:$0.04,Max:$0.08)。對於高量編輯管線,差異會迅速累積:在 Novita 上進行 10,000 次 Pro 編輯花費 $360,而直接花費 $400。
API 快速入門
從 Novita AI 控制台 獲取您的 API 金鑰。三個 Kontext 端點都使用相同的非同步模式:POST 提交,收到 task_id,然後 GET 到任務結果端點,直到輸出準備就緒。
Python 範例——FLUX.1 Kontext Pro:
import requests
import time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
def edit_image_kontext_pro(image_url: str, prompt: str, aspect_ratio: str = "1:1") -> str:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-pro",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": prompt,
"images": [image_url],
"aspect_ratio": aspect_ratio,
"guidance_scale": 3.5,
},
)
response.raise_for_status()
task_id = response.json()["task_id"]
# 輪詢結果
while True:
result = requests.get(
f"{BASE_URL}/v3/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id},
)
result.raise_for_status()
data = result.json()
if data.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
return data["images"][0]["image_url"]
elif data.get("task", {}).get("status") == "TASK_STATUS_FAILED":
raise RuntimeError(f"任務失敗:{data}")
time.sleep(2)
具有快速模式和自訂解析度的 Dev 變體:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-dev",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": "將外套換成紅色皮革",
"images": [image_url],
"fast_mode": True,
"size": "1024*1024",
"num_inference_steps": 28,
"guidance_scale": 2.5,
"output_format": "webp",
},
)
用於最高品質的 Max 變體:
response = requests.post(
f"{BASE_URL}/v3/async/flux-1-kontext-max",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"prompt": "將背景替換為山脈上的日落",
"images": [image_url],
"aspect_ratio": "16:9",
"guidance_scale": 3.5,
},
)
實用編輯模式
跨影格的主體一致性: 為了在批次中保持角色或產品身份一致,對每個影格傳遞相同的來源圖片,並搭配不同的提示詞。固定 seed 可在會話內鎖定輸出風格。
多圖合成: 三個變體都接受最多 4 張來源圖片。一起傳遞角色參考和背景參考,並指示模型將它們合成。較簡單的指令會產生更可預測的結果。
文字排版編輯: Kontext 在處理圖像內文字方面優於大多數編輯模型。在提示詞中明確指定更改:"將招牌文字從 'OPEN' 改為 'CLOSED'"。Pro 和 Max 產生的文字排版編輯比 Dev 更易讀,特別是在小字或藝術字方面。
迭代優化: Kontext 的輸出只是一張圖片——將其作為來源再次餵入進行下一次編輯。先用 Dev 快速模式進行粗略編輯,再用 Pro 或 Max 進行最終品質處理。
何時應避免使用 Kontext: 若要生成沒有來源參考的圖像,請使用 Novita AI 上的 FLUX.1 Dev 文字轉圖像——Kontext 需要來源圖像才能編輯。
結論
FLUX.1 Kontext 是一個情境感知圖像編輯模型系列——而非文字轉圖像系統。其核心能力是在對現有圖像進行精確的文字驅動編輯時,保留主體身份、空間關係和風格。這個區別在選擇它而非 FLUX.1 Dev、Schnell 或其他 T2I 模型時很重要:當您有來源圖像且需要更改其中的特定內容時,Kontext 是正確的工具。
在 Novita AI 上,三個層級的選擇邏輯很直接。Dev 適合高吞吐量或成本敏感的工作流程——它提供推論步數控制和像素級別尺寸設定,快速模式可將價格降至 $0.018/張。Pro 是大多數生產使用案例的預設選擇:更簡單的長寬比介面、比 Dev 更好的輸出一致性,以及適合持續管線的中間價格($0.036/張)。Max 針對最終素材生產,品質上限比成本更重要——它共用 Pro 的介面,但提供更高的一致性,因此適合品牌圖像、印刷準備作品,或任何無需進一步編輯直接面對受眾的輸出。
三個變體都接受最多 4 張來源圖片,並透過相同的非同步任務 API 回傳結果,因此在實務上,層級選擇僅是一行程式碼的端點變更。正確的層級取決於輸出的最終用途:自動化管線偏向 Dev,生產 API 偏向 Pro,最終交付偏向 Max。
常見問題
Q:Dev、Pro 和 Max 之間最大的實際差異是什麼?
A:Dev 讓您直接控制推論步數和輸出圖像像素尺寸,並提供快速模式選項,可在犧牲部分品質的情況下降低成本。Pro 和 Max 改用長寬比預設並固定推論管線——Pro 是均衡的生產選項,Max 是更高的品質上限。定價反映了這一點:Novita AI 上 Dev 從 $0.018 起,Pro $0.036,Max $0.072 每張(2026-06-26 檢查)。
Q:我應該從哪個層級開始?
A:從 Pro 開始。它以簡單的介面和可靠的輸出涵蓋了大多數生產圖像編輯使用案例。如果您需要吞吐量成本控制或自訂像素尺寸,則切換到 Dev;如果 Pro 輸出不一致,或者您正在製作直接面向受眾的最終素材,則升級到 Max。
Q:何時值得從 Pro 升級到 Max?
A:當輸出一致性比成本更重要時。常見信號:Pro 結果在身份保留至關重要時(同一角色或產品跨越多個編輯)在批次中出現偏差,精細的文字排版編輯退化,或者輸出直接進入生產而無需人工 QA 環節。Max 並未暴露不同的參數——它與 Pro 使用相同的介面,只是品質上限更高。
Q:Dev 快速模式是否會明顯降低品質?
A:對於簡單編輯——純色變更、背景交換、物件移除——快速模式的品質通常可以接受。對於複雜合成、精確文字排版更改,或需要強烈主體一致性的編輯,標準 Dev 或 Pro 會產生更可靠的結果。快速模式最好視為篩選或原型製作層級,而非最終輸出層級。
Q:FLUX.1 Kontext 與 FLUX.1 文字轉圖像模型有何不同?
A:FLUX.1 Kontext(Dev/Pro/Max)是圖像編輯模型:它接受一張或多張來源圖片加上文字指令,並回傳編輯後的版本。FLUX.1 [dev] 和 [schnell] 是文字轉圖像模型:它們根據文字提示生成圖像,無需圖像輸入。這兩個系列解決不同的問題,不可互換——當您有來源圖像要編輯時使用 Kontext,從頭生成時使用 T2I 模型。
