Kling O1(Kling Omni Video O1)是快手首款統一多模態影片模型,透過 Novita AI API 公開四種不同的生成模式:文字轉影片(T2V)、圖片轉影片(I2V)、參考轉影片(Ref2V),以及影片編輯(Video Edit)。每種模式接受不同的輸入,解決不同的問題——選錯模式會增加摩擦與成本。本指南說明每種模式的實際功能、所需條件、在 Novita AI 上的定價方式,以及針對常見開發者情境應優先嘗試哪一種。
什麼是 Kling O1?
Kling O1 建立在快手的 MVL(多模態視覺語言)架構上,將文字、圖片、參考與影片編輯任務整合到單一模型中,而非分流到不同的專門模型。這在實務上很重要:底層的動作模型與身份編碼在各模式間共享,因此在一種模式中描述的角色與物體,會將一致的視覺特性帶到下一種模式。
與早期的 Kling 版本(V2.5、V2.6、V3.0 Standard/Pro)相比,Kling O1 新增了 Ref2V 與 Video Edit 功能,這些功能在結構上是全新的——在 O1 之前的任何 Standard 或 Pro 層級中均未提供。O1 中的 T2V 與 I2V 獲得了共享的 MVL 主幹,這比起前幾代模型改善了跨畫格的主體一致性。
Kling O1 不同於 Kling 3.0(也稱為 Kling O3)。Kling 3.0 是後續模型,增加了原生音訊共同生成與 15 秒的擴展片段。目前在 Novita AI 上的 Kling O1 支援最長 10 秒的影片,不含原生音訊。
四種模式一覽
| 模式 | 主要輸入 | 必要輸入 | 時長 | Novita AI 定價 |
|---|---|---|---|---|
| T2V | 文字提示 | prompt |
5–10 秒 | $0.112/秒 |
| I2V | 圖片 + 提示 | image_url, prompt |
5–10 秒 | $0.112/秒 |
| Ref2V | 參考圖片 + 提示 | prompt, image_urls 或 elements |
3–10 秒 | $0.168/秒 |
| Video Edit | 來源影片 + 提示 | video_url, prompt |
3–10 秒(Fast:6–20 秒) | $0.168/秒(Fast:$0.09/秒) |
定價於 2026-06-26 在 Novita AI 模型頁面驗證。按您指定的時長以每秒計費。
Kling O1 文字轉影片(T2V)在 Novita AI 上
端點: POST /v3/async/kling-o1-t2v
T2V 完全根據文字描述生成影片。您提供提示,模型從頭建立動作、光線、攝影機運動與場景構圖。沒有圖片錨點,因此模型在提示限制內擁有完全的創作自由度。
在以下情況使用 T2V:
- 您沒有參考圖片或場景畫面。
- 您正在探索概念,尚未確定視覺方向。
- 您需要以較低的單片成本生成多種視覺變化。
價格為 $0.112/秒,一個 5 秒片段花費 $0.56,10 秒片段花費 $1.12。T2V 在 Novita AI 上支援 5 秒與 10 秒時長,畫面比例為 16:9、9:16 與 1:1。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "A red fox trotting through a snowy pine forest, golden hour light, cinematic wide shot",
"duration": 5,
"aspect_ratio": "16:9"
}'
Kling O1 圖片轉影片(I2V)在 Novita AI 上
端點: POST /v3/async/kling-o1-i2v
I2V 將靜態圖片動畫化為影片片段。來源圖片成為起始畫面;提示控制後續的動作與場景發展。您可以選擇性地提供結束畫面,讓模型有目標狀態,模型會插值起始與結束之間的動作。
必要:image_url(起始畫面)與 prompt。結束畫面(end_image_url)為選用,但當您希望在剪輯點有特定構圖時很有用。
在以下情況使用 I2V:
- 您有現有的圖片或設計需要讓它動起來。
- 您希望有確定性的視覺錨點——角色或場景外觀已在來源圖片中定義。
- 您正在從現有素材建立產品展示、社交內容或電子商務動畫。
價格同樣為 $0.112/秒,與 T2V 相同。關鍵取捨在於 I2V 將開場畫面鎖定在您的輸入圖片,這提高了一致性,但也意味著低品質的來源圖片會限制輸出。Novita AI 上的圖片限制:最小 300×300px,最大檔案大小 10MB,畫面比例介於 0.4 至 2.5 之間。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-i2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"image_url": "https://example.com/product-shot.jpg",
"prompt": "The product slowly rotates to reveal the back panel, soft studio lighting",
"duration": 5,
"aspect_ratio": "1:1"
}'
Kling O1 參考轉影片(Ref2V)在 Novita AI 上
端點: POST /v3/async/kling-o1-ref2v
Ref2V 是最靈活的模式,也是最直接運用 O1 的 MVL 架構的模式。您不是提供單一起始畫面,而是提供最多七張參考圖片,分為兩種輸入類型:image_urls(風格或場景參考)與 elements(角色或物體身份錨點)。提示使用 @Image1、@Image2、@Element1、@Element2 標籤,告訴模型要套用哪個參考以及套用在何處。
這讓您可以從多個來源素材組合成一個場景:來自人像照片的一個角色、來自地點圖片的一個背景,以及來自產品圖片的一個道具——全部在提示中按名稱引用。
輸入規則:
prompt為必要。image_urls與elements為選用,但至少其中一個必須有意義;只有提示而無參考時,行為會更接近 T2V。- 總參考數量(elements + image_urls)不得超過 7。
elements中的每個元素可以包含多個reference_image_urls(多角度拍攝)以及可選的frontal_image_url,以獲得更乾淨的身份匹配。
在以下情況使用 Ref2V:
- 您需要在多個片段中保持角色一致(系列內容、行銷序列)。
- 您要將來自不同來源圖片的角色或物體組合到一個場景中。
- 您希望模型從起始畫面進行插值,同時從另一組參考中保持視覺身份。
Ref2V 價格為 $0.168/秒——比 T2V 和 I2V 貴 50%。對於 5 秒片段,為 $0.84;10 秒則為 $1.68。溢價反映了額外的參考編碼步驟。如果您的用例不需要跨圖片的身份一致性,則 $0.112/秒的 I2V 就足夠了。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-ref2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Take @Image1 as the start frame. @Element1 walks into the scene and picks up the glowing artifact. Cinematic lighting, steady camera.",
"image_urls": ["https://example.com/scene-bg.jpg"],
"elements": [
{
"reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
"frontal_image_url": "https://example.com/character-front.jpg"
}
],
"duration": 5,
"aspect_ratio": "16:9"
}'
Kling O1 影片編輯模式在 Novita AI 上
端點(標準): POST /v3/async/kling-o1-video-edit
端點(Fast): 可透過 Novita AI 的 Fast VideoEdit 變體取得
影片編輯模式接受現有影片作為輸入,並使用自然語言提示進行轉換。模型保留原始的動作結構——時間、攝影機運動、動作弧線——同時根據提示改變主體、環境或視覺風格。您也可以使用與 Ref2V 相同的 @Image1 / @Element1 標記系統提供參考圖片與元素錨點。
必要:video_url(來源影片,3–10 秒,MP4 或 MOV,720–2160px,最大 200MB)與 prompt。
兩種變體:
- 標準 VideoEdit:支援 3–10 秒的來源影片,價格為 $0.168/秒。
- Fast VideoEdit:支援 6–20 秒的來源影片,價格為 $0.09/秒——這是 Novita AI 上所有 Kling O1 模式中最低的每秒成本。
在以下情況使用 Video Edit:
- 您有需要改變風格或內容的現有影片素材,但不想重新拍攝。
- 您想在保持相同動作的情況下替換現有影片中的角色。
- 您需要將實拍片段轉換為動畫風格。
關鍵限制:來源影片控制動作。Video Edit 無法改變主體的行為——它只能改變主體的外觀以及所處的環境。若要改變動作,請改用 T2V 或 I2V 生成新素材。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-video-edit \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"video_url": "https://example.com/source-clip.mp4",
"prompt": "Transform the setting to a neon-lit cyberpunk alley, keep the character movements exactly as-is",
"duration": 5
}'
Novita AI 上的定價
所有 Kling O1 模式在 Novita AI 上都使用每秒計費,依據您在請求時設定的時長。價格於 2026-06-26 驗證。
| 模式 | 端點 | 時長範圍 | 價格/秒 | 5 秒成本 | 10 秒成本 |
|---|---|---|---|---|---|
| T2V | /v3/async/kling-o1-t2v |
5–10 秒 | $0.112 | $0.56 | $1.12 |
| I2V | /v3/async/kling-o1-i2v |
5–10 秒 | $0.112 | $0.56 | $1.12 |
| Ref2V | /v3/async/kling-o1-ref2v |
3–10 秒 | $0.168 | $0.84 | $1.68 |
| VideoEdit | /v3/async/kling-o1-video-edit |
3–10 秒 | $0.168 | $0.84 | $1.68 |
| VideoEdit Fast | (Novita AI Fast 變體) | 6–20 秒 | $0.090 | — | $0.90 |
Novita AI 新用戶可獲得免費額度。請查看 Novita AI 定價頁面 了解當前費率,價格可能變動。
您應該從哪種模式開始?
如果您的目標是概念探索,或者沒有特定的圖片素材,請從 T2V 開始。它是最低摩擦的入口:只需要一個必要參數(prompt),無需準備素材。
當您有需要動起來的圖片時,請改用 I2V。產品圖片、角色插圖和場景背景都可以作為 I2V 的起始畫面。與 T2V 價格相同,但視覺控制更強。
當跨片段的身份一致性很重要時——例如在多個場景中出現重複角色,或將特定人物與特定環境結合——請使用 Ref2V。預算要考慮 50% 的溢價;對於單片段生成則非必要。
將 Video Edit 保留給後製工作流程,其中現有素材需要視覺大改造,但動作應保持不變。對於較長編輯(6–20 秒)且對成本較敏感的情況,Fast 變體以 $0.09/秒 提供最高成本效益。
| 情境 | 建議模式 |
|---|---|
| 無圖片,正在探索想法 | T2V |
| 有產品或場景圖片,想要動作 | I2V |
| 需要在多個片段中保持相同角色 | Ref2V |
| 有影片素材,想要不同外觀 | VideoEdit(標準) |
| 較長編輯(6–20 秒),成本敏感 | VideoEdit Fast |
如何在 Novita AI 上呼叫 Kling O1 API
Novita AI 上的所有四種 Kling O1 模式均為非同步。每個請求會立即返回一個 task_id;輪詢 Task Result 端點直到狀態變為 succeed。
# 步驟 1:提交您的生成任務(範例:T2V)
RESPONSE=$(curl --silent --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')
TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
# 步驟 2:輪詢結果
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
回應包含一個 status 欄位。當其值為 succeed 時,videos 陣列包含輸出 URL。典型的生成時間為 30–120 秒,取決於時長與模式。
從 Novita AI 儀表板 取得您的 API 金鑰。新帳戶可獲得免費額度,用於在投入正式環境前測試所有四種模式。
結論
Novita AI 上的 Kling O1 讓開發者透過一個統一的 API 存取四種不同的影片生成模式——T2V、I2V、Ref2V 與 Video Edit。T2V 和 I2V 涵蓋常見的生成案例,價格為 $0.112/秒。Ref2V 增加了多參考身份組合,適用於重複角色,價格為 $0.168/秒。Video Edit 在保留動作的同時轉換現有素材,Fast 變體對於較長片段僅 $0.09/秒。正確選擇模式可以節省成本並減少摩擦:如果您沒有圖片素材,從 T2V 開始;如果有,則從 I2V 開始;當跨片段身份一致性重要時使用 Ref2V;當動作已捕捉完成時使用 Video Edit。所有模式在 Novita AI 上共享相同的非同步任務模式,因此將多種模式整合到單一管線中只需最少額外程式碼。
Novita AI 是一個 AI 雲端平台,為開發者提供透過統一的 API 存取影片、圖片、音訊與語言模型的託管服務。
常見問題
Novita AI 上的 Kling O1 T2V 與 I2V 有何不同?
T2V 僅根據文字提示生成影片——無需圖片。I2V 則以圖片作為起始畫面,並根據提示將其動畫化。兩者均定價為 $0.112/秒,支援 5–10 秒片段。探索時使用 T2V;當您有特定視覺錨點時使用 I2V。
Kling O1 Ref2V 能做到哪些 I2V 做不到的事?
Ref2V 接受最多七張參考圖片,分散於多個輸入槽,讓您可以將角色身份、場景背景與風格從不同來源組合。您在提示中按名稱引用每個輸入(@Element1、@Image1)。I2V 則使用單一起始畫面,沒有命名參考系統。
Kling O1 與 Kling 3.0 相同嗎?
不。Kling O1(2025 年 12 月發布)是基礎的統一多模態影片模型。Kling 3.0(也稱為 Kling O3,2026 年 2 月發布)是後續模型,增加了原生音訊共同生成以及最長 15 秒的片段。Novita AI 上的 Kling O1 支援最長 10 秒的影片,不含原生音訊。
如何在 VideoEdit 標準版與 Fast 版之間選擇?
標準版 VideoEdit 接受 3–10 秒的來源片段,價格為 $0.168/秒。Fast 版 VideoEdit 接受 6–20 秒的片段,價格為 $0.09/秒。如果您的來源影片小於 10 秒且週轉時間重要,請使用標準版。如果您有較長的片段或正在做批次後製工作,Fast 版會便宜很多。
