Kling O1 在 Novita AI 上:T2V、I2V、Ref2V 與影片編輯模式

Kling O1 在 Novita AI 上:T2V、I2V、Ref2V 與影片編輯模式

Kling O1(Kling Omni Video O1)是快手首款統一多模態影片模型,透過 Novita AI API 公開四種不同的生成模式:文字轉影片(T2V)、圖片轉影片(I2V)、參考轉影片(Ref2V),以及影片編輯(Video Edit)。每種模式接受不同的輸入,解決不同的問題——選錯模式會增加摩擦與成本。本指南說明每種模式的實際功能、所需條件、在 Novita AI 上的定價方式,以及針對常見開發者情境應優先嘗試哪一種。

什麼是 Kling O1?

Kling O1 建立在快手的 MVL(多模態視覺語言)架構上,將文字、圖片、參考與影片編輯任務整合到單一模型中,而非分流到不同的專門模型。這在實務上很重要:底層的動作模型與身份編碼在各模式間共享,因此在一種模式中描述的角色與物體,會將一致的視覺特性帶到下一種模式。

與早期的 Kling 版本(V2.5、V2.6、V3.0 Standard/Pro)相比,Kling O1 新增了 Ref2V 與 Video Edit 功能,這些功能在結構上是全新的——在 O1 之前的任何 Standard 或 Pro 層級中均未提供。O1 中的 T2V 與 I2V 獲得了共享的 MVL 主幹,這比起前幾代模型改善了跨畫格的主體一致性。

Kling O1 不同於 Kling 3.0(也稱為 Kling O3)。Kling 3.0 是後續模型,增加了原生音訊共同生成與 15 秒的擴展片段。目前在 Novita AI 上的 Kling O1 支援最長 10 秒的影片,不含原生音訊。

四種模式一覽

模式 主要輸入 必要輸入 時長 Novita AI 定價
T2V 文字提示 prompt 5–10 秒 $0.112/秒
I2V 圖片 + 提示 image_url, prompt 5–10 秒 $0.112/秒
Ref2V 參考圖片 + 提示 prompt, image_urlselements 3–10 秒 $0.168/秒
Video Edit 來源影片 + 提示 video_url, prompt 3–10 秒(Fast:6–20 秒) $0.168/秒(Fast:$0.09/秒)

定價於 2026-06-26 在 Novita AI 模型頁面驗證。按您指定的時長以每秒計費。

Kling O1 文字轉影片(T2V)在 Novita AI 上

端點: POST /v3/async/kling-o1-t2v

T2V 完全根據文字描述生成影片。您提供提示,模型從頭建立動作、光線、攝影機運動與場景構圖。沒有圖片錨點,因此模型在提示限制內擁有完全的創作自由度。

在以下情況使用 T2V:

  • 您沒有參考圖片或場景畫面。
  • 您正在探索概念,尚未確定視覺方向。
  • 您需要以較低的單片成本生成多種視覺變化。

價格為 $0.112/秒,一個 5 秒片段花費 $0.56,10 秒片段花費 $1.12。T2V 在 Novita AI 上支援 5 秒與 10 秒時長,畫面比例為 16:9、9:16 與 1:1。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A red fox trotting through a snowy pine forest, golden hour light, cinematic wide shot",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 圖片轉影片(I2V)在 Novita AI 上

端點: POST /v3/async/kling-o1-i2v

I2V 將靜態圖片動畫化為影片片段。來源圖片成為起始畫面;提示控制後續的動作與場景發展。您可以選擇性地提供結束畫面,讓模型有目標狀態,模型會插值起始與結束之間的動作。

必要:image_url(起始畫面)與 prompt。結束畫面(end_image_url)為選用,但當您希望在剪輯點有特定構圖時很有用。

在以下情況使用 I2V:

  • 您有現有的圖片或設計需要讓它動起來。
  • 您希望有確定性的視覺錨點——角色或場景外觀已在來源圖片中定義。
  • 您正在從現有素材建立產品展示、社交內容或電子商務動畫。

價格同樣為 $0.112/秒,與 T2V 相同。關鍵取捨在於 I2V 將開場畫面鎖定在您的輸入圖片,這提高了一致性,但也意味著低品質的來源圖片會限制輸出。Novita AI 上的圖片限制:最小 300×300px,最大檔案大小 10MB,畫面比例介於 0.4 至 2.5 之間。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "The product slowly rotates to reveal the back panel, soft studio lighting",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 參考轉影片(Ref2V)在 Novita AI 上

端點: POST /v3/async/kling-o1-ref2v

Ref2V 是最靈活的模式,也是最直接運用 O1 的 MVL 架構的模式。您不是提供單一起始畫面,而是提供最多七張參考圖片,分為兩種輸入類型:image_urls(風格或場景參考)與 elements(角色或物體身份錨點)。提示使用 @Image1@Image2@Element1@Element2 標籤,告訴模型要套用哪個參考以及套用在何處。

這讓您可以從多個來源素材組合成一個場景:來自人像照片的一個角色、來自地點圖片的一個背景,以及來自產品圖片的一個道具——全部在提示中按名稱引用。

輸入規則:

  • prompt 為必要。
  • image_urlselements 為選用,但至少其中一個必須有意義;只有提示而無參考時,行為會更接近 T2V。
  • 總參考數量(elements + image_urls)不得超過 7。
  • elements 中的每個元素可以包含多個 reference_image_urls(多角度拍攝)以及可選的 frontal_image_url,以獲得更乾淨的身份匹配。

在以下情況使用 Ref2V:

  • 您需要在多個片段中保持角色一致(系列內容、行銷序列)。
  • 您要將來自不同來源圖片的角色或物體組合到一個場景中。
  • 您希望模型從起始畫面進行插值,同時從另一組參考中保持視覺身份。

Ref2V 價格為 $0.168/秒——比 T2V 和 I2V 貴 50%。對於 5 秒片段,為 $0.84;10 秒則為 $1.68。溢價反映了額外的參考編碼步驟。如果您的用例不需要跨圖片的身份一致性,則 $0.112/秒的 I2V 就足夠了。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Take @Image1 as the start frame. @Element1 walks into the scene and picks up the glowing artifact. Cinematic lighting, steady camera.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 影片編輯模式在 Novita AI 上

端點(標準): POST /v3/async/kling-o1-video-edit

端點(Fast): 可透過 Novita AI 的 Fast VideoEdit 變體取得

影片編輯模式接受現有影片作為輸入,並使用自然語言提示進行轉換。模型保留原始的動作結構——時間、攝影機運動、動作弧線——同時根據提示改變主體、環境或視覺風格。您也可以使用與 Ref2V 相同的 @Image1 / @Element1 標記系統提供參考圖片與元素錨點。

必要:video_url(來源影片,3–10 秒,MP4 或 MOV,720–2160px,最大 200MB)與 prompt

兩種變體:

  • 標準 VideoEdit:支援 3–10 秒的來源影片,價格為 $0.168/秒。
  • Fast VideoEdit:支援 6–20 秒的來源影片,價格為 $0.09/秒——這是 Novita AI 上所有 Kling O1 模式中最低的每秒成本。

在以下情況使用 Video Edit:

  • 您有需要改變風格或內容的現有影片素材,但不想重新拍攝。
  • 您想在保持相同動作的情況下替換現有影片中的角色。
  • 您需要將實拍片段轉換為動畫風格。

關鍵限制:來源影片控制動作。Video Edit 無法改變主體的行為——它只能改變主體的外觀以及所處的環境。若要改變動作,請改用 T2V 或 I2V 生成新素材。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Transform the setting to a neon-lit cyberpunk alley, keep the character movements exactly as-is",
    "duration": 5
  }'

Novita AI 上的定價

所有 Kling O1 模式在 Novita AI 上都使用每秒計費,依據您在請求時設定的時長。價格於 2026-06-26 驗證。

模式 端點 時長範圍 價格/秒 5 秒成本 10 秒成本
T2V /v3/async/kling-o1-t2v 5–10 秒 $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 秒 $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 秒 $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 秒 $0.168 $0.84 $1.68
VideoEdit Fast (Novita AI Fast 變體) 6–20 秒 $0.090 $0.90

Novita AI 新用戶可獲得免費額度。請查看 Novita AI 定價頁面 了解當前費率,價格可能變動。

您應該從哪種模式開始?

如果您的目標是概念探索,或者沒有特定的圖片素材,請從 T2V 開始。它是最低摩擦的入口:只需要一個必要參數(prompt),無需準備素材。

當您有需要動起來的圖片時,請改用 I2V。產品圖片、角色插圖和場景背景都可以作為 I2V 的起始畫面。與 T2V 價格相同,但視覺控制更強。

當跨片段的身份一致性很重要時——例如在多個場景中出現重複角色,或將特定人物與特定環境結合——請使用 Ref2V。預算要考慮 50% 的溢價;對於單片段生成則非必要。

Video Edit 保留給後製工作流程,其中現有素材需要視覺大改造,但動作應保持不變。對於較長編輯(6–20 秒)且對成本較敏感的情況,Fast 變體以 $0.09/秒 提供最高成本效益。

情境 建議模式
無圖片,正在探索想法 T2V
有產品或場景圖片,想要動作 I2V
需要在多個片段中保持相同角色 Ref2V
有影片素材,想要不同外觀 VideoEdit(標準)
較長編輯(6–20 秒),成本敏感 VideoEdit Fast

如何在 Novita AI 上呼叫 Kling O1 API

Novita AI 上的所有四種 Kling O1 模式均為非同步。每個請求會立即返回一個 task_id;輪詢 Task Result 端點直到狀態變為 succeed

# 步驟 1:提交您的生成任務(範例:T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# 步驟 2:輪詢結果
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

回應包含一個 status 欄位。當其值為 succeed 時,videos 陣列包含輸出 URL。典型的生成時間為 30–120 秒,取決於時長與模式。

Novita AI 儀表板 取得您的 API 金鑰。新帳戶可獲得免費額度,用於在投入正式環境前測試所有四種模式。

結論

Novita AI 上的 Kling O1 讓開發者透過一個統一的 API 存取四種不同的影片生成模式——T2V、I2V、Ref2V 與 Video Edit。T2V 和 I2V 涵蓋常見的生成案例,價格為 $0.112/秒。Ref2V 增加了多參考身份組合,適用於重複角色,價格為 $0.168/秒。Video Edit 在保留動作的同時轉換現有素材,Fast 變體對於較長片段僅 $0.09/秒。正確選擇模式可以節省成本並減少摩擦:如果您沒有圖片素材,從 T2V 開始;如果有,則從 I2V 開始;當跨片段身份一致性重要時使用 Ref2V;當動作已捕捉完成時使用 Video Edit。所有模式在 Novita AI 上共享相同的非同步任務模式,因此將多種模式整合到單一管線中只需最少額外程式碼。

Novita AI 是一個 AI 雲端平台,為開發者提供透過統一的 API 存取影片、圖片、音訊與語言模型的託管服務。

常見問題

Novita AI 上的 Kling O1 T2V 與 I2V 有何不同?

T2V 僅根據文字提示生成影片——無需圖片。I2V 則以圖片作為起始畫面,並根據提示將其動畫化。兩者均定價為 $0.112/秒,支援 5–10 秒片段。探索時使用 T2V;當您有特定視覺錨點時使用 I2V。

Kling O1 Ref2V 能做到哪些 I2V 做不到的事?

Ref2V 接受最多七張參考圖片,分散於多個輸入槽,讓您可以將角色身份、場景背景與風格從不同來源組合。您在提示中按名稱引用每個輸入(@Element1@Image1)。I2V 則使用單一起始畫面,沒有命名參考系統。

Kling O1 與 Kling 3.0 相同嗎?

不。Kling O1(2025 年 12 月發布)是基礎的統一多模態影片模型。Kling 3.0(也稱為 Kling O3,2026 年 2 月發布)是後續模型,增加了原生音訊共同生成以及最長 15 秒的片段。Novita AI 上的 Kling O1 支援最長 10 秒的影片,不含原生音訊。

如何在 VideoEdit 標準版與 Fast 版之間選擇?

標準版 VideoEdit 接受 3–10 秒的來源片段,價格為 $0.168/秒。Fast 版 VideoEdit 接受 6–20 秒的片段,價格為 $0.09/秒。如果您的來源影片小於 10 秒且週轉時間重要,請使用標準版。如果您有較長的片段或正在做批次後製工作,Fast 版會便宜很多。

推薦文章