Kling O1(Kling Omni Video O1)是快手首个统一多模态视频模型,通过 Novita AI API 提供四种不同的生成模式:文本转视频(T2V)、图像转视频(I2V)、参考转视频(Ref2V)和视频编辑(Video Edit)。每种模式接受不同的输入,解决不同的问题——选错模式会增加摩擦和成本。本指南将说明每种模式的实际功能、所需输入、Novita AI 上的定价方式,以及针对常见开发者用例应优先尝试哪种模式。
什么是 Kling O1?
Kling O1 基于快手的 MVL(多模态视觉语言)架构构建,该架构将文本、图像、参考和视频编辑任务整合到单一模型中,而非路由到不同的专用模型。这在实际应用中有重要意义:底层运动模型和身份编码在所有模式间共享,因此一种模式中描述的字符和对象会将一致的视觉属性传递给下一种模式。
与早期 Kling 版本(V2.5、V2.6、V3.0 Standard/Pro)相比,Kling O1 新增了 Ref2V 和视频编辑功能,这些功能在结构上是全新的——在 O1 之前的任何 Standard 或 Pro 层级中均不可用。O1 中的 T2V 和 I2V 得益于共享的 MVL 主干,相比早期生成模型,提高了跨帧的主体一致性。
Kling O1 与 Kling 3.0(也称为 Kling O3)不同。Kling 3.0 是后续模型,增加了原生音频协同生成和 15 秒扩展片段。Novita AI 上的 Kling O1 当前支持最长 10 秒的视频,不含原生音频。
四种模式概览
| 模式 | 主要输入 | 必需输入 | 时长 | Novita AI 价格 |
|---|---|---|---|---|
| T2V | 文本提示 | prompt |
5–10 秒 | $0.112/秒 |
| I2V | 图像 + 提示 | image_url、prompt |
5–10 秒 | $0.112/秒 |
| Ref2V | 参考图像 + 提示 | prompt、image_urls 或 elements |
3–10 秒 | $0.168/秒 |
| 视频编辑 | 源视频 + 提示 | video_url、prompt |
3–10 秒(快速:6–20 秒) | $0.168/秒(快速:$0.09/秒) |
价格验证日期:2026 年 6 月 26 日,来自 Novita AI 模型页面。计费按您指定的时长按秒计算。
Novita AI 上的 Kling O1 文本转视频(T2V)
端点: POST /v3/async/kling-o1-t2v
T2V 完全根据文本描述生成视频。您提供提示,模型从头创建动作、光照、运镜和场景构图。没有图像锚点,因此模型在提示约束范围内拥有完全的创作自由度。
在以下情况下使用 T2V:
- 您没有参考图像或场景帧。
- 您正在探索概念,尚未确定视觉方向。
- 您需要以较低的单片段成本生成大量视觉变体。
价格为 $0.112/秒,5 秒片段成本 $0.56,10 秒片段成本 $1.12。T2V 在 Novita AI 上支持 5 秒和 10 秒时长,宽高比可选 16:9、9:16 和 1:1。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "一只红狐狸在白雪覆盖的松树林中小跑,黄金时刻的光线,电影级广角镜头",
"duration": 5,
"aspect_ratio": "16:9"
}'
Novita AI 上的 Kling O1 图像转视频(I2V)
端点: POST /v3/async/kling-o1-i2v
I2V 将静态图像动画化为视频片段。源图像成为起始帧;提示控制后续的动作和场景发展。您可以选择提供结束帧,为模型设定目标状态,模型会插值起始帧与结束帧之间的运动。
必需参数:image_url(起始帧)和 prompt。结束帧(end_image_url)为可选,但在您希望剪辑点有特定构图时很有用。
在以下情况下使用 I2V:
- 您有一张现有图像或设计需要动起来。
- 您希望拥有确定的视觉依据——角色或场景外观已在源图像中定义。
- 您正在基于现有素材构建产品演示、社交内容或电商动画。
价格为 $0.112/秒,I2V 与 T2V 相同。关键权衡在于 I2V 会将开场帧锁定为您的输入图像,这提高了一致性,但也意味着质量差的源图像会限制输出。Novita AI 的图像限制:最小 300×300px,最大文件大小 10MB,宽高比在 0.4 到 2.5 之间。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-i2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"image_url": "https://example.com/product-shot.jpg",
"prompt": "产品缓慢旋转以展示背面,柔和的影棚灯光",
"duration": 5,
"aspect_ratio": "1:1"
}'
Novita AI 上的 Kling O1 参考转视频(Ref2V)
端点: POST /v3/async/kling-o1-ref2v
Ref2V 是最灵活的模式,也是最能直接利用 O1 的 MVL 架构的模式。它不提供单个起始帧,而是通过两种输入类型提供最多七张参考图像:image_urls(风格或场景参考)和 elements(角色或对象身份锚点)。提示中使用 @Image1、@Image2、@Element1、@Element2 标签,告诉模型应用哪个参考以及应用在何处。
这让你可以从多个源素材组合场景:来自肖像照片的一个角色、来自地点图像的一个背景、来自产品图像的一个道具——所有这些都可以在提示中按名称引用。
输入规则:
prompt为必需。image_urls和elements为可选,但至少一项需有意义;仅带提示而无参考的行为接近 T2V。- 总参考数量(elements + image_urls)不得超过 7。
elements中的每个元素可以包含多个reference_image_urls(多角度镜头)以及可选的frontal_image_url,以实现更干净的身份匹配。
在以下情况下使用 Ref2V:
- 你需要跨多个片段保持角色一致(剧集内容、营销序列)。
- 你正在将不同源图像中的角色或对象组合到单个场景中。
- 你希望模型从起始帧插值,同时从另一参考集保持视觉身份。
Ref2V 价格为 $0.168/秒——比 T2V 和 I2V 贵 50%。对于 5 秒片段,成本为 $0.84;10 秒为 $1.68。溢价反映了额外的参考编码步骤。如果您的用例不需要跨图像身份一致性,则价格为 $0.112/秒的 I2V 就已足够。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-ref2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "以 @Image1 为起始帧。@Element1 走入场景并捡起发光的器物。电影级光照,稳定镜头。",
"image_urls": ["https://example.com/scene-bg.jpg"],
"elements": [
{
"reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
"frontal_image_url": "https://example.com/character-front.jpg"
}
],
"duration": 5,
"aspect_ratio": "16:9"
}'
Novita AI 上的 Kling O1 视频编辑模式
端点(标准): POST /v3/async/kling-o1-video-edit
端点(快速): 通过 Novita AI 的 Fast VideoEdit 变体提供
视频编辑以现有视频作为输入,并使用自然语言提示对其进行转换。模型保留原始运动结构——时间、运镜、动作轨迹——同时根据提示更改主体、环境或视觉风格。你还可以使用与 Ref2V 相同的 @Image1 / @Element1 标签系统提供参考图像和元素锚点。
必需参数:video_url(源视频,3–10 秒,MP4 或 MOV,720–2160px,最大 200MB)和 prompt。
两种变体:
- 标准 VideoEdit:支持 3–10 秒源视频,价格 $0.168/秒。
- 快速 VideoEdit:支持 6–20 秒源视频,价格 $0.09/秒——这是 Novita AI 上 Kling O1 所有模式中最低的每秒成本。
在以下情况下使用视频编辑:
- 你有需要更改风格或内容但无需重新拍摄的素材。
- 你想在现有视频中替换角色,同时保留相同动作。
- 你需要将实拍片段转换为动画风格。
关键限制:源视频控制运动。视频编辑无法更改主体的动作——它只能更改主体的外观及其所处的环境。如需更改动作,请使用 T2V 或 I2V 生成新素材。
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-video-edit \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"video_url": "https://example.com/source-clip.mp4",
"prompt": "将场景转换为霓虹灯照明的赛博朋克小巷,保持角色动作完全不变",
"duration": 5
}'
Novita AI 上的定价
Novita AI 上所有 Kling O1 模式均按您在请求时设置的时长进行按秒计费。价格验证日期:2026 年 6 月 26 日。
| 模式 | 端点 | 时长范围 | 价格/秒 | 5 秒成本 | 10 秒成本 |
|---|---|---|---|---|---|
| T2V | /v3/async/kling-o1-t2v |
5–10 秒 | $0.112 | $0.56 | $1.12 |
| I2V | /v3/async/kling-o1-i2v |
5–10 秒 | $0.112 | $0.56 | $1.12 |
| Ref2V | /v3/async/kling-o1-ref2v |
3–10 秒 | $0.168 | $0.84 | $1.68 |
| VideoEdit | /v3/async/kling-o1-video-edit |
3–10 秒 | $0.168 | $0.84 | $1.68 |
| VideoEdit 快速 | (Novita AI 快速变体) | 6–20 秒 | $0.090 | — | $0.90 |
Novita AI 新用户可获得免费额度。请查看 Novita AI 定价页面 获取最新费率,因为价格可能发生变化。
你应该从哪种模式开始?
如果你的目标是概念探索或没有特定图像素材,请从 T2V 开始。这是摩擦最小的入口点:只需一个必需参数(prompt),无需准备素材。
当你有一张需要动起来的图像时,切换到 I2V。产品图像、角色插图和场景背景都可以作为 I2V 起始帧。价格与 T2V 相同,但视觉控制更强。
当跨片段的身份一致性至关重要时——例如,在多个场景中重复出现的角色,或将特定人物与特定环境组合在一起——请使用 Ref2V。预算要考虑 50% 的溢价;对于单片段生成则非必需。
将 视频编辑 保留用于后期制作工作流,其中现有素材需要视觉改造但运动应保持不变。快速变体价格为 $0.09/秒,对于较长编辑(6–20 秒)且生成速度不那么关键时,是最具成本效益的选择。
| 情况 | 推荐模式 |
|---|---|
| 无图像,探索创意 | T2V |
| 有产品或场景图像,希望添加运动 | I2V |
| 需要跨多个片段保持相同角色 | Ref2V |
| 有视频素材,希望改变外观 | VideoEdit(标准) |
| 长编辑(6–20 秒),对成本敏感 | VideoEdit 快速 |
如何在 Novita AI 上调用 Kling O1 API
Novita AI 上的所有四种 Kling O1 模式均为异步。每个请求立即返回一个 task_id;轮询任务结果端点,直到状态变为 succeed。
# 步骤 1:提交生成任务(示例:T2V)
RESPONSE=$(curl --silent --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')
TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
# 步骤 2:轮询结果
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
响应包含 status 字段。当其值为 succeed 时,videos 数组包含输出 URL。典型生成时间为 30–120 秒,具体取决于时长和模式。
从 Novita AI 控制台 获取您的 API 密钥。新账户可获得免费额度,用于在投入生产规模之前测试所有四种模式。
结论
Novita AI 上的 Kling O1 通过单一统一 API 为开发者提供四种不同的视频生成模式——T2V、I2V、Ref2V 和视频编辑。T2V 和 I2V 以 $0.112/秒的价格涵盖常见生成场景。Ref2V 以 $0.168/秒的价格为重复出现的角色提供多参考身份合成。视频编辑以 $0.09/秒的快速变体转换现有素材同时保留运动,适用于较长片段。正确选择模式可节省成本并减少摩擦:如果没有图像素材则从 T2V 开始,有图像则用 I2V,当跨片段身份一致性重要时用 Ref2V,当运动已经捕获时用视频编辑。所有模式在 Novita AI 上共享相同的异步任务模式,因此将多种模式集成到一个管道中只需最少的额外代码。
Novita AI 是一个 AI 云平台,通过统一 API 为开发者提供视频、图像、音频和语言模型的主机访问。
常见问题
Novita AI 上的 Kling O1 T2V 和 I2V 有什么区别?
T2V 仅根据文本提示生成视频——无需图像。I2V 将图像作为起始帧,并根据提示将其动画化。两者价格均为 $0.112/秒,支持 5–10 秒片段。探索时使用 T2V;当你有特定视觉锚点时使用 I2V。
Kling O1 Ref2V 有哪些 I2V 无法做到的功能?
Ref2V 接受最多 7 张参考图像,分布在多个输入槽位中,允许你将角色身份、场景背景和风格的不同来源组合在一起。你可以在提示中按名称引用每个输入(@Element1、@Image1)。I2V 使用单个起始帧,没有命名参考系统。
Kling O1 与 Kling 3.0 相同吗?
不。Kling O1(2025 年 12 月发布)是基础统一多模态视频模型。Kling 3.0(也称为 Kling O3,2026 年 2 月发布)是后续模型,增加了原生音频协同生成和最长 15 秒片段。Novita AI 上的 Kling O1 支持最长 10 秒的视频,不含原生音频。
如何在标准 VideoEdit 和快速 VideoEdit 之间选择?
标准 VideoEdit 接受 3–10 秒源片段,价格 $0.168/秒。快速 VideoEdit 接受 6–20 秒源片段,价格 $0.09/秒。如果源视频短于 10 秒且周转时间重要,请使用标准。如果片段较长或进行批量后期制作工作,快速版本显著更便宜。
