教程2026/6/157 分钟阅读

5 分钟图生视频：Floniks 分步指南

约五分钟即可让一张静态照片动起来，或从提示词生成视频。一份友好的 Floniks 分步指南，用对模型完成图生视频。

作者: Sophie Tan

你好，我是 Floniks 创作者团队的 Sophie——今天我们要做的是我最喜欢的事情之一：让一张静态图片活起来。如果你曾经盯着一张精彩的照片，心想"要是它能动起来该多好"，那你来对地方了。在接下来的几分钟里，你将从单帧画面走向一段可以下载或分享的成品短片。

最棒的是什么？你不需要剪辑软件、关键帧，也不需要渲染农场。你只需要一张图片（甚至只是一个想法）、一个模型和一段简短的提示词。让我们来让点东西动起来吧。

在 Floniks 上制作视频的两种方式

在开始之前，先了解一下：通往视频的门有两扇，你可以根据当下的需要选择任意一扇。

简易页面 AI Video——选择一个模型，上传图片或输入提示词，点击生成。这是最快捷的路径，本指南的大部分内容也会聚焦于此。
工作流编辑器——一块可视化画布，你可以把多个步骤串联起来（修整照片、让它动起来、添加口型同步、批量生成变体）。这是高阶玩家的路径，我们会在结尾处略作介绍。

Floniks 在这两条路径上都支持四种生成类型：图生视频、文生视频、单图生视频和音频生视频。所以无论你手上有一张照片、一句话，还是一段语音，总有一条路适合你。

认识这些模型（挑选你的引擎）

不同的模型各有所长。这里有一份速查表，让你能够胸有成竹地选择，而不是靠猜。

模型	最适合	核心特性
Seedance 2.0	多功能、可控的短片	参考视频、参考音频、视频编辑和视频延展
Kling O3 Pro	精准、有方向的运动	槽位式首帧 / 尾帧控制以及元素参考
Hailuo	快速、灵动的动画	快速、富有表现力的运动
MiniMax	快速、灵动的动画	快速、富有表现力的运动
OmniHuman v1.5	会说话的数字人	音频驱动的口型同步

一条简单的经验法则：想要快速又充满活力的效果，就选 Hailuo 或 MiniMax；需要精确控制镜头如何开始和结束，就选 Kling O3 Pro；想要参考输入和编辑能力，就选 Seedance 2.0；而每当需要一张脸开口说话时，就选 OmniHuman v1.5。

把照片变成视频：5 分钟全程演练

下面是从头到尾的完整流程。在一个标签页里打开 AI Video，跟着做就行。

打开 AI Video 页面。 前往 /ai-video。这是你进行单步生成的起点——没有画布，没有连线，只有最核心的要素。
上传你的源图片。 把你想让它动起来的照片拖进去，或点击浏览选择。这张图会成为你的首帧，所以请挑一张干净、光线好的。一张清晰、不杂乱的起始图片能让模型最有把握做出流畅、可信的运动。（如果你还没有图片，可以跳过这一步，改为输入文字提示词——那就是文生视频。）
选择一个模型。 参考上面的速查表。第一次尝试，我建议选 Hailuo 或 MiniMax——它们速度快、容错高，非常适合用来摸清你的提示词会带来什么效果。想要对开头和结尾镜头做到极致精准的控制？那就选 Kling O3 Pro，并使用它的首帧 / 尾帧槽位。
写一段运动提示词。 魔法就藏在这里。不要去描述图片——要描述什么在动。提到镜头运动和主体的动作。这里有一个你可以借鉴的示例：

"缓缓的电影感推镜，向主体推进。她的头发在微风中轻轻飘动，她转过头微笑。柔和的黄金时刻光线，浅景深。"

注意它如何点明了一个镜头运动（推镜）、一个主体动作（转头并微笑）以及一种氛围（黄金时刻）。这三者的组合就是出好结果的配方。
设置宽高比和时长。 让宽高比与短片的去处相匹配——9:16 用于 TikTok、Reels 和 Shorts；16:9 用于 YouTube 和横屏；1:1 用于方形信息流。然后选择你的短片长度。时长越短渲染越快，非常适合反复迭代。
点击生成，看它运转。 一张占位卡片会立即出现，并显示任务推进各个阶段的实时状态。你不必盯着它，也不用刷新——状态会实时更新，所以你可以在这一个生成的同时，开始构思下一个想法。
找到你的成果。 完成后，你的短片会出现在你的创作历史 / 资产中心里。每一个输出都会安全地存储在 Cloudflare R2 上，所以无论你何时回来，它都在那里等着你。
下载或分享。 通过下载获取文件，或用一个 /c/ 链接即时分享——这是一个干净、可分享的网址，你可以发给客户、朋友或团队。

这就是整个循环。上传、选择、提示、生成、分享。跑一遍，你就掌握节奏了。

在工作流编辑器中进阶

一旦简易页面用起来得心应手，工作流编辑器才是真正有趣的地方。你不再是一个步骤，而是构建一条由相连节点组成的流水线。几个值得尝试的组合：

先修整，再动画化。 串联一个 image-to-image 节点来修复瑕疵、锐化或重塑你的静态图——然后把这张打磨好的画面直接喂给一个视频节点。更好的首帧几乎总是意味着更好的视频。（我们的 AI 图像编辑指南详细讲解了局部重绘、放大和背景移除。）
添加一个会说话的数字人。 把一个 audioInput 连接到一个 OmniHuman v1.5 节点，从语音片段驱动口型同步。你的静态肖像顿时就开口说话了——非常适合讲解开场和数字人主持。
精准导演镜头运动。 使用首帧 / 尾帧控制（配合 Kling O3 Pro 效果极佳）来锁定一个镜头的起止位置，让镜头运动如你所想般精准落位。
批量渲染变体。 一次运行生成多个版本，从中挑选最佳，而不必一个个重新提示。

如果这一节激发了你的灵感，更深入的内容请看深入工作流编辑器；如果你的梦想更大，看看创作者们如何打造多集 AI 故事。

Sophie 的快捷小贴士

几个能立刻提升你成果的小习惯：

写以运动为核心的提示词。 始终点明一个镜头运动和一个主体动作。"美丽的女人"描述的是一张照片；"她大笑时缓缓横摇"描述的才是一段视频。
保持首帧干净。 清晰、光线好、不杂乱。模型会延展它所看到的内容，所以给它一些好东西来发挥。
让宽高比匹配你的平台。 在生成之前就决定短片的去处，并把比例设好。这能省去你后面重新裁剪的麻烦。
尽情实验。 失败的生成会自动退还你的积分，所以尝试一个大胆的提示词除了花上几分钟，不会让你损失任何东西。这正是你应当大胆放手的最大理由——去玩吧。

当你准备好扩大产出规模时，瞄一眼价格，找到与你创作量相匹配的方案。

常见问题

我该如何把照片变成视频？

打开 AI Video，把你的照片作为源图片上传，挑一个模型（Hailuo 或 MiniMax 都是很好的初次选择），写一段简短的运动提示词描述镜头运动和主体动作，设置好宽高比和时长，然后点击生成。短片就绪后会出现在你的创作历史里。

图生视频最好的 AI 模型是哪个？

这取决于你的目标。想要快速、富有表现力的运动，用 Hailuo 或 MiniMax。想要精确控制镜头如何开始和结束，用 Kling O3 Pro 配合首帧 / 尾帧槽位。想要参考输入、视频编辑和延展，用 Seedance 2.0。想要带口型同步的会说话数字人，用 OmniHuman v1.5。

我可以制作会说话的数字人或做口型同步吗？

可以。Floniks 支持音频生视频，而 OmniHuman v1.5 正是为音频驱动的口型同步打造的。在工作流编辑器中，把一个 audioInput 节点连接到 OmniHuman，就能让一张静态肖像从语音片段中开口说话。

如果生成失败了会怎样？

如果生成失败，你的积分会被自动退还——所以实验是真正安全的。调整你的提示词、更换模型，或者调整宽高比再试一次，完全不必担心浪费。

现在，去让点东西动起来吧。挑一张照片，写一句运动描述，然后点击生成。五分钟后，你就会拥有一段之前并不存在的短片——而那第一段永远是最令人兴奋的。在外面玩得开心！