你好,我是 Floniks 创作者团队的 Sophie——今天我们要做的是我最喜欢的事情之一:让一张静态图片活起来。如果你曾经盯着一张精彩的照片,心想"要是它能动起来该多好",那你来对地方了。在接下来的几分钟里,你将从单帧画面走向一段可以下载或分享的成品短片。
最棒的是什么?你不需要剪辑软件、关键帧,也不需要渲染农场。你只需要一张图片(甚至只是一个想法)、一个模型和一段简短的提示词。让我们来让点东西动起来吧。
在 Floniks 上制作视频的两种方式
在开始之前,先了解一下:通往视频的门有两扇,你可以根据当下的需要选择任意一扇。
- 简易页面 AI Video——选择一个模型,上传图片或输入提示词,点击生成。这是最快捷的路径,本指南的大部分内容也会聚焦于此。
- 工作流编辑器——一块可视化画布,你可以把多个步骤串联起来(修整照片、让它动起来、添加口型同步、批量生成变体)。这是高阶玩家的路径,我们会在结尾处略作介绍。
Floniks 在这两条路径上都支持四种生成类型:图生视频、文生视频、单图生视频和音频生视频。所以无论你手上有一张照片、一句话,还是一段语音,总有一条路适合你。
认识这些模型(挑选你的引擎)
不同的模型各有所长。这里有一份速查表,让你能够胸有成竹地选择,而不是靠猜。
| 模型 | 最适合 | 核心特性 |
|---|---|---|
| Seedance 2.0 | 多功能、可控的短片 | 参考视频、参考音频、视频编辑和视频延展 |
| Kling O3 Pro | 精准、有方向的运动 | 槽位式首帧 / 尾帧控制以及元素参考 |
| Hailuo | 快速、灵动的动画 | 快速、富有表现力的运动 |
| MiniMax | 快速、灵动的动画 | 快速、富有表现力的运动 |
| OmniHuman v1.5 | 会说话的数字人 | 音频驱动的口型同步 |
一条简单的经验法则:想要快速又充满活力的效果,就选 Hailuo 或 MiniMax;需要精确控制镜头如何开始和结束,就选 Kling O3 Pro;想要参考输入和编辑能力,就选 Seedance 2.0;而每当需要一张脸开口说话时,就选 OmniHuman v1.5。
把照片变成视频:5 分钟全程演练
下面是从头到尾的完整流程。在一个标签页里打开 AI Video,跟着做就行。
-
打开 AI Video 页面。 前往 /ai-video。这是你进行单步生成的起点——没有画布,没有连线,只有最核心的要素。
-
上传你的源图片。 把你想让它动起来的照片拖进去,或点击浏览选择。这张图会成为你的首帧,所以请挑一张干净、光线好的。一张清晰、不杂乱的起始图片能让模型最有把握做出流畅、可信的运动。(如果你还没有图片,可以跳过这一步,改为输入文字提示词——那就是文生视频。)
-
选择一个模型。 参考上面的速查表。第一次尝试,我建议选 Hailuo 或 MiniMax——它们速度快、容错高,非常适合用来摸清你的提示词会带来什么效果。想要对开头和结尾镜头做到极致精准的控制?那就选 Kling O3 Pro,并使用它的首帧 / 尾帧槽位。
-
写一段运动提示词。 魔法就藏在这里。不要去描述图片——要描述什么在动。提到镜头运动和主体的动作。这里有一个你可以借鉴的示例:
"缓缓的电影感推镜,向主体推进。她的头发在微风中轻轻飘动,她转过头微笑。柔和的黄金时刻光线,浅景深。"
注意它如何点明了一个镜头运动(推镜)、一个主体动作(转头并微笑)以及一种氛围(黄金时刻)。这三者的组合就是出好结果的配方。
-
设置宽高比和时长。 让宽高比与短片的去处相匹配——9:16 用于 TikTok、Reels 和 Shorts;16:9 用于 YouTube 和横屏;1:1 用于方形信息流。然后选择你的短片长度。时长越短渲染越快,非常适合反复迭代。
-
点击生成,看它运转。 一张占位卡片会立即出现,并显示任务推进各个阶段的实时状态。你不必盯着它,也不用刷新——状态会实时更新,所以你可以在这一个生成的同时,开始构思下一个想法。
-
找到你的成果。 完成后,你的短片会出现在你的创作历史 / 资产中心里。每一个输出都会安全地存储在 Cloudflare R2 上,所以无论你何时回来,它都在那里等着你。
-
下载或分享。 通过下载获取文件,或用一个
/c/链接即时分享——这是一个干净、可分享的网址,你可以发给客户、朋友或团队。
这就是整个循环。上传、选择、提示、生成、分享。跑一遍,你就掌握节奏了。
在工作流编辑器中进阶
一旦简易页面用起来得心应手,工作流编辑器才是真正有趣的地方。你不再是一个步骤,而是构建一条由相连节点组成的流水线。几个值得尝试的组合:
-
先修整,再动画化。 串联一个 image-to-image 节点来修复瑕疵、锐化或重塑你的静态图——然后把这张打磨好的画面直接喂给一个视频节点。更好的首帧几乎总是意味着更好的视频。(我们的 AI 图像编辑指南详细讲解了局部重绘、放大和背景移除。)
-
添加一个会说话的数字人。 把一个 audioInput 连接到一个 OmniHuman v1.5 节点,从语音片段驱动口型同步。你的静态肖像顿时就开口说话了——非常适合讲解开场和数字人主持。
-
精准导演镜头运动。 使用首帧 / 尾帧控制(配合 Kling O3 Pro 效果极佳)来锁定一个镜头的起止位置,让镜头运动如你所想般精准落位。
-
批量渲染变体。 一次运行生成多个版本,从中挑选最佳,而不必一个个重新提示。
如果这一节激发了你的灵感,更深入的内容请看 深入工作流编辑器;如果你的梦想更大,看看创作者们如何打造 多集 AI 故事。
Sophie 的快捷小贴士
几个能立刻提升你成果的小习惯:
- 写以运动为核心的提示词。 始终点明一个镜头运动和一个主体动作。"美丽的女人"描述的是一张照片;"她大笑时缓缓横摇"描述的才是一段视频。
- 保持首帧干净。 清晰、光线好、不杂乱。模型会延展它所看到的内容,所以给它一些好东西来发挥。
- 让宽高比匹配你的平台。 在生成之前就决定短片的去处,并把比例设好。这能省去你后面重新裁剪的麻烦。
- 尽情实验。 失败的生成会自动退还你的积分,所以尝试一个大胆的提示词除了花上几分钟,不会让你损失任何东西。这正是你应当大胆放手的最大理由——去玩吧。
当你准备好扩大产出规模时,瞄一眼价格,找到与你创作量相匹配的方案。
常见问题
我该如何把照片变成视频?
打开 AI Video,把你的照片作为源图片上传,挑一个模型(Hailuo 或 MiniMax 都是很好的初次选择),写一段简短的运动提示词描述镜头运动和主体动作,设置好宽高比和时长,然后点击生成。短片就绪后会出现在你的创作历史里。
图生视频最好的 AI 模型是哪个?
这取决于你的目标。想要快速、富有表现力的运动,用 Hailuo 或 MiniMax。想要精确控制镜头如何开始和结束,用 Kling O3 Pro 配合首帧 / 尾帧槽位。想要参考输入、视频编辑和延展,用 Seedance 2.0。想要带口型同步的会说话数字人,用 OmniHuman v1.5。
我可以制作会说话的数字人或做口型同步吗?
可以。Floniks 支持音频生视频,而 OmniHuman v1.5 正是为音频驱动的口型同步打造的。在工作流编辑器中,把一个 audioInput 节点连接到 OmniHuman,就能让一张静态肖像从语音片段中开口说话。
如果生成失败了会怎样?
如果生成失败,你的积分会被自动退还——所以实验是真正安全的。调整你的提示词、更换模型,或者调整宽高比再试一次,完全不必担心浪费。
现在,去让点东西动起来吧。挑一张照片,写一句运动描述,然后点击生成。五分钟后,你就会拥有一段之前并不存在的短片——而那第一段永远是最令人兴奋的。在外面玩得开心!

