教程2026/6/168 分钟阅读

如何用 AI 唇形同步制作会说话的数字人（OmniHuman v1.5）

在 Floniks 上用 OmniHuman v1.5 唇形同步，把一张肖像照和一段音频变成会说话的数字人。这是一份友好的分步指南，助你完成第一个数字人。

作者: Sophie Tan

把一张照片变成真正会说话的主持人

如果你曾经希望不用站在镜头前就能"克隆"一个会出镜的自己，那么这篇教程就是为你准备的。会说话的虚拟形象（有时也叫数字人、AI 主持人或会说话的头像视频）只需要一张静态肖像和一段音频，就能生成一段那个人开口说话的视频，嘴型和表情会与每一个字同步。

在 Floniks 上，这一功能由 OmniHuman v1.5 驱动，这是一款音频驱动的唇形同步模型。你只需准备两样东西：一张肖像图片和一段语音音频。剩下的交给 OmniHuman，它会让面部动起来，看上去就像照片里的人真的在说话一样。无需绿幕，无需摄影棚，也无需重拍。

在本指南中，我会带你在 Simple 页面上制作你的第一个会说话的虚拟形象，然后再教你如何在 Pro 工作流编辑器中进一步升级。我们这就开始吧。

开始之前你需要准备什么

你只需要两样素材，但两者的质量都会直接影响最终效果：

一张干净的正面肖像。 画面中只有一个人，面向镜头，嘴部清晰可见，没有被手、麦克风或头发遮挡。
一段语音音频。 没有背景音乐或噪音的清晰旁白效果最佳。

就这么简单。如果你还没有音频，别担心——Floniks 可以为你生成或录制，我们会在第 2 步中介绍。

分步操作：你的第一个会说话的虚拟形象

第 1 步 —— 准备一张干净的正面肖像

肖像是整个项目的基础，所以请多花点心思。目标是：

高分辨率且光线良好 —— 面部上柔和均匀的光线，永远胜过昏暗或硬光的拍摄。
正面角度 —— 模型只能根据它看到的内容来生成动作，所以正对镜头的姿势能带来最自然的嘴部运动。
嘴部清晰、无遮挡 —— 任何遮住嘴唇的东西都会干扰唇形同步。

一张背景整洁的简单头像或半身肖像是最理想的。如果你手头唯一的照片质量稍差，先别急——在下面的 Pro 部分，我会教你如何在制作动画之前用一次图生图处理自动把它修整干净。

第 2 步 —— 获取或录制你的音频

你有三种简单的方式来获得语音音轨，挑一个适合你工作流程的即可：

使用你自己的配音。 已经在其他工具里录好了旁白，或者拿到了配音演员的文件？直接上传即可。
用 Text-to-Audio 生成语音。 输入你的脚本，让 Floniks 合成旁白。当你不想自己录制时，这个方式非常好用。
在浏览器中录制。 借助工作流编辑器中的 audioInput 节点，你可以直接通过麦克风采集自己的声音——无需任何额外软件。

如果你需要把音频再转回文字（用于字幕或审阅），Floniks 的 Audio-to-Text 转写功能可以帮到你。

关于时长的提醒： 对于较长的脚本，请把旁白拆分成较短的片段并分别生成。较短的片段同步起来更可靠，如果某一段不够完美也更容易重做。你可以在之后把这些片段拼接到一起。

第 3 步 —— 打开 AI Video 页面并选择 OmniHuman v1.5

前往 AI Video。这是 Simple 页面，专为单步生成而设计——而会说话的虚拟形象正是这样的任务。

在模型选择器中，选择 OmniHuman v1.5 唇形同步模型。这会告诉 Floniks 你想要的是音频驱动的图生视频，而不是比如文生视频片段。页面会随之切换，要求你提供此模式所需的输入：一张肖像和一个音频文件。

第 4 步 —— 上传你的肖像和音频

现在放入你的两样素材：

上传你在第 1 步中准备好的肖像图片。
上传（或生成/录制）第 2 步中的音频音轨。

再确认一下面部确实是图片的焦点，并且音频就是你真正想用的那个版本——在这一步重做不会有任何成本，只需片刻。

第 5 步 —— 生成并查看实时状态

点击生成。你会立刻看到视图中出现一张占位卡片——这是在虚拟形象渲染期间为你预留的位置。Floniks 会显示实时状态，因此你无需刷新页面就能看到任务从已提交、处理中到完成的全过程。

生成是异步的，所以你完全可以再开始一个，或者去喝杯咖啡。还有一个让人安心的细节：如果某次生成失败，你的积分会被自动退还。 你永远不会为没拿到的结果付费。

第 6 步 —— 找到你完成的视频

任务完成后，你的会说话的虚拟形象会出现在你的创作历史和你的资产中心里，完成的媒体文件存储在 Cloudflare R2 上。占位卡片会替换为真正的视频。把它播放一遍，检查唇形同步是否自然、表情是否与脚本的语气相符。

第 7 步 —— 下载或分享

接下来，你可以把视频下载下来用到任何地方，或者通过 /c 链接分享，这样同事或客户无需账户即可观看。这就是一个会说话的虚拟形象，从头到尾的完整流程。

让效果明显更好的专业技巧

几个小习惯就能把平平无奇的虚拟形象和令人信服的虚拟形象区分开来：

从高分辨率、光线良好的正面肖像开始。 "垃圾进、垃圾出"这句话用在脸上时尤其成立。
使用干净的音频。 背景噪音和音乐会渗入时间轴，让嘴部动作显得不协调。请在安静的房间里录制。
保持嘴部可见。 脸部附近不要有手，不要有遮挡的头发，画面里也不要有麦克风。
把长脚本拆成片段。 较短的片段同步更可靠，如果你调整了脚本，重新渲染也更快。

在工作流编辑器中进阶

当你熟悉了 Simple 页面之后，工作流编辑器可以让你把唇形同步这一步串联进一条完整的制作流水线。下面是我最喜欢的几项升级：

先把肖像修整干净。 在唇形同步步骤之前加一个图生图节点，用来锐化、重新打光或整理一张不够完美的照片，然后把改进后的肖像直接送入 OmniHuman v1.5。
让同一位主持人贯穿多个视频。 连接一个 characterRegistry 节点，让你的数字人在不同视频之间保持一致——这对于固定主持人或品牌代言人来说至关重要。想深入了解，请参阅我们关于角色一致性的指南。
自动添加字幕。 加入一个 subtitleOverlay 节点，把字幕烧录到最终视频上——这非常适合社交平台，因为大多数人都是在静音状态下观看的。

由于编辑器以 DAG（节点相互连接的图）的形式运作，你可以把录制、转写、图片修整、唇形同步和字幕连接成一条可重复使用的工作流。只需搭建一次，就能在每一集中重复使用。

接下来去哪里

会说话的虚拟形象只是图生视频的一种类型。如果你想拓宽自己的工具箱，我们的图生视频指南会带你了解更广阔的动态生成家族，而从脚本到屏幕则展示了如何把单个主持人扩展成多集系列。

当你准备好规模化产出时，请查看价格页面，找到适合你产出量的方案。还要记住——失败的生成会自动退款，所以你可以在寻找自己风格的过程中尽情尝试。

现在，把一张照片变成会说话的主持人所需的一切，你都已经掌握了。挑一张肖像，写一段简短的脚本，今天就做出你的第一个吧。当你第一次看到自己的虚拟形象开口回应你时，那种感觉真的会瞬间打动你。

常见问题

我该如何制作一个 AI 会说话的虚拟形象？

在 Floniks 上打开 AI Video，选择 OmniHuman v1.5 唇形同步模型，上传一张干净的正面肖像和一段语音音频，然后生成。Floniks 会让面部动起来，使这个人看上去与音频同步地开口说话，你完成的视频会出现在创作历史中，随时可以下载或分享。

什么是唇形同步 AI？

唇形同步 AI 是一种让人物的嘴部动作和面部表情与音频音轨相匹配的技术。借助像 OmniHuman v1.5 这样的音频驱动唇形同步，你只需提供声音和一张肖像，模型就会生成一段视频，其中的嘴部、下巴和表情会随每一个字自然地同步运动——无需任何手工动画。

我从哪里获取虚拟形象的语音音频？

在 Floniks 上你有三种选择：上传你自己录制的配音、用 Text-to-Audio 从脚本生成旁白，或在工作流编辑器中使用 audioInput 节点直接通过麦克风录制。如果你需要字幕或一份脚本副本，也可以用 Audio-to-Text 把任意音频转写成文字。

什么样的肖像适合做数字人？

请使用高分辨率、光线良好的正面照片，画面中只有一个人，且嘴部无遮挡、清晰可见。避免脸部附近有手、有遮挡的头发或浓重的阴影。如果你的照片需要处理，可以在工作流编辑器中先做一次图生图修整，再进入唇形同步步骤。