チュートリアル2026/6/16約 11 分で読めます

AIリップシンクで話すアバターを作る方法（OmniHuman v1.5）

Floniks の OmniHuman v1.5 リップシンクで、ポートレート写真と音声トラックから話すアバターを作成。初めてのデジタルヒューマンに向けた親切なステップバイステップガイドです。

著者: Sophie Tan

一枚の写真を、本当に話すプレゼンターに変える

カメラの前に立たずに、動画用の自分をクローンできたらいいのに——そう思ったことがあるなら、このチュートリアルはあなたのためのものです。話すアバター（デジタルヒューマン、AI プレゼンター、トーキングヘッド動画などとも呼ばれます）は、静止画の肖像と音声トラックから、その人物が話している動画を生成します。口元や表情は一語一語にぴったり同期します。

Floniks では、この機能は音声駆動のリップシンクモデル OmniHuman v1.5 によって実現されています。用意するのは 2 つだけ。肖像画像と音声（スピーチ）トラックです。あとは OmniHuman が顔をアニメーションさせ、写真の人物が本当に話しているように見せてくれます。グリーンバックも、スタジオも、撮り直しも不要です。

このガイドでは、まず Simple ページで最初の話すアバターを作る方法を案内し、その後 Pro のワークフローエディターでさらにレベルアップする方法を紹介します。さっそく始めましょう。

始める前に必要なもの

必要な素材は 2 つだけですが、その両方の品質が結果を直接左右します。

きれいな正面の肖像。 一人だけが写り、カメラの方を向いていて、口元がはっきり見え、手・マイク・髪などで隠れていないもの。
音声（スピーチ）トラック。 BGM やノイズのないクリアなナレーションが最適です。

それだけです。まだ音声がなくても心配いりません——Floniks が生成や録音をしてくれます。これはステップ 2 で説明します。

ステップバイステップ：最初の話すアバター

ステップ 1 —— きれいな正面の肖像を用意する

肖像は土台となるので、少し気を配りましょう。目指すのは次のとおりです。

高解像度で良好な照明 —— 顔に当たる柔らかく均一な光は、暗い写真や硬い光の写真よりも常に勝ります。
正面アングル —— モデルは見えているものをアニメーションさせるので、正面を向いたポーズが最も自然な口の動きをもたらします。
口元が見え、遮られていないこと —— 唇を覆うものはすべてリップシンクの妨げになります。

整った背景の前で撮ったシンプルな顔写真や上半身の肖像が理想的です。手元の写真が少し粗くても、ちょっと待ってください——下の Pro セクションで、アニメーション化する前に image-to-image のひと手間で自動的に整える方法を紹介します。

ステップ 2 —— 音声を入手するか録音する

音声トラックを用意する簡単な方法は 3 つあるので、自分のワークフローに合うものを選んでください。

自分のナレーションを使う。 すでに別のツールでナレーションを録音済み、または声優のファイルがある場合は、そのままアップロードできます。
Text-to-Audio で音声を生成する。 スクリプトを入力すれば、Floniks がナレーションを合成します。自分で録音したくないときに最適です。
ブラウザ内で録音する。 ワークフローエディターの audioInput ノードを使えば、追加ソフト不要でマイクから直接自分の声を取り込めます。

その音声を再びテキストに戻したい場合（字幕やレビュー用）は、Floniks の Audio-to-Text 文字起こしが役立ちます。

長さについての注意： 長いスクリプトの場合は、ナレーションを短いセグメントに分割し、それぞれ別々に生成しましょう。短いクリップの方が同期が安定し、ある部分が完璧でなくてもやり直しが簡単です。あとからセグメントをつなぎ合わせられます。

ステップ 3 —— AI Video ページを開き、OmniHuman v1.5 を選ぶ

AI Video に移動します。これは単一ステップの生成向けに設計された Simple ページで、まさに話すアバターのようなタスクにぴったりです。

モデルセレクターから OmniHuman v1.5 リップシンクモデル を選びます。これにより、たとえば text-to-video のクリップではなく、音声駆動の image-to-video 生成を行いたいことを Floniks に伝えられます。ページはこのモードに必要な入力——肖像と音声ファイル——を求める表示に切り替わります。

ステップ 4 —— 肖像と音声をアップロードする

では、2 つの素材を投入しましょう。

ステップ 1 で用意した肖像画像をアップロードします。
ステップ 2 の音声トラックをアップロード（または生成／録音）します。

顔が画像の焦点になっていること、そして音声が本当に使いたいバージョンであることをもう一度確認しましょう——この段階でのやり直しは、ほんの一瞬以外に何のコストもかかりません。

ステップ 5 —— 生成し、リアルタイムのステータスを見る

生成をクリックします。するとすぐに、ビューにプレースホルダーカードが現れます——アバターのレンダリング中、あなたのために確保された場所です。Floniks はリアルタイムのステータスを表示するので、ページを更新せずに、タスクが「送信済み」から「処理中」「完了」へと進む様子を見守れます。

生成は非同期なので、別の生成を始めたり、コーヒーを淹れに行ったりして構いません。そして安心できる一点：生成が失敗した場合、クレジットは自動的に返金されます。 手に入らなかった結果に対して料金が請求されることは決してありません。

ステップ 6 —— 完成した動画を見つける

タスクが完了すると、話すアバターは作成履歴とアセットセンターに届きます。完成したメディアは Cloudflare R2 に保存されます。プレースホルダーカードは本物の動画に置き換わります。再生して、リップシンクが自然か、表情がスクリプトのトーンに合っているかを確認しましょう。

ステップ 7 —— ダウンロードまたは共有する

そこから、動画をダウンロードしてどこでも使ったり、/c リンクで共有して同僚やクライアントがアカウントなしで視聴できるようにしたりできます。これが、最初から最後までの完全な話すアバターです。

仕上がりを目に見えて良くするプロのコツ

ありきたりなアバターと説得力のあるアバターを分けるのは、いくつかの小さな習慣です。

高解像度・良好な照明・正面の肖像から始める。「ゴミを入れればゴミが出る」は、顔に対しては二重に当てはまります。
クリーンな音声を使う。 背景ノイズや音楽はタイミングに混ざり込み、口の動きを不自然に感じさせます。静かな部屋で録音しましょう。
口元を見えるようにする。 顔の近くに手を置かない、髪で覆わない、フレーム内にマイクを入れない。
長いスクリプトはセグメントに分割する。 短いクリップの方が同期が安定し、スクリプトを微調整したときの再レンダリングも速くなります。

ワークフローエディターでレベルアップ

Simple ページに慣れてきたら、ワークフローエディターでリップシンクのステップを完全な制作パイプラインに組み込めます。私のお気に入りのアップグレードをいくつか紹介します。

まず肖像を整える。 リップシンクのステップの前に image-to-image ノードを追加して、完璧ではない写真をシャープにしたり、ライティングを調整したり、整えたりしてから、改善した肖像をそのまま OmniHuman v1.5 に送り込みます。
複数の動画で同じプレゼンターを保つ。 characterRegistry ノードをつなげば、デジタルヒューマンが動画ごとに一貫性を保てます——レギュラーのホストやブランドのスポークスパーソンには不可欠です。さらに詳しくは、キャラクターの一貫性に関するガイドをご覧ください。
字幕を自動で追加する。 subtitleOverlay ノードを入れれば、最終動画にキャプションを焼き込めます——ほとんどの人が音を消して視聴するソーシャルフィードに最適です。

エディターは DAG（ノードを接続したグラフ）として動作するため、録音・文字起こし・画像の整え・リップシンク・字幕を 1 つの再利用可能なワークフローに配線できます。一度作れば、すべてのエピソードで使い回せます。

次はどこへ

話すアバターは image-to-video 生成の一種です。ツールキットを広げたいなら、image-to-video ガイドがモーション生成のより広いファミリーを案内し、スクリプトから画面へでは、一人のプレゼンターを複数エピソードのシリーズへとスケールさせる方法を紹介します。

大量に制作する準備ができたら、料金ページで自分の制作量に合うプランを見つけましょう。そして忘れないでください——失敗した生成は自動的に返金されるので、自分のスタイルを探しながら自由に試せます。

これで、一枚の写真を話すプレゼンターに変えるために必要なものはすべて揃いました。肖像を選び、短いスクリプトを書いて、今日最初の一本を作ってみましょう。自分のアバターが初めて話しかけてくる瞬間を見たとき、それは本当に腑に落ちます。

よくある質問

AI の話すアバターはどうやって作りますか？

Floniks で AI Video を開き、OmniHuman v1.5 リップシンクモデルを選択し、きれいな正面の肖像と音声（スピーチ）トラックをアップロードして生成します。Floniks は顔をアニメーションさせ、その人物が音声と同期して話しているように見せます。完成した動画は作成履歴に届き、ダウンロードや共有の準備が整います。

リップシンク AI とは何ですか？

リップシンク AI は、人物の口の動きや表情を音声トラックに合わせる技術です。OmniHuman v1.5 のような音声駆動のリップシンクでは、声と肖像を提供すると、モデルが動画を生成し、口・あご・表情が一語一語に合わせて自然に動きます——手作業のアニメーションは不要です。

アバター用の音声はどこで入手できますか？

Floniks には 3 つの方法があります：自分で録音したナレーションをアップロードする、Text-to-Audio でスクリプトからナレーションを生成する、または audioInput ノードを使ってワークフローエディターでマイクから直接録音する。字幕やスクリプトのコピーが必要なら、Audio-to-Text であらゆる音声をテキストに文字起こしすることもできます。

デジタルヒューマンに適した肖像とは？

高解像度で照明の良い正面写真を使い、一人だけが写り、口元が遮られず、はっきり見えるものにします。顔の近くの手、覆い隠す髪、強い影は避けましょう。写真に手を加える必要がある場合は、リップシンクのステップの前にワークフローエディターで image-to-image の整えを一度行ってください。