튜토리얼2026. 6. 16.9분 읽기

AI 립싱크로 말하는 아바타 만드는 방법 (OmniHuman v1.5)

Floniks의 OmniHuman v1.5 립싱크로 인물 사진과 오디오 트랙을 말하는 아바타로 바꿔보세요. 첫 디지털 휴먼을 위한 친절한 단계별 가이드입니다.

작성자: Sophie Tan

사진 한 장을 실제로 말하는 발표자로 바꾸기

카메라 앞에 서지 않고 비디오를 위해 자신을 복제할 수 있기를 바란 적이 있다면, 이 튜토리얼이 바로 여러분을 위한 것입니다. 말하는 아바타(때로는 디지털 휴먼, AI 발표자, 또는 토킹 헤드 비디오라고 불립니다)는 정지된 인물 사진과 오디오 트랙을 받아, 그 사람이 말하는 비디오를 만들어 냅니다. 입과 표정이 모든 단어에 동기화되어서요.

Floniks에서는 이것이 오디오 구동 립싱크 모델인 OmniHuman v1.5로 구동됩니다. 여러분은 두 가지를 가져옵니다. 인물 이미지와 음성 오디오 트랙이죠. 나머지는 OmniHuman이 합니다. 사진 속 인물이 진짜로 말하는 것처럼 보이도록 얼굴에 생기를 불어넣습니다. 그린 스크린도, 스튜디오도, 재촬영도 없습니다.

이 가이드에서는 Simple 페이지에서 첫 번째 말하는 아바타를 만드는 과정을 안내한 다음, Pro 워크플로 에디터에서 한 단계 끌어올리는 방법을 보여 드리겠습니다. 바로 시작합시다.

시작하기 전에 필요한 것

필요한 재료는 단 두 가지지만, 둘의 품질이 결과를 직접적으로 좌우합니다:

깔끔한 정면 인물 사진. 한 사람이 카메라를 향하고, 입이 손, 마이크, 머리카락에 가려지지 않고 명확하게 보여야 합니다.
음성 오디오 트랙. 배경 음악이나 소음 없이 명료한 내레이션이 가장 좋습니다.

그게 전부입니다. 아직 오디오가 없어도 걱정 마세요. Floniks가 생성하거나 녹음해 줄 수 있으며, 이는 2단계에서 다룹니다.

단계별: 첫 번째 말하는 아바타

1단계 — 깔끔한 정면 인물 사진 준비하기

인물 사진이 기초이므로 약간의 정성을 들이세요. 목표는:

고해상도와 좋은 조명 — 얼굴에 부드럽고 고른 빛이 어둡거나 거칠게 조명된 사진을 매번 이깁니다.
정면 각도 — 모델은 보이는 것을 애니메이션화하므로, 정면 포즈가 가장 자연스러운 입 움직임을 제공합니다.
보이고 가려지지 않은 입 — 입술을 가리는 것은 무엇이든 립싱크와 충돌합니다.

깔끔한 배경 앞의 단순한 헤드샷이나 상반신 인물 사진이 이상적입니다. 가진 사진이 약간 거칠다면, 잠시 그 생각을 붙잡아 두세요. 아래 Pro 섹션에서 애니메이션화 전에 image-to-image 패스로 자동 정리하는 방법을 보여 드리겠습니다.

2단계 — 오디오 가져오거나 녹음하기

음성 트랙을 얻는 쉬운 경로가 세 가지 있으니, 워크플로에 맞는 것을 고르세요:

직접 만든 보이스오버 가져오기. 다른 도구에서 이미 내레이션을 녹음했거나 성우 파일이 있나요? 직접 업로드하세요.
Text-to-Audio로 음성 생성하기. 대본을 입력하고 Floniks가 내레이션을 합성하게 하세요. 직접 아무것도 녹음하고 싶지 않을 때 좋습니다.
브라우저에서 녹음하기. 워크플로 에디터의 audioInput 노드를 사용하면 추가 소프트웨어 없이 마이크에서 곧바로 목소리를 캡처할 수 있습니다.

그 오디오를 다시 텍스트로 바꿔야 할 때(자막이나 검토용)는 Floniks Audio-to-Text 전사가 해결해 줍니다.

길이에 관한 메모: 긴 대본의 경우, 내레이션을 더 짧은 구간으로 나눠 따로 생성하세요. 짧은 클립이 더 안정적으로 동기화되고, 한 구간이 완벽하지 않을 때 다시 만들기도 더 쉽습니다. 구간들은 나중에 이어 붙일 수 있습니다.

3단계 — AI Video 페이지를 열고 OmniHuman v1.5 선택하기

AI Video로 가세요. 이것이 Simple 페이지로, 단일 단계 생성을 위해 설계되었습니다. 말하는 아바타가 바로 그런 작업이죠.

모델 선택기에서 OmniHuman v1.5 립싱크 모델을 고르세요. 이는 Floniks에게 text-to-video 클립이 아니라 오디오 구동 image-to-video 생성을 원한다고 알려 줍니다. 페이지가 전환되어 이 모드에 필요한 입력, 즉 인물 사진과 오디오 파일을 요청합니다.

4단계 — 인물 사진과 오디오 업로드하기

이제 두 재료를 떨어뜨려 넣으세요:

1단계에서 준비한 인물 이미지를 업로드합니다.
2단계의 오디오 트랙을 업로드(또는 생성/녹음)합니다.

얼굴이 이미지의 명확한 초점인지, 그리고 오디오가 실제로 원하는 버전인지 다시 확인하세요. 이 단계에서 다시 하는 것은 잠깐의 시간 외에 아무 비용도 들지 않습니다.

5단계 — 생성하고 실시간 상태 지켜보기

생성을 누르세요. 곧바로 플레이스홀더 카드가 화면에 나타납니다. 아바타가 렌더링되는 동안 자리를 예약해 두는 것이죠. Floniks는 실시간 상태를 보여 주므로, 페이지를 새로고침하지 않고도 작업이 제출됨에서 처리 중, 완료로 이동하는 것을 지켜볼 수 있습니다.

생성은 비동기이므로, 다른 생성을 시작하거나 커피 한 잔 즐기셔도 좋습니다. 그리고 안심되는 디테일이 하나 있습니다. 생성이 실패하면 크레딧이 자동으로 환불됩니다. 받지 못한 결과에 대해서는 절대 청구되지 않습니다.

6단계 — 완성된 비디오 찾기

작업이 완료되면, 말하는 아바타가 창작 기록과 완성된 미디어가 Cloudflare R2에 저장되는 Asset Center에 도착합니다. 플레이스홀더 카드가 실제 비디오로 교체됩니다. 재생해 보고 립싱크가 자연스럽게 느껴지는지, 표정이 대본의 톤과 맞는지 확인하세요.

7단계 — 다운로드 또는 공유하기

여기서 비디오를 다운로드해 어디서든 사용하거나, /c 링크로 공유해 동료나 클라이언트가 계정 없이도 볼 수 있게 할 수 있습니다. 이것이 처음부터 끝까지의 완전한 말하는 아바타입니다.

눈에 띄게 더 나은 결과를 위한 프로 팁

몇 가지 작은 습관이 그저 그런 아바타와 설득력 있는 아바타를 가릅니다:

고해상도, 잘 조명된, 정면 인물 사진으로 시작하세요. "쓰레기를 넣으면 쓰레기가 나온다"는 말은 얼굴에 두 배로 적용됩니다.
깔끔한 오디오를 사용하세요. 배경 소음과 음악은 타이밍에 스며들어 입 움직임을 어색하게 만듭니다. 조용한 방에서 녹음하세요.
입을 보이게 유지하세요. 얼굴 근처에 손 없이, 가리는 머리카락 없이, 프레임 안에 마이크 없이.
긴 대본은 구간으로 나누세요. 짧은 클립이 더 안정적으로 동기화되고, 대본을 수정할 때 다시 렌더링하기도 더 빠릅니다.

워크플로 에디터에서 한 단계 끌어올리기

Simple 페이지가 편해지면, 워크플로 에디터에서 립싱크 단계를 완전한 제작 파이프라인에 연결할 수 있습니다. 제가 좋아하는 몇 가지 업그레이드:

인물 사진을 먼저 정리하세요. 립싱크 단계 앞에 image-to-image 노드를 추가해 완벽하지 않은 사진을 선명하게 하거나, 재조명하거나, 정돈한 다음, 개선된 인물 사진을 OmniHuman v1.5에 곧바로 공급하세요.
여러 비디오에 걸쳐 같은 발표자를 유지하세요. characterRegistry 노드를 연결해 디지털 휴먼이 한 비디오에서 다음 비디오까지 일관되게 유지되도록 하세요. 반복 등장하는 호스트나 브랜드 대변인에게 필수적입니다. 더 깊이 알아보려면 캐릭터 일관성 가이드를 참고하세요.
자막을 자동으로 추가하세요. subtitleOverlay 노드를 떨어뜨려 최종 비디오에 캡션을 박아 넣으세요. 대부분이 소리를 끄고 시청하는 소셜 피드에 완벽합니다.

에디터는 DAG(노드의 연결된 그래프)로 작동하기 때문에, 녹음, 전사, 이미지 정리, 립싱크, 자막을 하나의 반복 가능한 워크플로로 연결할 수 있습니다. 한 번 구축하고, 모든 에피소드에 재사용하세요.

다음으로 갈 곳

말하는 아바타는 image-to-video 생성의 한 유형입니다. 도구 상자를 넓히고 싶다면, 이미지-투-비디오 가이드가 더 넓은 모션 생성 계열을 안내하고, 대본에서 화면으로는 한 명의 발표자를 여러 에피소드 시리즈로 확장하는 방법을 보여 줍니다.

대량 제작할 준비가 되면, 가격 페이지에서 여러분의 산출량에 맞는 플랜을 찾아보세요. 그리고 기억하세요. 실패한 생성은 자동으로 환불되므로, 자신의 스타일을 찾는 동안 자유롭게 실험할 수 있습니다.

이제 사진 한 장을 말하는 발표자로 바꾸는 데 필요한 모든 것을 갖추셨습니다. 인물 사진을 고르고, 짧은 대본을 쓰고, 오늘 첫 번째를 만들어 보세요. 자신의 아바타가 여러분에게 말을 되받는 것을 처음 보는 순간, 진짜로 딸깍하고 와닿습니다.

자주 묻는 질문

AI 말하는 아바타를 어떻게 만드나요?

Floniks에서 AI Video를 열고, OmniHuman v1.5 립싱크 모델을 고르고, 깔끔한 정면 인물 사진과 음성 오디오 트랙을 업로드한 다음 생성하세요. Floniks가 얼굴에 생기를 불어넣어 그 사람이 오디오에 맞춰 말하는 것처럼 보이게 하며, 완성된 비디오는 다운로드하거나 공유할 준비가 된 채 창작 기록에 도착합니다.

립싱크 AI란 무엇인가요?

립싱크 AI는 사람의 입 움직임과 표정을 오디오 트랙에 맞추는 기술입니다. OmniHuman v1.5 같은 오디오 구동 립싱크에서는 목소리와 인물 사진을 제공하면, 모델이 입, 턱, 표정이 모든 단어에 맞춰 자연스럽게 움직이는 비디오를 생성합니다. 수동 애니메이션은 필요 없습니다.

아바타용 음성 오디오는 어디서 구하나요?

Floniks에는 세 가지 옵션이 있습니다. 직접 녹음한 보이스오버를 업로드하거나, Text-to-Audio로 대본에서 내레이션을 생성하거나, audioInput 노드를 사용해 워크플로 에디터에서 마이크로 곧바로 녹음하세요. 자막이나 대본 사본이 필요하면 Audio-to-Text로 어떤 오디오든 텍스트로 전사할 수도 있습니다.

디지털 휴먼에 좋은 인물 사진은 어떤 것인가요?

한 사람이 있고 가려지지 않고 명확하게 보이는 입을 가진, 고해상도의 잘 조명된 정면 사진을 사용하세요. 얼굴 근처의 손, 가리는 머리카락, 거친 그림자는 피하세요. 사진에 손질이 필요하면, 립싱크 단계 전에 워크플로 에디터에서 image-to-image 정리 패스를 실행하세요.