Kling AI와 ElevenLabs로 현실적인 AI 아바타 만드는 방법

💡

TL;DR / Key Takeaways

새로운 AI 아바타 도구는 매우 사실적이어서 소셜 미디어 콘텐츠를 위한 카메라 출연자들을 대체할 수 있습니다. 우리는 이미지에서 바이럴 쇼트까지의 전체 작업 흐름을 분석하고, AI가 실제로 인간보다 더 우수한지 여부를 밝혀냅니다.

불가사의한 계곡은 사라졌다

플레임 스로우걸은 자신의 창작자의 채널을 빼앗아 인공지능 뉴스를 전달하며, 미소와 함께 화염 방사기를 들고 시작합니다. 팀이 "자리에 없다"는 동안 말이죠. 몇 초 동안 대부분의 시청자들은 이 하이퍼 스타일로 제작된 진행자가 전적으로 합성된 존재라는 것을 파악하기 어려울 것입니다. 그 모습은 정지된 미드저니 V7 이미지에서 애니메이션 되었고, 복제된 엘레븐랩스 모델의 목소리가 합쳐졌으며, 클링 AI 아바타 2.0에 의해 조종되고 있습니다.

불과 1년 전, 유튜브는 인사 교육 비디오처럼 보이는 AI 아바타로 넘쳐났습니다: 뻣뻣한 어깨, 죽은 눈, 그리고 괴상한 더빙처럼 입이 움직이는 모습이었습니다. 초기 HeyGen과 Veed의 1세대 시스템과 같은 도구들은 썸네일 크기에서 줌 키노트로 통과할 수 있었지만, 1080p로 시청하는 순간 언캐니 밸리로 다시 돌아갔습니다. 플램쓰로워 소녀는 그런 실험에 적합하지 않았습니다. 팀이 말하듯이, 그는 “그렇게 인상 깊지 않았다”고 합니다.

클링의 최근 업데이트인 2.6 비디오 모델, 01 옴니 모델, 그리고 조용히 출시된 아바타 2.0은 그 계산을 변화시켰습니다. Recraft의 나노 바나나 프로 워크플로우를 통해 생성된 단일 16:9 스튜디오 샷에서 클링은 일관된 아이덴티티, 자연스러운 머리 움직임, 그리고 대부분 빠른 영어 대화를 따라가는 립싱크를 갖춘 말하는 호스트를 만듭니다. 이 점프는 단순한 버전 업그레이드처럼 느껴지기보다는 포토그래메트리가 기술 데모처럼 보이다가 영화처럼 보이기 시작한 순간처럼 느껴집니다.

그것은 팀이 언급하는 불편한 질문을 제기한다: 이 모델 집합이 특정 포맷에 대해 인간 콘텐츠 제작자를 실제로 대체할 수 있을까? 이 비디오에서 불꽃내기 소녀는 에피소드를 소개할 뿐만 아니라 점프 컷, B-롤 및 소셜 플랫폼에 특화된 편집을 포함한 전체 AI 뉴스 세그먼트를 전달한다. 에피소드 후반의 메트릭 세그먼트는 그녀의 짧은 동영상이 유튜브, 인스타그램, 틱톡에서 경쟁적으로 성과를 내고 있음을 보여주며, “조금 겸손한 느낌이 든다”고 말한다.

플레임 스로워 소녀는 단순한 일회성 스턴트가 아닙니다. 그녀는 채널에서 오랜 역사를 가진 AI 캐릭터 목록에 포함됩니다. 그 목록에는 다음이 포함됩니다: - 끝없는 도시 거리를 걷는 “파란 비즈니스 수트를 입은 남자” - 네덜란드 축구 해적 하이브리드 다니엘라 반 덩크 - 언데드 선장 렌필드 - 바이킹 전사 리라 - 회전하는 느와르 탐정 캐스트 - 더 현실적인 “더 나은 AI 아바타” 톰

이 앙상블은 이 채널을 합성 호스트를 위한 살아 있는 실험실로 만들어 주며, 일회성 속임수가 아닙니다.

디지털 트윈의 기원 이야기

당신의 디지털 트윈은 정적인 이미지로 시작하며, 그 첫 번째 프레임은 나중에 조정하는 모델 설정보다 더 중요합니다. 플라멩고 소녀와 같은 제작자들은 Midjourney V7에서 시작하여, 미래의 모든 포즈, 의상 및 카메라 각도를 고정할 단일의 완벽하게 일관된 주인공 이미지를 조정합니다. 만약 그 출처 이미지가 엉성하다면, 모든 하위 아바타는 그 결점을 물려받게 됩니다.

Midjourney에게 전문 사진가에게 브리핑하듯이 요청하세요, 단순한 밈 생성기가 아니라. 전신 샷을 9:16 비율로 요청해, 도구들이 다리, 손 및 비례를 갖춘 형태가 되도록 하고, 단순히 떠 있는 흉상만은 아니게 하세요. “스튜디오 조명”과 중립적이거나 매끄러운 배경, 그리고 나중에 이와 혀의 흔적을 피하기 위해 차분하고 입을 다물고 있는 표정을 요청하세요.

당신이 캐릭터를 확정하게 되면, 캐릭터와 관련 없는 모든 것을 제거합니다. Recraft의 “Nano Banana” 모델이나 Kling의 내장 01 모델과 같은 도구는 “캐릭터 추출”을 처리하여 대상을 깨끗하고 평평한 배경으로 분리합니다. 목표는: 날카로운 실루엣, 모션 블러 없음, 팔다리를 가로막는 소품 없음, 다음 단계에서 혼란을 줄 수 있는 지저분한 그림자 없음입니다.

그 중립적인 컷아웃은 재사용 가능한 캐릭터 모델의 씨앗이 됩니다. Kling은 이 추출된 이미지에서 사용자 정의 "요소"를 훈련할 수 있게 해주어, 당신의 아바타를 어떤 장면에도 배치할 수 있는 것으로 변모시킵니다: 책상 뒤에 서 있거나, 거리에서 걷거나, 클로즈업에서 반응하는 모습으로요. 처음부터 다시 프롬프트를 작성하는 대신, 단지 요소 이름(예: Flamethrower Girl의 경우 "@"FlameGirl")을 언급하고 새로운 포즈나 설정을 설명하기만 하면 됩니다.

여기서 일관성은 시청 시간과 관객 신뢰에 직접적인 영향을 미칩니다. 잘 훈련된 요소는 수십 개의 숏 영상에서 얼굴 구조, 헤어스타일, 의상을 안정적으로 유지하여, 시청자가 스크롤하는 피드에서 캐릭터를 즉시 인식할 수 있도록 합니다. 어떤 변화—다른 턱선, 어울리지 않는 눈, 약간 어색한 피부—는 사람으로 인식되기보다는 결함으로 해석됩니다.

프롬프트 규율이 작업을 완성합니다. “중간 샷”, “전신”과 같은 카메라 거리, “50mm 사진”과 같은 렌즈 스타일, “부드러운 스튜디오 키 조명, 미세한 림 조명”과 같은 조명을 지정하여 극단적인 스타일 변화가 발생하지 않도록 하세요. 매번 거의 맞는 변형들의 폴더보다 한 번에 완벽하게 재현 가능한 이미지 파이프라인이 우수합니다.

아바타에 영혼(과 목소리) 부여하기

아바타 플랫폼의 스톡 음성들은 모두 같은 기업 교육 비디오를 졸업한 듯한 소리가 난다. ElevenLabs의 맞춤 클로닝은 이러한 불쾌한 동질성에서 벗어나, 제작자에게 억양, 속도, 음색, 감정 범위를 조절할 수 있는 힘을 부여한다. “젊은 여성 03”을 선택하는 대신, 특정한 역사와 태도를 가진 사람처럼 들리는 음성을 구축할 수 있다.

플레임스로워 걸을 위해서는 매우 온라인적이고 약간 냉소적인 밀레니얼/젠지 스타일의 전달 방식을 설계하는 것이 필요했다: 가벼운 보컬 프라이, 좁은 다이내믹 범위, 그리고 빠르고 짧은 자음. 엘리븐랩스는 클론을 잠금 해제하는 데 몇 분의 깨끗한 참조 오디오만 필요하며, 그러면 안정성, 스타일 및 "창의성"을 조절하여 안전한 내레이션에서 보다 혼란스럽고 인간적인 대사로 전환할 수 있다. 조정이 완료되면 매번 동일한 캐릭터 노트를 전달하는 합성 배우를 얻게 된다.

ElevenLabs는 두 가지 핵심 모드를 지원합니다: - 텍스트 음성 변환(TTS): 스크립트를 입력하면 복제된 목소리로 새로운 퍼포먼스를 제공합니다. - 음성 간 변환: 자신의 스크래치 트랙을 녹음한 후, 그 타이밍과 감정을 복제된 목소리에 맞춥니다.

TTS는 빠른 뉴스 소식, 지속적인 설명 및 마지막 순간의 스크립트 변경에 가장 효과적입니다. 필요에 따라 줄을 다시 생성할 수 있기 때문입니다. 음성 대 음성은 코미디, 풍자 및 밀도가 높은 기술 설명에 적합하며, 자신의 타이밍과 강조를 원하지만 얼굴은 원하지 않을 때 사용됩니다.

음성과 영상을 분리하면 전체 워크플로우가 변화합니다. 먼저 스크립트와 퍼포먼스를 확정한 후, 해당 오디오를 Kling, Veed Fabric, HeyGen 또는 HeyGen – AI Video & Avatar Generator와 같은 기타 아바타 엔진으로 전달합니다. 농담을 수정하거나 법적 고지를 바로잡거나 다른 시장에 맞게 현지화해야 합니까? ElevenLabs에서 오디오를 다시 생성하고 재렌더링을 하면 됩니다. 다시 촬영하거나 AI 호스트가 같은 감정적 요소를 두 번 연출하기를 기도할 필요가 없습니다.

클링의 대약진

Kling AI Avatar 2.0는 AI 아바타가 더 이상 단순한 신기한 장치처럼 보이지 않고 실제 공연자처럼 행동하는 순간을 느끼게 합니다. Kling의 최신 2.6 비디오 스택과 01 Omni 기반 기술 위에 구축된 이 시스템은 FlameThrower Girl의 정지 사진 하나를 사용하여 9:16 Shorts, 16:9 YouTube 및 그 사이의 모든 형식에서 통하는 말하는 얼굴로 변환할 수 있습니다.

이전 아바타 도구들이 모델의 얼굴을 유지하기 위해 고군분투했던 반면, Kling 2.0은 미세 성능으로 나아갑니다. 원시 출력은 미세한 눈썹 변화, 눈꺼풀의 떨림, 그리고 인물이 캐릭터를 유지하려고 할 때만 나타나는 거의 감지할 수 없는 턱 기울임을 보여줍니다. 턱의 움직임은 HeyGen 및 Veed Fabric보다 자음을 더 깔끔하게 추적하며, 일반적으로 편집 타임라인으로 돌아가게 만드는 “젤라틴 입” 프레임이 훨씬 적습니다.

Kling의 새로운 창의적 및 강력한 모드는 모델이 오디오에 대해 얼마나 공격적으로 즉흥적으로 행동할지를 드러냅니다. 창의적 모드는 아바타가 더욱 강하게 움직일 수 있게 해줍니다: 더 많은 머리 끄덕임, 더 큰 미소, 더 많은 측면 움직임, 그리고 음소에 대한 느슨한 해석. 강력한 모드는 모든 것을 압축하여 경량감보다 확고한 입술 동기화와 포즈 안정성을 우선시하며, 이는 촘촘한 레이아웃으로 합성하거나 자막을 추가할 때 중요합니다.

실제로, 크리에이티브 모드는 펀치 있는 TikTok 설명 및 플램스로우 걸과 같은 표현력 있는 캐릭터에 적합하며, 약간의 과장은 개성을 잘 전달합니다. 로버스트 모드는 무표정한 뉴스 보도, 브랜드 작업 또는 여러 테이크를 겹쳐야 할 때 자세의 "점프"가 보이지 않게 할 수 있어 더 효과적입니다. 이론적인 미디어의 팀은 두 가지를 연속적으로 시연하며, 차이는 전화 화면에서도 즉각적으로 드러납니다.

조용한 스타는 Enhanced Prompt V3로, Kling의 새로운 프롬프트 레이어입니다. 이는 단순한 자막 상자처럼 동작하는 것이 아니라 감독의 메모처럼 작동합니다. 단순히 “이 대본을 읽어라”라고 하는 대신, “비꼬는 방식,” “저조한 에너지,” “눈 굴리기,” 또는 “핵심 구절에서 미세한 고개 끄덕임”과 같은 태그를 제공하면 모델이 이러한 신호를 애니메이션에 통합합니다. 이는 단순한 텍스트 지침이 아닌 경량 모션 지시와 비슷합니다.

원시 Kling 출력 분석 결과, 동일한 테스트에서 Veed Fabric이나 HeyGen과 비교했을 때 문제 프레임이 훨씬 적다는 것을 알 수 있습니다. "b", "m", "p"의 입술 닫힘은 제시간에 정확하게 이루어지고, 마찰음은 기괴한 치아 덩어리로 번지지 않으며, 머리 움직임은 물속에서 떠 있는 것처럼 흐릿하게 흔들리지 않습니다. 카메라 앞에서 자신을 대체하려는 독립 콘텐츠 제작자에게 이 기본적인 일관성은 패치 편집이 줄어들고, 재렌더링이 감소하며, 버그가 있는 필터를 디버깅하는 것보다 재능을 방향잡는 것에 더 가까운 작업 흐름을 의미합니다.

아바타 아레나: 클링 대 헤이젠 대 비드

클링의 아바타 2.0은 이 테스트에서 충격적인 순간으로 등장합니다: 한 장의 정지 이미지인 화염방사기 소녀가 한눈에 실제 공연으로 보이는 호스트로 변신합니다. 미세한 표정, 눈의 움직임, 어깨의 변화가 특히 맞춤형 ElevenLabs 음성 트랙에 의해 주도될 때, 마치 인적 배우에 더 가까운 느낌을 주며, 그저 조종된 JPEG가 아닙니다.

Kling이 여전히 어려움을 겪는 부분은 일관성입니다. 특정 음소가 전형적인 "물렁한 입" 아티팩트를 유발하여 동일한 대사의 여러 세대를 강요하고 편집상의 조정이 필요하게 만듭니다. 제작자는 다양한 Kling 실행에서 테이크를 조합하게 되며, 때때로 HeyGen이나 Veed Fabric으로 전환하여 깨진 프레임을 숨기고 15-30초짜리 숏에서 환상을 유지하려고 합니다.

HeyGen은 신뢰할 수 있는 SaaS 작업 도구로 자리 잡았습니다. 그들의 Avatar 4 모델은 Kling의 정점 리얼리즘에는 미치지 못하지만, 특히 폭발음과 넓은 모음에서 Kling이 흐트러지는 부분에서 더욱 깨끗하고 예측 가능한 입술 동기화를 제공합니다. 입 모양이 전체 클립에서 오디오를 더욱 충실하게 추적하므로, 사용 가능한 음절을 찾기 위해 프레임을 hunting 하는 데 드는 시간이 줄어듭니다.

HeyGen의 워크플로우는 성숙한 웹 앱처럼 느껴집니다: 이미지를 업로드하고, ElevenLabs 오디오를 넣고, 템플릿을 선택하면 몇 분 안에 렌더링이 완료됩니다. 가격은 익숙한 구독 패턴을 따르며, API 호출당 요금이 아니라 분 단위로 묶어 판매되는 여러 단계가 있습니다. 매주 수십 개의 발표자 설명 영상을 필요로 하는 팀이나 기관에 있어서는 예측 가능성이 원시적 품질보다 더 중요합니다.

Veed Fabric는 Fal.ai를 통해 접근할 수 있으며, 완전히 다른 접근 방식을 취합니다: 아바타 생성을 API 기본 요소로 다룹니다. 참고 프레임과 오디오 파일을 전송하면 Fabric이 비디오를 반환하며, 가격은 초당 몇 센트의 몇 분의 일로 나뉩니다. 비디오 분석에서 Fabric은 초당 저렴한 센트 범위에 위치하며, 여러 개의 짧은 클립을 배치하면 SaaS 구독보다 더 저렴해질 수 있습니다.

비용 구조는 규모가 커질수록 중요해집니다. 예를 들어, Fabric의 API를 통해 제공되는 30초 길이의 숏폼이 $0.03에서 $0.05 사이일 경우, 비디오를 몇 개만 게시한다면 고정형 $30에서 $60의 월간 요금제보다 이점이 있겠지만, 여러 개의 출력물을 초과하게 되면 HeyGen의 번들 분과 비교하여 더 비쌉니다. 또한 Fabric은 Veed의 넓은 편집 도구 세트에 직접 통합되어 있어 한 곳에서 스크립트 작성, 생성, 편집을 할 수 있습니다.

트레이드오프가 빠르게 명확해집니다: - Kling: 사실주의에 대한 가장 높은 한계, 가장 많은 정리 작업 필요 - HeyGen: 편리함, 안정성, 립싱크의 가장 좋은 균형 - Veed Fabric: 아바타를 기존 파이프라인에 통합하는 개발자와 파워 유저를 위한 가장 유연하고 비용 투명함.

'무른 입' 문제와 해결 방법

물렁물렁한 입은 대부분의 AI 아바타에서 여전히 문제가 발생하는 부분입니다. 선명하고 읽기 쉬운 입 모양 대신, 입은 부드러운 흐림으로 변하고, 치아는 흰색 블록처럼 뭉개지며, 턱은 음성과 비동기적으로 떠다닙니다. 특히 고에너지 자음인 “p,” “b,” “f,” “m”에서 가장 뚜렷하게 나타나며, 모델이 음소를 추적하는 대신 추측하는 경우에 발생합니다.

VFX 문제처럼 실패하는 모델 스태킹 공격을 시뮬레이션하십시오. 단일 렌더에 의존하기보다는 동일한 오디오 트랙을 사용하여 Kling Avatar 2.0, Veed Fabric, HeyGen 또는 단일 도구의 여러 실행을 통해 동일한 라인의 여러 버전을 생성합니다. 각 패스는 완벽한 입 모양을 정밀하게 추출할 수 있는 레이어가 됩니다.

먼저 오디오를 잠그는 것으로 시작하세요. 이상적으로는 깔끔한 ElevenLabs – AI Voice Cloning & Text‑to‑Speech 렌더를 사용하는 것이 좋습니다. 그것을 Premiere Pro, Final Cut 또는 DaVinci Resolve에 넣고 마스터 타임라인으로 취급하세요. 그런 다음 각 라인당 최소 3–5개의 비주얼 테이크를 렌더링하고, 모든 아바타 익스포트의 프레임 속도(일반적으로 24fps 또는 30fps)와 길이가 일치하도록 하세요.

편집기에서 각 아바타 클립을 마스터 오디오 위에 별도의 비디오 레이어로 쌓으세요. 그들의 파형과 보이는 입 움직임이 동일한 음절에 맞도록 정렬하되, 턱의 움직임이 폭음과 마찰음에 일치할 때까지 단일 프레임으로 조정합니다. 동기화가 완료되면, 동일한 합성 성능의 다중 카메라 촬영을 효과적으로 갖추게 됩니다.

다음으로 문제 음소를 점검하세요. 불쾌한 프레임에서 멈추세요—“p” 음에서의 찌그러진 입술, “f” 음에서의 잇몸이 드러난 치아, 지나치게 넓은 “m” 폐쇄 등을 살펴보고, 다른 레이어의 동일한 프레임 위치도 확인하세요. 보통 하나의 모델이 특정 모양을 잘 맞추는 경우가 많지만, 다른 모양은 망칠 수 있습니다.

하드 컷이나 짧은 불투명도 페이드 효과를 사용하여 나쁜 마이크로 세그먼트만 교체하세요. 편집자는 종종:

1나쁜 자음 주위의 2-6 프레임 블레이드
2해당 슬라이스만을 위한 깨끗한 레이어를 활성화하세요.
3피부 톤이나 조명이 다르면 2프레임 크로스페이드를 추가하세요.

15–30초의 짧은 영상에서 10–30개의 마이크로 순간을 합칠 수 있습니다. 그 결과는 완벽한 연기를 한 모델은 없지만, 인간 배우처럼 립싱크를 하는 복합 아바타가 생성됩니다.

최종 숏 구성하기

어셈블리는 지루한 장소에서 시작됩니다: 타임라인. 먼저 ElevenLabs 음성 클론을 넣고, 잠가두며, 그것을 복음처럼 취급합니다. 모든 아바타 클립, 모든 전환 컷, 모든 음향 효과는 그 마스터 오디오에 부합해야 합니다. 왜냐하면 Kling, HeyGen, 또는 Veed Fabric에서 재렌더링할 경우 시간과 크레딧이 소모되기 때문입니다.

다음은 얼굴 벽입니다. 여러 개의 패스를 Kling AI Avatar 2.0에서 가져오고, HeyGen과 Veed Fabric의 대체 패스를 추가한 후, VFX 합성처럼 비디오 트랙에 쌓습니다. 튜토리얼에서 배운 ‘모델 스태킹’ 기법이 여기에서 활용됩니다: 나쁜 음소 주변을 면도칼로 자르고, 다른 테이크에서 더 나은 입 모양을 교체하며, 빠른 컷이나 재구성으로 이음새를 가립니다.

템포가 짧은 영상의 성공을 좌우합니다. 30~45초의 클립에서는 샷이 2~3초를 넘는 경우는 드물고, 문장의 끝 주위의 공백은 프레임으로 쳐냅니다. J컷과 L컷은 불을 뿜는 소녀의 대화를 유지하면서 화면이 차트, UI 클로즈업 또는 원본 Midjourney V7 컨셉 아트로 전환되도록 합니다.

B-roll은 큰 역할을 합니다. 내레이션 아래에 Kling의 아바타 패널, ElevenLabs의 안정성 슬라이더, 또는 Sync Labs React 1 테스트 영상을 겹쳐 놓은 다음, 아바타로 다시 전환하여 강력한 메시지나 감정의 순간을 강조합니다. 수직 플랫폼에서는 굵은 자막, 진행 바, 그리고 화면에 빠르게 표시되는 레이블(“Kling vs HeyGen vs Veed”)이 처음 3초 동안 손가락 스크롤과 경쟁합니다.

아이러니는 Sync Labs의 React 1 세그먼트에서 살짝 스며든다. AI 아바타가 AI 강화 연기가 인간의 연기를 더욱 발전시킬 수 있는 방법을 설명하는 동안, 자신은 세 가지 다른 모델로 결합된 퍼포먼스를 선보인다. 이 짧은 영상은 메타 데모로 끝나며, 합成 호스트가 합성 호스트를 가능하게 하는 도구에 대해 차분하게 보고하는 모습이 펼쳐진다.

평결: 소셜 미디어에서 AI 대 인간

숫자는 어떤 화염 방사기 농담보다도 차가운 이야기를 전달합니다. 이론 미디어의 팀이 그의 AI가 호스팅한 짧은 영상과 인간이 호스팅한 클립을 직접 비교했을 때, "겸손한" 부분은 실제로 격차가 얼마나 좁았는지에서 나왔습니다. AI는 압도하지 않았지만, 그렇다고 실패하지도 않았습니다.

유튜브 쇼츠에서 화염 방사기 소녀 아바타는 중간 정도의 위치에 안착했습니다. 여러 업로드를 통해 AI가 호스팅한 콘텐츠는 팀의 일반 쇼츠와 비슷한 시청 지속 시간을 기록했으며, 평균 시청 시간에서는 몇 퍼센트 포인트 차이만 있었습니다. 수익 역시 그 패턴을 따랐습니다: 특별한 CPM 상승 없이, 조회수와 유지 시간에 비례하는 대략적인 수익 지급이 이루어졌습니다.

관객 유지 곡선은 처음 3–5초 동안 거의 동일하게 보였으며, 이는 숏츠의 스와이프가 활발한 피드에서 매우 중요합니다. 시청자들은 명백히 인공지능 호스트가 등장했을 때 즉시 이탈하지 않았으며, 하락률은 러닝타임의 50–60% 지점에서만 약간 증가했습니다. 이는 아바타가 "첫눈" 테스트를 통과했으며, 더 긴 순간과 반응 샷에서만 인공성을 드러냈음을 시사합니다.

인스타그램에서의 참여는 인간에 더 우호적으로 기울어졌습니다. 인간이 호스팅하는 클립은 여전히 더 많은 댓글과 높은 저장률을 이끌어냈으며, 특히 교육적인 설명 영상에서는 파라소셜 연결이 중요했습니다. 그러나 AI 클립은 종종 원시적인 좋아요 수에서 일치하거나 약간 초과하며, 시각적으로 화려하고 스타일화된 캐릭터가 사람들이 덜 반응하더라도 여전히 클릭을 유도할 수 있다는 것을 암시합니다.

틱톡은 다른 이야기를 했다. 유튜브와 인스타그램에서 제법 성과를 낸 한 개의 플라멩스로우 걸 쇼트는 틱톡에서 처참히 실패하며 거의 조회수를 얻지 못하다가 알고리즘에 의해 묻혀버렸다. 이 “알고리즘 실패”는 틱톡의 공격적인 관심 모델링에서 기인했을 가능성이 높다: 스타일이 있는 합성 앵커는 “크리에이터 토크 헤드”, “VTuber”, “쇼 클립”과 같은 기존 카테고리와 깔끔하게 일치하지 않을 수 있어 시스템이 유사한 관객을 찾는 데 어려움을 겪는다.

여러 요인이 TikTok에서의 저조한 성과를 악화시켰던 것으로 보입니다: - 음향 트렌드와 네이티브 편집 관습에 대한 지나친 의존 - 매끄럽게 다듬어진 아바타보다 어수선하고 손에 들고 있는 듯한 진정성을 선호하는 문화 - For You 피드 시청자들 사이에서 Flamethrower Girl에 대한 기존의 친숙함이 부족함

주요 내용: 친숙한 캐릭터가 승리한다. 플레임토우저 소녀는 채널이 이미 그녀에 대해 신경 쓰도록 관객을 길렀기 때문에 효과적이었고, AI 업그레이드는 그 인물을 확장했을 뿐입니다. AI 아바타는 이제 인간과 경쟁할 수 있는 보유율과 수익성을 가지고 있지만, 그들은 이미 쌓아온 캐릭터와 신뢰를 증폭시키지 대체하지는 않습니다.

AI 제작이 실제로 더 빠른가요?

AI 제작은 첫 번째 본격적인 파이프라인을 구축하기 전까지는 더 빨라 보입니다. Tim의 Flamethrower Girl 워크플로우는 카메라, 렌즈, 조명, 메이크업을 Midjourney, Recraft, Kling, ElevenLabs, 그리고 상당한 양의 타임라인 수술로 대체합니다. 장소 탐색과 재촬영을 건너뛰지만, 프롬프트 반복, 렌더 대기열, 그리고 유튜브 브이로그보다 VFX처럼 작동하는 "모델 스태킹" 패스를 추가하게 됩니다.

아바타가 존재하게 되면 상황이 바뀝니다. Midjourney V7에서 캐릭터를 추출하고, Recraft에서 정리한 후, ElevenLabs에서 음성을 클론하는 것은 일회성 비용입니다; 이 자산을 수십 개의 숏에서 재사용할 수 있습니다. 30–60초 분량의 클립을 위해 깨끗한 음성 트랙을 생성하고 Kling Avatar 2.0이나 HeyGen을 통해 전송하는 데는 몇 분의 손작업과 렌더링 시간이 필요하지만, 간단한 토크 헤드 촬영을 설정하고 녹화하고 철수하는 데는 30–60분이 소요됩니다.

병목 현상이 생산에서 후속 단계로 이동합니다. 고품질 출력을 얻으려면 다음이 종종 필요합니다: - 구어체 아티팩트를 피하기 위해 라인당 여러 세대 사용 - 특정 단어를 salvage 하기 위해 Kling, Veed Fabric, HeyGen 간의 전환 - 최상의 음절을 연결하기 위한 수동 마스킹 및 편집기에서의 컷팅

그 “모델 스태킹” 접근 방식은 짧은 영상에 30-60분의 편집 시간을 추가할 수 있지만, 완벽한 연속성을 얻을 수 있습니다: 나쁜 헤어 스타일, 실패한 테이크, 오디오 드리프트가 없습니다.

확장성은 AI가 조용히 승리하는 곳입니다. 캐릭터와 목소리를 설정하면, 하룻밤 사이에 스크립트의 10개 변형을 일괄 생성하거나, 다양한 ElevenLabs 음성을 사용해 현지화하거나, 카메라 앞에 서지 않고도 A/B 테스트를 수행할 수 있습니다. 작은 팀이 YouTube Shorts, TikTok, Instagram에서 동시에 게시할 반복적인 아바타 목록을 준비할 수 있습니다.

혼자서 활동하는 제작자들에게 AI 비디오는 아직 버튼 하나로 대체할 수 있는 것이 아니다; 이는 새로운 종류의 디지털 VFX 예술이다. Midjourney 도움말 및 문서와 같은 가이드는 이제 10년 전 카메라 매뉴얼만큼이나 중요해졌다.

카메라 촬영 창작자의 미래

올해 AI 클론은 기발한 아이디어에서 작업 흐름으로 이동했으며, 이는 카메라 앞의 콘텐츠 제작자가 된다는 의미를 변화시킵니다. 단 한 장의 미드저니 이미지, 엘레븐랩스의 목소리, 그리고 클링 AI 아바타 2.0이 틱톡에서 당신을 대신할 수 있는 상황에서, 질문은 더 이상 “어떻게 이것을 만들지?”가 아니라 “사실 내가 원하는 것은 무엇인가?”로 바뀝니다.

AI 아바타는 순수한 대체물처럼 보이지 않고 새로운 창의적 인프라의 한 층처럼 보입니다. 이들은 낮은 위험의 설명 영상을 제작하고, 업로드 일정의 공백을 메우며, 단 한 번의 재촬영 없이 콘텐츠를 다섯 개 언어로 현지화할 수 있습니다. 이는 인간 창작자들이 무한한 B-롤과 추가 촬영 대신 전략, 이야기, 브랜드 쪽으로 나아가게 합니다.

명백한 미래의 한 가지: 창작자들이 AI 호스팅 채널의 전체 플릿을 운영합니다. 한 사람이 다음을 수행할 수 있습니다: - 스타일화된 앵커가 음성으로 담아낸 뉴스 중심의 쇼츠 피드 - 플램쓰로워 걸과 같은 반복 등장 캐릭터가 이끄는 전설 채널 - 브랜드 지침에 맞춰 조정된 스폰서 친화적인 '클린' 호스트

이 클론들은 이미 자동화된 것처럼 느껴지는 반복적인 포맷을 쉽게 처리할 수 있습니다: 매일 도구 정리, 패치 노트 읽기, FAQ 비디오, 출시일 워크스루. 만약 포맷이 대본과 말하는 사람으로 정리된다면, 아바타는 아마도 더 저렴하게, 화요일 새벽 3시에 그것을 할 수 있을 것입니다.

또 다른 경로는 아바타를 노동 대체물이 아닌 새로운 매체로 간주합니다. 창작자들은 독특한 예술 스타일, 억양, 그리고 이야기 전개를 가진 합성 호스트의 캐스트를 디자인할 수 있으며, 이를 가상 배우처럼 세그먼트에 맞춰 교체할 수 있습니다. 화염 방사기 소녀, 렌필드 기장, 그리고 톰은 더 이상 기술 시연이 아니라 프로그래밍 가능한 앙상블처럼 보이기 시작합니다.

그것들 중 어떤 것도 인간을 쓸모없게 만들지는 않는다. 동영상의 자체 지표가 이를 증명한다: AI가 진행하는 짧은 동영상은 유지율과 RPM에서 경쟁할 수 있지만, 관객이 신뢰하는 친숙한 얼굴에 대해서는 자동으로 승리하지 않는다. 관객들은 여전히 누군가의 판단, 취향, 그리고 이상한 아이디어에 대한 모험을 감수하려는 의지를 위해 찾아온다.

미래 지향적인 크리에이터들은 AI 아바타를 운명이 아닌 도구로 활용할 것입니다. 이 도구들이 당신의 얼굴과 목소리를 복제할 수는 있지만, 무엇을 말할지, 누구에게 말할지, 그리고 왜 누군가가 그것에 관심을 가져야 하는지는 결정할 수 없습니다.

자주 묻는 질문들

클링 AI 아바타 2.0은 무엇인가요?

Kling AI Avatar 2.0은 단일 정적 이미지를 바탕으로 포토리얼리스틱한 대화형 비디오 아바타를 생성하는 차세대 도구입니다. 이전 플랫폼에 비해 개선된 립싱크, 자연스러운 머리와 몸의 움직임, 그리고 전체적인 표현력이 특징입니다.

AI 아바타의 입술 동기화 문제를 어떻게 해결하나요?

'모델 스태킹'이라고 불리는 기술은 '무르익은 목소리'와 같은 문제를 해결할 수 있습니다. 이는 여러 AI 모델에서 동일한 대사 라인을 생성하거나 하나의 모델에서 여러 번 생성한 후, 각 출력에서 가장 멋져 보이는 프레임을 편집하여 매끄럽고 합성된 결과를 만드는 과정을 포함합니다.

AI 아바타가 인간보다 더 나은 참여를 이끌어낼 수 있을까요?

데이터에 따르면 그들이 특히 짧은 형식의 콘텐츠에서 놀라울 정도로 경쟁력이 있을 수 있다고 합니다. 그러나 그들이 자동으로 실제 인간 진행자를 능가하지는 않으며, 이는 청중과의 연결 및 캐릭터에 대한 친숙함이 참여도에 중요한 역할을 한다는 것을 시사합니다.

완전한 AI 아바타 워크플로우를 위해 필요한 도구는 무엇인가요?

전체 워크플로우는 일반적으로 캐릭터 제작을 위한 Midjourney 또는 Recraft 같은 AI 이미지 생성기, 오디오를 위한 ElevenLabs 같은 AI 음성 클로닝 서비스, 최종 비디오를 애니메이션화하기 위한 Kling, HeyGen 또는 Veed Fabric 같은 AI 아바타 플랫폼을 필요로 합니다.

𝕏 in ↑↗

Frequently Asked Questions

AI 제작이 실제로 더 빠른가요?

AI 제작은 첫 번째 본격적인 파이프라인을 구축하기 전까지는 더 빨라 보입니다. Tim의 Flamethrower Girl 워크플로우는 카메라, 렌즈, 조명, 메이크업을 Midjourney, Recraft, Kling, ElevenLabs, 그리고 상당한 양의 타임라인 수술로 대체합니다. 장소 탐색과 재촬영을 건너뛰지만, 프롬프트 반복, 렌더 대기열, 그리고 유튜브 브이로그보다 VFX처럼 작동하는 "모델 스태킹" 패스를 추가하게 됩니다.

클링 AI 아바타 2.0은 무엇인가요?

AI 아바타의 입술 동기화 문제를 어떻게 해결하나요?

AI 아바타가 인간보다 더 나은 참여를 이끌어낼 수 있을까요?

완전한 AI 아바타 워크플로우를 위해 필요한 도구는 무엇인가요?

AI 클론이 이제 인간 창작자들과 경쟁하게 되었습니다.

TL;DR / Key Takeaways

불가사의한 계곡은 사라졌다

디지털 트윈의 기원 이야기

아바타에 영혼(과 목소리) 부여하기

클링의 대약진

아바타 아레나: 클링 대 헤이젠 대 비드

'무른 입' 문제와 해결 방법

최종 숏 구성하기

평결: 소셜 미디어에서 AI 대 인간

AI 제작이 실제로 더 빠른가요?

카메라 촬영 창작자의 미래

자주 묻는 질문들

클링 AI 아바타 2.0은 무엇인가요?

AI 아바타의 입술 동기화 문제를 어떻게 해결하나요?

AI 아바타가 인간보다 더 나은 참여를 이끌어낼 수 있을까요?

완전한 AI 아바타 워크플로우를 위해 필요한 도구는 무엇인가요?

Frequently Asked Questions

Read Next

Anthropic의 새로운 에이전트, 노코드(No-Code)를 끝장내다

이 도구는 혼란스러운 AI 에이전트를 길들입니다

AI의 완벽한 기억력이 도착했습니다

Stay Ahead of the AI Curve