AI 비디오의 다음 큰 도약이 왔습니다.

알리바바가 AI 비디오 모델인 완 2.6을 출시했습니다. 이 모델은 노래를 부르고, 다채로운 이야기를 들려주며, 놀라운 캐릭터 일관성을 제공합니다. 그러나 바이트댄스와 괴기한 새로운 시점 기술도 등장하면서 소라를 제치기 위한 경쟁이 치열해지고 있습니다.

Stork.AI
Hero image for: AI 비디오의 다음 큰 도약이 왔습니다.
💡

TL;DR / Key Takeaways

알리바바가 AI 비디오 모델인 완 2.6을 출시했습니다. 이 모델은 노래를 부르고, 다채로운 이야기를 들려주며, 놀라운 캐릭터 일관성을 제공합니다. 그러나 바이트댄스와 괴기한 새로운 시점 기술도 등장하면서 소라를 제치기 위한 경쟁이 치열해지고 있습니다.

AI 비디오 경쟁이 다시 점화되었습니다.

AI 비디오 세계가 예측 가능해지기 시작할 즈음, 알리바바의 Wan 2.6가 새로운 기준을 세웠습니다. Wan 2.5 출시 불과 몇 달 만에 새로운 모델은 15초, 1080p 클립으로 뛰어올라 “텍스트-투-비디오” 도구가 할 수 있는 것의 틀을 재편했습니다. OpenAI의 Sora와 일대일로 경쟁하기보다는, Wan 2.6은 Kling의 01 모델과 더 가까운 느낌을 주지만, 이야기 구조와 사운드에 더 날카로운 초점을 맞추고 있습니다.

이전의 생성기들이 무음 또는 녹음된 음악 클립을 출력했던 것과 달리, Wan 2.6는 오디오를 1급 입력으로 다룹니다. Suno가 생성한 곡이나 즉흥 음성을 입력하면, 여러 장면에서 구술을 맞추고 템포에 맞춰 시각 자료를 만들어 내며, 가사에서 가져온 화면 텍스트도 등장합니다. 한 테스트에서는 모델이 오디오에만 존재하고 서면 프롬프트에는 없는 “시너지, 혁신, 성장” 같은 기업 유행어를 렌더링했습니다.

멀티모달리티는 더 이상 “사후에 음악을 추가하는 것”을 의미하지 않습니다. Wan 2.6은 오디오, 텍스트, 이미지를 단일 작업 흐름으로 결합합니다: 텍스트 프롬프트, 업로드된 참조 이미지 또는 뉴스 방송 클립에서 시작하고 시스템이 카메라 움직임, 편집 및 대화 타이밍을 추론할 수 있습니다. '살아있는 죽은 자의 밤' 테스트 시퀀스는 모델이 뉴스 앵커의 발언에 맞춰 신뢰할 수 있는 입 모양의 움직임을 추적하는 모습을 보여주며, 심지어 프레임 안에 기괴한 대형 마이크를 환각하는 장면도 포함되어 있습니다.

진정한 변화는 서사적 통제입니다. Wan 2.6은 모든 장면을 초기화로 간주하는 대신, 공간 배치와 캐릭터 위치를 이해하려고 하는 지능형 다중 샷 생성을 도입했습니다. "스마트 다중 샷" 토글을 통해, 모델은: - 컷 간 방의 지리를 유지합니다 - 각도 간 매치 컷을 시도합니다 - 가끔 새로운 캐릭터를 창조하지만 조명과 분위기는 일관되게 유지합니다

이 모든 것은 AI 비디오 경쟁의 다음 단계인 실용적인 이야기 전개로 나아가는 기반을 마련합니다. 완(Wan)의 곧 출시될 “Starring” 캐릭터 시스템, 바이트댄스(ByteDance)의 Seedance 1.5 Pro가 CapCut 내에서 롤아웃되는 것, 그리고 EgoX의 제3자에서 제1자로 전환하는 연구가 같은 방향을 가리키고 있습니다. 목표는 더 이상 단순한 사진 실감 장면이 아니라, 창작자에게 장면에 등장하는 인물, 그들이 하는 말, 그리고 각 장면이 다음 장면으로 어떻게 이어지는지를 세밀하게 조정할 수 있는 능력을 부여하는 것입니다.

당신의 말, 당신의 노래, 그것의 영화

일러스트: 당신의 말, 당신의 노래, 그 영화
일러스트: 당신의 말, 당신의 노래, 그 영화

이제 당신의 플레이리스트가 스토리보드를 자체적으로 만들 수 있습니다. Wan 2.6의 주요 기능은 오디오-비디오 생성입니다: 완성된 트랙이나 대화 클립을 입력하면 모델이 각 비트, 음절, 정지에 맞춰 시각을 만들어냅니다. 알리바바는 각 렌더링을 15초로 제한하지만, 클립을 연결하여 3분짜리 노래를 다수의 이미지 컷이 결합된 AI 편집 음악 비디오로 변환할 수 있습니다.

Suno로 생성된 노래를 활용한 테스트에서, Wan 2.6은 하나의 일관된 비디오처럼 느껴지는 네 개의 개별 클립을 제작했습니다. 각 절의 교체와 악기 중단은 새로운 시각적 아이디어를 유발했지만, 주인공과 카메라 스타일은 충분히 일관성을 유지하여 저예산이지만 응집력 있는 뮤직 비디오 편집으로 통과할 수 있었습니다.

립싱크가 눈에 띈다. 네 개의 클립 모두에서 입 모양이 놀라운 정밀도로 수노 음성과 일치했으며, 일반적으로 현재 AI 동영상 모델들이 어려움을 겪는 빠른 구절에서도 그렇다. 이 모델은 자음과 입을 다문 소리를 설득력 있게 처리하여, 이전 생성기들이 시달렸던 흐물흐물한 인형 같은 움직임을 피했다.

이해는 입에서 나오는 것을 넘어서야 합니다. 사용되지 않은 한 장면에서 Wan 2.6은 떠다니는 유행어로 가득 찬 기업 사무실을 보여주었습니다—“시너지,” “혁신,” “성장”—노래가 명시적인 방향 없이 노동 문화를 비판하는 것과 맞물려 있습니다. 이러한 의미적 일치는 시스템이 음소뿐만 아니라 오디오의 의미와 분위기도 분석한다는 것을 시사합니다.

가장 이상한 표현은 화면에 나타난 텍스트에서 비롯되었습니다. 별도의 클립에서, Wan 2.6이 장면 안에 내러티브 텍스트로 가사를 렌더링했는데, 그 단어들은 텍스트 프롬프트에는 나타나지 않았습니다. 그들은 오디오 파일에만 존재했으며, 이는 모델이 내부 전사 단계를 거쳐 그 단어들을 다시 비디오에 엮어 넣는다는 것을 암시합니다.

뮤지션에게 이것은 작업 흐름을 뒤집어 놓습니다. Suno 또는 DAW에서 트랙을 작곡하고 녹음한 후, 완성된 WAV 파일을 Wan 2.6에 넣으면 즉시 B-roll, 공연 샷, 추상적인 비주얼이 생성되어 전체 비디오를 편집할 수 있습니다. 카메라도 세트도 필요 없고, 단지 프롬프트 조정과 재렌더링만 하면 됩니다.

팟캐스터와 이야기꾼들은 비슷한 업그레이드를 받습니다. 내러티브 독백, 인터뷰 세그먼트 또는 허구의 오디오 드라마는 다음과 같은 것을 만들어낼 수 있습니다:

  • 1캐릭터 중심의 반응 샷
  • 2장면 설정 및 컷어웨이
  • 3스타일화된 타이틀 카드 및 화면 속 인용문

그래서 Wan 2.6은 비디오 필터처럼 느껴지지 않고, 이미 가지고 있는 어떤 오디오의 항상 켜져 있는 비주얼라이저처럼 느껴집니다.

픽셀 이상의 존재: 세상을 바라보는 AI

화려한 데모 영상 그 이상으로, Wan 2.6는 당신이 묘사하려는 세계를 실제로 “이해하는” 시스템처럼 작동합니다. 제작자의 월요일 출근 “기업 디스토피아” 비디오에서 모델은 고속도로와 세단을 단순히 렌더링하는 데 그치지 않고, 전광판과 압박감 있는 유리 타워들로 가득한 영혼을 짓누르는 사무문화의 분위기를 강조합니다. 이 풍경들은 마치 '세버런스'나 '세버런스'와 유사한 공상과학 영화에서 뽑아낸 듯한 느낌을 줍니다.

텍스트는 역사적으로 AI 비디오의 약점이었지만, Wan 2.6은 기업 전문 용어를 불안할 정도로 정밀하게 엮어냅니다. 화면상의 간판은 “시너지”, “혁신”, “성장”을 읽기 쉬운 글꼴로 깔끔하게 표시하며, 표면 및 촬영 각도에 맞춰 정렬되어 있으며, 대부분의 모델이 1080p 및 24fps에서 겪는 익숙한 헛소리는 없습니다.

철자보다 더 흥미로운 것은 풍자이다. 그 유행어들은 무작위로 나타나지 않으며, 노래의 가사와 톤에 맞춰서 사무실 외관과 회의 전화 오버레이에 착지한다. 비록 가사는 오디오 트랙에만 존재하지만, Wan 2.6는 사운드트랙을 분석하여 "기업 디스토피아" 통근의 분위기를 추론하고, 단순히 단어를 프레임에 붙여넣는 것이 아니라 의미 있는 이해를 배치하는 것으로 보인다.

물리학 또한 한 걸음 나아갑니다. 교통 체증 속의 자동차들은 믿을 수 있는 타이밍으로 가속하고 브레이크를 밟으며, 카메라는 시차를 존중하여 움직이고, 15초에 걸친 샷에서도 등장인물의 움직임이 고무 같은 혼란으로 빠지지 않습니다. 물체는 컷 간에 질량과 연속성을 유지하여 전체적으로 연결된 GIF처럼 보이지 않고 하나의 시뮬레이션된 공간처럼 느껴지게 만듭니다.

그러면 모델은 데이비드 린치의 영역으로 곧장 들어간다. 트윈 픽스 스타일의 "다이너에서의 FBI 요원" 프롬프트를 사용하여, 한 번의 실행은 요원, 커피, 그리고 파이가 있는 현실적인 장면을 만들어내고, 또 다른 실행은 같은 텍스트로 기괴하고 꿈 같은 장면으로 변형되어 얼굴, 손님, 그리고 세트 장식이 초현실적인 패스티시로 녹아든다. 분위기는 린치의 작품을 외치지만, 프롬프트는 그를 이름조차 언급하지 않는다.

그 변동성은 Wan 2.6가 걷고 있는 경계선을 드러낸다: 개선된 세계 모델링은 가끔씩 깨진 것보다 더 해석적으로 느껴지는 환각을 동반한다. 이러한 클립은 단순히 픽셀을 보는 것이 아니라 참조, 수사학적 표현, 그리고 문화적 약어를 해석하는 모델을 암시한다. 알리바바의 Wan AI Creation Platform – Wan 2.6 비디오 생성은 바로 이러한 변화, 즉 장면의 모습뿐만 아니라 그 의미까지 이해하는 시스템을 제안하고 있다.

당신의 AI 공동 주연을 만나보세요: '주연' 혁명

캐릭터 일관성은 AI 비디오에서 가장 부족한 요소였으며, Wan 2.6의 새로운 주연 기능이 이를 해결합니다. 이제는 컷 사이에서 사라지는 일회성 얼굴 대신, 캐릭터를 고정하고 장면, 프롬프트, 심지어 다른 비디오까지 끌어갈 수 있습니다. 내러티브 창작자들은 이제 낯선 사람들의 슬롯 머신이 아닌, 반복적으로 등장하는 캐스트에 더 가까운 무언가를 얻게 됩니다.

완은 이러한 재사용 가능한 퍼포머를 “스타”라고 부르며, 워크플로우는 프롬프트보다 캐스팅에 더 가깝게 느껴집니다. 짧은 참조 클립을 업로드하면—대략 5-10초의 깔끔한 영상—완이 배경에서 캐릭터 임베딩을 훈련합니다. 그런 다음 그 스타는 나중의 생성물에서 선택 가능한 옵션으로 나타나므로 “니키를 네온 불빛이 켜진 골목에 두기”와 “니키를 뉴스룸에서 자르기” 모두 동일한 디지털 배우로 해결됩니다.

데모는 두 개의 앵커를 사용합니다: 니키, 감성적이고 스타일리시한 장면에 소개된 여성과 이드리스, 느와르 분위기의 세련된 남성입니다. 훈련이 끝난 후, 두 앵커는 관련 없는 프롬프트에도 재등장하며 얼굴 생김새, 헤어스타일 또는 전체적인 분위기를 잃지 않습니다. 멀티샷 생성은 카메라가 클로즈업에서 와이드로 전환할 때도 니키를 모델에 맞게 유지할 수 있으며, 이는 이전 모델들이 자주 실패했던 부분입니다.

주연 또한 대화와 오디오-비디오의 조화가 상대적으로 잘 이루어집니다. 별점을 부여하고 원에게 음성 트랙을 제공하면, 참고 이미지와 새로운 오디오에 모두 맞는 연기를 얻을 수 있습니다. 서사적으로 말하자면, 이는 창작자가 주인공을 한 번 고정한 후, 매번 얼굴을 바꾸지 않고도 수십 개의 장면을 반복적으로 수정할 수 있다는 의미입니다.

출시일의 현실은 여전히 베타처럼 보입니다. 모델이 가끔씩 흐트러지며, 특히 더 혼란스러운 프롬프트에서는 얼굴 세부 사항이 부드러워지거나 장면 사이에서 캐릭터가 조금 더 나이 들어 보이기도 합니다. 다수의 캐릭터가 등장하는 장면에서는 더욱 혼란스러워지는데, Niki와 Idris의 특징이 섞이거나 배경의 엑스트라가 주연 배우를 닮아 보이기도 합니다.

대화는 그 자체로 독특한 특성이 있다. 창작자가 영어 전용 대사를 요청할 때, 완은 가끔 단일 언어 스크립트에도 불구하고 영어와 예상치 못한 중국어 구문이 혼합된 이중 언어 대사를 뱉어낸다. 이러한 버그는 여러 캐릭터가 등장하는 장면에서 더 빈번하게 나타나며, 한 목소리가 대화 중간에 언어를 전환하여 원래 안정적인 입 모양 싱크를 저하시키는 문제를 일으킨다.

그러한 버그가 있더라도, 스타팅은 중요합니다. 시리즈를 만들거나, 반복적인 호스트, 또는 허구의 유니버스를 구축하려는 사람은 한 번만 나오는 클립이 아니라 연속성이 필요합니다. Wan 2.6은 캐릭터를 스크린샷처럼 일회성이 아닌, 유지하는 자산으로 취급하는 최초의 주류 모델입니다.

클립 너머: 스토리보드 아티스트로서의 AI

일러스트: 클립을 넘어서: 스토리보드 아티스트로서의 AI
일러스트: 클립을 넘어서: 스토리보드 아티스트로서의 AI

감독의 자아를 가진 AI 스토리보드 아티스트라고 부를 수 있습니다. Wan 2.6의 “지능형 다중 샷” 모드는 단일 프롬프트나 이미지를 바탕으로 일련의 컷을 생성합니다: 설정 샷, 어깨 너머 샷, 반응 클로즈업, 때때로 놀라운 삽입 컷까지. 15초 클립을 수동으로 연결하라고 요청하는 대신, 인간 감독이 장면을 계획하듯이 미리 촬영 범위를 패키징합니다.

알리바바는 이를 텍스트‑비디오 및 이미지‑비디오에 통합합니다. “우울증에 관한 영화” 테스트에서 두 남자가 테이블에 앉아 있는 한 장의 정지 이미지가 미니 편집으로 바뀝니다: 넓은 샷, 그 다음은 더 가까운 앵글, 그리고 새로운 캐릭터로 전환됩니다. 스마트 멀티샷을 끄면 한 번의 연속 촬영이 나오고, 켜면 Wan 2.6이 편집할 위치와 재구성을 결정하며 대화와 타이밍은 그대로 유지됩니다.

그로 인해 Wan 2.6는 Sora와 구조적으로 다릅니다. OpenAI의 모델은 카메라가 일관된 3D 세계를 통해 부드럽게 이동하는 긴 연속 샷에서 뛰어난 성능을 발휘하지만, 프롬프트당 하나의 샷만 얻을 수 있습니다. Wan은 커버리지 엔진처럼 작동합니다: 짧은 15초 분량, 여러 각도, 암시적인 스토리 비트. Sora는 가상의 스태디캠처럼 느껴지고, Wan 2.6는 거친 편집본처럼 느껴집니다.

전략적으로, 이는 알리바바를 클링의 내러티브 중심 접근 방식에 훨씬 가깝게 만듭니다. 클링의 01 모델은 이미 순수한 스펙타클보다 샷 계획, 카메라 움직임 및 스토리 구조를 강조합니다. 완 2.6은 같은 방향에 위치하며, 장면이 어떻게 연결되는지, 캐릭터가 각 앵글 간에 어떻게 지속되는지, 그리고 환경이 단일 프레임이 아닌 시퀀스 전반에 걸쳐 어떻게 일관되게 느껴지는지를 우선시합니다.

공간적 일관성이 진정한 시험이 된다. 이미지에서 비디오로의 우울한 장면에서 완은 컷을 가로지르며 테이블, 조명, 전반적인 블로킹을 안정적으로 유지하면서 카메라를 돌리고 있다. 창작자는 매치 컷이 완벽하기보다는 "괜찮다"고 언급하는데, 한 전환은 어색하게 느껴지고, 늦게 등장하는 여성은 원래 구성에서는 그럴듯하게 보이지만 효과적으로 갑자기 나타난다.

여러 차례의 실험에서 Wan 2.6은 주요 요소인 캐릭터 의상, 방 배치, 렌즈 스타일을 대부분 유지하지만 세부 사항에서는 여전히 부족함이 있습니다. 손, 소품, 배경의 추가 인물들이 각도에 따라 가끔 변형되며, 새로운 캐릭터가 시퀀스의 마지막 몇 프레임에 등장할 수 있습니다. Sora의 단일 촬영 일관성과 비교했을 때, 이는 더 혼란스러우나, 스토리보딩을 위해 기계가 하나의 프롬프트로 전체 샷 목록을 생성하는 것은 분명 더 혁신적인 업그레이드라고 할 수 있습니다.

AI가 고장날 때: 현실 점검

완 2.6과 같은 모델은 마법처럼 보이다가도 그렇지 않을 때가 있습니다. 조금만 밀어보면, 이음새가 드러납니다: 지극히 현실적인 뉴스 앵커 샷에서 갑자기 프레임 오른쪽에서 거대한 비현실적인 마이크가 튀어나오거나, 배경에 공포 영화의 에너지를 가진 엑스트라가 나타납니다. "트윈 픽스 다이너" 테스트에서는 똑같은 텍스트 프롬프트가 전혀 다른 두 장면을 만들어냈습니다; 하나는 현실적이고, 다른 하나는 완전히 린치식의 열광적인 꿈이었습니다.

그러한 실패는 단순한 오류가 아니라 프롬프트 해석이 어떻게 잘못될 수 있는지를 드러냅니다. Wan 2.6은 “다이너에서의 FBI 요원”이라는 말을 듣고 때때로 일관된 두 장면을 만들어내지만, 때로는 비현실적이고 지나치게 스타일화된 장면을 생성하여 여전히 입맞춤, 조명, 카메라 움직임 같은 요소들을 포함하나 의도한 분위기를 놓칩니다. 기술적으로는 정교하지만 맥락적으로는 혼란스러운 결과물이 나옵니다.

“염화가스 소녀” 클립은 이 불일치의 가장 명확한 사례입니다. 스타일리시한 액션 샷을 요청하면 완 2.6은 여성, 불길, 모션 블러, 영화 같은 구도로 응답하지만, 화염방사기의 물리적 원리는 추상적인 혼돈으로 무너지고, 불이 아무 데서나 튀어나오며 소품이 프레임 사이에서 왜곡됩니다. 모델은 장관을 잘 표현하지만 기본적인 인과 관계는 혼선이 있습니다.

창작자들은 신속하게 프롬프트 엔지니어링이 선택이 아님을 깨닫습니다. 자주 필요한 것들: - 동일한 프롬프트의 여러 번 재생성 - 단어와 장면 설명의 미세 조정 - 15초 클립을 일관된 내용으로 편집하기 위한 수동 수정

그럼에도 불구하고, 결과는 샘플링 과정에 내재된 운에 따라 달라질 수 있습니다. 동일한 설정으로 두 번 실행하더라도 캐릭터 차단, 배경 배우, 또는 모델이 귀하의 "구체적인" 요청을 얼마나 진지하게 받아들이는지에 따라 달라질 수 있습니다.

이 실패들 속에서 과대 광고를 정당화하는 것이 중요하다. Wan 2.6, Seedance 1.5 Pro는 이미 속임수와 같은 존재처럼 느껴지지만, 여전히 신뢰할 수 없는 협력자일 뿐이다. 이들을 실험 도구로 접근하는 창작자들은 완성된 파이프라인이 아닌 이점을 최대한 누릴 수 있으며, 최악의 마이크 문제를 피할 수 있다.

바이트댄스의 시드댄스 1.5로의 기습 공격

바이트댄스는 다른 게임을 하고 있다. 알리바바가 자랑스럽게 주력 모델인 Wan 2.6을 출시한 반면, 바이트댄스는 거의 소음 없이 Seedance 1.5 Pro를 CapCut을 통해 세상에 선보이며 혼란스러운 이름과 지역 제한 접근 방식을 사용하고 있다. 일부 사용자들은 “AI 비디오 3.5”라는 레이블을 보고, 다른 사용자들은 Seedance 참조를 보고 있으며, 명확한 독립 제품 페이지나 연구 논문은 없다.

Seedance를 목적지 사이트로 밀어붙이는 대신, ByteDance는 이를 TikTok 창작자, 유튜버, 그리고 Shorts 편집자들의 작업 흐름에 이미 자리잡고 있는 편집 앱 CapCut에 직접 연결했습니다. 새로운 실험실 인터페이스로 이동할 필요 없이, CapCut 내에서 "AI 비디오"를 클릭하면 즉시 요구에 따라 스타일화된 짧은 클립을 생성할 수 있는 최고급 모델을 사용할 수 있습니다. 이 통합은 일반적인 "대기자 명단 및 Discord" 주기를 건너뛰고 수억 번 설치된 도구로 고급 생성 기능을 제공합니다.

이것은 AI 비디오를 위한 고전적인 트로이 목마 전략입니다. Seedance 1.5 Pro를 친숙한 편집기 안에 숨김으로써 ByteDance는 구조보다는 결과를 더 중시하는 제작자들을 위해 실험적인 모델 기능을 일상적인 버튼으로 전환합니다. 이 회사는 연구실의 과대 광고 루프를 효과적으로 우회하고 단순하고 짧은 형태의 생태계 내에서 유지, 시청 시간, 제작 도구에 바로 접근합니다.

공유 프롬프트에 대한 테스트 결과, Seedance는 Wan 2.6과 동일한 수준으로 평가되지만 다른 편향성을 가지고 있습니다. Wan은 영화 같은 15초, 1080p 스토리텔링을 목표로 하고 있는 반면, Seedance는 강렬한 색감, 날카로운 움직임, 압축 및 세로 크롭을 견딜 수 있는 스타일화된 얼굴을 가진 팅가레디 샷을 중시합니다. 캐릭터 중심의 클립에서 Seedance는 아직 Wan의 주연 스타일 일관성에는 미치지 않지만, Reels와 TikTok에 자연스러운 느낌을 주는 빠른 반응 샷, 줌, 편집을 잘 처리합니다.

Seedance의 강점은 소셜 비디오를 위한 속도와 "충분히 좋은" 신뢰성입니다. CapCut 사용자는: - 짧은 텍스트를 비디오 클립으로 생성할 수 있습니다. - 기존 영상에 AI 변환을 적용할 수 있습니다. - 여러 AI 샷을 타임라인에 직접 연결할 수 있습니다.

그 워크플로우는 시단스 1.5 프로를 연구 이정표가 아닌 인프라 구축으로 전환시킵니다: 대부분의 시청자가 변화가 생겼음을 인식하기 훨씬 전에 AI 지원 비디오로 짧은 형식의 피드를 범람시키기 위해 조용히 배포된 엔진입니다.

이제 당신이 주인공입니다: EgoX의 관점 변화

일러스트: 이제 당신이 주인공입니다: EgoX의 시점 변화
일러스트: 이제 당신이 주인공입니다: EgoX의 시점 변화

AI 비디오에서 주인공의 에너지가 이제는 문자적 기술적 의미를 갖게 되었습니다. EgoX라는 새로운 연구 프로젝트는 모델이 일반적인 3인칭 영상을 어떻게 신뢰할 수 있는 1인칭 관점으로 전환할 수 있는지를 보여줍니다. 마치 카메라를 착용한 당신처럼 말이죠. EgoX는 장면을 처음부터 생성하는 대신, 기존 비디오를 재해석하고 캐릭터의 머리 속에서 그것을 재구성합니다.

이 논문의 저자들은 영화에 대해 허가되지 않은 VR 모드 같은 클립을 통해 효과를 보여줍니다. 주목할 만한 예시 중 하나는 크리스토퍼 놀란의 “다크 나이트”의 한 장면을 재구성하여 관찰자가 아닌 조커의 시각에서 경험할 수 있게 합니다. 또 다른 시퀀스는 평범한 어깨 너머 샷을 진정한 시점으로 전환하며, 현실감 있는 머리 움직임과 시선 변화가 포함됩니다.

EgoX는 완전히 새로운 세계를 환상적으로 창조하기보다는 기하학 기반 자기 주의(attention)에 의존합니다. 이 시스템은 원본 영상에서 3D 구조와 카메라 자세를 추정한 다음, 그 기하학을 발판으로 삼아 변환기가 새로운 시점에서 장면을 재구성합니다. 이러한 기하학적 우선순위는 모델을 제약하여 객체, 얼굴, 그리고 움직임이 꿈의 논리로 녹아들지 않고 일관성을 유지하도록 합니다.

그 기하학적 가이드라인이 중요한 이유는 단순하게 “1인칭으로 만들어라”는 필터가 연속성을 끊어버리는 경향이 있기 때문입니다. EgoX의 접근 방식은 벽, 소품 및 다른 캐릭터들이 실제로 공간에서 어디에 위치하는지를 유지하므로, 카메라가 움직일 때 패럴렉스와 차폐가 올바르게 작동합니다. 여전히 가장자리에서 신경 혼합 현상이 보이지만, 많은 현재 비디오 모델들이 겪고 있는 심각하고 장면을 깨뜨리는 환각은 나타나지 않습니다.

몰입형 미디어의 의미는 단순한 멋진 유튜브 트릭을 넘어섭니다. 스튜디오는 고전 영화를 재개봉할 때 선택 가능한 1인칭 트랙을 제공하여 시청자가 안전 해킹범의 시각에서 강도 사건을 보거나 우주 비행사의 헬멧을 통해 우주 유영을 경험할 수 있도록 할 수 있습니다. Documentarians는 같은 사건에 대한 평행적 관점 - 시위자, 경찰관, 기자 - 을 제공할 수 있으며, 어떤 것도 다시 촬영할 필요가 없습니다.

게임과 XR은 더욱 큰 혜택을 누릴 수 있습니다. 디자이너는 표준 3인칭 예비 영상에서 컷신을 차단한 다음, 동일한 안무에 맞는 플레이 가능한 1인칭 경험을 자동으로 도출할 수 있습니다. 메타, 애플 또는 소니의 헤드셋과 결합된 EgoX 스타일의 모델은 모든 평면 영상이 가벼운 준인터랙티브 XR 환경으로 변모하는 미래를 암시합니다.

이 모든 것은 여전히 연구 코드와 선택된 예제에만 존재하며, 생산 파이프라인에는 포함되지 않고 있습니다. 그럼에도 불구하고 EgoX는 Wan 2.6 및 Seedance 1.5 Pro와 함께 AI 비디오에서 관점구현이 후순위 개념이 아닌 핵심 제어 요소로 자리잡고 있다는 또 다른 신호로 깔끔하게 나란히 놓입니다.

광범위한 전쟁터: 업데이트의 물결

AI 비디오는 제품 카테고리라기보다는 실제 화재 훈련처럼 느껴진다. Wan 2.6과 Seedance 1.5 Pro는 진공 상태에서 등장한 것이 아니다; 그들은 텐센트의 훙위안 월드, 메타의 SAM 오디오, 그리고 신선한 GPT 이미지 업데이트와 함께 도착했으며, 이들은 모두 몇 주 내에 출시되었다. 이것이 모든 연구소가 동시에 다중 모달 우위를 쫓고 있는 무기 경쟁의 모습이다.

텐센트의 훈위안 월드는 지속적인 3D 스타일 환경과 인터랙티브한 장면을 추구하며, 완의 오디오-비디오 파이프라인이나 시댄스의 캡컷 우선 출시와는 다른 각도로 접근하고 있습니다. 메타의 SAM 오디오는 소리를 위한 세분화에 초점을 맞추어, 웨이브폼에 대해 Segment Anything이 픽셀에게 했던 것처럼, 더 스마트한 더빙, 폴리, 그리고 소리 인식 편집을 위한 기본 블록이 되고자 합니다. GPT 이미지 업데이트는 오픈AI를 프롬프트에서 스토리보드, 애니매틱으로 이동할 수 있는 단일 스택 시스템에 점점 더 가깝게 밀어주고 있으며, 이러한 과정에서 하나의 생태계를 떠나지 않습니다.

소라 대 “다른 모든 것들”이라는 서사가 아닌, 각 기업이 다채로운 멀티모달 스택의 서로 다른 영역을 선택하는 글로벌 스프린트처럼 보입니다. 알리바바는 스크립트에서 송, 그리고 장면으로 이어지는 워크플로우에 베팅하고, 바이트댄스는 틱톡 시대의 편집에 직결된 크리에이터 도구에 집중하며, 텐센트는 게임과 소셜이 뒤섞이는 세계 시뮬레이터에 주력하고 있습니다. 메타는 나중에 하나의 통합 미디어 엔진으로 연결될 수 있는 기본 모델—비전, 오디오, 세분화—을 지속적으로 선보이고 있습니다.

속도가 진정한 주제입니다. Wan은 몇 달 만에 2.5에서 2.6으로 뛰어 올라갔고, Seedance 1.5 Pro는 최소한의 화제로 CapCut에 등장했습니다. Meta와 OpenAI는 조용하지만 꾸준한 오디오 및 이미지 개선을 진행하고 있습니다. Wan의 오디오-비디오 변환 기능이나 EgoX 스타일의 POV 리매핑과 같은 기능은 현재 과학 소설처럼 보이지만 내년 초에는 소비자 편집기에서 기본 옵션으로 자리 잡을 수 있습니다.

새로운 창작자 경제: 다음에 일어나는 일은 무엇인가?

AI 비디오의 다음 단계는 단일 마법 모델보다는 다중 모달 입력, 내러티브 도구, 그리고 관점 해킹의 혼합처럼 보입니다. Wan 2.6은 오디오를 듣고, 가사와 대화를 추적하며, 주로 비트에 맞춰 15초 1080p 샷을 출력합니다. EgoX는 카메라 관점을 완전히 재구성하여, 3인칭 클립을 기하학적 지침에 따라 1인칭 시점으로 전환합니다.

그 변화는 제작자들을 타임라인을 편집하는 편집자가 아니라 AI 감독에 더 가까운 존재로 전환시킵니다. 장면을 설명하고, 트랙을 넣고, 어쩌면 참고 이미지를 추가하면, 완의 "지능형 멀티샷"과 같은 시스템이 어디를 자르고, 어떻게 구성을 할지, 어떤 캐릭터를 따라갈지를 결정합니다. 바이트댄스의 Seedance 1.5는 TikTok 제작자들이 이미 사용하는 도구인 CapCut을 통해 고급 생성 기능을 조용히 통합하여 같은 방향으로 나아가고 있습니다.

창의적인 작업은 주요 프레임 대신 제약 관리를 하는 것처럼 보이기 시작합니다. AI 감독은 다음과 같은 요소들을 조율할 수 있습니다: - 대본과 스토리보드 - 주연 캐릭터 및 장소의 라이브러리 - 음악, 음성 해설, 대화를 위한 오디오 스템 - 시점 선택: 3인칭, EgoX 스타일 관점, 또는 하이브리드

당신이 조정하면, 모델들이 필요에 따라 실행하고, 수정하며, 재구성합니다.

이 스택을 실제로 누가 제어하는지에 대한 큰 질문이 존재합니다. 현재 Alibaba, ByteDance, OpenAI 및 Tencent의 폐쇄형 시스템이 신뢰성과 사용성에서 빠르게 앞서 나가고 있는 반면, 오픈 소스 비디오는 일관성, 움직임 및 사운드에서 한 세대 뒤쳐져 있습니다. 만약 오픈 Wan 2.6급 모델이 등장한다면, 그것은 소비자 GPU에서 구동되나요, 아니면 미니 하이퍼스케일러와 의심스럽게 닮은 클라우드 집합체에서만 구동되나요?

새로운 미디어 형태는 거의 보장된 것처럼 보입니다. 오디오-비디오 변환과 시점 변환은 가수의 시선으로 점프할 수 있는 "재생 가능한" 뮤직 비디오나 팟캐스트 전사와 실시간으로 일치하는 자동 생성 B롤을 제안합니다. EgoX 스타일의 시점 편집은 어떤 캐릭터의 관점에서 다시 렌더링할 수 있는 인터랙티브 영화를 암시하며, 프레임을 다시 촬영할 필요가 없습니다.

현재 가장 혁신적인 요소는 완벽한 Sora 스타일의 시뮬레이션이 아니라 이러한 사실감 넘치는, 실제 제작 가능한 업그레이드들입니다. 신뢰할 수 있는 입술 동기화, 15초 멀티샷 시퀀스, 재사용 가능한 캐릭터, 그리고 관점 전환이 기존 워크플로우에 바로 통합됩니다. 스튜디오, 유튜버, 그리고 브랜드는 완벽한 가상 세계를 필요로 하지 않습니다; 그들은 오늘 바로 출력할 수 있는 AI 어시스턴트를 필요로 합니다.

자주 묻는 질문

Wan 2.6은 다른 AI 비디오 모델과 무엇이 다른가요?

주요 차별점은 정확한 입 모양 동기화가 구현된 고급 오디오-비디오 생성, 하나의 프롬프트에서부터 시작되는 지능형 멀티샷 스토리텔링, 상업 등급의 캐릭터 일관성을 위한 '출연' 기능입니다.

완 2.6이 OpenAI의 소라보다 더 낫나요?

다릅니다. Sora는 긴 물리적으로 일관된 장면에서 뛰어난 반면, Wan 2.6은 오디오 동기화, 내러티브 제어, 캐릭터 재사용과 같은 실제적이고 제작 중심의 기능에 중점을 두어 Kling과 같은 모델에 더 가까운 경쟁자가 됩니다.

Seedance 1.5 Pro에 어떻게 접근할 수 있나요?

Seedance 1.5 Pro는 현재 조용히 출시되고 있으며, 주로 ByteDance의 비디오 편집기인 CapCut 내에서 특정 지역이나 계층에서 사용할 수 있습니다. 독립된 플랫폼으로 제공되지 않습니다.

EgoX 연구 논문은 무엇에 관한 것인가요?

EgoX는 기존의 3인칭 비디오 영상을 1인칭 시점(POV)으로 변환할 수 있는 새로운 AI 모델로, 카메라의 시각을 재구성하여 몰입감 있는 경험을 만들어냅니다.

Frequently Asked Questions

새로운 창작자 경제: 다음에 일어나는 일은 무엇인가?
AI 비디오의 다음 단계는 단일 마법 모델보다는 다중 모달 입력, 내러티브 도구, 그리고 관점 해킹의 혼합처럼 보입니다. Wan 2.6은 오디오를 듣고, 가사와 대화를 추적하며, 주로 비트에 맞춰 15초 1080p 샷을 출력합니다. EgoX는 카메라 관점을 완전히 재구성하여, 3인칭 클립을 기하학적 지침에 따라 1인칭 시점으로 전환합니다.
Wan 2.6은 다른 AI 비디오 모델과 무엇이 다른가요?
주요 차별점은 정확한 입 모양 동기화가 구현된 고급 오디오-비디오 생성, 하나의 프롬프트에서부터 시작되는 지능형 멀티샷 스토리텔링, 상업 등급의 캐릭터 일관성을 위한 '출연' 기능입니다.
완 2.6이 OpenAI의 소라보다 더 낫나요?
다릅니다. Sora는 긴 물리적으로 일관된 장면에서 뛰어난 반면, Wan 2.6은 오디오 동기화, 내러티브 제어, 캐릭터 재사용과 같은 실제적이고 제작 중심의 기능에 중점을 두어 Kling과 같은 모델에 더 가까운 경쟁자가 됩니다.
Seedance 1.5 Pro에 어떻게 접근할 수 있나요?
Seedance 1.5 Pro는 현재 조용히 출시되고 있으며, 주로 ByteDance의 비디오 편집기인 CapCut 내에서 특정 지역이나 계층에서 사용할 수 있습니다. 독립된 플랫폼으로 제공되지 않습니다.
EgoX 연구 논문은 무엇에 관한 것인가요?
EgoX는 기존의 3인칭 비디오 영상을 1인칭 시점으로 변환할 수 있는 새로운 AI 모델로, 카메라의 시각을 재구성하여 몰입감 있는 경험을 만들어냅니다.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts