Skip to content

AI Video가 Prompt Box를 종식시켰다

Dreamina의 새로운 Octo 워크플로우는 AI video를 단순한 텍스트 프롬프트를 넘어선 완전한 장면 빌더로 변화시키고 있습니다. 그러나 업계가 agentic workflows로 전환함에 따라, 이 기술은 과연 크리에이터들을 위해 준비되어 있을까요?

Stork.AI
Hero image for: AI Video가 Prompt Box를 종식시켰다

요약 / 핵심 포인트

Dreamina의 새로운 Octo 워크플로우는 AI video를 단순한 텍스트 프롬프트를 넘어선 완전한 장면 빌더로 변화시키고 있습니다. 그러나 업계가 agentic workflows로 전환함에 따라, 이 기술은 과연 크리에이터들을 위해 준비되어 있을까요?

Prompt Box는 종식되었다

AI video 생성을 위한 단독 Prompt Box 시대는 끝났습니다. Dreamina의 새로운 Octo 워크플로우는 Seedance 2.0과 통합되어, 고립된 텍스트 입력을 넘어 포괄적인 ‘agentic canvas’로 나아가는 근본적인 변화를 예고합니다. 이러한 변화는 크리에이터가 AI와 상호 작용하는 방식을 재정의하며, 단일 클립 생성에서 통합된 인터페이스 내에서 복잡한 다중 자산 장면 구축으로 발전합니다.

Octo는 복잡하고 다면적인 명령을 해석하여 사용자가 단일 지시를 통해 다양한 자산을 동시에 생성할 수 있도록 합니다. 예를 들어, 느와르 탐정 시나리오를 생성하라는 명령은 "Jack the Shadow Corrigan"과 "Evelyn the Enigma Reed"의 캐릭터 시트뿐만 아니라, 팜므파탈이 사무실에 들어와 탐정을 고용하는 모습을 묘사하는 다중 패널 스토리보드도 생성할 수 있습니다. 이러한 agent-driven approach는 이전에 수많은 개별 프롬프트와 반복적인 조정이 필요했던 작업을 간소화합니다.

이 새로운 워크플로우는 창의적인 아이디어 구상과 자산 생산을 통합하여 상당한 효율성 향상을 약속합니다. 초기 시연에서는 Octo의 즉각적인 "쿨 팩터"를 강조합니다. Octo는 외모, 성격, 심지어 기본적인 아크를 포함한 정교한 캐릭터 프로필을 성공적으로 만들고, 서사 진행을 묘사하는 순차적인 스토리보드 패널도 함께 생성합니다. 이 초기 약속은 AI video 프로젝트를 구상하고 실행하는 강력한 새로운 패러다임을 보여주며, 창의적인 파이프라인을 근본적으로 변화시키고 단순한 text-to-video를 넘어섭니다.

Agentic AI가 제대로 작동하지 않을 때

Octo의 베타 버전은 혁신적인 접근 방식에도 불구하고 실행에서 자주 실패합니다. 초기 테스트에서는 상당한 시각적 불일치가 드러났습니다. 스토리보드는 종종 흑백과 색상을 혼합하여 장면 내에서 뚜렷한 spatial awareness 부족을 보여줍니다. 캐릭터 연속성도 문제가 있는데, "Corrigan"과 같은 인물이 프레임 사이에서 모자를 갑자기 잃어버리더라도 그림자는 계속 남아있습니다.

야심찬 캔버스 아래에서, Octo의 agentic AI는 종종 성능이 부족하다고 느껴집니다. 내러티브 일관성을 유지하는 데 어려움을 겪으며, 광범위한 사용자 개입이 필요한 혼란을 보입니다. ByteDance의 Seed로 추정되는 기본 LLM은 복잡한 지침을 일관되게 파악하지 못하여, 예상치 못한 캐릭터 대체나 오해(예: 주인공을 부하와 혼동하는 것)로 이어집니다.

이러한 에이전트는 끊임없는 수정이 필요하며, 혼란을 해결하기보다는 "새로운 인터페이스로 혼란을 밀어 넣는" 격입니다. AI가 경로를 벗어난 후, 사용자는 생성된 요소(예: 캐릭터 시트)를 원래 비전에 맞게 수동으로 다듬어야 하며, 이는 창의적인 흐름을 문제 해결 연습으로 바꿉니다.

워크플로우의 추가적인 마찰은 Octo가 기본적으로 ByteDance의 자체 이미지 생성기인 Seedream에 의존한다는 점에서 발생합니다. Nano Banana Pro 및 Image 2와 같은 우수한 대안이 Dreamina 플랫폼 내에서 쉽게 사용할 수 있음에도 불구하고, 시스템은 일관되게 Seedream을 우선시합니다. 이는 사용자가 더 높은 품질의 결과물을 얻기 위해 복제하고 다시 프롬프트를 입력하도록 강제하여, 이미 까다로운 창작 과정에 불필요한 단계를 추가합니다. 에이전트의 현재 상태는 상당한 manual oversight를 요구하며, 자율적인 장면 구축이라는 약속을 훼손합니다.

NVIDIA의 AI Physics 장악 시도

에이전트 캔버스에서 초점을 옮겨, NVIDIA는 물리적 AI를 위한 선구적인 기반으로 설계된 오픈 AI 월드 모델인 Cosmos-3를 들고 전면에 나섰습니다. 이것은 단순히 또 다른 비디오 생성기가 아닙니다. Cosmos-3는 물리학, 움직임, 행동을 본질적으로 이해하는 세계를 생성하는 것을 목표로 합니다. NVIDIA는 이를 전체 AI 비디오 생태계를 위한 필수적인 "물리학 부서"로 구상하고 있습니다.

NVIDIA의 전략은 명확합니다. 최고의 "AI 카메라"를 만드는 것이 아니라, 기본 인프라를 제공하는 것입니다. Cosmos-3는 물리적 추론, 세계 생성, 행동 생성을 단일 모델 내에 통합합니다. Omni-Model 아키텍처는 텍스트, 이미지, 비디오, 오디오 및 행동을 유연하게 처리하여 생성된 환경이 실제 물리 법칙을 준수하도록 보장합니다.

이러한 야망을 강화하기 위해 NVIDIA는 Cosmos Coalition을 결성했습니다. Runway 및 Black Forest Labs와 같은 파트너들이 참여하여 현실적인 AI를 위한 기반 레이어를 향한 공동의 노력을 보여주고 있습니다. 특히 Black Forest Labs는 Martin Scorsese에게 Flux 모델을 시연하여, 초기 에이전트 도구에서 볼 수 있었던 시각적 불일치를 넘어, 실제에 기반을 둔 물리적으로 일관된 AI 창작물에 대한 업계의 열망을 강조했습니다. Cosmos-3 Nano (16B 매개변수)와 Cosmos 3 Super (64B 매개변수)는 이 복잡한 작업을 위한 확장 가능한 솔루션을 제공합니다.

할리우드와 오픈소스의 충돌

Martin Scorsese가 최근 사전 제작에 **Black Forest Labs의 Flux**를 채택한 것은 영화 제작에서 AI의 중요한 순간을 알립니다. 전설적인 감독의 이러한 지지는 단순한 신기함이 아닙니다. 이는 AI를 필수적인 고수준 창작 도구로 깊이 있게 정당화하며, 단순한 실험을 넘어 주류 영화 제작 워크플로의 핵심으로 들어서게 합니다. Flux는 복잡한 내러티브 계획을 지원하고, 전례 없는 속도와 유연성으로 장면과 스토리보드를 시각화하는 데 도움을 주는 능력을 입증하여, 가장 안목 있는 창작자들에게도 AI의 유용성을 증명했습니다.

고급 비디오 생성을 더욱 민주화하기 위해 ByteDance는 최근 "비디오를 위한 Google Omni"로 평가받는 오픈소스 모델인 **Bernini**를 출시했습니다. Bernini는 정교한 계획 및 편집 기능을 도입하여 사용자가 복잡한 비디오 시퀀스와 카메라 움직임을 개략적으로 설명할 수 있게 함으로써, 독점적인 인프라 없이도 강력한 다중 샷 비디오 생성을 가능하게 합니다.

궁극적으로 AI 비디오의 미래는 하나의 완벽하고 포괄적인 도구에 의존하지 않습니다. 대신, 우리는 계획, 세계 구축, 물리 시뮬레이션, 고품질 렌더링 등 각기 다른 영역에서 탁월한 성능을 발휘하는 모델들의 복잡하고 전문화된 생태계가 형성되는 것을 목격하고 있습니다. 이러한 모듈식의 상호 연결된 접근 방식은 영화 제작자와 창작자 모두에게 전례 없는 창의적 제어와 복잡성을 약속합니다.

자주 묻는 질문

Dreamina의 Octo는 무엇인가요?

Octo는 Seedance 2.0 비디오 모델을 위한 새로운 에이전트 캔버스 워크플로입니다. 이는 AI 장면 빌더로 기능하도록 설계되어, 사용자가 단일 인터페이스 내에서 복잡한 지침으로부터 캐릭터 시트, 스토리보드 및 비디오 클립을 생성할 수 있도록 합니다.

에이전트 워크플로는 AI 비디오 제작을 어떻게 변화시키나요?

하나의 클립에 대한 단일 프롬프트를 작성하는 대신, 에이전트 워크플로는 제작자가 여러 자산에 대해 더 넓은 지침을 제공할 수 있도록 합니다. 그러면 AI 에이전트가 일련의 일관된 이미지, 캐릭터 시트 및 스토리보드를 계획하고 생성하여, 프로세스를 전통적인 계획 및 편집에 더 가깝게 만듭니다.

NVIDIA Cosmos-3는 무엇인가요?

NVIDIA Cosmos-3는 움직임, 물리학, 행동을 이해하도록 설계된 물리적 AI 파운데이션 모델입니다. 영화 같은 비디오를 직접 제작하기 위한 것은 아니지만, AI 시뮬레이션, 로봇 공학, 미래 비디오 모델을 위한 근본적인 '물리학 부서' 역할을 하여 더욱 사실적인 세계 생성을 가능하게 하는 것을 목표로 합니다.

마틴 스코세이지는 왜 AI를 사용할까요?

마틴 스코세이지는 사전 제작 스토리보딩을 위해 Black Forest Labs의 Flux 모델을 사용하고 있습니다. 이를 통해 그는 장면을 빠르게 시각화하고 자신의 창의적인 비전을 출연진과 제작진에게 더욱 효율적으로 전달할 수 있으며, 이는 할리우드에서 AI가 도구로서 점점 더 수용되고 있음을 나타냅니다.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀더 알아보기

AI 트렌드를 앞서가세요

Stork.AIが엄선한 최고의 AI 도구, 에이전트, MCP 서버를 만나보세요.

P.S. 쓸 만한 걸 만드셨나요? Stork에 등록

모든 게시물로 돌아가기