Wan 2.6とSeedance 1.5：AI動画生成の新時代

💡

TL;DR / Key Takeaways

アリババが最近発表したのは、AIビデオモデル「Wan 2.6」です。これは歌を歌い、複数のショットで物語を語り、驚くべきキャラクターの一貫性を提供します。しかし、バイトダンスや驚異的な新しい視点技術も登場しており、ソラの座を奪う競争が激化しています。

AIビデオレースが再び火が灯った

AI動画の世界が予測可能になり始めた頃、AlibabaのWan 2.6がその常識を覆しました。Wan 2.5の数ヶ月後にリリースされたこの新しいモデルは、15秒の1080pクリップに対応し、「テキストから動画」というツールの持つ可能性を再定義します。OpenAIのSoraと完全に同じ道を追うのではなく、Wan 2.6はKlingの01モデルに近い感覚がありますが、物語の構造や音に対する焦点がより鮮明です。

以前のジェネレーターが無音や既存の音楽クリップを出力していたのに対し、Wan 2.6はオーディオを一級の入力として扱います。Sunoが生成した曲やサンプルの音声トラックを入力すると、複数のシーンでリップシンクし、ペーシングに合わせ、歌詞から引き出した画面上のテキストまで表示されるビジュアルを構築します。あるテストでは、「シナジー、イノベーション、成長」といった企業用語がオーディオ内にのみ存在し、書かれたプロンプトには含まれていない状態でモデルがレンダリングしました。

マルチモーダリティはもはや「後から音楽を追加すること」を意味しません。Wan 2.6は、音声、テキスト、画像を一つのワークフローに結びつけています。テキストのプロンプト、アップロードされた参照画像、またはニュース放送のクリップから始めることができ、システムがカメラの動き、編集、ダイアログのタイミングを推測します。「ナイト・オブ・ザ・リビング・デッド」のテストシーケンスでは、モデルがニュースキャスターのスピーチを信じられるような口の動きで追跡している様子が示されており、奇妙な巨大なマイクがフレーム内に現れるというハルシネーションも見られます。

真正な変化はナラティブコントロールです。Wan 2.6は、全てのショットをリセットとして扱うのではなく、空間レイアウトやキャラクター配置を理解しようとするインテリジェントなマルチショット生成を導入しました。「スマートマルチショット」トグルを使用することで、モデルは以下を実現します： - カット間で部屋の地理を維持する - アングル間のマッチカットを試みる - 時折新しいキャラクターを創造するが、ライティングやムードは一貫性を保つ

これらすべてが、AIビデオ競争の次のフェーズを準備しています：ウイルス的なクリップのルーレットではなく、実用的なストーリーテリングです。Wanの次期「Starring」キャラクターシステムや、ByteDanceのCapCut内でのSeedance 1.5 Proの導入、EgoXによる三人称から一人称への変換に関する研究は、同じ方向を指しています。目標はもはやフォトリアルなスペクタクルだけではなく、クリエイターにシーンに登場する人物、彼らのセリフ、そして各ショットが次のショットにどのように流れるかを詳しく制御できるようにすることです。

あなたの言葉、あなたの歌、それが映画。

あなたのプレイリストは今、自己ストーリーボードを作成できます。Wan 2.6のハイライト技術は音声から映像への生成です。完成した楽曲や会話のクリップを入力すると、モデルがすべてのビート、音節、ポーズに合わせた映像を構築します。Alibabaは各レンダリングを15秒で制限していますが、クリップを連結することができるため、3分の曲をマルチショットのAIカットミュージックビデオに変えることができます。

Sunoで生成された曲を使ったテストでは、Wan 2.6が4つの別々のクリップを作成しましたが、それらは1つのまとまりのあるビデオのように感じられました。各ヴァースの交換やインストゥルメンタルのブレイクが新しいビジュアルアイデアを引き起こしましたが、メインキャラクターとカメラスタイルは十分に一貫していて、低予算ながらも統一感のあるミュージックビデオ編集として通用しました。

リップシンクが際立っています。4つのクリップすべてで、口の形がSunoのボーカルに驚くほど正確に追従しており、通常は現在のAIビデオモデルを混乱させる速いフレーズでも問題ありませんでした。このモデルは子音や口を閉じた音を convincingly に処理し、以前の生成モデルに悩まされていたぼやけた人形のような動きを回避しました。

理解は口を超えています。未使用のショットの一つで、Wan 2.6は企業のオフィスを浮かぶ流行語で満たしました—「シナジー」、「イノベーション」、「成長」—曲の労働文化への批判と一致しており、明示的な指示はありません。このような意味の整合性は、システムが音素だけでなく、音声の意味や雰囲気も解析していることを示唆しています。

最も奇妙なフレックスは、画面上のテキストから生まれました。別のクリップでは、Wan 2.6がシーン内にダイジェティックテキストとして歌詞を表示しましたが、その言葉はテキストプロンプトには一切現れていませんでした。それらの言葉はオーディオファイルにのみ存在し、モデルが内部的な転写ステップを実行し、その後それらの言葉をビデオに織り交ぜていることを示唆しています。

ミュージシャンにとって、これが作業の流れを一変させます。SunoやDAWでトラックを書いて録音し、その後仕上げたWAVファイルをWan 2.6に投げ込むと、すぐにBロールやパフォーマンスショット、抽象的なビジュアルのバンクを得て、フルビデオに編集できます。カメラもセットも不要で、プロンプトの調整と再レンダリングだけで済みます。

ポッドキャスターやストーリーテラーも同様のアップグレードを受けます。ナarrティブモノローグ、インタビューセグメント、またはフィクションのオーディオドラマが生まれることがあります：

1キャラクター主導のリアクションショット
2シーンの設定とカットアウェイ
3スタイライズされたタイトルカードと画面上の引用

それにより、Wan 2.6はビデオフィルターというよりも、すでに持っている任意の音声のための常時オンのビジュアライザーのように感じられます。

ピクセル以上：世界観を持つAI

華やかなデモリール以上のものであるWan 2.6は、描写しようとしている世界を実際に「理解している」システムのように振る舞います。クリエイターの月曜日の通勤をテーマにした「企業ディストピア」ビデオでは、このモデルは高速道路やセダンを単に描写するだけでなく、魂を押しつぶすようなオフィスカルチャーの雰囲気に寄り添い、輝く広告看板や抑圧的なガラスのタワーが、まるで『セバランス』やそれに近いSFから引き抜かれたかのように感じさせます。

テキストは歴史的にAI動画のアキレス腱でしたが、Wan 2.6は企業用の専門用語を不気味なまでの正確さで織り交ぜています。画面上のサインは、読みやすいフォントで「シナジー」、「イノベーション」、そして「成長」を明確に示し、表面や撮影角度に合わせて配置されています。1080pおよび24fpsでよく見られる一般的な意味不明の言葉で満たされることはありません。

スペルよりも興味深いのは風刺です。これらのバズワードは偶然出現するわけではなく、曲の歌詞やトーンにマッチした無機質なオフィスのファサードやカンファレンスコールのオーバーレイに載せられています。歌詞はオーディオトラックの中にしか存在しないにもかかわらず、Wan 2.6はサウンドトラックを解析し、「企業的ディストピア」の通勤のムードを推測し、単に言葉をフレームに貼り付けるのではなく、意味理解を展開します。

物理学も一歩前進しています。渋滞の中の車は、信じられるタイミングで加速し、ブレーキをかけ、カメラの動きは視差を尊重し、キャラクターの動きは特に15秒のショットにおいてゴムのような混乱に陥ることはほとんどありません。物体はカットを跨いでも質量と連続性を保ち、全体が貼り合わせたGIFではなく、1つのシミュレートされた空間のように感じられます。

その後、モデルはデヴィッド・リンチの領域に突入します。ツイン・ピークス風の「ダイナーにいるFBI捜査官」というプロンプトを使用すると、一つの実行ではエージェント、コーヒー、そしてパイのある地に足の着いたシーンが展開されます。一方、同じテキストで別の実行を行うと、奇妙で夢のようなタブローに変化し、顔、客、セットの装飾が超現実的なパッチワークに溶け込んでいきます。この雰囲気はリンチの叫び声のようであり、プロンプトが彼の名前を決して出さなくてもそうです。

そのボラティリティは、Wan 2.6が歩んでいるラインをさらけ出しています：向上した世界モデルは、壊れているというよりは解釈的に感じられる偶発的なハルシネーションを伴います。これらのクリップは、単にピクセルを見るだけでなく、参照、トロープ、文化的ショートハンドを代謝するモデルをほのめかしています。アリババのWan AI Creation Platform – Wan 2.6 Video Generationは、シーンがどのように見えるかだけでなく、それが何を意味するかを理解するシステムへのまさにこのシフトを提案しています。

あなたのAI共演者に出会おう：『スターリング』革命

キャラクターの一貫性はAI動画の欠けていた部分であり、Wan 2.6の新しい主演機能はそこに直球でアプローチします。一度限りの顔がカット間でぼやける代わりに、キャラクターを固定し、シーン、プロンプト、さらには異なる動画に引きずることができるようになりました。物語のクリエイターは、見知らぬ人たちのスロットマシンではなく、ようやく繰り返し登場するキャストに近いものを手に入れました。

ワンはこれらの再利用可能なパフォーマーを「スター」と呼び、ワークフローはプロンプトを与えるというよりもキャスティングに近いと感じられます。約5〜10秒のクリアな映像を含む短い参照クリップをアップロードすると、ワンはその背後でキャラクター埋め込みをトレーニングします。そのスターは後の生成で選択可能なオプションとして現れ、「ニキをネオンの光が灯る路地に置く」や「ニキをニュースルームにカットする」という指示が同じデジタルアクターに解決されます。

デモでは2人のキャラクターが使用されています：感情的でスタイライズされたシーンで紹介されたニキという女性と、ノワールに近い設定で sharply dressed な男性イドリスです。一度トレーニングされると、両者は顔の構造、髪型、全体の雰囲気を失うことなく無関係なプロンプトの中で再登場します。マルチショット生成では、カメラがクローズアップからワイドに移動しても、ニキをモデルのまま保つことができ、これは以前のモデルでは頻繁に失敗していました。

スターリングは、ダイアログや音声-映像の組み合わせとも相性が良いです。スターを割り当て、Wanに音声トラックを提供することで、参照となるビジュアルと新しい音声に合った演技を得ることができます。物語の観点から言えば、クリエイターは一度主人公を固定し、その後、毎回顔を再生成することなく、数十のシーンを繰り返し作成できるということです。

発売日の現実は、まだベータ版のように見える。モデルは時折漂い、顔のディテールがぼやけたり、場面ごとにキャラクターがやや老けたりすることがある。特に混沌としたプロンプトではその傾向が顕著だ。複数キャラクターのシーンではさらに混乱し、ニキとイドリスが特徴を融合させたり、背景のエキストラがスターに似てくることもある。

対話には独自の奇妙さがあります。クリエイターが英語のみのセリフを求めると、ワンは時折、モノリンガルなスクリプトにもかかわらず、英語と予期しない中国語のフレーズを含むバイリンガルな対話を吐き出します。このバグは、マルチキャラクターのシーンでより顕著に現れ、一つの声がやり取りの途中で言語を変えるため、他の部分でしっかりしたリップシンクが崩れてしまいます。

そのような不具合があっても、主演は重要です。シリーズを構築したり、定期的なホストを持ったり、フィクションの宇宙を作り上げたりするには、一時的なクリップではなく、継続性が必要です。Wan 2.6は、キャラクターを事故のようにスクリーンショットするのではなく、保持する資産として扱う初の主流モデルです。

クリップを超えて：AIとしてのストーリーボードアーティスト

AIストーリーボードアーティストに監督のエゴを持たせたものと呼んでください。Wan 2.6の「インテリジェント・マルチショット」モードは、単一のプロンプトや画像を受け取り、一連のカットを生成します： establishing shot、オーバー・ザ・ショルダー、リアクションのクローズアップ、時には驚きの挿入カットまで。15秒のクリップを手動で編集するよう求めるのではなく、人間の監督がシーンを計画するのと同じように、カバレッジを事前にパッケージ化します。

アリババはこれをテキストから動画、画像から動画に組み込んでいます。「うつ病についての映画」テストでは、テーブルにいる二人の男の静止画像がミニ編集に変わります：広いアングルから始まり、次に狭いアングル、そして新しいキャラクターに切り替わります。スマートマルチショットをオフにすると、1回の連続ショットになります。一方、オンにするとWan 2.6がどこでカットし、どのようにフレームを再設定するかを決定し、対話とタイミングを保ちながら行います。

それにより、Wan 2.6はSoraとは構造的に異なります。OpenAIのモデルは、一貫した3Dの世界を滑らかに移動する長い連続ショットに優れていますが、プロンプトごとに1ショットしか得られません。一方、Wanはカバレッジエンジンのように振る舞います：短い15秒のチャンク、複数の角度、暗示的なストーリービートがあります。Soraはバーチャル・スタビカムのように感じられ、Wan 2.6はラフカットのように感じます。

戦略的に見ると、アリババはクリングのナarrative-firstアプローチにさらに近づいています。クリングの01モデルは、純粋なスペクタクルよりもショット計画、カメラの動き、ストーリー構造を重視しています。ワン2.6も同様に、シーンのつながりや、キャラクターがアングル間でどのように持続するか、そして環境が単一のフレーム内だけでなく、シーケンス全体で一貫して感じられることを優先しています。

空間の一貫性が真のテストとなる。画像から動画への抑うつシーンでは、ワンはカット間でテーブル、照明、全体の構図を安定させつつ、カメラを振り回している。制作者は、マッチカットについて「完璧」ではなく「まあまあ」と述べており、一つの移行が不自然に感じられ、遅れて現れる女性が元の構図ではあり得るにもかかわらず、実際にはどこからともなく現れるように効果的に思える。

複数の試行を通じて、Wan 2.6は主に主要な要素—キャラクターの服装、部屋のレイアウト、レンズスタイル—を保持していますが、細部に関してはまだ不完全です。手や小道具、背景のエキストラは角度によって変化することがあり、新しいキャラクターがシーケンスの最後の数フレームに突然現れることもあります。Soraの一発ショットの一貫性と比べると、これははるかに混沌としていますが、ストーリーボード作成の観点から、一つのプロンプトから機械が完全なショットリストを生成することは、より革新的なアップグレードと言えるでしょう。

AIが崩壊する時: 現実チェック

Wan 2.6のようなモデルは、一見魔法のように見えますが、そうでなくなります。少し押してみると、継ぎ目が見えてきます。地に足のついたニュースキャスターのショットが、突然画面右から巨大で意味不明なマイクが突き出てきたり、背景にホラー映画のようなエネルギーを持つエキストラが現れたりします。「ツインピークスのダイナー」テストでは、全く同じテキストプロンプトが異なる二つのシーンを生み出しました。一つは現実的で、もう一つはまさにリンチ的な熱狂の夢のようでした。

それらの失敗は単なる不具合ではなく、プロンプトの解釈がどのように狂ってしまうかを浮き彫りにしています。Wan 2.6 は「ダイナーのFBI捜査官」と聞くと、時には一貫した二人のショットを出し、時にはシュールで過度にスタイライズされた情景を提供しますが、目的とする雰囲気を欠いています。出力は技術的には洗練されていますが、文脈的には混乱しています。

「火炎放射器の少女」のクリップは、この乖離の最も明確な例です。スタイライズされたアクションショットを要求すると、ワン2.6は女性、火、モーションブラー、映画的なフレーミングで応じますが、火炎放射器の物理法則は抽象的な混沌に崩壊し、火がどこからともなく噴き出し、プロップがフレーム間で歪みます。モデルはスペクタクルを見事に表現しつつ、基本的な原因と結果を掴み損ねています。

クリエイターはすぐに、プロンプトエンジニアリングが選択肢ではないことを学びます。たいてい次のことが必要です： - 同じプロンプトの複数回の再生成 - 言葉やショットの説明を微調整すること - 15秒のクリップを一貫性のあるものに結合するための手動編集

それでも、結果はサンプリングプロセスに組み込まれた運の要素に依存します。設定が同一の二回の実行でも、キャラクターのブロッキング、バックグラウンドアクター、またはモデルがあなたの「グラウンデッド」リクエストをどれだけ真剣に受け取るかによって異なる場合があります。

これらの失敗に基づく興奮を捉えることが重要です。Wan 2.6やSeedance 1.5 Proは、Dreamina by CapCut – Seedance 1.5 Pro AI Videoを通じて、すでに攻略コードのように感じられますが、彼らは信頼性のあるコラボレーターではなく、ボタン一つで動く生産ラインではありません。実験的なツールとして、完成したパイプラインではなく、それらを扱うクリエイターが最も価値を得られ、最も少ない悪夢のようなマイクロフォンに悩まされることになるでしょう。

バイトダンスのシーディアンス1.5による stealth attack

バイトダンスは異なるゲームを進めています。アリババが旗艦モデル「Wan 2.6」を大々的に発表する中、バイトダンスはひっそりと「Seedance 1.5 Pro」をCapCutを通じて世に送り出しましたが、ほとんど注目されず、混乱した命名と地域制限のあるアクセスがありました。一部のユーザーは「AI動画3.5」というラベルを見ており、他のユーザーはSeedanceに言及しており、明確な独立した製品ページや研究論文は存在しません。

Seedanceを目的地として推進する代わりに、ByteDanceはそれをTikTokのクリエイター、YouTuber、Shortsエディターのワークフローにすでに組み込まれている編集アプリCapCutに直接接続しました。新しいラボインターフェースに移動するのではなく、CapCut内の「AI動画」をクリックするだけで、オンデマンドでスタイライズされた短いクリップを生成できるトップクラスのモデルを操作することができます。この統合により、通常の「待機リストとDiscord」のサイクルを飛ばし、数億回インストールされたツールに高度な生成機能を投入することができます。

これはAIビデオのクラシックなトロイの木馬戦略です。Seedance 1.5 Proを親しみのあるエディターの中に隠すことで、ByteDanceは、アーキテクチャよりも結果を重視するクリエイター向けに、実験的なモデル機能を日常的なボタンに変えました。これにより、同社は研究所のハイプループを効果的にバイパスし、短編フォーマットのエコシステム内でリテンション、視聴時間、クリエイター向けツールに直接アクセスしています。

共有されたプロンプトに関するテストでは、SeedanceはWan 2.6と同じレベルに位置付けられましたが、異なるバイアスがあります。Wanはシネマティックで15秒の1080pのストーリーテリングを目指しているのに対し、Seedanceはパンチの効いたTikTokに適したショットを重視し、攻撃的な色彩、シャープな動き、圧縮や縦のトリミングにも耐えるスタイライズされた顔を特徴としています。キャラクター主導のクリップにおいて、SeedanceはWanの主演スタイルの一貫性にはまだ達していませんが、素早いリアクションショット、ズーム、ReelsやTikTokに自然に感じられる編集を巧みに処理しています。

Seedanceの強みは、スピードと「十分な」信頼性を持つソーシャルビデオにあります。CapCutのユーザーは以下を行うことができます： - 短いテキストから動画クリップを生成 - 既存の映像にAI変換を適用 - 複数のAIショットをタイムライン上で直接連結

そのワークフローにより、Seedance 1.5 Proは研究のマイルストーンというよりもインフラ構築の手段になっています。これは、ほとんどの視聴者が何かが変わったと気づく前に、AI支援の動画でショートフォームフィードを溢れさせるように設計された静かに展開されたエンジンです。

今、あなたが主人公です：EgoXの視点のシフト

AI動画における主人公エネルギーは、今や文字通りの技術的意味を持つ。新しい研究プロジェクトであるEgoXは、モデルが通常の三人称の映像を引き出し、自分がカメラを装着しているかのように説得力のある一人称視点に変換できることを示している。EgoXはゼロからシーンを生成するのではなく、既存の映像を再解釈し、キャラクターの頭の中から再構築する。

論文の著者たちは、映画のための無許可のVRモッドのように感じられるクリップを通じてその効果を示しています。ひとつの際立った例は、クリストファー・ノーランの「ダークナイト」のシーンを再構築し、観客としてではなく、ジョーカーの視点から体験させるものです。別のシーケンスでは、日常的な肩越しのショットが真のPOVに変わり、信じられる頭の動きや視線の変化が加えられています。

EgoXは完全に新しい世界を作り出すのではなく、幾何学に基づく自己注意機構に依存しています。このシステムは、元の映像から3D構造とカメラのポーズを推定し、その幾何学を足場として使用しながら、トランスフォーマーが新しい視点からシーンを再レンダリングします。これらの幾何学的な先行情報はモデルを制約し、オブジェクトや顔、動きを一貫させ、夢の論理に溶け込むことを防ぎます。

そのジオメトリーガイダンスは重要です。なぜなら、単純な「これを一人称にする」というフィルターは連続性を壊してしまうからです。EgoXのアプローチは、壁や小道具、他のキャラクターが実際に空間にどこに位置しているのかを保持します。カメラが振動するとき、視差と隠蔽は正しく機能します。エッジには依然として神経的なぼやけが見られますが、多くの現行ビデオモデルを悩ませている重い、シーンを壊す幻覚は見られません。

没入型メディアにおいて、その影響は単なるクールなYouTubeトリックを超えています。スタジオはクラシックな映画を再リリースし、視聴者が安全破りの視点から強盗を見たり、宇宙飛行士のヘルメット越しに宇宙遊泳を体験したりできるオプションの一人称トラックを提供することができます。ドキュメンタリー制作者は、同じ出来事の異なる視点—抗議者、警察官、ジャーナリスト—を再撮影することなく提供することができます。

ゲームおよびXRはさらに多くの恩恵を受けることが期待されます。デザイナーは標準的な三人称のプレビューでカットシーンをブロックアウトし、その後、同じ振り付けに合ったプレイ可能な一人称体験を自動的に導き出すことができます。Meta、Apple、またはSonyのヘッドセットと組み合わせることで、EgoXスタイルのモデルは、任意のフラットな動画が軽量で準インタラクティブなXR環境に変わる未来を示唆しています。

これらすべては、まだ研究コードや厳選された例に留まっており、実際のプロダクションパイプラインには組み込まれていません。しかし、EgoXはWan 2.6やSeedance 1.5 Proと並んで、視点や具現化がAI動画における中核的なコントロールとなりつつあることを示すもう一つのサインです。これは軽視されるものではありません。

広がる戦場：一連のアップデート

AI動画は、製品カテゴリーというよりも、実践の場のように感じられます。Wan 2.6とSeedance 1.5 Proは、空白の中に登場したわけではありません。これらは、TencentのHunyuan World、MetaのSAM Audio、そして数週間のうちに発表された新しいGPTの画像アップデートと共に登場しました。これが、すべてのラボが同時にマルチモーダルの優位性を追い求めている時の軍拡競争の姿です。

テンセントのHunyuan Worldは、持続的な3Dスタイルの環境やインタラクティブなシーンを追求しており、ワンのオーディオからビデオへのパイプラインやSeedanceのCapCut優先の展開とは異なるアプローチを取っています。メタのSAM Audioは、音のセグメンテーションに焦点を当てており、波形に関してはSegment Anythingがピクセルに対して行ったことを目指しており、スマートなダビング、フォーリー、音に配慮した編集のための基盤となっています。GPT 画像のアップデートは、OpenAIをプロンプトからストーリーボード、アニマティックへと一つのエコシステムの中で移行できるシングルスタックシステムに近づけています。

ソラ対「他の全員」という物語ではなく、これは各企業がマルチモーダルスタックの異なる部分を選ぶグローバルなスプリントのように見えます。アリババはスクリプトから曲、シーンへのワークフローに賭け、バイトダンスはTikTok時代の編集に直結したクリエイターツールに注力し、テンセントはゲームとソーシャルが融合した世界シミュレーターに焦点を当てています。メタは後にエンドツーエンドのメディアエンジンに組み合わさる可能性のある基盤モデル（視覚、音声、セグメンテーション）を常に提供し続けています。

スピードが真の注目点です。Wanは数ヶ月で2.5から2.6へとアップグレードされ、Seedance 1.5 Proは最小限の盛り上がりでCapCutに登場しました。MetaとOpenAIは、音声や画像に関する静かだが着実なイテレーションを進めています。Wanの音声から動画への変換やEgoXスタイルのPOVリマッピングのような機能は、EgoX: From Third-Person Videos to First-Person POVで紹介されていますが、今はSFのように感じられますが、早ければ来年初めには消費者向けのエディタのチェックボックスに入る可能性があります。

新しいクリエイターエコノミー：次に起こることは？

AI動画の次のフェーズは、単一の魔法のモデルというよりも、マルチモーダル入力、物語ツール、視点を操作する技術の網のように見えます。Wan 2.6は音声を聴き、歌詞や対話を追跡し、主にビートに乗る15秒の1080pショットを出力します。EgoXはカメラの視点を完全に書き直し、三人称のクリップを幾何学に基づいて再構築し、一人称の視点に変換します。

その変化により、クリエイターはタイムラインを編集するエディターから、よりAIディレクターに近い存在へと進化します。シーンを描写し、トラックを加え、リファレンスとなるスチルを追加するだけで、Wanの「インテリジェント・マルチショット」のようなシステムがどこをカットするか、どのようにフレーミングするか、どのキャラクターを追うかを決定します。ByteDanceのSeedance 1.5は、CapCutを通じて同じ方向に静かに進んでおり、TikTokクリエイターが既に使用しているツールの中に高度な生成機能を埋め込んでいます。

クリエイティブな作業は、キーフレームではなく制約の管理のように見えるようになります。AIディレクターは以下の要素を操ることになるかもしれません： - 脚本とストーリーボード - 主要キャラクターとロケーションのライブラリ - 音楽、ボイスオーバー、対話用のオーディオステム - 視点の選択：三人称、EgoXスタイルの視点、またはハイブリッド

あなたが指揮し、モデルは要求に応じて実行、修正、再上演します。

誰がこのスタックを実際にコントロールしているのか、大きな疑問があります。Alibaba、ByteDance、OpenAI、Tencentのクローズドシステムは、現在、忠実度と使いやすさの面で急速に前進していますが、オープンソースのビデオは、一貫性、動き、音において世代を遅れています。もしオープンなWan 2.6クラスのモデルが登場した場合、それは消費者向けGPU上で動作するのでしょうか、それともミニハイパースケーラーのように見えるクラウドコレクティブ上だけなのでしょうか？

新しいメディア形式はほぼ確実なようです。音声から映像への変換と視点変換は、「プレイ可能な」ミュージックビデオを示唆しており、視聴者が歌手の目に飛び込むことができるか、ポッドキャストのトランスクリプトにリアルタイムで一致する自動生成のBロールを提供します。EgoXスタイルの視点編集は、再撮影なしで任意のキャラクターの視点から再レンダリングされるインタラクティブな映画を示唆しています。

今のところ、最も革新的な要素は、完璧な「ソラ」スタイルのシミュレーションではなく、こうしたリアルで商業準備が整ったアップグレードです。信頼できるリップシンク、15秒の複数ショットシーケンス、再利用可能なキャラクター、視点の切り替えが既存のワークフローに直結します。スタジオ、YouTuber、ブランドは完璧な仮想世界を必要としているわけではなく、今日すぐにエクスポートができるAIアシスタントを必要としています。

よくある質問

Wan 2.6は、他のAIビデオモデルと何が違うのでしょうか？

その主な差別化要因は、正確な口パク同期を伴う高度な音声から映像への生成、単一のプロンプトからのインテリジェントなマルチショットストーリーテリング、そして商業レベルのキャラクターの一貫性を実現する「主演」機能です。

Wan 2.6はOpenAIのSoraより優れていますか？

異なります。Soraは長く物理的に一貫したシーンに優れていますが、Wan 2.6はオーディオ同期、ナarrティブ制御、キャラクターの再利用といった実用的で制作指向の機能に重点を置いており、Klingのようなモデルにより近い競合相手となっています。

Seedance 1.5 Proにアクセスするにはどうすればいいですか？

Seedance 1.5 Proは現在、主にByteDanceの動画編集アプリCapCut内で、特定の地域やティアで利用可能となっており、スタンドアロンのプラットフォームとしてではなく、静かに展開されています。

EgoXに関する研究論文は何についてですか？

EgoXは、既存の三人称ビデオ映像を一人称視点（POV）に変換できる新しいAIモデルであり、カメラの視点を再構築することで没入感のある体験を作り出します。

𝕏 in ↑↗

AIビデオの次なる大きな飛躍がここにあります。