Cling 01: 時間とキャラクターを編集するAIビデオモデル

💡

TL;DR / Key Takeaways

革新的な新しいAIモデル「Cling 01」は、その「統合型マルチモーダル」アプローチで動画制作を永遠に変えています。テキストから動画を生成するだけでなく、既存の映像を意味的に編集したり、キャラクターを入れ替えたり、クリップの前後で起こったシーンを生成することもできます。

ビデオの「ナノバナナ」が登場しました

Cling 01は、これまでのすべてのAIビデオツールに対する警告の発砲として登場します。「統合されたマルチモーダルビデオモデル」として謳われており、単にテキストプロンプトからクリップを生成するだけではなく、テキスト、画像、そしてフルビデオを取り込み、それらを横断して推論を行い、生成というより編集に近いレベルの意味的制御を実現します。何もないところから1文で始めたり、複数の参照を重ねたりしても、01は全体を一つの一貫したシーンとして扱います。

ナノバナナのファンは、その野心を理解するでしょう。ここでの例えは、ビデオのための単一のナノバナナスタイルの脳です。キャラクター、ロケーション、カメラの言語をすべての入力および出力のモードで理解する一つのモデルです。テキストからビデオ、画像からビデオ、そしてクリーンアップのために別々のツールを使う代わりに、Cling 01は「すべてのことを行う」エンジンを通じてすべてをルーティングします、とその創造者たちは述べています。

コア機能は4つの大きなカテゴリに分類されます： - 生成：リファレンスアセットを使用したテキストから動画、テキストから画像への変換 - スタイライズ：新しいビジュアルスタイルでの映像の再レンダリング - トランスフォーメーション：既存のクリップ内で時間帯、構図、または被写体を変更 - イン/アウトペインティング：フレーム間で要素の削除または追加

初期のデモでは、01が女性の単一の写真からバーのシーンを生成し、その後、元の静止画には存在しなかったまったく新しい環境の部分でショットを開始する様子が示されています。別のシーケンスでは、ドジャースタジアムのストックドローン映像を夕日バージョンに変換し、形状や動きを保ちながら、フレームごとのトリックではなく深いシーンモデルを示唆しています。

同じインターフェースがクラウンを入れ替え、邪魔な手を消去し、VO3時代のクリップから古い画面上のテキストを削除し、さらには海に佇む男性を上からのクレーンショットに再構成します。さらに驚くべきことに、入力された動画に対して「前のショット」や「次のショット」をリクエストすると、01はキャラクター、衣装、設定に合った信頼性のあるビフォーアフターの瞬間を作り出します。

クリエイターにとって、このリリースは新しいフィルターというよりも新しいタイムラインのように見えます。AI業界にとって、Cling 01は旗を掲げます。統一されたマルチモーダルで意味を理解するビデオは、もはや研究の試作品ではなく、製品です。

ファーストフレーム生成を超えて

Cling 01の画像から動画へのデモは、一見シンプルに始まります：バーでの女性の静止画と、「女性がその場所に入り、バーの席に座る」というプロンプトです。従来のツールはそのフレーム内のピクセルを揺らすだけでしたが、Cling 01は静止画を参考として扱い、出発点の牢獄とは見なしていません。

アップロードされた写真の最初のフレームを固定する代わりに、01は元の画像には存在しなかった全く新しい角度からバーを捉えます。これにより、設定ショットが生成され、女性が入ってくる様子を追いかけ、参照に響く構図に落ち着きます。このシフトは、静的なキービジュアルをフル ショットデザイン のためのルーズなストーリーボードのアンカーに変えます。

この行動は、01がプロンプトをどのように解釈するかを示唆しています。それはスタイルのヒントとしてではなく、ブロッキングやステージングの指示としてです。「場所に入る」という指示は、広角または中角の入場ショットになり、「バーに座る」という指示は、フォローカットまたはカットインになります。モデルは、衣装、照明、および一般的な雰囲気をソース画像と一貫性を保ちながら、欠けている地理的要素—扉、通路、バーのレイアウト—を補完します。

クリエイターが「バーテンダーとして働くクラウンがバーの裏で仕事をしている。女性がドリンクを注文する」と追加すると、01は単にクラウンのステッカーを貼るだけではありません。シーンを再構成してバーテンダーがはっきりと読み取れるようにし、ドリンクの注文をアニメーション化し、女性のポーズ、服装、環境を一貫させます。参照画像は、アイデンティティやムードに対する制約として機能し、文字通りのフレームごとのテンプレートではありません。

その柔軟性はショットの連続性にも及びます。01は初フレーム生成に縛られていないため、静止画やビデオクリップの周囲に「前」のショットや「次」のショットを作り出すことができ、実質的にカバレッジを幻視します：入り口、カットアウェイ、リアクションショット。従来のパイプラインでは、別々の撮影や重い合成が必要です；ここでは単一のプロンプトの変更で済みます。

1つの大きな欠けている要素：音声。Cling 01は現在、音楽、対話、または音響デザインがない静音クリップを生成しています。これにより、クリエイターはDaVinci Resolve、Premiere Pro、またはDescriptのようなツールに往復して、ポストプロダクションでVO、フォーリー、スコアを追加する必要があります。そのため、01は今のところ視覚的な領域にしっかりと留まっています。

簡単な言葉でシーンを操る

言葉がビデオを変えるCling 01は、プロンプトというよりはむしろ監督のメモのようです。単一の静止画からムーディな「バーの女性」のクリップを生成した後、制作者は短い一文を追加します。「バーテンダーとしてピエロがバーの裏で働いている。女性は飲み物を注文する。」マスクも、キーフレームも、ロトスコーピングも不要 — Cling 01はシーンを書き換え、まるで彼がずっとそこにいたかのように世界にピエロを放り込みます。

これが野生的なのは、モデルのシーンに対する意味理解です。クラウンはフレーム内にランダムに現れるのではなく、バーの後ろに現れます。彼は同じ温かいバーの照明、同じカメラレンズの感触、同じ被写界深度を受け継ぎます。女性は元の位置に留まり、彼女の動きとタイミングはそのままで、新しいキャラクターが既存の振り付けに組み込まれます。

Cling 01は、元のフレームを平面テクスチャではなく、一貫した3D空間として扱います。クローンを追加する際には、遮蔽、パースペクティブ、連続性の編集を尊重します。不自然な二重の影、ミスマッチの粒子、スタイルの漂流は見られず、バーテンダークローンは制作デザインの一部のように見え、後処理で追加されたものではありません。

自然言語は制御の最初の層に過ぎません。より精度を高めるために、Cling 01に参照画像を与え、どのクラウンを望んでいるかを正確に伝えることができます。動画から画像生成に切り替え、「全身フォトリアリスティッククラウン」を9:16でリクエストすると、特定のキャラクターが得られます：コスチューム、メイクパターン、ポーズ、すべてが視覚的なアイデンティティとして固定され、再利用可能になります。

そこから、構文はほぼコードのようになりますが、まだ読みやすいです。すべてのアップロードには自動的にタグが付けられ、例えば@video1や@image1のようになります。次のようなプロンプトを書けます： - 「@video1のピエロを@image1のピエロに変更する」 - 「@video2のバーテンダーを@image3の人物に置き換える」 - 「@image2の照明と衣装を@video4のキャラクターに合わせる」

この資産参照言語により、Cling 01はキャスティングとセットドレッシングのためのモジュラーシステムに変わります。「クラウンを追加して」と言うだけでなく、「この正確なクラウンを、この正確なショットで、これらの正確な条件の下で追加して」と言っています。さらに詳しい情報はCling AI公式ウェブサイトにありますが、基本的なアイデアはシンプルです：テキストとタグ付けされた資産が合わさることで、詳細なフレーム一貫性のある制御が実現します。

あなたの新しいAI駆動のポストプロダクションスイート

編集は単なるアプリではなく、プロンプトに変わります。Cling 01は、テキスト、静止画像、または完全に撮影されたクリップのいずれから始めても気にしません。同じ統合型マルチモーダルな脳がすべてを処理します。この変化によって、このモデルはおもちゃのような生成器から本格的なポストプロダクションスイートへと静かに移行します。

ダッジャースタジアムテストを受けてみましょう。明るい昼間に撮影した標準的なドローンショットを01に与え、「夕焼けに変えて」と指示します。そうすると、すべてのパン、ズーム、パララックスの動きを保ちながら、照明のシナリオ全体を書き換えます。座席、フィールドライン、広告看板、そして公園外の交通は固定されていて、まるでカラリストとCG空チームが昼から夜へ移行するために何時間もかけたかのようです。

重要なのは時間的な一貫性です。夕日がチラついたりフレームを這ったりすることはなく、影やハイライト、空のグラデーションがクリップ全体にわたってスムーズに変化します。その結果、最初からゴールデンアワーを意識したように見えるショットが得られ、編集でLUTをただ当てただけのものとは異なります。

その同じパイプラインは、2023年の非常に重要な問題を静かに解決します。それは、初期のAI動画に焼き付けられた醜い画面上のテキストです。最初のフレームにネオンのボックスでプロンプトを貼り付けた古いVO3の出力は、シンプルな指示「動画1のテキストと赤いネオンボックスを削除してください」で再処理することができます。モデルは背景をフレームごとに再構築し、ダイアログはグラフィックが存在しなかったかのようにクリーンな画像の上で再生されます。

これは、通常After EffectsやNukeで何時間もかかる従来のクリーニング作業です。ロトスコーピングやクローン、トラッキングの代わりに、文章を入力するだけで、01が内部でインペイントとモーショントラッキングを処理します。ガイドテキストで台無しになってしまった多数の良いクリップを持つクリエイターにとって、これは瞬時の救済です。

Plasmoのシュールレアリズム的な手の除去は、これをさらにVFXグレードの領域へと押し進めています。オリジナルの作品では、切り離された手がフレームに飛び出してきますが、01ではPlasmoは単に手を消してほしいと要求し、モデルは一貫したテクスチャー、ライティング、動きで全てのネガティブスペースを埋めます。継ぎ目も歪みもなく、カメラや被写体が動いても、明らかなAIのぼやけはありません。

その例は、オブジェクトの消去、プロップの交換、そして何百ものフレームにわたって安定した構造の変更という、より広範な編集のクラスを示唆しています。01は単に雰囲気を生み出しているだけではなく、ショット内に存在するものを書き換えながら、形状、視点、動きの連続性を維持しています。低予算から中予算の多くのプロジェクトにとって、これはVFXベンダーが必要か、ただClingを開くだけで済むかの違いになるのです。

バーチャルカメラのディレクターになる

クリン 01では、映像撮影が静かにテキストフィールドになります。シーンを3Dで再撮影したり再構築したりする代わりに、「頭上クレーンショット」と入力すると、モデルがオリジナルのパフォーマンス、ライティング、環境を保持しながらカメラの動きを再構成します。

ルドヴィックの例では、ソースクリップは静止したショットで、海を見つめる寂しげな男性が映っています。一つのプロンプトの後、クリング01はクレーンスタイルの動きを出力し、彼の頭上を上昇しながら弧を描いて移動し、親密な横顔から高く遠くの上方へと再構成することで、感情的なトーンをメランコリックから不気味に変化させます。

その変化は重要です。従来のポストプロダクションツールは、トリミングや手ブレ補正、またはプッシュインを作り出すことはできますが、すでに2D映像に焼き付けられた被写体の周りに物理的に不可能なカメラパスを創造することはできません。Cling 01は効果的にシーンのジオメトリと動きを再生成し、あなたのテキスト記述に合った新しい仮想カメラパスを再レンダリングします。

ストーリーテラーは突然、すべてのショットに遅延ステージのディレクターズパスを取得します。あなたは： - 静的なミディアムショットをスローダリーインに変換する - 幅広いビーチのタブローを一人のキャラクターに沿ったラテラルトラッキングショットに変える - 実際のカメラに触れることなく、アイレベルからローアングルのヒーロー・フレーミングへとスイングする

Cling 01は「ハンドヘルドトラッキングショット」や「地平線に向かってのスロープッシュ」、「オーバーショルダーのアングル」などの指示を理解するため、AI生成と意図的な演出を結びつけます。あなたはランダムな動きを求めているのではなく、クラシックな映画の文法を明確に指定しており、モデルは偶然ではなく、意図的に作られたカメラ言語で応答します。

これはAIビデオと実世界の制作の間に存在していた長年のギャップを解消します。AIモデルが即興で作り出す動きをそのまま受け入れるのではなく、監督はショットデザインを秒単位で反復し、感情のビートが決まるまで異なるフレーミングや動きをテストすることができ、その後、まるで撮影現場でキャプチャしたかのようにそれを固定できます。

起こらなかったシーンを生み出す

ビデオ編集のためのタイムトラベルがテキストプロンプトになりました。Cling 01は、アップロードしたクリップの前または後に起こるショットを生成でき、実際にはカメラが捕らえられなかった瞬間を作り出しつつ、同じシーケンスの一部のように感じさせます。無関係なAIクリップを繋ぎ合わせるのではなく、文脈を考慮した連続性を持って、単一のタイムラインを上流または下流に拡張します。

その非ドクター・フーのデモは、いかに奇妙で強力なものになるかを示しています。あなたは、クリング01に都市の通りでニセTARDISに足を踏み入れる男性のショットを与えます。「ビデオ1に基づいて、男性が青い箱に向かって通りを歩くトラッキングショットを生成せよ」というプロンプトで、モデルはその青いドアに近づく彼の後ろや横を滑るように新たなオープニングの動きを創造します。

重要なことに、新しいショットは単に無作為な男性を無作為な歩道に配置するわけではありません。衣服、全体の体格、そしてぼろぼろの青い箱は密接に一致し、あなたの脳はそれを論理的な「ショット1」として受け入れます。仮想カメラは類似の焦点距離と動作スタイルを維持しているため、作り出された前日譚から元のクリップへのカットは、ハードリセットではなく、本物の編集のように感じられます。

逃げる花嫁の例は時間の矢を反転させます。赤いドレスを着た女性が結婚式から逃げ出すシーンから始まり、緑のタキシードを着た花婿はまだ中にいます。「ビデオ1に基づいて次のショットを生成してください：チャペルの外でクラシックカーに乗り込んでいる赤いドレスの女性」とCling 01に指示すると、彼女がヴィンテージ風の車の運転席にいるフォローアップが得られます。ドレス、髪型、そして雰囲気はすべてほぼそのままです。

方向性の質がこの機能の成否を決定づけます。創作者が「次のショットを生成して」と単に頼んだとき、Cling 01はまったく異なる感情のビートを喜んで幻覚させました：一見幸せそうな新郎、車は見当たらず、物語がスクリプトから逸脱しています。別の緩いプロンプトでは、幻想的なギャグが生まれ、新婦が礼拝堂の中にまだ残っている車に乗り込むという、空間的な論理を無視したシーンが展開されました。

そのようなAIの奇妙さにモデルが迷い込まないようにするためには、プロンプトをしっかりと定める必要があります。

1望ましいカメラの動き（トラッキング、スタティック、クレーン、ハンドヘルド）
2場所と演出（「チャペルの外、通りで」）
3「彼女は車のドアを閉めて猛スピードで去っていった。」

Cling 01の時間生成は、他のトリックを支える同じマルチモーダルセマンティクスに依存していますが、継続性のために武器化されています。これらのマルチモーダルビデオモデルが内部でどのように機能しているかを理解しようとする人にとって、AIビデオモデルの解説 | ReelMindは、しっかりとした技術的入門書を提供しています。

AIのアイデンティティ危機の解決策

アイデンティティは、AI動画の弱点であり続けています。モデルはライティング、動き、スタイルを完璧に表現できる一方で、主人公の顔、髪型、体型をショットごとに何気なく入れ替えることができます。この混沌を解消するために、Cling 01の新しいElementsシステムが登場しました。

モデルがあなたのキャラクターの外見を覚えていることを期待するのではなく、あなた自身がキャラクターを作成します。Elementsは「キャラクターを作成」というフローから始まり、複数の参考角度をアップロードします：明確な正面ポートレート、側面プロフィール、そして少なくとも一つの全身ショット。Cling 01はそれらのフレームを取り込み、構造化されたアイデンティティプロフィールに固定します。

そこから、主題に名前とメタデータをタグ付けします。「リード女優」、「サイバーパンク探偵」、「マスコット道化師」、プロジェクトのニーズに応じて好きなように。自動説明ボタンを押すと、システムが詳細なテキストの内訳を生成します：髪型、年齢層、服装スタイル、体型、さらには「 gritty」や「 whimsical」といった雰囲気まで。これらの説明はキャラクターの永久記録の一部となります。

一度保存されると、その対象はあなたのエレメンツライブラリに保存され、実質的にはデジタルキャストリストとなります。どんなプロンプトでも、シンプルなタグを使って呼び出すことができます。「@Clown_Bartenderが夜中に一人でバーを閉める12秒間の16:9ショットを生成」や「@Runaway_Brideが雨の中でタクシーに乗るのを追跡」といった具合です。もはや一からルックを考案する必要はなく、繰り返し登場するキャラクターを演出しているのです。

重要なのは、Elementsがさまざまな手法で機能することです。同じテーマが以下のように現れることがあります： - テキストから映像へのシーン - 画像から映像への変換 - 既存の実写映像の編集

つまり、定期的なブランドアンバサダーをストック映像に組み込んだり、同じ俳優の新しいショットで短編映画を延長したり、キャラクターをエピソードごとに再構築することなくシリアライズすることができます。

他のAIビデオツールは依然として厳しいキャラクタードリフトに悩まされています。カメラアングル、時間帯、または衣装を変更すると、モデルは静かにあなたのリードをいとこに変えてしまいます。Cling 01のElementsライブラリは、まずアイデンティティを固定し、その後に照明、動き、衣装、さらには年齢まで、そのアンカーの周りで進化させることができます。

フレームごとの継続性を気にするクリエイターにとって、これは生活の質を向上させる特典というより、AIビデオを真剣に物語メディアとして捉えるための前提条件です。

デジタルキャストとクルーを構築する

Cling 01で再利用可能なキャラクターを構築することは、単一のフレームから始まります。デモでは、クリエイターが完全な全身のフォトリアルなショットを要求することで「フレイムスロワーガール」を作り出します。戦術的な装備を身にまとった女性が、煙の立ち込める工業廊下に立ち、フレイムスロワーを操っている様子です。その一枚の画像が、デジタルアクター全体の種となります。

そこから、Cling 01は軽量のキャラクターリギングツールに変わります。変換パネルを使用して、「画像1から火炎放射器を取り除き、ポーズと衣装を維持して」といった簡単な言葉で編集を指示します。システムはフレームを再生成し、照明、衣服、体の比例を保ちながら、器具を外します。

キャラクターを制作準備が整った状態にするために、カバレッジを生成します。このワークフローは、プロンプトを用いた伝統的なショットリストのようになります： - フレームの引き締まったシネマティックなフレームアップのフラメスローワーガールの顔 - クリーンなプロフィールショット、肩から上、ニュートラルな背景 - 一貫した衣装とヘアスタイルの三分の一ビュー

各出力はエレメントとしてタグ付けされます。数回のクリックで、「フレームスロワーガール」をエレメントライブラリに保存し、再利用可能なキャラクターテンプレートに変えます。これで彼女はただの一時的な画像ではなく、Cling 01が完全に異なるシーンに思い出して再挿入できる永続的な資産となります。

アプリケーションの部分が面白くなります。ストックの中世バトルクリップでは、一般的な鎧を着た騎士が霧の中の野原を駆け抜けています。Elementsからフレイムスローワーガールを読み込み、「ビデオ1の騎士をエレメント1のフレイムスローワーガールに置き換え、鎧のシルエットを保ち、馬を保持し、中世の環境を維持する」と指示することで、Cling 01はカメラの動き、ブロッキング、およびシーンのジオメトリを保ちながら俳優を入れ替えます。

アーマープレートはSFとファンタジーが融合したハイブリッドに変化しますが、馬、埃、そしてレンズフレアはそのまま保たれます。3〜4秒の映像において動きは一貫しており、以前のAI動画ツールでしばしば見られた不安定な顔の入れ替えや溶けるアーマーはありません。結果はフィルターではなく、再撮影されたように感じられます。

重要なのは、あなたがただ一人のヒーローに限定されていないことです。Cling 01は、ひとつのシーンで複数のカスタムキャラクターを同時に扱うことができます：フレームスロワーガール、フードを被った魔法使い、そしてロボットの従者、それぞれ異なるエレメントから引き出されています。このモデルはアイデンティティの境界を尊重しているため、キャラクターが交差したり、頭を向けたり、複雑な照明の中を移動したりしても、顔や衣装、シルエットは一貫性を保ちます。

一貫性とシーンのダイナミクスをマスターする

Cling 01の一貫性は魔法のように現れるものではありません。それは、モデルに適切な要素、参照、および制約の正しい組み合わせを与えることで生まれます。要素をキャスティングデータベースとスタイルバイブルのように扱い、キャラクターを定義し、その要素をショット全体で再利用し、プロンプトを短く、具体的かつアイデンティティの手掛かり（髪型、服装、役割）について繰り返すことが重要です。より長いシーケンスや複数ショットのプロジェクトでは、早い段階でこれらの説明を固定し、すべてのプロンプトで再表現を避けることでメリットが得られます。

ロケーション参照は、キャラクター要素と同じくらい静かに重要な役割を果たします。バー、路地、または宇宙船の廊下のスティルをアップロードしてそれをロケーションとしてタグ付けすると、Cling 01は突然統合を実現します：肌のトーンは周囲の光と一致し、反射は部屋の幾何学に従い、カメラの動きはふわふわせずに地に足がついているように感じられます。その画像がない場合、モデルは背景を即興で作成しますが、ある場合は一貫した空間を通じて、整然としたブロッキング、視差、そして信じられるほどのラックフォーカスが得られます。

ロケーション画像を次の3つのポイントのブースターと考えてください： - キャラクターの信憑性 - 色と露出の一貫性 - セットを尊重したダイナミックなカメラ動作

「トム」のような合成ヒューマンは、現在、フォトリアルな俳優よりも優れた振る舞いをしています。カートゥーン調、スタイライズされた、または明らかにCGで作られたキャラクターは、ショット間で移動することが少なく、彼らの特徴はより広い知覚の帯に存在しています。わずかに異なる顎のラインでも「トム」として認識されます。一方、ハイパーフォトリアルな顔は、あらゆる偏差を露呈するため、ライティングやアングルのわずかな変化が、シーケンスの途中で役を再キャスティングしているように感じられることがあります。

長編作品を計画しているクリエイターにとって、そのトレードオフは重要です。20ショット以上にわたって堅牢な一貫性を求める場合、合成的またはセミスタイライズされたデザインに頼ることで、手間が減ります。フルフォトリアルの人間キャラクターは、短い場所やヒーローショット、またはより手動でのキュレーションや再生成が可能な場合に留めておくべきです。

Cling 01はいまだに不具合があります。時折、ショット間での色の不一致や奇妙な彩度のスパイク、カメラが近づきすぎたり急に動いたりした際の「顔のつぶれ」が見られることがあります。これらの問題の多くは、プロンプトを厳密にする（「ミディアムショット」、「極端なクローズアップなし」）、同じ場所の画像を再利用する、そして全体のシーケンスではなく壊れた部分だけを再生成することで軽減できます。

異なるマルチモーダルアプローチを比較している方々にとって、OpenAIのモデルラインアップは、さまざまなシステムがリアリズムとコントロールのバランスをどのように取っているかの参考になります：Models - OpenAI API。

デジタルストーリーテリングの新しい時代

Cling 01は、エディターに取り付けられた発電機のように振る舞うのではなく、ビデオのためのオペレーティングシステムのように機能します。テキストからビデオへの変換、画像からビデオへの変換、ビデオからビデオへの変換、変換、合成、仮想カメラの動き、そしてあの驚くべき「時間旅行」ショットの生成がすべて一つのインターフェース内に集約されており、同じ統合されたマルチモーダルの脳によって推進されています。

インディペンデント映画製作者にとって、これにより、まるでポストプロダクションハウス全体がブラウザタブの中に収まります。撮影できなかったクレーンショットが必要ですか？予算の都合で日没の再撮影ができませんか？それとも、ブームマイクがテイクを台無しにした場所のクリーンプレートが必要ですか？機材やクルー、VFXベンダーを手配する代わりに、Cling 01に一度プロンプトするだけで済みます。

ユーチューバーやTikTokクリエイターも同様のアップグレードを受けます。1本のトーキングヘッドクリップから以下が生まれます： - 異なるアングルや焦点距離 - 新しい環境や時間帯のルック - これまで存在しなかったインサートショットやカットアウェイ

VFXアーティストは危険なほど迅速なプリビジュアライゼーションツールを手に入れます。バーチャルカメラのプロンプトにより、シーンを数分でブロックし、その後、従来のツールで洗練できます。要素ベースのキャラクターの一貫性は、使い捨てのコンセプトをプロジェクト、フォーマット、プラットフォームを超えて生き残る再利用可能なデジタルアクターに変えます。

すべては、目まぐるしいスピードで進化する風景において展開しています。テキストから動画への変換は、抽象的な塊から一貫した5〜10秒のシーンに18か月以内で進化しました。Cling 01の前後のショットを推測し、ブロッキングを尊重し、アイデンティティを維持する能力は、マルチモーダルモデルが扱うことになるもののバージョン0.1にまだいることを示唆しています。

未来の物語のワークフローは逆転し始めています。自然言語で記述し、いくつかの重要なフレームをスケッチし、単一のアンカーパフォーマンスを撮影したら、Cling 01のようなシステムにカバレッジ、トランジション、挿入、代替エンディングを生成させます。編集は固定された映像をカットするのではなく、むしろシミュレーションを演出するようなものになります。

それは人間のストーリーテリングを置き換えるものではなく、増幅させるものです。構造、ペーシング、そして感情的な真実は、依然として選択を行う人から生まれます。Cling 01は、野心に対するペナルティを取り除き、かつてスタジオ予算を必要としていたアイデアを、単独のクリエイターがラップトップで試すことができるものに変えます。

よくある質問

Cling 01は、他のAI動画モデルと何が違うのでしょうか？

Cling 01は「統合型マルチモーダル」モデルであり、テキストからの動画生成だけではなく、既存の画像や動画を自然言語で理解し編集することができます。これにより、オブジェクトの置き換えやカット変更、前後のシーンの作成など、複雑なタスクを実行可能です。

Cling 01はキャラクターの一貫性をどのように扱っていますか？

複数の参照画像を持つキャラクターのプロファイルをユーザーが作成できる、持続的な「エレメンツ」ライブラリを備えています。これらのキャラクターは、高い忠実度でさまざまなシーンに一貫して挿入され、アニメーション化されます。

Cling 01は、すでに作成した動画を編集できますか？

はい。既存のビデオクリップをアップロードし、テキストプロンプトを使って変更を加えることができます。例えば、時間帯を変更したり、不要なオブジェクトやテキストを削除したり、カメラアングルや動きを変更したりすることが可能です。

Cling 01の「タイムトラベル」機能とは何ですか？

ユーザーはビデオクリップを提供し、モデルに「前のショット」や「次のショット」を生成するよう指示することで、元の映像に基づいた希望するアクションのテキスト説明に基づいて、時系列で前後するシーンを効果的に作成できます。

𝕏 in ↑↗

Cling 01がAIビデオのルールを書き換えました。