NetflixのAIが現実を削除する

Netflixは、シーンから俳優を消去するだけでなく、現実そのものへの彼らの影響をも消去するAIをリリースしました。この画期的なオープンソースツールは、ビデオ編集を永遠に変え、その仕組みを詳しく解説します。

Stork.AI
Hero image for: NetflixのAIが現実を削除する
💡

要約 / ポイント

Netflixは、シーンから俳優を消去するだけでなく、現実そのものへの彼らの影響をも消去するAIをリリースしました。この画期的なオープンソースツールは、ビデオ編集を永遠に変え、その仕組みを詳しく解説します。

「機械の中の幽霊」は死んだ

既存のAIビデオツールはオブジェクトの消去には優れていますが、それらのオブジェクトがもたらす結果を削除することには常に失敗します。この根本的な欠陥は、削除されたアイテムの物理的影響が不可解に残存する、不自然なゴーストインタラクションを生み出します。ボーリングの球を考えてみてください。シーンから球を削除しても、ピンは依然として明確な理由もなく倒れます。スムージーを作っている人を消去しても、ブレンダーは操作する人がいないのに回転し続けます。現在のモデルは単にピクセルを修正し、見た目を直すだけで、周囲の環境の根底にある物理学や因果関係を完全に無視しています。それらは強化されたコンテンツ認識フィルに過ぎず、それ以上のものではありません。

Netflixは、この広範な問題に直接立ち向かう画期的なオープンソースAIフレームワークであるVOID(Video Object and Interaction Deletion)をリリースしました。VOIDは、欠落したピクセルを単に塗りつぶすだけでなく、シーンの物理学をインテリジェントに書き換え、削除されたオブジェクトが最初から存在しなかったかのような反事実的現実を生成します。この革新的なモデルは因果関係を理解し、特定の要素の不在に基づいてビデオコンテンツを修正し、論理的な一貫性を確保します。これにより、以前の技術が残した不合理な残存物を排除することが期待されます。

2026年4月3日にApache 2.0 licenseでリリースされ、INSAITとの共同開発により、VOIDは単純なビデオインペインティングをはるかに超える画期的な進歩を遂げました。これはパラダイムシフトであり、表面的なピクセルレベルの調整から、ビデオ内の洗練された因果推論へと移行します。削除されたオブジェクトの背後にあるものを単に推測するのではなく、VOIDの2パス推論システムは、その不在によって因果的に影響を受ける他の要素を最初に特定します。

初期推論フェーズにおいて、VOIDはVision Language ModelとMetaのSAM 2(Segment Anything Model 2)を利用し、削除対象のオブジェクトを追跡するだけでなく、因果的に影響を受けるすべての要素を特定します。その後、「quadmask」と呼ばれる詳細なマップを構築し、後続のビデオ拡散モデルに対し、どこを消去するかだけでなく、周囲領域の物理学を正確にどこで書き換えるかを指示します。GoogleのKubricとHUMOTOを使用して生成された合成ペアデータで訓練されたVOIDは、オブジェクトの存在と環境への影響との間の複雑な関係を学習しました。この綿密なアプローチにより、VOIDは視覚的に一貫しているだけでなく、物理的にも整合性のある映像を生成することができ、動的なビデオ操作と制作ワークフローの可能性を再定義します。

ピクセルを超えて:物理学を理解するAI

イラスト:ピクセルを超えて:物理学を理解するAI
イラスト:ピクセルを超えて:物理学を理解するAI

NetflixのVOIDフレームワークは、ビデオオブジェクト除去を再定義し、単純なピクセル消去を超えて、シーンの物理学を根本的に再構築します。単に空白を埋めようとする標準的なAIツールとは異なり、VOIDは反事実的現実を生成し、まるでターゲットのオブジェクトや人物が最初から存在しなかったかのようにビデオを綿密に再構築します。この革新的なアプローチは、削除された要素が不可解な物理的結果を残す、広範な「ゴーストインタラクション」問題に直接対処します。例えば、ボーリングの球がないのに倒れるピンや、誰も操作していないのに回転するブレンダーなどです。

VOIDは、その洗練された2パスプロセスを重要な推論フェーズから開始します。Vision Language ModelとMetaのSAM 2 (Segment Anything Model 2) を採用し、AIはシーン全体を綿密に分析します。削除するオブジェクトを特定するだけでなく、批判的に「これを削除したら、他に何が変わるか?」と問いかけます。この問いかけにより、モデルはターゲットオブジェクトの不在によって因果的に影響を受けるシーン内の他のすべての要素を特定します。例えば、積み重ねられたドミノから1つを取り除くと、VOIDは後続のすべてのドミノが物理的に相互依存していると識別し、それらの相互作用の完全な再シミュレーションを必要とします。

この分析ステップは、高精度なAI生成マップであるquadmaskの作成で最高潮に達します。このquadmaskは、後続のビデオ拡散モデルにとって重要な指示ガイドとして機能します。これは、ターゲットオブジェクトを削除するためにピクセルをどこで消去する必要があるかだけでなく、決定的に、周囲の環境の物理法則をどこで完全に書き換える必要があるかを指示します。このマップは、モデルが動き、力、およびオブジェクト間の関係を物理的に妥当な方法で変更するよう指示し、再生成されたシーンが絶対的な真実性を維持することを保証します。

この手法は、従来のAIビデオインペインティングからの根本的なパラダイムシフトを示します。古いコンテンツ認識フィルアルゴリズムは、物理法則を理解することなく、周囲の視覚データに基づいてピクセルを推測するパターン認識のみで動作します。しかし、VOIDは、物理的相互作用に内在する複雑な因果関係を把握する、初歩的ではあるが強力な世界理解の形態を示します。GoogleのKubricやHUMOTOのような合成環境での広範なトレーニングにより、膨大なペアデータセットが提供されました。これらのデータセットには、数千の物理シミュレーションの「前」と「後」のバージョンが含まれており、一方は相互作用があり、もう一方はオブジェクトが存在しなかったものです。

これらの綿密に作成された合成現実から学習することで、VOIDはオブジェクトの存在とその環境への深い影響との間の正確な関係を推論する能力を開発しました。この深い理解により、VOIDはAI操作の明白な兆候なしに、首尾一貫した物理的に整合性のあるビデオを生成することができ、表面的な視覚的修正を超えて、より深い物理認識に基づいた現実の再構築へと移行します。

2パスパイプラインの内部

VOIDの革新的なアプローチは、物理認識に基づいた削除を実現するために2パスシステムに依存しており、シーンの現実を根本的に変更します。この洗練されたパイプラインは、単純なピクセル操作を超え、まずシーンの因果関係を理解し、次に忠実にインテリジェントに再構築します。

最初の推論フェーズでは、高度なAIモデルの強力な組み合わせを活用します。GoogleのGeminiに似たVision Language Modelは、複雑なコンテキストを解釈し、潜在的な因果関係を特定し、オブジェクトの役割を理解するためにシーンを綿密に分析します。同時に、MetaのSegment Anything Model 2 (SAM 2) は、すべてのフレームでターゲットオブジェクトを正確に識別および追跡し、その削除のためのピクセルパーフェクトなマスクを作成します。

この重要なフェーズ中、AIは単に消去するピクセルを特定するだけではありません。オブジェクトが存在しなかった場合にどのような根本的な変化が起こるかを積極的に問いかけ、視覚的な外観を超えて物理的な結果へと移行します。このプロセスは、特殊な「quadmask」の生成で最高潮に達します。これは、後続の拡散モデルに、ピクセルをどこで消去するかだけでなく、決定的に、周囲の環境の物理法則と相互作用をどこで書き換えるかを指示する詳細なマップです。

この深い推論に続き、生成と洗練のフェーズが引き継がれます。堅牢なビデオ拡散モデル、具体的にはAlibabaのファインチューニングされたCogVideoX-Fun-V1.5-5b-InPが、新しい映像を生成します。このモデルは、クアッドマスクの複雑な指示に基づいて反実仮想の現実を合成し、削除されたオブジェクトによって残された空白をインテリジェントに埋めながら、一貫した視覚的美学を維持します。

拡散モデルは強力ですが、生成されたコンテンツに微妙な視覚的不整合や形状の歪みをもたらすことがあります。これを克服するため、VOIDはオプションでありながら重要な洗練ステップを組み込んでいます。「フローワープノイズ」を含む技術を採用し、残りのオブジェクトを正しい形状と位置に固定し、時間的な一貫性を確保します。このプロセスにより、シーンの根底の物理が根本的に変更されたとしても、それらが堅固で揺るぎないものに感じられます。

VOIDの比類ない能力は、多様な業界リーダーの最先端モデルを統合した、その非常に効果的なハイブリッドアーキテクチャに由来します。この共同アプローチは、戦略的に以下を組み合わせています。 - 正確なオブジェクトセグメンテーションと追跡のためのMetaのSAM 2。 - 深い文脈理解と因果推論のためのGoogleのGemini-like Vision Language Model。 - 高品質でインタラクションを認識するビデオ生成のためのAlibabaのCogVideoX。 さらなる技術詳細とオープンソースの実装は、Netflix/void-model - GitHubで確認できます。この専門的なAIコンポーネントの組み合わせにより、驚くほど一貫性があり、物理的に妥当な出力が生成されます。

AIに「起こらなかったこと」を教える方法

VOIDのトレーニングには、根本的なデータ問題の克服が必要でした。それは、*起こらなかった*出来事についてAIに教える方法です。現実世界の映像では、*発生しなかった*自動車事故や、*決して割れなかった*ガラスのビフォーアフター比較を提供することはできません。反実仮想の現実に対するグランドトゥルースの欠如は、従来の教師あり学習にとって大きな障害となりました。

NetflixとINSAITは、合成環境を利用してこの制限を巧みに回避しました。研究者たちは、GoogleのKubricのようなプラットフォームを活用し、何千もの綿密に制御された物理シミュレーションを生成しました。これらのデジタルサンドボックスにより、完全にペアになったビデオシーケンスの作成が可能になりました。

各ペアは、同じシーンの2つのバージョンで構成されていました。1つはオブジェクトが環境と相互作用している様子(例:ボールがピンに当たる)、もう1つはオブジェクトが完全に存在せず、その後のすべての物理的効果が正しく除去されたものです。AIに両方のバージョンを並べて与えることで、オブジェクトの存在とその周囲のシーンへの正確な物理的影響との間の複雑な因果関係を学習しました。

この広範な合成データセットにより、VOIDは力と反応の複雑な相互作用を内面化し、物理的因果関係について直感的な理解を深めることができました。人間とオブジェクトの相互作用を含むより複雑なシナリオでは、チームはBlenderでレンダリングされたHUMOTOのような特殊なデータセットをさらに活用し、AIが反実仮想の現実における微妙な動きとその結果を正確にモデル化できるようにしました。

オープンソースの課題:私たちの実践テスト

図:オープンソースの課題:私たちの実践テスト
図:オープンソースの課題:私たちの実践テスト

NetflixがVOIDをオープンソースフレームワークとしてリリースしたことは革新的ですが、それを実装しようとするユーザーにとっては重大な実用上の課題を提示します。Better Stackの実践経験は、プラグアンドプレイとは程遠い状況を明らかにし、最先端AIの展開に内在する複雑さを浮き彫りにしました。セットアップは「まったく簡単ではない」とされ、かなりの技術的洞察力が要求されます。

ドキュメントの不足が主要な障害となっています。公式の GitHub リポジトリは、重要な詳細を頻繁に省略し、誤解を招く情報を含んでいるため、コマンドの失敗や不明瞭なエラーにつながります。例えば、初期設定の手順では、この手順にとって不可欠な依存関係である SAM 3 モデルの明示的な要件が指定されていません。

厳格な命名規則は、プロセスをさらに複雑にします。VOID の操作の中心である Quadmasks は、正しく機能するために `quadmask_0.mp4` という正確な命名を要求します。これらの明示的なガイドラインがないと、ユーザーはサイレントな失敗や予期せぬ動作に遭遇し、一見些細な問題を解決するためにコードベースや外部リソースを深く掘り下げる必要があります。

膨大なハードウェア要件だけでも、VOID はほとんどのローカルセットアップでは手の届かないものとなっています。このモデルは、40GB+ VRAM を備えた強力な GPU を必要とし、効率的な処理には NVIDIA H100 または同等品がほぼ必須です。これにより、RunPod のようなクラウド GPU プラットフォームへの依存が必要となり、コンテナ構成や特定のポート公開(例:Web アプリ用の 8998)のためのセットアップの複雑さがさらに増します。

ハードウェア以外にも、アクセス自体がゲートされており、多層的です。ユーザーは推論を開始するためにも複数の API キーとトークンを必要とします。様々なモデルをダウンロードするには Hugging Face トークンが不可欠であり、SAM 3 リポジトリへのアクセスは制限されており、ユーザーは許可を申請する必要があります。さらに、正確なポーズ推定とクアッドマスク生成のためにビジョン言語モデルを活用する初期のセグメンテーションステップでは、Gemini API key が必要です。この複雑な認証情報の要件は、VOID が現在のオープンソースの形態では、堅牢なインフラと高い設定許容度を持つ専門家ユーザーを対象としていることを強調しています。これは、カジュアルな実験のためのシンプルでアクセスしやすいツールとはかけ離れています。

失敗と成功:マトリックス・テスト

Netflix の VOID AI は、『マトリックス』の重要なシーンで究極のテストに直面しました。それは、ネオとモーフィアスの象徴的なスパーリングマッチからネオを削除することでした。このモデルは、ネオの物理的な存在を完璧に除去し、ピクセル単位の精度で俳優を消去するその驚くべき能力を示しました。この最初の成功は、ターゲットオブジェクトが最初から存在しなかった反事実的な現実を生成する VOID の中核的な能力を浮き彫りにしました。

しかし、結果として得られた映像は、この洗練された AI でさえ現在の限界を露呈しました。モーフィアスは、空の道場で複雑な武術の振り付けを続け、パンチやキックを繰り出していました。その効果は不穏なものでした。モーフィアスは目に見えない敵と必死に戦っているように見え、VOID が明示的に排除しようとしている否定できないゴーストインタラクションを生み出していました。

この結果は、重要な区別を強調しています。VOID は、ボーリングの球がピンに与える影響のように、削除によって直接影響を受けるオブジェクトの物理法則を書き換えることに優れています。しかし、モーフィアスの動きは単なる物理的な反応ではありませんでした。それらは、ネオの存在とパフォーマンスに直接*依存*する、高度に振り付けられた意図的なアクションでした。VOID がモーフィアスの行動をもっともらしく書き換えるには、まったく新しい、非戦闘的なパフォーマンスを推論する必要があり、シーンの物語と動きを根本的に変えることになります。

この AI は、因果関係を理解する画期的な能力にもかかわらず、まったく新しい人間の意図を発明したり、キャラクターのパフォーマンス全体を一から書き換えたりすることはできません。それは、ソース映像の固有のロジック内で動作し、物理的な相互作用を変更することはできますが、複雑な人間の行動を根本的に再スクリプトすることはできません。VOID: Video Object and Interaction Deletion (arXiv) のような研究でさらに探求されているこの制限は、VOID の力だけでなく、その現在の限界も証明しています。それは強力なツールですが、まだ魔法ではありません。

高音を奏でる: The La La Land テスト

VOIDの能力の華々しいデモンストレーションは、La La Land テストで披露されました。Better Stackのチームは、Ryan Goslingとの活気あるダンスシーンからEmma Stoneを削除するようモデルに挑戦しました。キャラクターが互いの周りを動き回ることで、ダイナミックな動きと複雑なオクルージョンが豊富に含まれるこの特定のシーンは、VOIDが連続性を維持し、アーティファクトを残さずに現実を書き換える能力に対する厳格なテストとなりました。その結果は驚くほどシームレスで、AIが最適な条件下で達成できることの説得力のあるビジョンを示しました。

La La Landのシーンに対するVOIDの出力は、ほぼ完璧であることが証明されました。Ryan Goslingがフレーム内を移動し、Emma Stoneがいた場所の真前を通り過ぎる際も、AIは完璧な連続性とゴーストフリーな再構築を維持しました。モデルは、セットや照明の複雑な詳細を含む隠された背景を正確に推測し、それらを前景にシームレスに結合しました。重要なことに、以前のより物理的に絡み合った試みを悩ませた、残像や説明のつかない環境の変化のような「ゴーストインタラクション」は、ここでは一切現れませんでした。

この目覚ましい成功は、VOIDの現在の強みに対する重要な洞察を提供します。*The Matrix*におけるNeoのパンチが相手の状態を根本的に変えたような直接的な物理的因果関係のシナリオとは異なり、La La Landのダンスは主に、最小限の直接的な物理的相互作用で2人のキャラクターが近接して動くものでした。中心的な課題は、物理的な結果を再シミュレートするのではなく、これら2つの動く人物をきれいに分離し、複雑なオクルージョンを正確に埋めることでした。

Emma Stoneがそのダンスに存在しなかったという説得力のある反事実的現実を生成するモデルの能力は、Ryan Goslingの流れるような動きとシーンのロマンチックな雰囲気を保ちながら、その計り知れない可能性を示す好例です。このテストは、視覚的な連続性と、動く非インタラクティブな要素の分離を優先するシナリオにおけるVOIDの堅牢なパフォーマンスを実証し、映画編集や視覚効果における将来の応用への魅力的な一端を垣間見せます。

不気味の谷へ: The Titanic テスト

イラスト: 不気味の谷へ: The Titanic テスト
イラスト: 不気味の谷へ: The Titanic テスト

NetflixのVOIDは、最もロマンチックな課題に直面しました。それは、*Titanic*の象徴的な「I'm flying」のシーンからLeonardo DiCaprioを消去することです。Better StackチームはJack Dawsonを削除し、Rose DeWitt Bukaterを船首に一人残そうと試みました。VOIDはDiCaprioの姿を消すことに概ね成功しましたが、その結果は明らかにまちまちであり、高度なAIであっても根強い課題があることを明らかにしました。

不気味なアーティファクトが、それ以外は印象的な削除を損ないました。DiCaprioに明らかに属する切断された手が、Kate Winsletの腕に不気味に絡みついたままでした。この幻肢は、重要な依存関係を浮き彫りにしました。VOIDの強力な物理認識生成は、正確な初期セグメンテーションに大きく依存しています。VOIDのコア物理エンジンが失敗したのではなく、ユーザーの不完全なマスクが、この持続的な「ゴースト」インタラクションを引き起こした可能性が高いです。

この出来事は、ユーザー側の重要なハードルを浮き彫りにします。トラッキング用のSAM 2のような堅牢なツールがあっても、複雑で動的なシーン全体にわたってピクセルパーフェクトな初期マスクを生成することは、依然として困難な手動または半手動のタスクです。削除するオブジェクトの定義におけるいかなる不正確さも、VOIDの出力品質に直接影響を与え、画期的なAIでさえも細心の注意を払った入力が必要であることを示します。

幻の手の向こうには、より繊細でありながら不穏なアーティファクトが現れました。Winsletの顔にはわずかなモーフィングが見られ、これはAI生成ビデオで顔の特徴が微妙に歪んだり変化したりする一般的な現象です。このわずかな変化により、結果は直接不気味の谷に陥りました。そこでは画像はほとんど人間そっくりですが、わずかにずれているため不快感を引き起こします。これは、VOIDが現実を再構築できる一方で、特に人間を被写体とする場合、完璧なフォトリアリズムを達成することは依然としてとらえどころのない目標であることを痛烈に思い出させます。

VOIDがいかに競合他社を圧倒するか

VOIDは、ビデオインペインティングの状況を根本的に再定義し、RunwayMLやAdobeのような商業大手、ProPainterやDiffuEraserのようなオープンソースの代替品の両方を劇的に凌駕しています。これらのツールは単純なオブジェクト除去や静的なシーン操作には優れていますが、物理法則に依存する相互作用や複雑なオクルージョンに直面すると、その限界がはっきりと現れます。VOIDの核となる革新は、単にピクセルを埋めるだけでなく、因果関係を理解し、書き換える能力にあります。

独立した研究により、VOIDの優れた忠実度とリアリズムが確認されています。Netflixのオリジナル論文で詳述されている包括的な人間選好度調査では、ユーザーが最先端の手法を含む主要な競合他社の結果よりもVOIDの出力を64.8%の確率で好むことが明らかになりました。この決定的な選好は、オブジェクトの不在が自然で物理的に一貫している、信じられる反事実的現実を生成するその画期的な能力を強調しています。

VOIDの真の競争優位性は、単に高品質であることだけでなく、他のモデルを困惑させる複雑なシナリオに対するその特定の熟練度にあります。競合他社がしばしば「ゴーストインタラクション」を残す場合(例えば、人が削除された後にミキサーが不可解に回転したり、ダイバーがいないのに水が跳ねたりするような場合)、VOIDはシーンの物理を細心の注意を払って再構築します。これにより、非常に動的な環境でもオブジェクトをシームレスに削除でき、残りの要素が削除されたオブジェクトが最初から存在しなかったかのように反応し、フレーム全体で物理的な妥当性を維持します。この、欠落した物理的相互作用を推論しシミュレートする独自の能力は、従来のコンテンツアウェアフィルアプローチとは一線を画しています。

NetflixがVOIDをApache 2.0オープンソースライセンスの下でリリースするという決定は、採用を加速し、業界標準として確立することを目的とした戦略的な動きです。このオープンなアプローチは、幅広いコミュニティ開発を促進し、世界中の研究者や開発者がその洗練された基盤の上に構築し、新しいワークフローに統合し、さらには改善に貢献することを可能にします。この高度な物理認識技術を民主化することにより、Netflixはビデオ制作およびポストプロダクションのエコシステム全体にわたるイノベーションを推進し、コンテンツの作成および変更方法に革命をもたらすことを目指しています。そのより広範な業界への影響については、Netflix Launches VOID AI That Rewrites Video Scenes After Filming - Forbesをご覧ください。この動きは、VOIDを単なるツールとしてではなく、インタラクティブビデオの未来のための基盤技術として位置付けています。

映画の未来:インタラクティブ&AI駆動型

VOIDの機能は、単純なオブジェクト除去をはるかに超え、メディアの制作と消費に根本的な変化をもたらすことを約束します。VOIDをオープンソース化したNetflixは、このような強力なツールをコンテンツパイプラインに統合することで、計り知れない利益を得るでしょう。わずかな連続性エラーのための高価な撮り直しをなくしたり、前例のない物理的精度で不要な背景要素を除去したりすることで、ポストプロダクションコストを数百万ドル節約できることを想像してみてください。

業界全体で、VOIDは新たな創造的道筋を切り開きます。映画制作者は、再撮影することなく、さまざまなキャラクター構成やオブジェクト配置を試しながらシーンを繰り返し検討できます。このデジタルな柔軟性により、編集スイートはダイナミックな制作ハブへと変貌し、監督は任意のシーケンスに対して真に反事実的な現実を形作ることができます。

決定的に重要なのは、VOIDがインタラクティブなストーリーテリングを再定義することです。将来の*Black Mirror: Bandersnatch*は、視聴者の選択に基づいてキャラクターの存在を動的に変更し、物語の分岐を物理的に一貫させることができます。ユーザーがキャラクターを登場させないことを選択した場合、VOIDはその不在が視覚的なものだけでなく、シーンの物理や他のキャラクターの相互作用に影響を与え、没入感を深めることを保証します。

視覚的な物語に対するこのレベルの制御は、深い意味合いを持ちます。Netflixのフレームワークは、視覚効果のための比類ない「元に戻す」ボタンを提供し、VFXアーティストやエディターのワークフローを根本的に変革します。ブームマイクの反射や置き間違えた小道具の除去は、物理を考慮した正確な操作となり、手動のrotoscopingやinpaintingの労力を劇的に削減します。

しかし、視覚的な歴史をシームレスに書き換える力は、重大な倫理的ジレンマを提示します。これほど説得力のある代替現実を作成できるツールは、偽情報の強力な手段にもなります。シーンから俳優を削除するのと同じ技術で、彼らの存在を簡単に捏造でき、deepfakesの拡散を助長し、視覚メディアへの信頼を損なうことになります。

堅牢なコンテンツ認証やデジタル透かしなどの保護策が不可欠になります。AIが生成したコンテンツが現実と区別できなくなるにつれて、業界はメディアの出所を検証するメカニズムを積極的に開発しなければなりません。VOIDはAIビデオ操作における画期的な飛躍を意味し、創造的な探求と厳格な倫理的考察の両方を要求します。

よくある質問

NetflixのVOIDモデルとは何ですか?

VOID(Video Object and Interaction Deletion)は、Netflixが提供するオープンソースのAIフレームワークで、ビデオからオブジェクトや俳優を削除し、彼らの不在を考慮してシーンの物理をインテリジェントに書き換え、「ゴーストインタラクション」を排除します。

VOIDは他のAIビデオエディターとどう違うのですか?

他のツールがピクセルを消去する一方で、それらは削除されたオブジェクトの物理的な結果(例:影が残る)を残すことがよくあります。VOIDは、因果関係を理解するために2パスシステムを使用し、オブジェクトが最初から存在しなかったかのようにシーンを書き換えます。

自分のパーソナルコンピューターでVOIDモデルを実行できますか?

ほとんどのユーザーにとっては難しいでしょう。VOIDは、NVIDIA A100やH100のような、少なくとも40GBのVRAMを搭載した強力なクラウドGPUを必要とするため、標準的な消費者向けハードウェアでは利用できません。

Netflixは自社の映画や番組でVOIDを使用していますか?

NetflixはVOIDを研究プロジェクトとして公開しており、まだ制作パイプラインへの統合に関する公式計画は発表していません。しかし、ポストプロダクションのコスト削減におけるその可能性は非常に大きいです。

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

すべての記事に戻る