La IA de Netflix borra la realidad

Netflix acaba de lanzar una IA que no solo borra a los actores de las escenas, sino que borra su impacto en la realidad misma. Esta innovadora herramienta de código abierto está cambiando la edición de video para siempre, y desglosamos cómo funciona.

Hero image for: La IA de Netflix borra la realidad
💡

Resumen / Puntos clave

Netflix acaba de lanzar una IA que no solo borra a los actores de las escenas, sino que borra su impacto en la realidad misma. Esta innovadora herramienta de código abierto está cambiando la edición de video para siempre, y desglosamos cómo funciona.

El "Fantasma en la Máquina" ha muerto

Las herramientas de video con IA existentes sobresalen en la eliminación de objetos, pero rutinariamente fallan al borrar las consecuencias de esos objetos. Esta falla fundamental crea interacciones fantasma discordantes, donde los efectos físicos de un elemento eliminado persisten inexplicablemente. Considere una bowling ball: elimínela de una escena, y los pins seguirán cayendo sin razón aparente. Borre a una persona haciendo un smoothie, y la blender seguirá girando y batiendo, sin operador. Los modelos actuales simplemente parchean píxeles, arreglando la apariencia mientras ignoran por completo la física subyacente y las relaciones causales del entorno circundante. Son un content-aware fill con esteroides, pero poco más.

Netflix acaba de lanzar VOID (Video Object and Interaction Deletion), un innovador marco de AI de código abierto que aborda directamente este problema generalizado. VOID no solo pinta sobre los píxeles que faltan; reescribe inteligentemente la física de la escena, generando una realidad contrafactual donde el objeto eliminado nunca existió. Este modelo innovador comprende la causa y el efecto, modificando el contenido de video basándose en la ausencia de elementos específicos para asegurar la coherencia lógica. Promete eliminar los restos inverosímiles dejados por tecnologías anteriores.

Lanzado el 3 de abril de 2026, bajo una Apache 2.0 license, y desarrollado en colaboración con INSAIT, VOID representa un salto monumental más allá del simple video inpainting. Esto es un cambio de paradigma, pasando de ajustes cosméticos a nivel de píxel a un sofisticado razonamiento causal dentro del video. En lugar de simplemente adivinar qué hay detrás de un objeto eliminado, el sistema de razonamiento de dos pasadas de VOID primero identifica qué más se vería afectado causalmente por su ausencia.

Durante su fase inicial de razonamiento, VOID emplea un Vision Language Model y SAM 2 (Segment Anything Model 2) de Meta para no solo rastrear el objeto a eliminar, sino también para identificar todos los elementos afectados causalmente. Luego construye una "quadmask", un mapa detallado que instruye al subsiguiente video diffusion model no solo dónde borrar, sino precisamente dónde reescribir la física del área circundante. Entrenado con datos sintéticos emparejados generados usando Kubric de Google y HUMOTO, VOID aprendió las intrincadas relaciones entre la presencia del objeto y el impacto ambiental. Este enfoque meticuloso permite a VOID generar metraje que no solo es visualmente coherente sino también físicamente consistente, redefiniendo las posibilidades para la manipulación dinámica de video y los production workflows.

Más allá de los píxeles: una IA que entiende la física

Ilustración: Más allá de los píxeles: una IA que entiende la física
Ilustración: Más allá de los píxeles: una IA que entiende la física

El marco VOID de Netflix redefine la eliminación de objetos de video, trascendiendo la simple eliminación de píxeles para reimaginar fundamentalmente la física de una escena. A diferencia de las herramientas de AI estándar que simplemente intentan llenar un vacío, VOID genera una realidad contrafactual, recreando meticulosamente el video como si el objeto o la persona objetivo nunca hubieran existido. Este enfoque innovador aborda directamente el problema generalizado de la "interacción fantasma", donde los elementos eliminados dejan consecuencias físicas inexplicables, como falling pins sin una bowling ball o una spinning blender sin que nadie la opere.

VOID inicia su sofisticado proceso de dos pasadas con una fase de razonamiento crucial. Empleando un Vision Language Model junto con Meta’s SAM 2 (Segment Anything Model 2), la IA analiza meticulosamente toda la escena. No solo identifica el objeto a eliminar; pregunta críticamente: "Si elimino esto, ¿qué más cambia?" Esta consulta impulsa al modelo a identificar todos los demás elementos en la escena que se verían afectados causalmente por la ausencia del objeto objetivo. Por ejemplo, eliminar un solo dominó de una pila lleva a VOID a identificar todos los dominós subsiguientes como físicamente interdependientes, lo que requiere una re-simulación completa de su interacción.

Este paso analítico culmina en la creación de una quadmask, un mapa altamente preciso generado por IA. Esta quadmask sirve como una guía instructiva crítica para el modelo de difusión de video posterior. Dicta no solo dónde deben borrarse los píxeles para eliminar el objeto objetivo, sino, crucialmente, dónde la física del entorno circundante debe reescribirse por completo. El mapa dirige al modelo para alterar movimientos, fuerzas y relaciones entre objetos de una manera físicamente plausible, asegurando que la escena regenerada mantenga una verosimilitud absoluta.

Esta metodología marca un profundo cambio de paradigma con respecto al AI video inpainting convencional. Los algoritmos de relleno conscientes del contenido más antiguos operan únicamente mediante el reconocimiento de patrones, adivinando píxeles basándose en datos visuales circundantes sin ninguna comprensión de las leyes físicas. VOID, sin embargo, demuestra una forma rudimentaria pero poderosa de comprensión del mundo, captando las intrincadas relaciones de causa y efecto inherentes a las interacciones físicas. Su extenso entrenamiento en entornos sintéticos, como Google’s Kubric y HUMOTO, proporcionó vastos conjuntos de datos emparejados. Estos conjuntos de datos incluían versiones "antes" y "después" de miles de simulaciones físicas, una con una interacción y otra donde el objeto nunca estuvo presente.

Al aprender de estas realidades sintéticas meticulosamente elaboradas, VOID desarrolló la capacidad de inferir la relación precisa entre la presencia de un objeto y su profundo impacto en el entorno. Esta profunda comprensión permite a VOID producir videos coherentes y físicamente consistentes sin los signos reveladores de la manipulación de IA, yendo más allá de las correcciones visuales superficiales hacia una reconstrucción de la realidad más profunda y consciente de la física.

Dentro del Pipeline de Dos Pasadas

El enfoque innovador de VOID se basa en un sistema de dos pasadas para lograr sus eliminaciones conscientes de la física, alterando fundamentalmente la realidad de una escena. Este sofisticado pipeline va más allá de la simple manipulación de píxeles, primero comprendiendo el tejido causal de la escena y luego reconstruyéndola inteligentemente con fidelidad.

La Fase de Razonamiento inicial aprovecha una potente combinación de modelos de IA avanzados. Un Vision Language Model, similar a Google’s Gemini, analiza meticulosamente la escena para interpretar contextos complejos, identificar posibles relaciones causales y comprender el papel del objeto. Simultáneamente, Meta’s Segment Anything Model 2 (SAM 2) identifica y rastrea con precisión el objeto objetivo en cada fotograma, creando una máscara perfecta a nivel de píxel para su eliminación.

Durante esta fase crucial, la IA no se limita a localizar píxeles para borrar. Pregunta activamente qué cambios fundamentales ocurrirían si el objeto nunca hubiera existido, yendo más allá de la apariencia visual a la consecuencia física. Este proceso culmina en la generación de una "quadmask" especializada, un mapa detallado que instruye al modelo de difusión posterior no solo dónde borrar píxeles, sino, críticamente, dónde reescribir la física y las interacciones del entorno circundante.

Tras este profundo razonamiento, la Fase de Generación y Refinamiento toma el relevo. Un robusto modelo de difusión de video, específicamente CogVideoX-Fun-V1.5-5b-InP de Alibaba, ajustado con precisión, genera el nuevo metraje. Este modelo sintetiza la realidad contrafactual basándose en las intrincadas instrucciones de la quadmask, llenando inteligentemente el vacío dejado por el objeto eliminado mientras mantiene una estética visual consistente.

Los modelos de difusión, aunque potentes, a veces pueden introducir sutiles inconsistencias visuales o distorsiones de forma en el contenido generado. Para combatir esto, VOID incorpora un paso de refinamiento opcional pero vital. Emplea una técnica que involucra 'flow-warped noise' para fijar los objetos restantes en sus formas y posiciones correctas, asegurando la consistencia temporal. Este proceso los hace sentir sólidos e inquebrantables, incluso cuando la física subyacente de la escena ha sido radicalmente alterada.

La capacidad inigualable de VOID proviene de su arquitectura híbrida altamente efectiva, que integra modelos de vanguardia de diversos líderes de la industria. Este enfoque colaborativo combina estratégicamente: - SAM 2 de Meta para una segmentación y seguimiento precisos de objetos. - El Modelo de Lenguaje Visual tipo Gemini de Google para una profunda comprensión contextual e inferencia causal. - CogVideoX de Alibaba para una generación de video de alta calidad y consciente de la interacción. Se pueden explorar más detalles técnicos y la implementación de código abierto a través de Netflix/void-model - GitHub. Esta combinación de componentes de IA especializados crea un resultado notablemente coherente y físicamente plausible.

¿Cómo enseñar a una IA lo que nunca sucedió?

Entrenar a VOID requirió superar un problema fundamental de datos: cómo enseñar a una IA sobre eventos que *no* sucedieron. El metraje del mundo real no puede proporcionar comparaciones de antes y después de un accidente automovilístico que *no* ocurrió, o un vaso que *nunca* se rompió. Esta ausencia de verdad fundamental para las realidades contrafactuales planteó un obstáculo significativo para el aprendizaje supervisado tradicional.

Netflix e INSAIT sortearon ingeniosamente esta limitación utilizando entornos sintéticos. Los investigadores aprovecharon plataformas como Google's Kubric para generar miles de simulaciones físicas meticulosamente controladas. Estos entornos de prueba digitales permitieron la creación de secuencias de video perfectamente emparejadas.

Cada par consistía en dos versiones de la misma escena: una que representaba un objeto interactuando con su entorno (por ejemplo, una pelota golpeando bolos), y otra donde el objeto estaba completamente ausente, con todos los efectos físicos subsiguientes correctamente eliminados. Al alimentar a la IA con ambas versiones una al lado de la otra, aprendió las intrincadas relaciones causales entre la presencia de un objeto y su impacto físico preciso en la escena circundante.

Este extenso conjunto de datos sintéticos permitió a VOID internalizar la compleja interacción de fuerzas y reacciones, desarrollando una comprensión intuitiva de la causalidad física. Para escenarios más intrincados que involucran interacciones entre humanos y objetos, el equipo utilizó además conjuntos de datos especializados como HUMOTO, renderizados en Blender, asegurando que la IA pudiera modelar con precisión movimientos matizados y sus consecuencias en una realidad contrafactual.

El Obstáculo del Código Abierto: Nuestra Prueba Práctica

Ilustración: El Obstáculo del Código Abierto: Nuestra Prueba Práctica
Ilustración: El Obstáculo del Código Abierto: Nuestra Prueba Práctica

El lanzamiento de VOID por parte de Netflix como un framework de código abierto, aunque revolucionario, presenta importantes obstáculos prácticos para los usuarios que intentan implementarlo. La experiencia práctica de Better Stack reveló un panorama lejos de ser 'plug-and-play', lo que subraya las complejidades inherentes a la implementación de IA de vanguardia. La configuración "no es sencilla en absoluto", lo que exige una considerable perspicacia técnica.

Las lagunas en la documentación representan un obstáculo principal. El repositorio oficial de GitHub frecuentemente omite detalles cruciales y contiene información engañosa, lo que lleva a comandos fallidos y errores oscuros. Por ejemplo, las instrucciones de configuración inicial no especifican el requisito explícito del modelo SAM 3, una dependencia crítica para el procedimiento.

Las estrictas convenciones de nomenclatura complican aún más el proceso. Las Quadmasks, centrales para el funcionamiento de VOID, exigen una nomenclatura precisa como `quadmask_0.mp4` para funcionar correctamente. Sin estas directrices explícitas, los usuarios encuentran fallos silenciosos o comportamientos inesperados, lo que requiere inmersiones profundas en el código base o recursos externos para resolver problemas aparentemente menores.

Los puros requisitos de hardware por sí solos colocan a VOID fuera del alcance de la mayoría de las configuraciones locales. El modelo exige una GPU potente con 40GB+ de VRAM, lo que hace que una NVIDIA H100 o equivalente sea casi obligatoria para un procesamiento eficiente. Esto requiere depender de plataformas de GPU en la nube como RunPod, añadiendo otra capa de complejidad de configuración para la configuración de contenedores y la exposición de puertos específicos (por ejemplo, 8998 para aplicaciones web).

Más allá del hardware, el acceso en sí está restringido y es multicapa. Los usuarios requieren múltiples claves API y tokens para siquiera comenzar la inferencia. Un token de Hugging Face es esencial para descargar los diversos modelos, mientras que el acceso al repositorio de SAM 3 está restringido, requiriendo que los usuarios soliciten permiso. Además, el paso de segmentación inicial, que aprovecha un Vision Language Model para una estimación precisa de la pose y la generación de quadmask, exige una clave API de Gemini. Este intrincado requisito de credenciales subraya que VOID, en su forma actual de código abierto, está dirigido a usuarios expertos con una infraestructura robusta y una alta tolerancia a la configuración. Está lejos de ser una herramienta simple y accesible para la experimentación casual.

Fracaso y Éxito: La Prueba de Matrix

La IA VOID de Netflix se enfrentó a su prueba definitiva en una escena crucial de *The Matrix*: eliminar a Neo de su icónico combate de sparring con Morpheus. El modelo extirpó impecablemente la presencia física de Neo, demostrando su notable capacidad para borrar a un actor con una precisión perfecta a nivel de píxel. Este éxito inicial destacó la capacidad central de VOID para generar una realidad contrafactual donde el objeto objetivo nunca existió.

Sin embargo, el metraje resultante reveló los límites actuales incluso de esta sofisticada IA. Morpheus continuó su intrincada coreografía de artes marciales, lanzando puñetazos y patadas en un dojo vacío. El efecto fue inquietante: Morpheus parecía estar inmerso en una lucha desesperada contra un oponente invisible, creando una innegable interacción fantasma que VOID explícitamente busca eliminar.

Este resultado subraya una distinción crítica. VOID sobresale reescribiendo la física de los objetos directamente afectados por una eliminación, como el impacto de una bola de bolos en los bolos. Sin embargo, los movimientos de Morpheus no eran meras reacciones físicas; eran acciones altamente coreografiadas e intencionales directamente *dependientes* de la presencia y actuación de Neo. Para que VOID reescribiera plausiblemente las acciones de Morpheus, necesitaría inferir una actuación completamente nueva y no combativa, alterando fundamentalmente la narrativa y el movimiento de la escena.

La IA, a pesar de su innovadora destreza en la comprensión de las dependencias causales, no puede inventar una intención humana completamente nueva ni reescribir la actuación completa de un personaje desde cero. Opera dentro de la lógica inherente del metraje original, capaz de modificar interacciones físicas pero no de reescribir radicalmente comportamientos humanos complejos. Esta limitación, explorada más a fondo en investigaciones como VOID: Video Object and Interaction Deletion (arXiv), demuestra el poder de VOID, pero también su techo actual. Es una herramienta formidable, pero aún no es magia.

Alcanzando la nota alta: La prueba de La La Land

Una demostración triunfal de las capacidades de VOID llegó con la prueba de La La Land, donde el equipo de Better Stack desafió al modelo a eliminar a Emma Stone de una vibrante secuencia de baile con Ryan Gosling. Esta escena en particular, rica en movimiento dinámico y oclusiones complejas a medida que los personajes se entrelazan, presentó una prueba rigurosa de la capacidad de VOID para mantener la continuidad y reescribir la realidad sin dejar artefactos. El resultado fue notablemente fluido, presentando una visión convincente de lo que la IA puede lograr en condiciones óptimas.

El resultado de VOID para la escena de La La Land resultó casi impecable. Mientras Ryan Gosling se movía por el encuadre, pasando directamente por delante de donde había estado Emma Stone, la IA mantuvo una continuidad perfecta y una reconstrucción sin fantasmas. El modelo infirió con precisión el fondo oscurecido, incluidos los intrincados detalles del set y la iluminación, uniéndolos sin problemas al primer plano. Crucialmente, ninguna de las "interacciones fantasma" —como sombras persistentes o cambios ambientales inexplicables— que plagaron intentos anteriores, más físicamente enredados, se manifestó aquí.

Este rotundo éxito ofrece una visión crítica de las fortalezas actuales de VOID. A diferencia de los escenarios directos de causa y efecto físico en *The Matrix*, donde los golpes de Neo alteraron fundamentalmente el estado de su oponente, el baile de La La Land involucró principalmente a dos personajes moviéndose muy cerca con una interacción física directa mínima. El desafío principal se convirtió en separar limpiamente estas dos figuras en movimiento y rellenar con precisión las oclusiones complejas, en lugar de volver a simular las consecuencias físicas.

La capacidad del modelo para generar una convincente realidad contrafactual donde Emma Stone nunca existió en ese baile, mientras se preservan los movimientos fluidos de Ryan Gosling y el ambiente romántico de la escena, se erige como un excelente ejemplo de su inmenso potencial. Esta prueba demuestra el rendimiento robusto de VOID en escenarios que priorizan la continuidad visual y el desenredo de elementos en movimiento no interactivos, ofreciendo un vistazo convincente a sus futuras aplicaciones para la edición cinematográfica y los efectos visuales.

En el Valle Inquietante: La prueba de Titanic

Ilustración: En el Valle Inquietante: La prueba de Titanic
Ilustración: En el Valle Inquietante: La prueba de Titanic

VOID de Netflix se enfrentó a su desafío más romántico: borrar a Leonardo DiCaprio de la icónica escena 'Estoy volando' en *Titanic*. El equipo de Better Stack intentó eliminar a Jack Dawson, dejando a Rose DeWitt Bukater sola en la proa del barco. Si bien VOID logró en gran medida hacer desaparecer la figura de DiCaprio, los resultados fueron decididamente mixtos, revelando los desafíos persistentes incluso de la IA avanzada.

Artefactos espeluznantes empañaron la por lo demás impresionante eliminación. Una mano incorpórea, que claramente pertenecía a DiCaprio, permaneció extrañamente agarrada al brazo de Kate Winslet. Esta extremidad fantasma subrayó una dependencia crítica: la potente generación de VOID consciente de la física depende en gran medida de una segmentación inicial precisa. La máscara imperfecta del usuario, en lugar de un fallo del motor de física central de VOID, probablemente causó esta persistente interacción de "fantasma".

El incidente destaca un obstáculo crucial del lado del usuario. Incluso con herramientas robustas como SAM 2 para el seguimiento, generar una máscara inicial perfecta en píxeles en escenas complejas y en movimiento sigue siendo una tarea manual o semi-manual desafiante. Cualquier imprecisión al definir el objeto a eliminar impacta directamente la calidad de la salida de VOID, demostrando que incluso la IA innovadora requiere una entrada meticulosa.

Más allá de la mano fantasma, surgió un artefacto más sutil, pero inquietante. El rostro de Winslet mostraba una ligera deformación, un fenómeno común en los videos generados por IA donde las características faciales se distorsionan o cambian sutilmente. Esta mínima alteración empujó el resultado directamente al valle inquietante, donde la imagen es casi humana, pero lo suficientemente extraña como para provocar malestar. Sirve como un crudo recordatorio de que, si bien VOID puede remodelar la realidad, lograr un fotorrealismo perfecto, especialmente con sujetos humanos, sigue siendo un objetivo esquivo.

Cómo VOID Aplasta a la Competencia

VOID redefine fundamentalmente el panorama del inpainting de video, superando drásticamente tanto a gigantes comerciales como RunwayML y Adobe, como a alternativas de código abierto como ProPainter y DiffuEraser. Si bien estas herramientas sobresalen en la eliminación simple de objetos o la manipulación de escenas estáticas, sus limitaciones se hacen patentes cuando se enfrentan a interacciones dependientes de la física o a oclusiones complejas. La innovación central de VOID reside en su capacidad para comprender y reescribir la causa y el efecto, no solo rellenar píxeles.

Investigaciones independientes confirman la fidelidad y el realismo superiores de VOID. Un estudio exhaustivo de preferencia humana, detallado en el artículo original de Netflix, reveló que los usuarios prefirieron la salida de VOID el 64.8% de las veces sobre los resultados de un conjunto de competidores líderes, incluidos métodos de vanguardia. Esta preferencia decisiva subraya su capacidad innovadora para generar realidades contrafactuales creíbles, donde la ausencia de un objeto se siente natural y físicamente consistente.

La verdadera ventaja competitiva de VOID no es solo una mayor calidad, sino su dominio específico sobre escenarios complejos que desconciertan a otros modelos. Donde los competidores a menudo dejan "interacciones fantasma" —como una licuadora girando inexplicablemente después de que se elimina a una persona, o salpicaduras de agua sin un buzo—, VOID reconstruye meticulosamente la física de la escena. Esto permite la eliminación perfecta de objetos incluso en entornos altamente dinámicos, asegurando que los elementos restantes reaccionen como si el objeto eliminado nunca hubiera existido, preservando la plausibilidad física a través de los fotogramas. Esta capacidad única para inferir y simular interacciones físicas faltantes lo distingue de los enfoques tradicionales de relleno consciente del contenido.

La decisión de Netflix de lanzar VOID bajo una licencia de código abierto Apache 2.0 es una maniobra estratégica diseñada para acelerar su adopción y establecerlo como un estándar de la industria. Este enfoque abierto fomenta un amplio desarrollo comunitario, permitiendo a investigadores y desarrolladores de todo el mundo construir sobre su sofisticada base, integrarlo en nuevos flujos de trabajo e incluso contribuir con mejoras. Al democratizar esta tecnología avanzada y consciente de la física, Netflix busca impulsar la innovación en todo el ecosistema de producción y postproducción de video, revolucionando potencialmente cómo se crea y modifica el contenido. Para una lectura adicional sobre sus implicaciones industriales más amplias, consulte Netflix Launches VOID AI That Rewrites Video Scenes After Filming - Forbes. Este movimiento posiciona a VOID no solo como una herramienta, sino como una tecnología fundamental para el futuro del video interactivo.

El Futuro del Cine: Interactivo e Impulsado por IA

Las capacidades de VOID se extienden mucho más allá de la simple eliminación de objetos, prometiendo un cambio radical en la producción y el consumo de medios. Netflix, al haber liberado VOID como código abierto, se beneficiará inmensamente al integrar una herramienta tan poderosa en su flujo de trabajo de contenido. Imagine eliminar costosas nuevas tomas por errores menores de continuidad o eliminar elementos de fondo no deseados con una precisión física sin precedentes, ahorrando millones en costos de postproducción.

A nivel de la industria, VOID abre nuevas vías creativas. Los cineastas podrían iterar en escenas, probando diferentes composiciones de personajes o ubicaciones de objetos sin necesidad de volver a filmar. Esta maleabilidad digital transforma la suite de edición en un centro de creación dinámico, donde los directores pueden realmente esculpir una realidad contrafactual para cualquier secuencia dada.

Fundamentalmente, VOID redefine la narrativa interactiva. Un futuro *Black Mirror: Bandersnatch* podría alterar dinámicamente la presencia de personajes basándose en las elecciones del espectador, haciendo que las ramas narrativas sean físicamente consistentes. Si un usuario elige que un personaje nunca aparezca, VOID asegura que su ausencia no sea solo visual, sino que afecte la física de la escena y las interacciones de otros personajes, profundizando la inmersión.

Este nivel de control sobre las narrativas visuales tiene profundas implicaciones. El marco de Netflix proporciona un botón de "deshacer" inigualable para los efectos visuales, cambiando fundamentalmente los flujos de trabajo para los VFX artists y editores. Eliminar el reflejo de un micrófono de pértiga o un objeto mal colocado se convierte en una operación precisa y consciente de la física, reduciendo drásticamente los esfuerzos manuales de rotoscoping e inpainting.

Sin embargo, el poder de reescribir sin problemas la historia visual presenta un dilema ético significativo. Una herramienta capaz de crear realidades alternativas tan convincentes también se convierte en un potente instrumento para la desinformación. La misma tecnología que elimina a un actor de una escena puede fabricar su presencia con la misma facilidad, alimentando la proliferación de deepfakes y erosionando la confianza en los medios visuales.

Las salvaguardias, como la autenticación robusta de contenido y la marca de agua digital, se volverán imperativas. A medida que el contenido generado por AI se vuelva indistinguible de la realidad, la industria debe desarrollar proactivamente mecanismos para verificar la procedencia de los medios. VOID representa un salto monumental en la manipulación de video con AI, exigiendo tanto la exploración creativa como una rigurosa consideración ética.

Preguntas Frecuentes

¿Qué es el modelo VOID de Netflix?

VOID (Video Object and Interaction Deletion) es un framework de AI de open-source de Netflix que elimina objetos o actores de un video y reescribe inteligentemente la física de la escena para tener en cuenta su ausencia, eliminando las 'interacciones fantasma'.

¿En qué se diferencia VOID de otros editores de video con AI?

Mientras que otras herramientas borran píxeles, a menudo dejan atrás las consecuencias físicas del objeto eliminado (por ejemplo, una sombra permanece). VOID utiliza un two-pass system para comprender la causa y el efecto, reescribiendo la escena como si el objeto nunca hubiera existido.

¿Puedo ejecutar el modelo VOID en mi ordenador personal?

Es poco probable para la mayoría de los usuarios. VOID requiere una potente cloud GPU con al menos 40GB de VRAM, como una NVIDIA A100 o H100, lo que lo hace inaccesible para el hardware de consumo estándar.

¿Está usando Netflix VOID en sus propias películas y programas?

Netflix ha lanzado VOID como un proyecto de investigación y aún no ha anunciado planes oficiales para integrarlo en sus production pipelines. Sin embargo, su potencial de ahorro de costos en post-production es significativo.

Preguntas frecuentes

¿Cómo enseñar a una IA lo que nunca sucedió?
Entrenar a VOID requirió superar un problema fundamental de datos: cómo enseñar a una IA sobre eventos que *no* sucedieron. El metraje del mundo real no puede proporcionar comparaciones de antes y después de un accidente automovilístico que *no* ocurrió, o un vaso que *nunca* se rompió. Esta ausencia de verdad fundamental para las realidades contrafactuales planteó un obstáculo significativo para el aprendizaje supervisado tradicional.
¿Qué es el modelo VOID de Netflix?
VOID es un framework de AI de open-source de Netflix que elimina objetos o actores de un video y reescribe inteligentemente la física de la escena para tener en cuenta su ausencia, eliminando las 'interacciones fantasma'.
¿En qué se diferencia VOID de otros editores de video con AI?
Mientras que otras herramientas borran píxeles, a menudo dejan atrás las consecuencias físicas del objeto eliminado . VOID utiliza un two-pass system para comprender la causa y el efecto, reescribiendo la escena como si el objeto nunca hubiera existido.
¿Puedo ejecutar el modelo VOID en mi ordenador personal?
Es poco probable para la mayoría de los usuarios. VOID requiere una potente cloud GPU con al menos 40GB de VRAM, como una NVIDIA A100 o H100, lo que lo hace inaccesible para el hardware de consumo estándar.
¿Está usando Netflix VOID en sus propias películas y programas?
Netflix ha lanzado VOID como un proyecto de investigación y aún no ha anunciado planes oficiales para integrarlo en sus production pipelines. Sin embargo, su potencial de ahorro de costos en post-production es significativo.
🚀Descubre más

Mantente a la vanguardia de la IA

Descubre las mejores herramientas de IA, agentes y servidores MCP seleccionados por Stork.AI.

Volver a todas las publicaciones