TL;DR / Key Takeaways
La course aux vidéos alimentées par l'IA vient de se raviver.
Tout juste au moment où le monde de la vidéo IA commençait à sembler prévisible, le Wan 2.6 d'Alibaba a explosé tous les préjugés. Sorti seulement quelques mois après le Wan 2.5, ce nouveau modèle passe à des clips de 15 secondes en 1080p et redéfinit ce qu'un outil de « texte à vidéo » peut accomplir. Au lieu de poursuivre Sora d'OpenAI plan par plan, le Wan 2.6 se rapproche du modèle 01 de Kling, mais avec un accent plus marqué sur la structure narrative et le son.
Alors que les générateurs précédents produisaient des clips audio silencieux ou de la musique préenregistrée, Wan 2.6 traite l’audio comme une entrée de première classe. Alimentez-le avec une chanson générée par Suno ou une piste vocale ébauchée et il crée des visuels qui synchronisent les lèvres à travers plusieurs scènes, correspondent au rythme et affichent même des textes à l'écran extraits des paroles. Lors d'un test, le modèle a rendu des mots-clés d'entreprise comme “synergie, innovation, croissance” qui n'existaient que dans l'audio, pas dans l'invite écrite.
La multimodalité ne signifie plus « ajouter de la musique après coup. » Wan 2.6 relie audio, texte et image dans un seul flux de travail : vous pouvez partir d'une invite textuelle, d'une image de référence téléchargée ou d'un extrait de bulletin d'information et laisser le système déduire les mouvements de caméra, les montages et le timing des dialogues. Une séquence test de La Nuit des morts-vivants montre le modèle suivant le discours d'un présentateur de nouvelles avec un mouvement des lèvres convaincant, tout en halluciant un bizarre microphone surdimensionné dans le cadre.
Le véritable changement réside dans le contrôle narratif. Wan 2.6 introduit une génération multi‑plan intelligente qui cherche à comprendre la disposition spatiale et le placement des personnages au lieu de traiter chaque plan comme un redémarrage. Avec un interrupteur “multi‑plan intelligent”, le modèle : - Maintient la géographie de la pièce à travers les transitions - Tente des raccords entre les angles - Invente parfois de nouveaux personnages tout en conservant l'éclairage et l'ambiance cohérents
Tout cela prépare la prochaine phase de la course vidéo à l'IA : un récit pratique au lieu d'une roulette de clips viraux. Des fonctionnalités comme le système de personnages « Starring » à venir de Wan, le déploiement de Seedance 1.5 Pro de ByteDance dans CapCut, et des recherches comme le point de conversion de la troisième personne à la première de EgoX vont dans la même direction. L'objectif n'est plus seulement un spectacle photoréaliste ; il s'agit de donner aux créateurs un contrôle précis sur qui apparaît dans une scène, ce qu'ils disent et comment chaque plan s'enchaîne avec le suivant.
Vos Mots, Votre Chanson, Son Film
Votre playlist peut désormais se scénariser toute seule. La fonctionnalité phare de Wan 2.6 est la génération audio-vidéo : fournissez-lui un morceau fini ou un extrait de dialogue et le modèle crée des visuels qui s'alignent sur chaque rythme, syllabe et pause. Alibaba limite chaque rendu à 15 secondes, mais vous pouvez enchaîner les extraits, transformant ainsi une chanson de trois minutes en un clip vidéo musical monté par l'IA.
Dans des tests avec une chanson générée par Suno, Wan 2.6 a produit quatre clips distincts qui semblaient constituer une vidéo cohérente. Chaque changement de couplet et pause instrumentale a déclenché une nouvelle idée visuelle, mais le personnage principal et le style de la caméra sont restés suffisamment constants pour être considérés comme un montage de clip vidéo musical à petit budget mais cohérent.
Le synchronisme labial se démarque. Dans les quatre clips, les formes des lèvres suivaient les voix de Suno avec une précision surprenante, même lors des phrases plus rapides qui posent généralement problème aux modèles vidéo AI actuels. Le modèle a géré les consonnes et les sons à bouche fermée de manière convaincante, évitant le mouvement flou et marionnette qui a affecté les générateurs précédents.
La compréhension va au-delà des mots. Dans une prise inutilisée, Wan 2.6 a rempli un bureau d'entreprise de mots à la mode flottants—« synergie », « innovation », « croissance »—s'alignant sur la critique de la culture du travail de la chanson sans direction explicite. Ce type d'alignement sémantique suggère que le système analyse non seulement les phonèmes, mais aussi le sens et l'humeur de l'audio.
Le plus étrange des atouts est venu d'un texte à l'écran. Dans un clip séparé, Wan 2.6 a rendu des paroles sous forme de texte diégétique à l'intérieur de la scène, même si ces mots n'étaient jamais présents dans l'invite de texte. Ils n'existaient que dans le fichier audio, ce qui implique que le modèle effectue une étape de transcription interne avant de réintégrer ces mots dans la vidéo.
Pour les musiciens, cela révolutionne le flux de travail. Vous pouvez écrire et enregistrer un morceau dans Suno ou un DAW, puis envoyer le WAV fini à Wan 2.6 et obtenir instantanément une banque de séquences B-roll, de plans de performance et de visuels abstraits à intégrer dans une vidéo complète. Pas de caméra, pas de décor, juste des ajustements de prompt et des re-rendus.
Les podcasteurs et les narrateurs bénéficient d'une amélioration similaire. Un monologue narratif, un segment d'interview ou un drame audio fictif peut engendrer :
- 1Plans de réaction centrés sur les personnages.
- 2Établissement de scènes et plans de coupe
- 3Cartes de titre stylisées et citations à l'écran
Cela fait en sorte que Wan 2.6 donne moins l'impression d'un filtre vidéo et plus celle d'un visualiseur toujours actif pour n'importe quel morceau de son que vous avez déjà.
Plus que des pixels : une IA avec une vision du monde
Plus qu'une simple bande démo flashy, Wan 2.6 fonctionne comme un système qui “comprend” réellement le monde que vous lui demandez de représenter. Dans la vidéo “dystopie corporative” du trajet du lundi du créateur, le modèle ne se limite pas à rendre des autoroutes et des berlines ; il s'imprègne de l'ambiance d'une culture de bureau écrasante, avec des panneaux publicitaires lumineux et des tours de verre oppressantes qui semblent tout droit sorties de Severance ou de la science-fiction qui lui est adjacente.
Le texte a historiquement été le talon d'Achille de la vidéo AI, pourtant Wan 2.6 tisse le jargon corporate avec une précision déconcertante. Les panneaux à l'écran énoncent clairement « Synergie », « Innovation », et « Croissance » dans des polices lisibles, alignées sur les surfaces et les angles de prise de vue, sans le charabia familier qui affecte la plupart des modèles à 1080p et 24 fps.
Plus intéressant que l'orthographe, il y a la satire. Ces mots à la mode n'apparaissent pas par hasard ; ils se posent sur des façades de bureaux stériles et des superpositions d'appels en conférence qui correspondent aux paroles et au ton de la chanson, même si les paroles ne vivent que dans la bande sonore. Wan 2.6 semble analyser la bande sonore, inférer l'humeur d'un trajet dans une "dystopie d'entreprise" et déployer une compréhension sémantique plutôt que de se contenter de coller des mots dans le cadre.
La physique fait également un pas en avant. Les voitures dans les embouteillages accélèrent et freinent avec un timing crédible, les mouvements de la caméra respectent le parallaxe, et le mouvement des personnages ne tombe que rarement dans le chaos des membres en caoutchouc, surtout lors de plans de 15 secondes. Les objets conservent leur masse et leur continuité entre les coupes, ce qui donne à l'ensemble une impression moins de GIFs assemblés et plus celle d'un espace simulé unique.
Puis le modèle plonge directement dans le territoire de David Lynch. En utilisant un prompt de style "agent du FBI dans un diner" à la Twin Peaks, une exécution livre une scène ancrée avec des agents, du café et une tarte ; une autre, avec le même texte, se transforme en un tableau bizarre et onirique où les visages, les clients et la décoration se fondent dans un pastiche surréaliste. L'atmosphère crie Lynch, même si le prompt ne le nomme jamais.
Cette volatilité met en lumière le chemin que parcourt Wan 2.6 : une modélisation mondiale améliorée avec des hallucinations occasionnelles qui semblent plus interprétatives que défaillantes. Ces clips laissent entrevoir des modèles qui ne se contentent pas de voir des pixels, mais qui métabolisent des références, des tropes et des raccourcis culturels. La propre Plateforme de Création AI d'Alibaba – Génération Vidéo Wan 2.6 propose exactement ce changement, vers des systèmes qui comprennent non seulement à quoi ressemble une scène, mais aussi ce qu'elle signifie.
Rencontrez votre co-star IA : La révolution 'Starring'
La constance des personnages a été l'élément manquant des vidéos générées par l'IA, et la nouvelle fonctionnalité principal de Wan 2.6 s'attaque directement à cela. Au lieu de visages uniques qui se fondent entre les coupes, vous pouvez désormais ancrer un personnage et le faire glisser à travers des scènes, des invites et même des vidéos différentes. Les créateurs de narrations obtiennent enfin quelque chose de plus proche d'une distribution récurrente, et non d'une machine à sous de strangers.
Wan appelle ces interprètes réutilisables des « stars », et le flux de travail ressemble plus à un casting qu'à une demande. Vous téléchargez un court extrait de référence — environ 5 à 10 secondes de séquences nettes — et Wan entraîne un embedding de personnage en arrière-plan. Cette star apparaît alors comme une option sélectionnable dans les générations ultérieures, donc « mettre Niki dans une ruelle éclairée au néon » et « couper à Niki dans une salle de rédaction » se résolvent tous deux au même acteur numérique.
La démo utilise deux ancrages : Niki, une femme présentée dans une scène stylisée et mélancolique, et Idris, un homme habillé avec élégance dans un cadre proche du film noir. Une fois entraînés, tous deux réapparaissent dans des prompts sans lien, sans perdre leur structure faciale, leur coiffure ou leur ambiance générale. Les générations multi‑prises peuvent même maintenir Niki dans le modèle alors que la caméra passe du gros plan à un plan large, ce que les modèles précédents avaient souvent du mal à gérer.
Starring fonctionne également assez bien avec les dialogues et l'audio-vidéo. Vous pouvez attribuer une étoile, donner à Wan une piste vocale et obtenir une performance orale qui correspond à la fois à l'apparence de référence et au nouvel audio. En termes narratifs, cela signifie qu'un créateur peut verrouiller un protagoniste une fois, puis itérer à travers des dizaines de scènes sans avoir à recréer son visage à chaque fois.
La réalité du jour du lancement, cependant, semble encore en version beta. Le modèle dérive parfois, adoucissant les détails du visage ou vieillissant légèrement un personnage entre les plans, surtout dans des instructions plus chaotiques. Les scènes avec plusieurs personnages lui posent encore plus de problèmes : Niki et Idris se mélangent parfois au niveau des traits, ou des figurants en arrière-plan commencent à ressembler aux stars.
Le dialogue apporte sa propre bizarrerie. Lorsque le créateur demande des répliques uniquement en anglais, Wan crachote parfois un dialogue bilingue—anglais plus des phrases chinoises inattendues—malgré un script monolingue. Ce bug apparaît davantage dans les scènes à plusieurs personnages, où une voix change de langue en plein échange, sapant un synchronisme labial pourtant solide.
Même avec ces glitches, les personnages ont de l'importance. Quiconque essaie de créer une série, un animateur récurrent ou un univers fictif a besoin de continuité, pas de clips isolés. Wan 2.6 est le premier modèle grand public qui considère les personnages comme des actifs que vous conservez, et non comme des accidents que vous capturez en screenshot.
Au-delà du Clip : L'IA en tant qu'Artiste de Storyboard
Appelez cela un artiste de storyboard IA avec l'ego d'un réalisateur. Le mode « multi-plans intelligent » de Wan 2.6 prend un seul prompt ou une image et génère une séquence de plans : plan d'ensemble, plan par-dessus l'épaule, gros plan de réaction, parfois même un insert surprise. Au lieu de vous demander d'assembler manuellement des clips de 15 secondes, il pré-emballe la couverture comme le ferait un réalisateur humain lors de la planification d'une scène.
Alibaba intègre cela à la fois dans le texte-en-vidéo et l'image-en-vidéo. Dans le test du « film sur la dépression », une image fixe de deux gars à une table devient un mini-montage : un angle large, puis un plan plus rapproché, puis un changement vers un nouveau personnage. Désactivez smart multi-shot et vous obtenez une prise continue ; activez-le et Wan 2.6 décide où couper et comment recadrer, tout en maintenant le dialogue et le timing intacts.
Cela rend Wan 2.6 structurellement différent de Sora. Le modèle d'OpenAI excelle dans les plans longs et continus où la caméra glisse à travers un monde 3D cohérent, mais vous obtenez toujours un plan par prompt. Wan fonctionne davantage comme un moteur de couverture : des segments plus courts de 15 secondes, plusieurs angles, des moments narratifs sous-entendus. Sora ressemble à un steadicam virtuel ; Wan 2.6 ressemble à un montage brut.
Stratégiquement, cela rapproche Alibaba de l'approche narrative d'abord de Kling. Le modèle 01 de Kling met déjà l'accent sur la planification des prises, les mouvements de caméra et la structure de l'histoire plutôt que sur le pur spectacle. Wan 2.6 s'inscrit dans la même lignée, priorisant la façon dont les scènes s'enchaînent, comment les personnages persistent entre les angles, et comment les environnements semblent cohérents tout au long d'une séquence plutôt que simplement à l'intérieur d'un seul cadre.
La cohérence spatiale devient le véritable test. Dans la scène de dépression image-vidéo, Wan maintient la table, l'éclairage et la mise en scène globale stables à travers les plans, même si la caméra tourne autour. Le créateur note que les coupes de continuité sont « acceptables » plutôt que parfaites : une transition semble brutale, et une femme qui apparaît tardivement se matérialise efficacement de nulle part, bien qu'elle soit plausible dans la composition originale.
À travers plusieurs essais, Wan 2.6 préserve principalement les éléments essentiels—vêtements des personnages, disposition des pièces, style de lentille—mais trébuche encore sur les détails fins. Les mains, les accessoires et les figurants en arrière-plan se transforment parfois entre les angles, et un nouveau personnage peut apparaître dans les dernières images d'une séquence. Comparé à la cohérence en une seule prise de Sora, c'est plus désordonné, mais pour le storyboard, la possibilité d'avoir une machine qui génère une liste complète de plans à partir d'une seule invite est sans conteste une mise à niveau plus perturbante.
Quand l'IA échoue : Un rappel à la réalité
Des modèles comme Wan 2.6 ont une apparence magique jusqu'à ce qu'ils ne le soient plus. Poussez un peu, et les défauts apparaissent : un présentateur de nouvelles supposément ancré voit soudainement apparaître un énorme microphone absurde sur le côté droit de l'image, ou un figurant se matérialise en arrière-plan avec une énergie de film d'horreur. Dans le test du « diner de Twin Peaks », le même prompt de texte a produit deux scènes complètement différentes, l'une ancrée, l'autre un véritable rêve fiévreux à la Lynch.
Ces échecs ne sont pas de simples bogues ; ils révèlent comment l'interprétation des instructions peut dérailler. Wan 2.6 entend "agent du FBI dans un diner" et livre parfois un plan cohérent à deux prises, parfois un tableau surréaliste et trop stylisé qui respecte pourtant les éléments clés—synchronisation labiale, éclairage, mouvement de caméra—tout en manquant l'ambiance souhaitée. Vous obtenez des résultats techniquement sophistiqués mais contextuellement désordonnés.
Le clip de la "fille au lance-flammes" est l'exemple le plus clair de ce décalage. Demandez un plan d'action stylisé et Wan 2.6 s'exécute avec une femme, du feu, un flou de mouvement et un cadre cinématographique — mais la physique du lance-flammes s'effondre dans un chaos abstrait, avec des flammes jaillissant de nulle part et des accessoires se déformant entre les images. La modèle réussit à créer le spectacle tout en bafouillant les bases de la cause et de l'effet.
Les créateurs apprennent rapidement que l'ingénierie des prompts n'est pas optionnelle. Vous avez souvent besoin de : - Plusieurs régénérations du même prompt - De micro-ajustements à la formulation et à la description des plans - D'un montage manuel pour assembler des clips de 15 secondes en quelque chose de cohérent
Même dans ce cas, les résultats dépendent d'un certain degré de chance intégré dans le processus d'échantillonnage. Deux exécutions avec des paramètres identiques peuvent diverger en termes de blocage des personnages, d'acteurs de fond, ou de la manière dont le modèle prend en compte votre demande "ancrée".
Encadrer le battage médiatique face à ces échecs est essentiel. Wan 2.6, Seedance 1.5 Pro via Dreamina by CapCut – Seedance 1.5 Pro AI Video, et leurs pairs ressemblent déjà à des raccourcis, mais ils demeurent des collaborateurs peu fiables, et non des lignes de production à bouton de commande. Les créateurs qui les considèrent comme des outils expérimentaux, et non comme des solutions finies, en tireront le plus de valeur, et auront le moins de microphones cauchemardesques.
L'attaque furtive de ByteDance avec Seedance 1.5
ByteDance joue un jeu différent. Alors qu'Alibaba a lancé bruyamment le Wan 2.6 comme modèle phare, ByteDance a discrètement introduit le Seedance 1.5 Pro dans le monde via CapCut, avec presque aucune fanfare, des noms déroutants et un accès verrouillé par région. Certains utilisateurs voient des étiquettes « AI vidéo 3.5 », d'autres des références à Seedance, et il n'y a pas de page produit autonome claire ni de document de recherche.
Au lieu de promouvoir Seedance comme un site de destination, ByteDance l'a directement intégré à CapCut, l'application de montage qui est déjà utilisée par les créateurs de TikTok, les YouTubers et les éditeurs de Shorts. Vous ne devez pas vous rendre dans une nouvelle interface de laboratoire ; vous cliquez sur "Vidéo AI" à l'intérieur de CapCut et soudain, vous commandez un modèle de premier plan capable de générer des clips courts et stylisés à la demande. Cette intégration évite le cycle habituel des "listes d'attente et de Discord" et offre une génération avancée dans un outil qui compte des centaines de millions d'installations.
C'est une stratégie classique du cheval de Troie pour la vidéo AI. En intégrant Seedance 1.5 Pro dans un éditeur familier, ByteDance transforme les fonctionnalités de modèles expérimentaux en boutons quotidiens pour les créateurs qui se soucient plus du résultat que de l'architecture. L'entreprise contourne efficacement le circuit de hype des laboratoires de recherche et se concentre directement sur la rétention, le temps de visionnage et les outils pour les créateurs au sein de son écosystème de contenu court.
Des tests sur des prompts partagés ont placé Seedance dans la même catégorie que Wan 2.6, mais avec un biais différent. Wan vise à raconter des histoires cinématographiques de 15 secondes en 1080p ; Seedance se concentre sur des plans percutants prêts pour TikTok, avec des couleurs vives, des mouvements dynamiques et des visages stylisés qui résistent à la compression et au recadrage vertical. Pour les clips axés sur les personnages, Seedance n’atteint pas encore la cohérence du style starring de Wan, mais il gère des plans de réaction rapides, des zooms et des montages qui semblent natifs de Reels et TikTok.
Ce qui distingue Seedance, c'est sa rapidité et sa fiabilité « suffisante » pour les vidéos sociales. Les utilisateurs de CapCut peuvent : - Générer de courts clips vidéo à partir de texte - Appliquer des transformations AI sur des séquences existantes - Enchaîner plusieurs prises AI directement sur une timeline
Ce flux de travail fait de Seedance 1.5 Pro moins un jalon de recherche et plus un mouvement d'infrastructure : un moteur discrètement déployé, conçu pour inonder les fil d'actualités de courtes vidéos assistées par l'IA, bien avant que la plupart des spectateurs ne réalisent que quelque chose a changé.
Vous êtes maintenant le personnage principal : Le changement de perspective d'EgoX
L'énergie du personnage principal dans une vidéo AI a désormais une signification technique littérale. Un nouveau projet de recherche appelé EgoX montre comment un modèle peut prendre des séquences ordinaires en troisième personne et les transformer en un point de vue convaincant à la première personne, comme si vous étiez celui qui porte la caméra. Au lieu de générer des scènes à partir de zéro, EgoX réinterprète des vidéos existantes et les reconstruit du point de vue de l'intérieur de la tête d'un personnage.
Les auteurs du document démontrent l'effet avec des extraits qui ressemblent à des mods VR non autorisés pour le cinéma. Un exemple remarquable réimagine une scène de "The Dark Knight" de Christopher Nolan, vous la faisant vivre à travers les yeux du Joker, et non en tant qu'observateur. Une autre séquence transforme une banale prise de vue par-dessus l'épaule en une véritable prise de vue à la première personne, avec des mouvements de tête et des changements de regard crédibles.
Plutôt que de halluciner un monde entièrement nouveau, EgoX s'appuie sur l'attention auto-guidée par la géométrie. Le système estime la structure en 3D et la pose de la caméra à partir des séquences originales, puis utilise cette géométrie comme un échafaudage pendant qu'un transformeur redessine la scène depuis un nouveau point de vue. Ces connaissances géométriques contraignent le modèle afin qu'il conserve les objets, les visages et le mouvement de manière cohérente au lieu de fondre dans une logique onirique.
Cette guidance géométrique est importante car les filtres naïfs de « rendre cela à la première personne » ont tendance à rompre la continuité. L'approche d'EgoX préserve la position réelle des murs, des accessoires et des autres personnages dans l'espace, ainsi lorsque la caméra pivote, le parallaxe et l'occlusion se comportent correctement. Vous pouvez toujours voir un flou neural sur les bords, mais pas les lourdes hallucinations qui brisent la scène et qui affectent de nombreux modèles vidéo actuels.
Pour les médias immersifs, les implications vont au-delà d'un simple tour de magie sur YouTube. Les studios pourraient ressortir des films classiques avec des pistes à la première personne optionnelles, permettant aux spectateurs de vivre un braquage à travers les yeux du cambrioleur ou une sortie dans l'espace depuis le casque de l'astronaute. Les documentaristes pourraient proposer des points de vue parallèles sur le même événement — manifestant, policier, journaliste — sans avoir à filmer à nouveau quoi que ce soit.
Le jeu et la réalité étendue (XR) pourraient en bénéficier encore davantage. Les concepteurs pourraient créer des séquences scénaristiques en prévisualisation standard en vue à la troisième personne, puis dériver automatiquement des expériences jouables en vue à la première personne qui correspondent à la même chorégraphie. Associés à des casques de Meta, Apple ou Sony, les modèles de type EgoX laissent entrevoir un avenir où n'importe quelle vidéo plate devient un environnement XR léger et quasi-interactif.
Tout cela se trouve encore dans du code de recherche et des exemples choisis, pas dans des pipelines de production. Pourtant, EgoX s'inscrit parfaitement aux côtés de Wan 2.6 et Seedance 1.5 Pro comme un autre signe que point de vue et incarnation deviennent des contrôles essentiels dans la vidéo AI, et non des réflexions tardives.
Le champ de bataille élargi : une multitude de mises à jour
La vidéo IA semble moins être une catégorie de produit qu'un exercice de mise en situation. Wan 2.6 et Seedance 1.5 Pro n'ont pas fait leur apparition dans le vide ; ils sont arrivés en même temps que Hunyuan World de Tencent, SAM Audio de Meta, et de nouvelles mises à jour d'image GPT, tous lancés en quelques semaines. Voilà à quoi ressemble une course à l'armement lorsque chaque laboratoire cherche à dominer le multimodal en même temps.
Le Hunyuan World de Tencent vise des environnements persistants en 3D et des scènes interactives, une approche différente de celle de la pipeline audio-vidéo de Wan ou du déploiement d'abord de CapCut par Seedance. Le SAM Audio de Meta s'oriente vers la segmentation du son, essayant de faire pour les formes d'onde ce que Segment Anything a fait pour les pixels, un élément fondamental pour un doublage plus intelligent, le foley et un montage sensible au son. Les mises à jour image de GPT rapprochent discrètement OpenAI de systèmes à empilement unique qui peuvent passer du prompt au storyboard au prévisualisation animée sans quitter un même écosystème.
Plutôt qu'un récit opposant Sora à « tout le monde », cela ressemble à une course mondiale où chaque entreprise choisit une part différente de la pile multimodale. Alibaba parie sur des flux de travail allant du script à la chanson en passant par la scène, ByteDance sur des outils créateurs intégrés directement dans l'édition à l'ère TikTok, et Tencent sur des simulateurs mondiaux qui se mêlent au jeu et au social. Meta continue de semencer des modèles fondamentaux — vision, audio, segmentation — qui pourraient s'assembler plus tard en un moteur médias de bout en bout.
La rapidité est la véritable actualité. Wan est passé de 2,5 à 2,6 en quelques mois ; Seedance 1.5 Pro est apparu dans CapCut avec un minimum de bruit ; Meta et OpenAI livrent une itération discrète mais constante sur l'audio et l'image. Une fonctionnalité comme l'audio-en-vidéo de Wan ou le remappage de POV à la manière d'EgoX, présenté dans EgoX : Des vidéos à la troisième personne au POV à la première personne, semble relever de la science-fiction aujourd'hui mais pourrait être une option dans les éditeurs grand public d'ici le début de l'année prochaine.
La Nouvelle Économie des Créateurs : Que se passe-t-il ensuite ?
La prochaine phase des vidéos générées par l'IA ressemble moins à un modèle magique unique et plus à un agrégat de sources multimodales, d'outils narratifs et d'astuces de perspective. Wan 2.6 écoute des audio, suit les paroles et les dialogues, et produit des séquences de 15 secondes en 1080p qui restent majoritairement synchronisées avec le rythme. EgoX réécrit complètement la perspective de la caméra, transformant les clips en troisième personne en POV à la première personne grâce à une reconstruction guidée par la géométrie.
Ce changement transforme les créateurs d'éditeurs scrutant les timelines en quelque chose de plus proche d'un directeur IA. Vous décrivez une scène, ajoutez une musique, peut-être insérez une image de référence, et des systèmes comme le "multi-shot intelligent" de Wan décident où couper, comment cadrer et quel personnage suivre. La Seedance 1.5 de ByteDance avance discrètement dans la même direction via CapCut, intégrant des générations avancées dans des outils déjà utilisés par les créateurs de TikTok.
Le travail créatif commence à ressembler à la gestion de contraintes plutôt qu'à des images clés. Un directeur IA pourrait jongler avec : - Un scénario et un storyboard - Une bibliothèque de personnages et de lieux principaux - Des pistes audio pour la musique, la voix off et les dialogues - Des choix de perspective : troisième personne, POV à la EgoX, ou hybrides
Vous orchestrez ; les modèles exécutent, révisent et reprogramment à la demande.
De grandes questions se posent sur qui contrôle réellement cette pile. Les systèmes fermés d'Alibaba, ByteDance, OpenAI et Tencent avancent actuellement à grands pas en matière de fidélité et de convivialité, tandis que la vidéo open source accuse un retard d'une génération en termes de cohérence, de mouvement et de son. Si un modèle open class Wan 2.6 voit le jour, est-ce qu'il fonctionne sur des GPU pour consommateurs, ou seulement sur des collectifs cloud qui ressemblent étrangement à des mini-hyperscalers ?
De nouvelles formes de médias semblent presque garanties. La conversion audio-vidéo plus la conversion de point de vue évoque des vidéoclips "jouables" où vous pouvez entrer dans les yeux du chanteur, ou des B-roll générés automatiquement qui correspondent en temps réel à un transcript de podcast. Le montage de perspective à la manière d'EgoX fait allusion à des films interactifs qui se redéfinissent du point de vue de n'importe quel personnage sans avoir à refilmer une scène.
Pour l'instant, les pièces les plus perturbantes ne sont pas des simulations parfaites de style Sora, mais ces mises à niveau brutes et prêtes à la production. Un synchronisation labiale fiable, des séquences multi-plans de 15 secondes, des personnages réutilisables et des échanges de perspectives s'intègrent directement dans les flux de travail existants. Les studios, les YouTubers et les marques n'ont pas besoin d'un univers virtuel parfait ; ils ont besoin d'un assistant IA capable d'exporter dès aujourd'hui.
Questions Fréquemment Posées
Qu'est-ce qui rend Wan 2.6 différent des autres modèles vidéo d'IA ?
Ses principaux éléments différenciateurs sont la génération avancée d'audio à vidéo avec un synchronisme labial précis, la narration intelligente multi-plans à partir d'un seul prompt, et une fonction 'Avec' pour une cohérence des personnages de qualité commerciale.
Wan 2.6 est-il meilleur que Sora d'OpenAI ?
C'est différent. Alors que Sora excelle dans les scènes plus longues et physiquement cohérentes, Wan 2.6 se concentre sur des fonctionnalités pratiques et orientées vers la production, telles que la synchronisation audio, le contrôle narratif et la réutilisation des personnages, ce qui en fait un concurrent plus proche de modèles comme Kling.
Comment puis-je accéder à Seedance 1.5 Pro ?
Seedance 1.5 Pro est actuellement déployé discrètement, principalement disponible au sein de l'éditeur vidéo de ByteDance, CapCut, dans certaines régions ou niveaux, plutôt qu'en tant que plateforme autonome.
De quoi traite le document de recherche EgoX ?
EgoX est un nouveau modèle d'IA capable de transformer des séquences vidéo existantes en troisième personne en un point de vue à la première personne (POV), réécrivant efficacement la perspective de la caméra pour créer des expériences immersives.