En bref / Points clés
Le navire de Google vient de prendre l'eau
Le navire de Google vient de prendre l'eau à l'approche de sa conférence annuelle I/O, une série inhabituelle de révélations prématurées. Généralement discret, le géant de la technologie navigue désormais dans une mer numérique de fuites, suscitant des spéculations sur des erreurs internes ou une campagne de battage médiatique calculée. Cette ouverture inattendue révèle des aperçus de l'IA de nouvelle génération, plaçant la barre très haut pour les annonces officielles.
Plus particulièrement, un nouveau modèle d'IA nommé Omni, ou parfois « Omni Bag », a été dévoilé. L'utilisateur de Reddit Zacatac_391 a été le premier à repérer l'interface utilisateur mobile d'Omni, partageant des captures d'écran qui ont révélé son potentiel en tant qu'agent vidéo d'IA avancé. Les premières indications suggèrent qu'Omni va au-delà de la simple génération, offrant des fonctionnalités telles que le remixage vidéo et l'édition directe dans le chat, le positionnant comme une IA plus intégrée et interactive.
Les vidéos divulguées d'Omni présentent une durée de 10 secondes à une résolution de 1280x720, une amélioration notable par rapport aux clips actuels de 8 secondes en 720p de Veo 3.1 disponibles via Gemini. Les métadonnées font allusion au « mode VO Omni », suggérant une évolution du cadre existant de Veo 3.x plutôt qu'un ID de modèle entièrement nouveau. Cela implique qu'Omni pourrait être une couche avancée reposant sur un Veo raffiné, améliorant les capacités d'IA multimodale de Google en intégrant de manière transparente le texte, les images, l'audio et la vidéo.
Au-delà d'Omni, le torrent d'informations comprend plusieurs autres initiatives majeures en matière d'IA. Les détails divulgués indiquent : - Gemini 3.1, une mise à jour incrémentale du modèle multimodal phare de Google. - Un nouveau modèle d'image Gemini 3 Pro, succédant peut-être à l'appellation « Nano Banana 2 Pro ». - Un générateur de musique Lyria mis à jour, un modèle qui a déjà impressionné par ses capacités de synthèse audio.
Cette cascade de révélations pré-I/O soulève des questions sur l'intention de Google. S'agissait-il d'une négligence accidentelle, peut-être « un stagiaire spammant le bouton d'acceptation de toutes les modifications » sur un serveur de staging, comme certains le théorisent ? Ou Google a-t-il intentionnellement relâché son emprise, créant stratégiquement de l'anticipation et contrôlant le récit pour son événement majeur destiné aux développeurs ? Le timing et l'étendue de ces fuites suggèrent soit une brèche interne significative, soit une leçon magistrale de battage médiatique contrôlé avant que le rideau ne se lève officiellement sur ses dernières innovations.
Découvrez Omni : l'IA qui fait tout
La prochaine offre majeure de vidéo IA de Google, surnommée Omni, a récemment fait surface, soulevant des questions immédiates sur son identité. Omni est-il le très attendu Veo 4, une mise à jour significative de Veo 3.x, ou un modèle de fondation entièrement nouveau ? Les premières indications suggèrent une image plus complexe, penchant vers une couche avancée au-dessus d'une variante existante de Veo plutôt qu'un Veo 4 autonome. Les sorties et les métadonnées divulguées du modèle laissent entrevoir un profond changement dans la stratégie d'IA générative de Google.
Les interfaces utilisateur mobiles et web divulguées, découvertes initialement par l'utilisateur de Reddit Zacatac\_391, ont présenté des fonctionnalités indiquant un système profondément multimodal. Ces interfaces utilisateur ont révélé des capacités de remixage de vidéos existantes, d'édition directe au sein des interfaces de chat et de génération basée sur des modèles, allant au-delà du simple texte-vers-vidéo. Cette approche intégrée suggère un agent d'IA plus puissant et interactif, et pas seulement un modèle de génération statique. Une démo divulguée a même montré un professeur dérivant des formules mathématiques, démontrant une génération de texte cohérente au sein de la vidéo.
Le concept derrière Omni semble être un véritable omni-modèle, un système singulier gérant nativement plusieurs modalités : texte, audio, images et vidéo. Une telle architecture permet des transitions et des interactions fluides entre différents types de données, permettant aux utilisateurs de manipuler et de générer du contenu dans un environnement unifié. Cette intégration dans Gemini positionne Omni comme un agent créatif et génératif complet, capable de comprendre et de répondre à des invites complexes et cross-modales avec une fluidité sans précédent.
De manière cruciale, les métadonnées extraites des vidéos générées divulguées nomment explicitement « VO mode Omni ». Ce détail, associé au fait qu'il n'apparaît pas comme un ID de modèle distinct, suggère qu'Omni fonctionne comme un mode amélioré ou un wrapper sophistiqué construit sur la fondation Veo sous-jacente. Les sorties de ce mode étendent la durée des vidéos à 9-10 secondes, contre une limite de 8 secondes pour Veo 3.1, tout en maintenant une résolution de 1280x720. Cela implique une amélioration significative des capacités de Veo, présentée sous la nouvelle marque Omni comme une couche puissante et polyvalente conçue pour une application plus large.
Le 'Test de Will Smith' révèle tout
L'utilisateur de Reddit Zacatac_391 a rapidement mis à l'épreuve le modèle Omni divulgué avec un défi vidéo d'IA familier : le « test de Will Smith ». Tentant initialement une invite pour « Will Smith mangeant des spaghettis », le système a résisté, ce qui a conduit Zacatac_391 à s'adapter à un « type de Will Smith non spécifique » plus générique. La vidéo de neuf secondes qui en a résulté, générée à une résolution de 1280x720, a offert un aperçu convaincant des capacités d'Omni.
La sortie d'Omni représentait deux hommes, ressemblant à Will Smith, se serrant la main et conversant autour de pâtes. Les points forts notables incluaient une forte cohérence des personnages et une génération de parole constante tout au long du clip, un pas en avant significatif pour maintenir le flux visuel et narratif dans les vidéos générées par l'IA. L'esthétique et la texture globales indiquaient également une filiation claire avec les modèles Veo existants de Google.
Malgré ses avancées, la vidéo divulguée présentait plusieurs défauts distincts. Les deux personnages semblaient parler simultanément pendant leur poignée de main, créant une interaction artificielle. Des problèmes visuels spécifiques incluaient des « problèmes de nouilles pendantes » dans l'assiette d'un personnage et des incohérences spatiales déroutantes avec les verres sur la table, qui se sont inexplicablement multipliés de deux à trois entre les plans.
L'exécution de l'invite identique de Zacatac_391 sur le Gemini public actuel, alimenté par Veo 3, a produit un contraste frappant. La sortie de Gemini présentait une scène nettement moins soignée et dynamique, renforçant les capacités génératives supérieures d'Omni. La comparaison a mis en évidence un net bond en qualité et en style, suggérant qu'Omni représente une évolution substantielle au-delà des capacités de 8 secondes et 720p de Veo 3. Pour plus de détails sur les modèles vidéo de Google, consultez Veo — Google DeepMind.
De manière significative, la capacité du modèle à gérer des interactions complexes comme une poignée de main et un dialogue, même avec ses imperfections, indique une architecture sous-jacente plus sophistiquée. Cela suggère la vision plus large d'Omni en tant qu'agent d'IA intégré capable de remixer des vidéos et de prendre en charge l'édition directe en chat, plutôt qu'un simple outil de génération de vidéos autonome. Les métadonnées du clip divulgué, montrant « Veo mode Omni », suggèrent en outre qu'il pourrait s'agir d'une mise à jour robuste de Veo 3.x, améliorant les capacités existantes plutôt qu'une version complète de Veo 4.
Un affrontement avec Seedance et le fantôme de Sora
Le modèle Omni divulgué de Google fait surface dans un paysage de génération de vidéos par IA très compétitif, mais étonnamment volatile. Le timing semble propice, suite aux rapports selon lesquels l'application Sora App d'OpenAI aurait cessé son service en raison de ses coûts d'inférence exorbitants. Cela crée un vide immédiat sur le marché, positionnant Omni comme un potentiel chef de file si Google parvient à gérer ses dépenses opérationnelles et à tenir ses promesses.
La comparaison de la sortie d'Omni avec Seedance 2.0 offre un contraste esthétique intrigant, comme l'a démontré l'invite "type Will Smith non spécifique" de l'utilisateur Reddit Zacatac\_391. Le résultat d'Omni offrait une "ambiance et une texture" familières rappelant les modèles Google précédents. Seedance 2.0, cependant, a produit une scène étonnamment cinématographique, que l'hôte de Theoretically Media a décrite comme faisant allusion à un récit de "dossier top secret et d'opération clandestine". Son style soigné et dramatique suscite souvent une préférence subjective chez les utilisateurs recherchant un rendu plus stylisé.
Bien que Seedance 2.0 puisse séduire ceux qui désirent une esthétique spécifique, un juste étalon va au-delà des batailles directes entre concurrents. Le véritable progrès réside souvent dans la comparaison d'Omni avec la génération précédente de Google, Veo 3. Cette comparaison interne révèle des avancées significatives, même si la mise à jour semble subtile en surface. Elle souligne l'engagement de Google envers l'amélioration itérative au sein de son cadre existant.
La durée de sortie d'Omni, s'étendant à 9 secondes, marque une amélioration tangible par rapport à la limite de 8 secondes de Veo 3. Il maintient également une résolution constante de 1280x720. Les métadonnées extraites de la vidéo divulguée compliquent davantage son identité, indiquant explicitement "Veo mode Omni". Cela suggère qu'Omni fonctionne comme une variante mise à jour de Veo 3.x plutôt que comme un modèle Veo 4 entièrement nouveau et complet, indiquant un raffinement de l'architecture existante.
Cette distinction nuancée implique que Google s'est concentré sur l'amélioration de capacités telles que la durée et potentiellement la fidélité au sein de son système établi, plutôt que de lancer un système entièrement ré-architecturé. Les fuites suggèrent une fonctionnalité de type agent, intégrant le remixage et l'édition en chat, allant au-delà de la simple génération de vidéos pour une suite de création plus interactive. Google I/O clarifiera sans aucun doute le rôle précis d'Omni et sa trajectoire future dans ce domaine en évolution rapide, surtout compte tenu de l'absence soudaine d'un concurrent majeur.
Ce n'est pas un générateur, c'est un agent
Les capacités divulguées d'Omni signifient un pivot stratégique, le positionnant comme bien plus qu'un générateur de texte-à-vidéo conventionnel. Google semble envisager Omni comme un agent vidéo IA, remodelant fondamentalement la façon dont les utilisateurs interagissent avec les médias génératifs. Il ne s'agit pas simplement de soumettre une invite et de recevoir un fichier vidéo statique ; Omni semble conçu pour se superposer à une variante mise à jour de Veo 3.x, augmentant sa génération de base avec des couches interactives sophistiquées qui permettent une création continue.
Les implications pratiques de cette conception basée sur un agent sont vastes, promettant un flux de travail fluide et itératif jamais vu auparavant dans les modèles génératifs. Les utilisateurs obtiennent un contrôle direct et granulaire sur leurs créations grâce à des fonctionnalités telles que l'édition en chat, permettant des ajustements immédiats et conversationnels aux éléments vidéo sans redémarrer l'ensemble du processus. Omni permettra apparemment de remixer des vidéos existantes et d'appliquer des modèles prédéfinis à la volée, offrant une flexibilité sans précédent aux créateurs de contenu pour maintenir la cohérence de la marque ou explorer divers styles au cours de la même session, améliorant ainsi l'efficacité et la production créative.
Cette fonctionnalité avancée s'intègre profondément à la stratégie globale Gemini de Google. L'entreprise vise à consolider toutes les tâches créatives et productives au sein d'une interface conversationnelle unique et unifiée, transcendant les applications individuelles. Omni est donc appelé à fonctionner comme un modèle toutes modalités au sein de ce cadre, prenant en charge de manière transparente la génération et la manipulation simultanées de texte, d'images, d'audio et de vidéo. Cet alignement stratégique positionne Omni non pas comme un outil autonome, mais comme un composant crucial et intégré de l'écosystème d'IA complet de Gemini, favorisant une expérience utilisateur cohérente sur tous les types de médias.
Une telle approche axée sur l'agent marque un profond changement de paradigme, faisant passer l'interaction utilisateur de la "génération" passive à la "collaboration" active. Au lieu d'une commande unique, les utilisateurs s'engagent dans un dialogue continu avec l'IA, affinant et façonnant itérativement leur contenu vidéo en temps réel. Imaginez demander une scène, puis demander instantanément à l'IA de "changer l'éclairage en heure dorée" ou d'"ajouter une piste de fond subtile", recevant des mises à jour immédiates. Cela favorise un processus créatif plus organique, dotant les utilisateurs d'un contrôle nuancé et accélérant le passage du concept initial au résultat final peaufiné, modifiant fondamentalement la dynamique de la création vidéo assistée par l'IA.
Krea tire un coup de semonce sur Midjourney
Au-delà du modèle Omni divulgué de Google, un autre développement significatif a fait surface : le retour de Krea avec son nouveau modèle d'image K2. Cette plateforme mise à jour signale un défi direct et ambitieux à la domination de longue date de Midjourney dans la génération d'images esthétiques de haute qualité. Krea vise à simplifier le flux de travail créatif, en s'attaquant aux points douloureux courants que les utilisateurs rencontrent avec les outils existants.
Les utilisateurs de Midjourney naviguent fréquemment dans une expérience fragmentée, principalement confinée à une interface utilisateur Discord confuse. Les options de personnalisation et l'application nuancée des références de style (S-refs) nécessitent souvent des commandes complexes et une expérimentation approfondie, créant une courbe d'apprentissage abrupte pour beaucoup. Krea 2 cible directement ces frustrations avec une approche simplifiée.
La stratégie de Krea est centrée sur la démystification de l'exploration esthétique. Son interface intuitive offre un point d'entrée plus accessible aux artistes et designers recherchant des styles visuels spécifiques sans la complexité de l'ingénierie de prompt. Cette focalisation sur l'expérience utilisateur permet aux créateurs d'itérer et d'affiner rapidement leur vision artistique.
De plus, Krea intègre ses puissantes capacités génératives à une suite complète d'outils d'édition. Les utilisateurs peuvent passer sans effort de la génération d'images initiale à un affinement détaillé, en tirant parti de fonctionnalités telles que les moodboards, le transfert de style et l'entraînement LoRA au sein d'une plateforme unifiée. Cette approche holistique offre une alternative convaincante à la jonglerie entre plusieurs applications.
Krea 2 se positionne non seulement comme un générateur d'images, mais comme un écosystème créatif de bout en bout. Pour plus d'informations sur ses capacités, y compris son mélange unique d'outils de génération et d'édition, explorez le site web Krea: AI Creative Suite for Images, Video & 3D. Ce flux de travail intégré représente une évolution significative, promettant un contrôle et une efficacité accrus pour les artistes numériques.
Au cœur du moteur esthétique de Krea
Le moteur esthétique de Krea 2 fonctionne selon un flux de travail sophistiqué et centré sur l'utilisateur, plaçant le contrôle créatif au premier plan. Son cœur battant est le système innovant de Mood Board, un puissant outil de pré-génération pour définir l'esthétique visuelle. Cette fonctionnalité unique permet aux utilisateurs d'articuler leur vision artistique avant de générer un seul pixel, modifiant fondamentalement le paradigme traditionnel de création d'images par IA.
Les utilisateurs élaborent un plan visuel complet, fonctionnant un peu comme un tableau Pinterest organisé pour leur style désiré. Ils téléchargent des images de référence spécifiques, sélectionnent méticuleusement des palettes de couleurs et choisissent des éléments texturaux, construisant ainsi un profil esthétique détaillé. Cette étape cruciale de pré-visualisation assure une profonde cohérence stylistique et dirige la production créative de l'IA avec précision, allant au-delà de simples invites textuelles.
Une fois le mood board méticuleusement préparé, le processus pratique de génération d'images commence. Krea 2 propose deux saveurs de modèles distinctes et très performantes, répondant à divers besoins artistiques. Le Medium model excelle particulièrement dans la génération de styles illustratifs, de design graphique et d'art conceptuel, offrant des visuels nets et expressifs.
Inversement, le Large model est conçu pour un photoréalisme époustouflant, produisant des images avec des détails complexes, des textures réalistes et un éclairage nuancé. Les utilisateurs affinent davantage leurs créations à l'aide d'une série de curseurs créatifs intuitifs, ajustant méticuleusement des paramètres tels que le détail de l'image, l'équilibre compositionnel et l'éclairage ambiant, offrant un contrôle granulaire sur le rendu final.
Prenons un exemple illustratif : générer un « guerrier Viking dans une forêt de bambous ». Un utilisateur remplirait d'abord un mood board avec de riches références visuelles. Cela pourrait inclure des paysages de bambous brumeux et verdoyants, des représentations très détaillées d'armures Viking historiques, et une palette de couleurs sourdes et terreuses spécifique. Ils pourraient également incorporer des références à un éclairage cinématographique dramatique ou à des interprétations artistiques spécifiques de la mythologie nordique.
Une fois le mood board complet établi, l'utilisateur sélectionne le modèle Large de Krea 2 pour ses capacités photoréalistes et saisit l'invite textuelle. Krea 2 traduit ensuite intelligemment les repères visuels abstraits et les éléments thématiques du mood board en composants d'image concrets et de haute qualité. L'image résultante n'est pas simplement une interprétation littérale du texte, mais une œuvre nuancée.
Elle est imprégnée de l'atmosphère précise, de la richesse texturale et des nuances stylistiques méticuleusement définies par les choix esthétiques initiaux de l'utilisateur. Cela va bien au-delà des capacités des modèles texte-vers-image de base, démontrant la capacité de Krea 2 à produire des images uniques et de haute qualité, profondément alignées sur une intention artistique spécifique. La plateforme se positionne comme un outil sophistiqué de réalisation esthétique.
Remixer la réalité avec le Style Transfer & les LoRAs
Krea 2 s'impose comme une plateforme créative complète, offrant des fonctionnalités avancées pour un contrôle artistique granulaire au-delà de la génération texte-vers-image conventionnelle. Ce flux de travail sophistiqué permet aux artistes d'injecter des esthétiques uniques directement dans leurs créations, garantissant que les résultats reflètent une vision distincte plutôt que des interprétations génériques de l'IA. La conception de Krea favorise un engagement plus profond dans le processus créatif.
Au cœur de cette capacité avancée se trouve la fonctionnalité innovante de Style Transfer de Krea. Les utilisateurs téléchargent jusqu'à quatre images de référence distinctes, que le modèle K2 analyse ensuite méticuleusement. Ce processus de référencement multi-images permet une influence précise sur le style, le grain textural et les conditions d'éclairage nuancées du rendu final, offrant un degré inégalé de direction esthétique.
Ce système dynamique produit fréquemment des résultats inattendus mais captivants, souvent surnommés « accidents heureux » par la communauté. Les artistes découvrent des langages visuels entièrement nouveaux et des styles uniques qu'il serait extrêmement difficile, voire impossible, d'obtenir par de simples invites textuelles. Cela ouvre des voies créatives sans précédent, permettant une expression artistique véritablement originale.
Au-delà du mélange esthétique, Krea 2 intègre une suite complète d'outils avancés conçus pour les flux de travail professionnels. Les artistes peuvent entraîner des LoRAs personnalisés directement au sein de la plateforme, permettant une cohérence stylistique hautement personnalisée à travers les projets. Cette personnalisation poussée permet à Krea d'apprendre et de reproduire des signatures visuelles spécifiques, en faisant un atout inestimable pour la cohérence de la marque ou le développement artistique personnel.
Améliorant davantage la boîte à outils créative, Krea offre des fonctionnalités d'édition intégrées. Les utilisateurs peuvent affiner les images générées à l'aide d'outils intégrés pour des ajustements précis, éliminant ainsi le besoin de logiciels externes. La plateforme comprend également des fonctions robustes de recadrage et d'extension, permettant un raffinement fluide de la composition et une extension intelligente de la toile, rationalisant le processus post-génération.
L'approche complète de Krea la positionne comme un concurrent redoutable dans l'espace de l'IA générative, offrant un environnement sophistiqué aux créateurs pour repousser les limites de l'art numérique. La combinaison stratégique de son moteur de génération principal avec ces outils de manipulation avancés offre une alternative puissante à ceux qui recherchent un contrôle nuancé et une sortie visuelle hautement personnalisée.
Relier les points : Le grand plan d'IA de Google
La prochaine conférence I/O de Google approche à grands pas, et la fuite concernant Omni offre un aperçu crucial de l'ambitieuse stratégie d'IA de l'entreprise. Il ne s'agit pas seulement d'un nouveau modèle vidéo ; Omni, aux côtés d'un générateur de musique Lyria mis à jour et de nouveaux modèles Gemini pour l'image et le texte, signale une pile créative multimodale complète prête pour une grande révélation.
Omni, potentiellement Veo 4 ou une variante 3.x, fonctionne comme un agent vidéo IA capable de remixer, d'éditer en chat et de générer des vidéos de 10 secondes en 1280x720, dépassant de loin le simple texte-vers-vidéo. Cette capacité étendue, démontrée par le professeur ayant correctement dérivé des formules mathématiques dans la fuite, aborde les faiblesses courantes de l'IA en matière de cohérence textuelle et de consistance.
De nouvelles versions des modèles Lyria et Gemini (y compris Gemini 3.1 et Gemini 3 Pro axé sur l'image, ou Nano Banana 2 Pro) complètent l'offre. Ces outils s'intégreront probablement profondément dans l'écosystème Google, alimentant la "Gemini Intelligence" d'Android et améliorant le matériel futur, offrant finalement un flux de travail créatif de bout en bout et sans accroc.
Cette approche holistique positionne Google pour offrir une suite créative IA inégalée que les concurrents ont du mal à égaler. Alors que Krea cible la génération d'images et que Midjourney domine l'esthétique, l'ambition de Google s'étend à une plateforme unifiée couvrant la vidéo, la musique, le texte et les images.
Le moment est opportun ; l'application Sora d'OpenAI aurait cessé ses services en raison de coûts d'inférence élevés, créant un vide dans l'espace de la vidéo IA avancée. Le jeu de Google est de combler ce vide avec Omni, en tirant parti de son immense infrastructure pour fournir une puissance créative robuste, intégrée et accessible.
Le nouveau champ de bataille pour les créateurs numériques
Le modèle Omni de Google qui a fuité et la réémergence de Krea avec K2 signalent un changement pivot dans le paysage créatif de l'IA. Ces avancées distinctes mais complémentaires mettent en lumière une industrie qui dépasse rapidement les modèles d'IA à usage unique pour se diriger vers des écosystèmes intégrés complets pour les créateurs numériques. L'ère des outils génératifs isolés touche rapidement à sa fin.
Omni, potentiellement Veo 4 de Google, représente l'avènement de l'agent vidéo IA. Il promet plus que la simple génération de clips vidéo de 10 secondes en 1280x720 ; l'interface utilisateur divulguée indique une intégration profonde au sein de Gemini, offrant des capacités de remixage, d'édition en chat et des modèles structurés. Cela positionne Omni comme une solution holistique pour la création vidéo, et pas seulement un générateur de texte-vers-vidéo.
Krea 2, à l'inverse, consolide sa position en tant que plateforme créative cohérente construite autour de son nouveau modèle d'image. Son workflow, couvrant les Mood Boards, le transfert de style avancé et l'entraînement LoRA, défie directement la dominance esthétique de Midjourney en offrant une suite complète d'outils pour la génération et le raffinement itératifs d'images. Krea permet aux artistes de gérer l'intégralité du cycle de vie d'un projet.
Ces deux développements soulignent un marché en évolution pour répondre à des demandes créatives complexes. Les créateurs recherchent désormais des plateformes qui prennent en charge l'intégralité du workflow, du concept initial au rendu final, en intégrant de manière transparente de multiples modalités et fonctionnalités d'édition. Ce changement exige des outils plus intuitifs et puissants qui réduisent les frictions dans le processus créatif.
Pour les artistes numériques, ce paradigme offre une puissance immense et une liberté créative sans précédent. Cependant, il introduit également un nouvel impératif : maîtriser ces plateformes de plus en plus sophistiquées et interconnectées devient crucial pour rester compétitif. L'adaptation à ces ensembles d'outils en évolution rapide définira le succès dans l'économie créative émergente axée sur l'IA.
L'innovation en matière d'IA créative s'accélère à un rythme sans précédent. La bataille pour la domination dans la création numérique ne fait que commencer, promettant des outils de plus en plus sophistiqués et des expériences intégrées pour les artistes de demain. Les frontières entre la création, l'édition et l'agence s'estompent, annonçant un avenir où l'IA permettra un contrôle créatif complet.
Questions fréquemment posées
Qu'est-ce que Google Omni ?
Google Omni est un nouveau modèle d'IA dont la rumeur court, potentiellement Veo 4 ou une mise à jour majeure. Des fuites suggèrent qu'il s'agit d'un agent d'IA multimodal intégré à Gemini pour générer, remixer et éditer des vidéos directement dans le chat.
Comment Krea 2 est-il un concurrent de Midjourney ?
Krea 2 se positionne comme un concurrent direct en ciblant l'esthétique artistique emblématique de Midjourney avec un workflow plus convivial, incluant des mood boards, des transferts de style et des outils d'édition intégrés.
Quelles sont les spécifications divulguées pour le nouveau modèle vidéo de Google ?
Les métadonnées divulguées montrent que le nouveau modèle, appelé 'Omni mode', génère des vidéos de 9 à 10 secondes en résolution 1280x720, une légère augmentation par rapport à la limite précédente de 8 secondes.
Google Omni est-il meilleur que des concurrents comme Seedance 2.0 ?
Les premières comparaisons montrent une nette amélioration par rapport aux modèles précédents de Google. Bien que subjectif, certains des premiers rendus semblent moins cinématographiques que ceux de concurrents comme Seedance 2.0, mais son potentiel en tant qu''agent' intégré pourrait être son avantage clé.