TL;DR / Key Takeaways
La prophétie de 2026 du responsable de l'IA de Google
Axios a posé à Demis Hassabis une question simple : quels changements dans l'IA ressentirons-nous dans un an ? Il a répondu avec une feuille de route qui s'étend bien au-delà de la simple flexibilité des paramètres des modèles, esquisant un monde où le Gemini de Google cesse d'être une boîte de dialogue et commence à se comporter comme une infrastructure pour la vie quotidienne.
Lors du Sommet Axios AI+, Hassabis a réaffirmé un calendrier serré : les 12 prochains mois seront consacrés à la convergence multimodale. Gemini ingère déjà du texte, des images, de la vidéo et de l'audio ; il affirme que le véritable bond se produira lorsque ces modalités cesseront d'être des ajouts et commenceront à se polliniser, permettant ainsi aux modèles de langage de raisonner directement sur les visuels, le son et le mouvement dans un système fusionné.
Hassabis a cité le dernier système d'images de Google — le vidéo l'appelle “Nano Banana Pro” — comme preuve de concept. Le modèle ne se contente pas de créer de belles images ; il génère des infographies précises, analyse des scènes complexes et itère sur ses propres résultats, se comportant moins comme un filtre et plus comme un analyste visuel connecté à un modèle de langage.
Cette même philosophie guide le positionnement plus large de Gemini. Hassabis présente Gemini comme un « assistant universel », non pas une application ou un site unique, mais une couche qui fonctionne sur des téléphones, des ordinateurs portables, des voitures et, finalement, des lunettes, répondant aux questions, observant ce que vous faites et manipulant des documents, des tableurs et du code à travers votre compte Google.
Dans le cadre de la vision à court terme de Hassabis, vous déléguez une tâche entière—planifier un voyage, rédiger un contrat, déboguer une base de code—et un agent alimenté par Gemini parvient à "s'approcher" de l'achèvement de celle-ci du début à la fin. Il soutient que les agents actuels échouent parce qu'ils jonglent avec des outils et des API de façon lâche ; un Gemini multimodal bien intégré pourrait observer, écouter, lire et agir dans une boucle continue.
La vidéo YouTube qui a déclenché ce récit de « masterplan 2026 » prend cette prévision de 12 mois d'Axios et l'étend à un horizon omnimodèle complet. D'ici 2026, elle affirme que Gemini couvrira six modalités dans une seule pile : - Texte - Images - Vidéo - Audio - 3D - Robotique
C'est un calendrier plus agressif que celui annoncé par Hassabis sur scène. Son pari public se concentre sur la fusion multimodale et un comportement d'assistant au cours de l'année à venir, tandis que les créateurs projettent un point final en 2026 où Gemini cessera d'être une famille de produits pour commencer à ressembler à un cerveau unique modélisant le monde pour l'ensemble de l'écosystème de Google.
Décodage de la pile 'Full Omnimodel'
Omnimodel est le nouveau mot à la mode de Google pour désigner une architecture IA unique qui couvre simultanément six modalités : texte, images, vidéo, audio, 3D et robotique. Au lieu de modèles spécialisés séparés assemblés avec des API fragiles, Hassabis décrit un système convergé où une famille de modèles de base, Gemini, parle naturellement toutes ces langues du monde.
Les systèmes « multimodaux » d'aujourd'hui se contentent principalement d'ajouter la vision au langage ou d'intégrer l'audio en plus du texte. Un omnimodel complet va plus loin, partageant un espace de représentation unique pour que les mêmes neurones internes raisonnent sur une phrase, une image vidéo, une disposition de pièce ou un flux de capteurs d'un robot.
Ce noyau unifié permet aux capacités de se fusionner au-delà des frontières. Une compréhension visuelle plus solide grâce à des modèles comme le dernier système d'image de Google (que la vidéo appelle "Nano Banana Pro") contribue à un meilleur ancrage linguistique, ce qui affine ensuite la planification étape par étape et l'utilisation d'outils.
Dans une pile omnimodale, chaque modalité entraîne activement les autres. La vision de Google ressemble globalement à cela : - Texte : le raisonnement, le codage et l'architecture de planification de Gemini - Images/vidéo : perception via des modèles de la ligne Veo/V3 et des systèmes vidéo interactifs comme Genie - Audio : conversation à faible latence et guidance en temps réel de Gemini Live - 3D : modèles mondiaux qui infèrent la géométrie et les possibilités à partir de vidéos - Robotique : Gemini Robotics 1.5 contrôlant des bras, des bases mobiles et des humanoïdes avec le même cerveau
Une formation unifiée permet au modèle de mapper « mettre le fruit vert sur l'assiette verte » en pixels, profondeur et commandes motorisées sans passerelles conçues à la main. Un tutoriel de réparation visionné comme une vidéo devient une scène en 3D que le robot peut naviguer, narrée en langage naturel, avec des indices audio synchronisés aux actions physiques.
C'est le saut au-delà des chatbots multimodaux actuels qui restent principalement coincés dans le navigateur. Un omnimodal peut observer votre environnement à travers une caméra, raisonner à son sujet en utilisant la même technologie qui rédige du code et des résumés, puis agir dessus via un robot ou des agents au niveau des téléphones.
Pour Google, c'est le chemin stratégique vers l'IA à usage général : une famille de modèles capable de lire, regarder, écouter, simuler et manipuler le monde réel. Celui qui lancera en premier un omnimodèle fiable ne gagnera pas seulement la recherche ; il possédera l'interface entre la réalité numérique et physique.
Gemini Robotics : De la tri de fruits à des assistants humanoïdes
Gemini Robotics 1.5 est la tentative de Google de transformer les grands modèles de langage en travailleurs physiques, et pas seulement en copilotes bavards. Dans la démonstration de Google, un bras robotisé Aloha utilise Gemini pour analyser visuellement une table de fruits, raisonner à travers des règles de correspondance de couleurs étape par étape, puis exécuter une tâche de tri en plusieurs étapes avec des explications verbales pour chaque mouvement. Le système ne se contente pas d'exécuter un script codé en dur ; il « pense à haute voix », exposant une chaîne de raisonnement interne entre perception et action.
Une autre démonstration intègre le même modèle dans un humanoïde Apollo qui triera le linge. Un humain échange soudainement les bacs en pleine tâche, et Apollo met à jour son plan sur le vif, démontrant ainsi la capacité de Gemini à recontextualiser sa compréhension de la scène et à s'adapter. Gemini Robotics 1.5 exploite également le web : le bras Aloha utilise les directives de gestion des déchets de San Francisco qu'il vient d'extraire d'internet pour classer les déchets, le recyclage et le compost.
La véritable avancée se cache sous le théâtre : un modèle unique contrôlant des corps de robots très différents sans ajustement spécifique à chaque robot. Google affirme que Gemini Robotics 1.5 fonctionne sur toutes ses plateformes—bras Aloha, bases mobiles, humanoïdes—en utilisant les mêmes poids et la même interface d'action de haut niveau. Cela laisse présager un véritable "omnimodèle" pour l'incarnation, où un cerveau se généralise à travers les facteurs de forme, les tâches et les environnements.
Le matériel reste le point faible de Google. Boston Dynamics, Figure, Tesla et Agility Robotics expédient ou testent des plateformes physiques à plus grande échelle, tandis que Google ne montre principalement que des prototypes en laboratoire. Même Apollo, construit par Apptronik, souligne que Google est en tête sur les couches de contrôle de l'IA, mais pas sur les actionneurs, les batteries ou les chaînes d'approvisionnement robustes.
D'ici 2026, un Gemini Robotics 2.x plausible commence à ressembler moins à une bande démo et plus à une plateforme. Attendez-vous à : - Une manipulation fiable des scènes domestiques encombrées, pas seulement des tables mises en scène - Des workflows de plusieurs heures et plusieurs pièces tels que "nettoyer la cuisine et charger le lave-vaisselle" - La préparation et l'emballage industriels, le kitting, et une inspection de base dans de vrais entrepôts
Les propres délais et commentaires publics de Google sur l'AGI, y compris Demis Hassabis sur l'avenir de l'IA - Google DeepMind (Forum mondial Fortune), suggèrent des progrès rapides en matière de planification et de raisonnement multimodal au cours des 2 à 5 prochaines années. Si ces avancées se concrétisent dans des robots, Gemini Robotics 2.x pourrait transformer les astuces de tri de fruits d'aujourd'hui en un travail domestique et industriel discrètement compétent.
Au-delà de Sora : L'offensive de Google pour la suprématie vidéo et image
Oubliez les chatbots. Pour Demis Hassabis, la véritable onde de choc dans les 12 à 24 mois à venir se manifeste à l'écran : des vidéos et des images qui ne se contentent pas de paraître réalistes, mais qui comprennent réellement ce qu'elles montrent. Le Veo de Google (souvent appelé « V3 » lors des démonstrations) se trouve au centre de cette avancée, devenant discrètement l'un des systèmes de génération vidéo les plus performants du domaine.
Veo génère des clips haute fidélité à partir de texte ou d'une seule image, avec des personnages cohérents, un mouvement de caméra cohérent et des scènes physiquement plausibles. Lors de démonstrations internes et avec des partenaires, il a déjà égalé ou surpassé les premiers clips d'OpenAI Sora en cohérence temporelle et en respect des instructions, même si Google l'a déployé de manière plus prudente.
Hassabis soutient que le véritable atout de Veo ne résidera pas dans des trucs cinématographiques, mais dans le raisonnement. Étant donné que Gemini est intrinsèquement multimodal, Veo peut, en principe, ingérer : - Un script ou un plan - Des images de référence ou des storyboards - Des contraintes concernant la continuité et le style
et ensuite produire une vidéo qui respecte la logique narrative plutôt que de se limiter à une esthétique superficielle. C'est l'écart entre une "démonstration séduisante" et un "outil utilisable" pour le cinéma, la publicité et la simulation.
Du côté de l'image, le dernier modèle de Google – humoristiquement surnommé “Nano Banana Pro” sur scène – donne un aperçu de la direction que cela prend. Au lieu d'un passage unique du prompt aux pixels, il se comporte davantage comme un agent : générer, inspecter sa propre sortie, détecter les erreurs, puis régénérer avec des corrections.
Demandez une infographie complexe et Nano Banana Pro peut agencer les axes, les légendes et les étiquettes qui correspondent réellement aux données sous-jacentes. Par exemple, il peut créer un histogramme de la part de marché des smartphones, détecter qu'une étiquette chevauche une barre, la déplacer et ajuster les couleurs pour l'accessibilité – le tout sans intervention humaine.
Hassabis croit que le véritable déblocage se produit lorsque ces systèmes visuels s'intègrent étroitement avec de grands modèles linguistiques. Un futur Gemini pourrait lire un rapport de 20 pages, vérifier les chiffres, concevoir une infographie, puis en faire une vidéo explicative de 30 secondes, tout en maintenant une cohérence interne.
Stratégiquement, cela compte plus que le photoréalisme. Pour Google, gagner cette course signifie des modèles qui génèrent des visuels qui ne sont pas seulement de haute résolution, mais qui sont également précis, conscients du contexte, et suffisamment ancrés pour que les utilisateurs et les régulateurs puissent réellement leur faire confiance.
Votre co-pilote IA vient de devenir réel : Gemini Live
Gemini Live donne enfin un aspect concret à l'idée de "co-pilote AI". Dans le clip viral sur le changement d'huile, un utilisateur pointe son téléphone vers un compartiment moteur, parle de manière naturelle et reçoit des instructions étape par étape sur ce qu'il doit dévisser, ce qu'il doit vider et ce qu'il ne faut pas toucher. Pas de pause pour taper des requêtes, pas de recherche sur YouTube, juste un assistant conversationnel persistant à ses côtés.
Sous le capot, Gemini Live fusionne trois problèmes difficiles en une seule expérience. Le premier est le parole-à-parole à faible latence, où le modèle écoute, raisonne et répond en quasi temps réel au lieu du décalage de 2 à 5 secondes typique des assistants cloud. Le deuxième est le raisonnement visuel en temps réel : le système analyse le flux vidéo en direct de la caméra, suit des objets comme des bouchons d’huile et des filtres, et met à jour les instructions au fur et à mesure que l'image change.
Le troisième pilier est l'accès au gigantesque graphe de connaissances et à l'index web de Google. Gemini Live ne se contente pas de voir un boulon ; il le relie aux manuels de réparation, aux publications de forums et aux conseils de sécurité, puis condense cela en une seule étape concrète. Cette synthèse donne l'impression que ce n'est pas seulement une recherche vocale, mais plutôt qu'un expert dédié veille silencieusement sur votre épaule.
En conséquence, Gemini Live est le mouvement le plus clair à ce jour vers l'« assistant universel » dont Hassabis parle sans cesse. Au lieu de confiner l'IA à des documents et du code, il commence à gérer des flux de travail chaotiques et réels : entretien de voiture, réparations à domicile, cuisine, voire diagnostics de base sur des appareils électroniques grand public. La démonstration du changement d'huile fonctionne comme un proxy pour toute tâche où l'on jongle habituellement entre une vidéo explicative, un PDF et un fil Reddit.
D'ici 2026, attendez-vous à ce que cette pile ressemble à quelque chose de très différent en profondeur. La latence devrait probablement tomber en dessous de 300 ms de bout en bout, rendant les échanges vocaux presque instantanés et permettant une interruption et un chevauchement plus naturels. La compréhension visuelle devrait s'étendre des parties statiques aux systèmes dynamiques, allant de la détection d'une fuite à la modélisation de la manière dont le fluide doit circuler dans un moteur ou un appareil.
Un raisonnement plus approfondi sera encore plus important que la vitesse. Un Gemini Live 2026 pourrait décomposer des tâches de plusieurs heures en sous-tâches, suivre les progrès sur plusieurs jours et adapter les plans lorsque les outils, les pièces ou les environnements changent. À ce moment-là, « co-pilote » cesse d'être une métaphore et commence à ressembler à une description de poste précise.
Construire de nouvelles réalités avec les modèles mondiaux Genie 3
Les modèles du monde transforment l'IA générative d'un contenu passif en une réalité jouable. Au lieu de produire un clip fixe de 10 secondes, un modèle du monde appréhende les dynamiques sous-jacentes d'un environnement : comment les objets se déplacent, entrent en collision et réagissent, permettant ainsi aux utilisateurs ou aux agents d'entrer et d'interagir en temps réel. Pensez moins à un « filtre vidéo IA », et plus à un « niveau généré par l'IA dans un moteur de jeu » qui se met à jour au fur et à mesure que vous l'explorez.
Genie 3, la dernière ligne de modèles du monde de Google DeepMind, pousse cette idée à fond. À partir d'un simple texte d'invite—« ruelle cyberpunk mouillée de pluie », « canyon martien au crépuscule », « station de métro inondée »—Genie 3 peut synthétiser un monde 2D ou pseudo-3D exploratoire avec une physique et une navigation cohérentes. Au lieu de chemins de caméra préétablis, vous obtenez un avatar contrôlable, un mouvement continu et des objets qui se comportent de manière cohérente entre les images.
De manière cruciale, Genie 3 ne se remet pas à zéro chaque fois que vous appuyez sur un bouton. Le système maintient une mémoire du monde, suivant les états des objets, leurs positions et les interactions passées, de sorte qu'un carton tombé ou une porte ouverte persiste pendant que vous continuez à explorer. En plus de cela, Google ajoute des « événements déclenchables » : vous pouvez injecter de nouvelles instructions en plein milieu de la simulation—« déclencher un tremblement de terre », « commencer une panne de courant », « faire apparaître un drone de secours »—et le monde se met à jour instantanément tout en restant physiquement et visuellement cohérent.
Le jeu vidéo est le premier choix évident. Des modèles inspirés des génies pourraient générer automatiquement des niveaux jouables, des quêtes secondaires ou des micro-mondes entiers adaptés aux compétences ou aux choix narratifs d'un joueur. Les designers pourraient esquisser une ambiance par écrit, puis itérer sur un prototype vivant au lieu de créer manuellement chaque carreau et chaque boîte de collision.
Le jeu plus profond se situe en dehors du divertissement. Les roboticiens ont besoin de milliards d'interactions sûres par essai et erreur avant de faire confiance à un robot en présence d'humains. Des modèles mondiaux comme Genie 3 peuvent créer des terrains d'entraînement synthétiques où des agents virtuels apprennent à saisir, naviguer et se remettre de cas extrêmes bien avant de se retrouver dans un véritable entrepôt ou hôpital. Les planificateurs de catastrophes pourraient mettre en place des simulations contrôlables d'incendies de forêt, de déversements chimiques ou d'inondations urbaines et soumettre de manière répétée les plans d'évacuation à des tests de résistance.
Hassabis a soutenu que l'enseignement du bon sens et de la physique à l'IA nécessite ce type de simulation ancrée, et non simplement plus de textes web. Les modèles du monde fournissent aux systèmes de classe Gemini un bac à sable pour apprendre la cause et l'effet, la permanence des objets, et des contraintes comme la friction ou la gravité. Cette même philosophie traverse l'initiative multimodale plus large de Google, détaillée dans Introducing Gemini : le modèle d'IA multimodal le plus performant de Google, où le texte, la vision et l'action se fondent en une seule couche prête à habiter à la fois des mondes virtuels et physiques.
L'Aube des Agents IA Vraiment Fiables
Les agents IA fiables restent la pièce manquante du plan directeur de Google pour 2026. Demis Hassabis a déclaré à Axios que les systèmes d'aujourd'hui échouent encore trop souvent sur des tâches longues et complexes pour qu'on puisse leur confier une délégation réelle de type « mettez-en place et oubliez ». Ils hallucinent des outils, abandonnent des sous-tâches ou se bloquent lorsque les API changent.
Hassabis a également fixé une ligne dans le sable à court terme : dans environ 12 mois, il s'attend à ce que des agents permettant d'accepter et d'exécuter de manière fiable des tâches complexes de bout en bout soient "proches". Cela signifie passer de "aide-moi à écrire cet e-mail" à "planifie et réserve l'intégralité de mon voyage, gère les changements et tiens-moi informé" avec un minimum de supervision. La fiabilité, et non le QI brut, devient le facteur décisif.
Google réalise déjà des expériences contrôlées avec des systèmes agents au sein de la recherche. Hassabis a décrit un « co-scientifique » qui peut : - Générer des hypothèses à partir de la littérature - Concevoir et exécuter des simulations ou des workflows de laboratoire - Interpréter les résultats et proposer des expériences de suivi
Ces mêmes modèles apparaissent dans la pile d'outils émergente de Gemini. Gemini peut déjà appeler Calendar, Gmail, Docs et des API externes, enchaîner des actions et réviser des plans lorsque les contraintes changent. Les premiers agents internes gèrent des tâches telles que des flux de travail de support client en plusieurs étapes ou l'optimisation de campagnes publicitaires, mais Google les garde encadrés, car l'échec entraîne encore des coûts réels.
Pour franchir le seuil de fiabilité de Hassabis, les agents ont besoin de trois choses : un raisonnement plus solide, une orchestration d'outils robuste et un retour d'information continu de l'environnement. Google s'attaque à chaque couche avec l'approche omnimodel. Un agent utile ne peut pas simplement lire du texte ; il doit voir, écouter et agir.
Liez Gemini Robotics 1.5, Veo, Nano Banana Pro et Genie 3, et vous obtenez un plan pour cet agent. Une future instance de Gemini pourrait surveiller une ligne de production via vidéo, interpréter des instructions verbales des ouvriers, consulter des modèles CAO en 3D et envoyer des robots pour reconfigurer une chaîne. La même architecture pourrait exister dans un navigateur, négociant discrètement vos abonnements tout en guidant un robot humanoïde pour réparer un évier qui fuit.
Le pari de Google : une fois qu'un seul modèle couvre de manière fiable le texte, les images, la vidéo, l'audio, la 3D et la robotique, les « agents IA » ne sont plus un simple élément de l'expérience utilisateur, mais deviennent une infrastructure.
L'Avantage Injuste de Google : Calcul, Données et Intellect
Le pari de l'IA de Google commence dans ses centres de données, pas dans ses démonstrations. Alors que les concurrents louent des GPU auprès de fournisseurs de cloud, Google fonctionne sur une pile intégrée verticalement construite autour de ses accélérateurs personnalisés TPU v5p et TPU v6 Trillium de nouvelle génération. Ce contrôle permet à DeepMind et à l'équipe Gemini d'optimiser tout, du compilateur à la boucle de refroidissement, maximisant ainsi les sessions d'entraînement pour chaque mégawatt.
Le TPU v5p cible l'entraînement à grande échelle avec des configurations de pod pouvant évoluer jusqu'à des dizaines de milliers de puces, tandis que le v6 Trillium pousse encore plus loin la performance par watt pour des modèles multimodaux de pointe. Google affirme que le v6 Trillium offre d'importants gains d'efficacité par rapport au v5e, qui avait déjà soutenu les générations antérieures de Gemini. Posséder la feuille de route des silicons réduit l'exposition aux ruptures de la chaîne d'approvisionnement de Nvidia et donne à Google une économie unitaire prévisible pour des expériences de plusieurs milliards de paramètres.
Le matériel seul ne remporte pas la course ; Google possède également le corpus d'entraînement multimodal le plus précieux au monde. Les milliards de vidéos de YouTube, étroitement couplés avec l'audio, les commentaires et les données d'engagement, forment un substrat inégalé pour des modèles vidéo et audio comme Veo et la couche perceptuelle de Gemini. Google Images et des décennies de crawl à l'échelle du web ajoutent des photos étiquetées, des diagrammes et des captures d'écran dans presque tous les domaines.
Cette profondeur de données est particulièrement importante pour la vision « omnimodèle » dont parle Demis Hassabis. Entraîner un seul modèle à raisonner à travers du texte, des images, de la vidéo, de l'audio, du 3D et de la robotique nécessite des signaux synchronisés entre les modalités : des images alignées avec des transcriptions, des actions alignées avec des résultats, des scènes alignées avec le langage. Rien qu'à lui seul, YouTube fournit à Google des pétaoctets de ce type de données jumelées, à l'échelle mondiale et dans des dizaines de langues.
Puis il y a la plateforme de recherche de Google DeepMind, sans doute la plus forte dans le domaine. AlphaFold n'a pas seulement prédit des structures protéiques ; il a rétabli les attentes quant à ce que l'apprentissage profond peut réaliser dans les domaines scientifiques, avec plus de 200 millions de structures prédites mises à disposition de la communauté. Des travaux antérieurs comme AlphaGo, AlphaZero et MuZero ont établi une culture de paris à long terme qui combinent théorie, ingénierie des systèmes et puissance de calcul massive.
Cette culture s'écoule maintenant directement dans Gemini, les modèles mondiaux de Genie, et la nouvelle vague de systèmes agentiques. Les chercheurs de DeepMind ne se contentent pas d'ajuster des modèles ; ils inventent de nouvelles architectures, des schémas de formation et des méthodes d'évaluation, puis les intègrent dans des systèmes à grande échelle. Peu de concurrents peuvent égaler ce processus, de l'idée fondamentale à le déploiement mondial.
Combinez ces trois piliers – calcul personnalisé, données propriétaires et talent de recherche d'élite – et Google a bien plus qu'une avance. Il dispose d'une barrière structurelle qui se renforce avec le temps, chaque nouveau modèle consommant et générant des données qui entraînent encore davantage la prochaine génération.
L'AGI est-elle à l'horizon ? Ce que pense vraiment Hassabis
L'IA générale, pour Demis Hassabis, se situe juste au-delà du cycle de hype de 2026. Bien qu'il semble confiant quant aux « modèles omnidimensionnels complets » et aux agents robustes à court terme, son horizon pour l'Intelligence Artificielle Générale reste d'environ 5 à 10 ans, et non deux ou trois.
Il définit l'IA générale comme étant plus que les démonstrations tape-à-l'œil d'aujourd'hui. Les systèmes doivent montrer une véritable invention, une créativité soutenue et un raisonnement abstrait approfondi, pas seulement réutiliser des données d'entraînement ou des incitations à la réflexion. Les modèles Gemini actuels restent encore insuffisants pour générer de manière fiable des hypothèses scientifiques nouvelles ou des conceptions d'ingénierie sans un important support humain.
Hassabis soutient que pour y parvenir, il faut deux ingrédients en parallèle. Tout d'abord, une poursuite agressive du plan de mise à l'échelle : des modèles plus grands, des données multimodales plus riches et une intégration plus dense à travers le texte, le code, les images, la vidéo, l'audio, la 3D et la robotique. Il relie explicitement cela à la feuille de route des TPU de Google et à la capacité d'entraîner des modèles de pointe à un coût marginal inférieur.
Deuxièmement, il insiste sur le fait que l'augmentation seule ne déverrouillera pas l'AGI. Il s'attend à "une ou deux percées scientifiques majeures"—de nouvelles architectures, des algorithmes d'apprentissage, ou des représentations qui permettent aux modèles de construire et de manipuler des modèles du monde causal, et pas seulement des corrélations statistiques. Des travaux comme Genie 3 de DeepMind et la recherche décrite dans L'avenir de l'IA – Google DeepMind esquissent la direction, mais il le considère comme étant à un stade précoce.
L'optimisme de Hassabis s'accompagne d'un registre de risques clair. Il souligne à plusieurs reprises des scénarios de cyber-terrorisme, où des modèles puissants automatisent la découverte de vulnérabilités, le spear-phishing et l'ingénierie sociale alimentée par des deepfakes à grande échelle. Il s'inquiète également de la déviation agentique : des systèmes autonomes poursuivant des sous-objectifs désalignés lorsqu'ils sont confrontés à des tâches à long terme et à l'accès à des outils.
Ce mélange d'ambition et de prudence façonne la posture publique de Google. Hassabis présente le travail sur la sécurité—tests de résistance, évaluations, recherche sur l'alignement et engagement politique—comme une condition préalable à l'avancée vers l'AGI, et non comme un frein optionnel. Pour lui, la course n'est pas seulement de construire une intelligence générale, mais de s'assurer qu'elle reste contrôlable lorsqu'elle arrivera enfin.
Ce que signifie la vision de l'IA de Google pour vous en 2026
Bienvenue en 2026 où Gemini se cache discrètement derrière presque tout ce que vous faites avec un écran, une caméra ou un moteur. La "pile d’omnimodèle complet" de Hassabis signifie qu'un seul cerveau couvre le texte, les images, la vidéo, l'audio, la 3D et la robotique, de sorte que votre assistant ne ressemble plus à un ensemble d'applications - il ressemble à un système unique et persistant qui se souvient, raisonne et agit.
Les tâches quotidiennes passent de « l'utilisation d'outils » à « l'attribution de résultats ». Un agent fiable prend un brief vague - « planifier et réserver un séminaire de 3 jours pour le client à moins de 15 000 $, privilégier les trains par rapport aux vols, prendre en compte les emplois du temps des enfants de chacun » - et exécute sur Gmail, Docs, Sheets, Slack et votre calendrier, ne demandant des clarifications que lorsque des contraintes se heurtent.
Sur votre téléphone et votre ordinateur portable, Gemini vous suit comme une couche universelle, et non comme un onglet de chatbot. Commencez à rédiger une présentation stratégique sur votre bureau, peaufinez la mise en page des diapositives par la voix pendant votre trajet, puis laissez Gemini générer automatiquement une version vidéo narrée pour les parties prenantes qui n'ouvrent jamais les diapositives, le tout à partir du même état de projet sous-jacent.
Des lunettes ou des dispositifs légers transforment Gemini Live en un coach en temps réel. Dirigez votre regard vers un moteur de voiture, une baie de serveurs ou un appareil médical et recevez des superpositions étape par étape, des vérifications de sécurité et des corrections d'erreurs en direct, alimentées par des modèles fusionnés de vision-langage et avec une latence mesurée en dizaines de millisecondes plutôt qu'en secondes.
Les industries créatives ressentent le choc en premier. Des modèles mondiaux interactifs comme Genie 3 permettent à un seul créateur de concevoir une mécanique de jeu en texte, de générer une scène 3D jouable, d'itérer en dialoguant avec le monde (« rends la gravité plus faible, ajoute deux ennemis, change le style artistique en cel-shading ») et de publier sur le web sans toucher à un moteur traditionnel.
La production vidéo se transforme en ingénierie de prompt et direction. Un cinéaste esquisse un storyboard, introduit des séquences de référence et utilise des modèles de classe Veo pour générer des scènes que les monteurs coupent, étalonnent et composent, transformant ce qui était auparavant un pipeline VFX de 30 personnes en un hybride de goût humain et de rushes générés par machine.
Rien de tout cela n'arrive par magie. La pile intégrée verticalement de Google - le matériel TPU v5p et v6 Trillium, les données à échelle pétaoctet, et le banc de recherche de DeepMind - confère à sa feuille de route une crédibilité inhabituelle, même si les délais glissent. La vision de Hassabis pour 2026 ressemble moins à de la science-fiction et plus à un plan produit pour une IA intégrée directement à la fois dans vos onglets de navigateur et votre lave-vaisselle.
Questions Fréquemment Posées
Quel est le concept d'« omnimodèle » de Google ?
Un 'omnimodèle' fait référence à un système ou une famille de modèles IA unique et unifiée qui gère de manière fluide plusieurs types de données (modalités), y compris le texte, les images, la vidéo, l'audio, les environnements 3D et le contrôle de la robotique. L'objectif est de créer une IA véritablement universelle.
Qu'est-ce que Demis Hassabis a prédit pour l'IA d'ici 2026 ?
Il prédit des progrès significatifs dans la convergence multimodale, où les modèles de langage fusionnent complètement avec les capacités d'image et de vidéo. Il s'attend également à ce que les agents d'IA deviennent assez fiables pour gérer de manière autonome des tâches complexes et en plusieurs étapes.
Quels sont les « modèles du monde » de Google comme Genie 3 ?
Genie 3 est un modèle vidéo interactif qui permet aux utilisateurs de générer et d'explorer des mondes virtuels à l'aide de prompts textuels. Il maintient la mémoire et la cohérence, permettant une interaction en temps réel, et constitue une étape clé vers l'entraînement d'agents incarnés plus performants.
Comment Gemini de Google est-il utilisé dans la robotique ?
Gemini Robotics 1.5 permet aux robots physiques de percevoir leur environnement, de réfléchir étape par étape pour résoudre des problèmes et d'exécuter des tâches complexes. Le même modèle peut être utilisé à travers différentes formes de robots sans ajustement, permettant des machines plus polyvalentes et performantes.