Google Titans IA : Une nouvelle ère pour la mémoire à long terme dans les modèles linguistiques

💡

En bref / Points clés

Google vient de dévoiler une IA avec une mémoire à long terme opérationnelle qui écrase tous les benchmarks existants. Cette nouvelle architecture, nommée Titans, résout enfin la plus grande faiblesse de l'IA et change la donne pour de bon.

Pourquoi OpenAI a déclaré un 'Code Rouge'

Code Rouge a frappé la boîte de réception d'OpenAI alors qu'un mémo interne de Sam Altman circulait, selon des personnes proches du dossier, avertissant que l'entreprise ne pouvait pas considérer la dernière offensive d'IA de Google comme un simple cycle de produits. Le message : la montée en puissance de Gemini et l'offensive de recherche de Google étaient passées du bruit de fond à une menace concurrentielle existentielle.

Au sein d'OpenAI, le mémo a été reçu dans un contexte de chiffres préoccupants. De nouvelles données provenant de tiers montrent que les utilisateurs actifs mensuels de Gemini augmentent plus rapidement que ceux de ChatGPT, Google s'appuyant sur Android, Search et la distribution de Chrome pour accroître l'utilisation sur des milliards d'appareils.

Google, de son côté, a cessé de jouer la défense. En l'espace de quelques semaines, l'entreprise a lancé Titans et MIRAS pour la mémoire de long contexte, préparé Nano Banana 2 Flash comme un modèle d'image moins cher, et testé discrètement des titres d'actualités écrits par l'IA sur les téléphones des utilisateurs, tout en intégrant Gemini de plus en plus dans Workspace et Android.

Aucun de ces mouvements n'existe isolément. Ensemble, ils forment une attaque coordonnée : des avancées de recherche qui corrigent les faiblesses fondamentales des Transformers, des modèles produits qui contrecarrent les concurrents sur le coût, et des stratégies de distribution qui exploitent le contrôle de Google sur le mobile et le web.

Pour OpenAI, la courbe de croissance de Gemini pourrait être la sonnette d'alarme la plus retentissante. ChatGPT domine toujours l'esprit des consommateurs, mais la capacité de Google à intégrer automatiquement les utilisateurs via des intégrations par défaut signifie qu'un modèle même légèrement moins performant peut l'emporter s'il est visible par un plus grand nombre de personnes, plus souvent.

Cette menace survient juste au moment où la recherche de Google commence à éroder le rempart technique d'OpenAI. Le nouveau système Langzeitgedächtnisächtnis des Titans prétend offrir des fenêtres contextuelles supérieures à 2 millions de tokens et des victoires sur les benchmarks par rapport à GPT‑4 et Llama‑3.1‑70B lors de tests sur de longues séquences, laissant entendre que Google peut désormais gérer des historiques étendus sans épuiser ses budgets de calcul.

Le mémo d'Altman inciterait apparemment les équipes à accélérer le travail sur le prochain modèle de l'entreprise, code nommé Garlic, et à repenser la rapidité avec laquelle OpenAI peut déployer ses propres agents et systèmes de mémoire. La crainte est non seulement de perdre des utilisateurs, mais aussi de se retrouver à la traîne par rapport à un concurrent qui contrôle soudainement à la fois une architecture plus intelligente et un public plus large.

Derrière les graphiques d'utilisateurs et les événements de lancement, un changement plus profond est en train de se préparer. Google ne se contente pas de croître plus rapidement ; il parie sur un changement fondamental dans la manière dont l'IA se souvient, apprend et vit à l'intérieur des appareils quotidiens—et c'est cela qui a vraiment déclenché l'alarme Code Rouge.

L'amnésie qui frappe chaque IA

L'IA moderne fait beaucoup de bruit sur la "compréhension", mais en réalité, la plupart des grands modèles de langage vivent dans un état de fugue d'environ cinq minutes. Un modèle comme GPT‑4 ou Gemini ne "se souvient" que de ce qui rentre dans une fenêtre de contexte fixe — un tampon glissant de quelques milliers à peut-être un million de tokens qui agit comme une mémoire à court terme en boucle.

Imaginez parler à quelqu'un qui oublie tout ce qui est plus vieux que la dernière page de l'historique des conversations. Vous pouvez coller un contrat de 500 pages ou des années de courriels, mais dès que vous débordez cette fenêtre, les détails les plus anciens disparaissent, remplacés par ce qui arrive en dernier. Peu importe à quel point le modèle est intelligent, tout ce qui est en dehors de ce contexte pourrait aussi bien ne pas exister.

Blâmez l'architecture standard Transformer qui alimente presque tous les LLM de pointe. L'auto-attention compare chaque jeton avec chaque autre jeton, donc le calcul et la mémoire évoluent de manière à peu près quadratique : doublez la longueur de la séquence et vous quadruplez le coût ; multipliez par 10 et vous faites face à environ 100 fois plus de travail.

Au-delà de quelques centaines de milliers de tokens, même les Transformateurs fortement optimisés commencent à montrer des faiblesses. Les pics de latence, la montée en mémoire et la dégradation de la qualité surviennent alors que les modèles ont recours à des astuces telles que l'attention sparse ou le troncage agressif qui éliminent discrètement des parties de votre entrée. C'est pourquoi les titres mentionnant un "contexte de 2 millions de tokens" cachent généralement des factures matérielles brutales et un comportement fragile en limite.

Des idées plus anciennes comme les RNN et les Modèles d'Espace d'État (SSM) modernes, y compris les architectures de style Mamba, inversent le compromis. Ils traitent des flux en temps linéaire en intégrant l'historique dans un état caché compact, ce qui leur permet de traiter des millions de jetons sans surcharger les GPU.

Le hic : compresser un livre entier, une base de code ou l'historique d'un client en un petit vecteur d'état estompe les détails. Les dépendances subtiles, les cas limites rares ou cette ligne critique dans un fichier journal sont moyennés, ce qui fait que le modèle réagit rapidement mais avec une sorte d'amnésie statistique. Vous gagnez en échelle et perdez en précision.

Cet oubli structurel est devenu le plus grand frein à une véritable personnalisation et à un contexte profond. Tant que les modèles ne peuvent pas de manière fiable transporter une mémoire riche à travers les sessions, les appareils et les tâches, les « assistants IA » demeurent des fenêtres de chat avec un cerveau de poisson rouge, et non des systèmes qui évoluent avec vous au fil des mois ou des années.

Rencontrez Titans : L'IA qui n'oublie jamais

Google appelle sa nouvelle architecture Titans, et cela ressemble à une réponse directe au problème de la "mémoire de cinq minutes" qui tourmente l'IA d'aujourd'hui. Au lieu d'étirer un Transformer standard jusqu'à ce qu'il casse, Titans assemble deux systèmes de mémoire différents et les oblige à coopérer. Le résultat : des modèles capables de gérer des fenêtres de contexte dépassant 2 millions de tokens sans s'effondrer sous leur propre puissance de calcul.

Au cœur se trouve une mémoire à court terme familière : une auto-attention par fenêtres sur le récent fragment de texte. Cette fenêtre reste nette et précise, permettant au modèle de suivre les pronoms, les variables de code et les formulations subtiles dans les derniers milliers de jetons. Pas de compression avec perte, pas de résumés flous.

Parallèlement, Titans ajoute un module distinct et persistant de mémoire à long terme. Cette mémoire à long terme ne se contente pas de mettre en cache du texte brut ; elle stocke des représentations distillées de ce qui a réellement compté dans les passages précédents. Google décrit trois variantes de ce système : Mémoire-en-Contexte, Mémoire-en-Portes et Mémoire-en-Couches, chacune intégrant les connaissances stockées dans le modèle de manière différente.

Le twist révolutionnaire : Titans met à jour cette mémoire à long terme pendant l'inférence. Pendant que vous discutez, codez ou lui fournissez des documents, le module de mémoire apprend en temps réel quels éléments sont surprenants, utiles ou rares et les inscrit dans son stockage interne. Pas de réglage hors ligne, pas de cycle de réentraînement, juste un ajustement continu au fur et à mesure que la session progresse.

La surprise motive les bonnes décisions. Lorsque le modèle rencontre quelque chose qui s'écarte fortement de ses attentes—un API hors norme, une réglementation de niche, une préférence originale d'un utilisateur—il le signale comme étant de grande valeur et l'inscrit dans sa mémoire à long terme. Le contenu moins surprenant et répétitif reçoit une priorité inférieure et finit par disparaître de la mémoire grâce à un oubli intelligent plutôt qu'à une troncature brutale.

Les repères indiquent à quel point ce changement pourrait être important. Un modèle Titans avec seulement 760 millions de paramètres atteindrait apparemment plus de 95 % de précision sur Needle-in-a-Haystack à 16 000 tokens et domine le benchmark bAbI-Long, surpassant GPT-4, RecurrentGemma 9B, Llama 3.1 70B, et même Llama 3 associé à des outils de récupération. Les longues séquences cessent d'être un cas marginal et commencent à ressembler à la charge de travail par défaut.

Cela transforme l'IA d'une encyclopédie statique et pré-entraînée en un partenaire dynamique qui se souvient de ce que vous avez fait la semaine dernière. Les Titans peuvent, en principe, établir un historique de travail stable avec une équipe, un code source ou un projet de recherche et affiner leur comportement au fil des sessions. L'article de Google, Titans + MIRAS : Aider l'IA à avoir une mémoire à long terme, présente cela comme une étape vers des modèles qui apprennent davantage comme les humains le font : de manière incrémentale, contextuelle et sans remettre à zéro à chaque fois que vous ouvrez un nouveau chat.

Le génie réside dans la 'surprise'

La surprise est au cœur du nouveau système de mémoire de Titans. Au lieu d'accumuler chaque jeton dans une fenêtre contextuelle de plus de 2 millions, le modèle attribue un score de surprise à chaque segment de texte, mesurant à quel point la réalité s'écarte de ce que son modèle de langage interne prédit. Les événements à forte surprise sont gravés dans le Langzeitgedächtnisächtnis distinct de Titans, tandis que les éléments prévisibles défilent et disparaissent.

Cette règle simple transforme la mémoire d'un journal passif en un éditeur actif. Un « Merci, on en parlera demain » routinier à la fin de 500 emails ne fait jamais le poids ; une clé API unique, un rapport de bug étrange ou un changement de politique soudain le fait presque toujours. Titans compresse efficacement des jours d'interactions en un petit ensemble de moments « tu regretteras de l'avoir oublié ».

Sous le capot, la surprise fonctionne comme un budget. Chaque emplacement de mémoire a un score d’utilité dérivé à la fois de sa surprise initiale et de la fréquence à laquelle les Titans le relisent avec succès par la suite. Lorsque le budget est rempli, le modèle rétrograde d’abord les entrées de faible valeur, les excluant de la mémoire-en-contexte active et les remplaçant par des représentations moins coûteuses ou les abandonnant complètement.

Google présente cela comme un oubli intelligent plutôt que comme une suppression. Au lieu d'une coupure nette lorsque vous atteignez 128K ou 1M de tokens, la pertinence diminue progressivement : une spécification de projet rarement utilisée perd lentement en résolution, tandis qu'un document de conception souvent référencé reste précis. Le module de mémoire se met à jour en ligne pendant l'inférence, donc cette dégradation se produit en continu pendant que Titans fonctionne.

Ce comportement semble étrangement humain. La psychologie cognitive montre que les gens encodent les événements nouveaux, chargés d'émotion ou inattendus beaucoup plus fortement que les routines quotidiennes ; votre premier jour dans un nouvel emploi marque davantage que 200 mardis ordinaires. Titans incorpore un biais similaire dans le silicium : la nouveauté obtient un signal d'écriture plus puissant, tandis que la répétition est traitée comme du bruit de fond.

La mémoire humaine oublie également intentionnellement pour rester efficace, et Titans reflète ce compromis. En permettant aux anciennes traces à faible surprise de s'estomper au lieu de s'accrocher à tout, le système évite le piège du « génie de cinq minutes, amnésique à vie » des transformateurs classiques. Ce qui reste est un fil narratif durable qui met en avant les tournants, et non les horodatages.

Écraser la Concurrence : Titans contre le Monde

Google n'a pas seulement fait de grandes promesses avec Titans ; il a apporté des preuves à l'appui. Lors de tests sur de longues séquences qui réduisent généralement les gros modèles en bouillie, une variante de Titans avec 760 millions de paramètres a produit des résultats qui mettent mal à l'aise des systèmes plus de 50 fois plus grands.

Lors de l'évaluation classique du Needle-in-a-Haystack, les Titans devaient trouver un fait unique dissimulé dans des documents volumineux. Avec une longueur de contexte de 16 000 tokens, il a atteint plus de 95 % de précision, alors que de nombreux modèles de pointe commencent à donner des réponses erronées ou à halluciner.

La compréhension de récits longs met généralement en lumière des modèles qui ne "se souviennent qu'un peu" des passages antérieurs. Sur bAbI-Long, qui oblige les systèmes à relier des faits dispersés à travers de vastes narrations synthétiques, Titans n'a pas seulement devancé ses concurrents ; il a dominé le classement.

Le document de Google et les analyses qui ont suivi affirment que les Titans ont surpassé un ensemble de comparaison rigoureux dans ces tâches à long terme : - GPT-4 - Llama 3.1 70B - RecurrentGemma 9B - Llama 3 associé à des outils de récupération et de recherche

Ce dernier résultat est le plus important. Les configurations augmentées par la récupération ajoutent de la mémoire externe et des bases de données vectorielles à des modèles comme Llama pour compenser l'oubli, mais la mémoire à long terme intégrée des Titans a tout de même triomphé. Au lieu de jongler avec des embeddings et des magasins externes, les Titans maintiennent une mémoire interne, entraînable, qui se met à jour en temps réel.

Le nombre de paramètres raconte la véritable histoire. Alors que GPT-4 et Llama 3.1 70B comptent des dizaines ou des centaines de milliards de paramètres, l'étoile à long contexte de Titans se situe à seulement 760 millions. Vous obtenez une performance qui ressemble à celle d'un modèle de pointe sur des entrées de plusieurs centaines de pages, à un coût plus proche d'un LLM open-source de milieu de gamme.

Cette efficacité ouvre des options de déploiement que les géants ne peuvent pas toucher. Un modèle de moins d'un milliard de paramètres qui lit plus de 2 millions de tokens et parvient à résoudre Needle-in-a-Haystack peut fonctionner à moindre coût dans le cloud, se répartir sur des flottes de GPU, ou même se rapprocher de scénarios sur appareil.

Architecturalement, les résultats des Titans suggèrent qu'une mémoire plus intelligente surpasse la simple échelle brute pour le raisonnement à long contexte. Si un modèle de 760M peut surpasser GPT-4 sur des problèmes d'un million de tokens, la prochaine course à l'armement ne sera peut-être pas du tout axée sur la taille, mais sur celui qui construit le meilleur cerveau.

Au-delà de la mémoire : MIRAS et l'apprenant continu

MIRAS arrive non pas comme un modèle de plus, mais comme une théorie unificatrice sur la manière dont les modèles de séquence devraient se souvenir, oublier et s'adapter. La recherche de Google le présente comme une feuille de route qui place les Transformers, Mamba, RWKV, DeltaNet et Titans sur la même carte : différentes réponses aux mêmes quatre questions concernant la forme de la mémoire, les règles de stockage, la vitesse de réécriture et la dynamique de mise à jour.

Au lieu de se contenter d'évoquer un « long contexte », MIRAS oblige les architectes à spécifier quel type de mémoire à long terme ils souhaitent et à quel point elle doit se réécrire de manière agressive. Cette approche cible directement l'oubli catastrophique, ce problème ancien où un modèle affiné sur de nouvelles compétences efface discrètement les anciennes, car ses paramètres font office à la fois de cerveau et de bloc-notes.

L'apprentissage continu est au cœur de cette feuille de route. Plutôt que de s'entraîner une fois sur un ensemble de textes web figé et de considérer le travail comme terminé, MIRAS promeut des systèmes qui mettent à jour leur mémoire en ligne, pendant l'utilisation, sans compromettre les compétences acquises précédemment.

Ilja Sutskever a décrit son étoile du nord comme des modèles qui apprennent comme un « adolescent talentueux » : absorbant, révisant et intégrant constamment de nouvelles expériences. MIRAS met en œuvre cette vision en considérant l'utilisation comme un flux de formation continu, et non comme une phase d'inférence en lecture seule.

Titans devient le premier grand pas public sur la voie du MIRAS. Son module de mémoire dirigé par la surprise, détaillé dans Titans : Apprendre à Mémoriser au Moment du Test, se comporte déjà comme un proto-apprenant continu, écrivant sélectivement des événements inattendus dans une mémoire dédiée au lieu de les enfoncer dans les poids de base.

Les repères laissent entendre ce que ce changement permet. Une variante Titans de 760 millions de paramètres se défend contre GPT-4 et Llama-3.1-70B sur des tâches à longue séquence, tout en mettant à jour sa mémoire en direct au cours de sessions de plusieurs millions de tokens.

Philosophiquement, MIRAS renverse la façon dont les laboratoires envisagent l'échelle. Plutôt que de simplement empiler davantage de paramètres et de données, Google parie que des mémoires plus intelligentes et structurées—et des modèles qui n'arrêtent jamais vraiment d'apprendre—seront plus importants qu'encore 10 trillions de tokens.

Votre nouvelle collègue est une agente nommée Lux.

Votre prochain « collègue IA » ne sera peut-être pas une boîte de dialogue dans une barre latérale, mais un curseur se déplaçant silencieusement sur votre propre bureau. C'est le pari de la Open AGI Foundation avec Lux, un nouveau type de modèle qui considère l'ordinateur lui-même comme l'interface. Au lieu d'inviter un bot et d'espérer qu'une API existe, vous dirigez Lux vers un écran et il commence tout simplement à fonctionner.

Lux se décrit comme un modèle d'utilisation informatique, et cette expression porte un lourd fardeau. Le système ingère des pixels bruts, analyse les boutons, les menus et les formulaires, puis émet des actions de bas niveau : clics, défilements, pressions de touche, changements de fenêtres. Il peut faire fonctionner des bureaux complets, des navigateurs, des tableurs, des éditeurs de code, voire des outils hérités tenaces qui n'ont jamais eu d'API web.

Cela déplace Lux de la catégorie "assistant" vers le domaine de l'infrastructure. Vous pouvez le connecter à une VM distante et lui faire réconcilier des factures dans un navigateur, vérifier des données dans un tableau Excel, puis rédiger des e-mails de suivi dans Outlook. Pour les entreprises submergées par des scripts RPA fragiles et des intégrations à moitié terminées, un agent natif de l'écran commence à ressembler à un adaptateur universel.

Les chiffres de référence soutiennent l'assurance. Sur Mind2Web, un benchmark en ligne basé sur plus de 300 tâches réelles sur des sites web en direct, Lux obtient un score de 83,6, un énorme bond par rapport à Gemini de Google à 69,0 et au meilleur modèle d'OpenAI à 61,3. Les mêmes tâches, le même web désordonné, des taux de réussite radicalement différents.

Mind2Web est brutal par conception. Les agents doivent naviguer à travers des murs de connexion, des mises en page étranges, un défilement infini, des pop‑ups et des motifs d'interface utilisateur incohérents pour accomplir des objectifs en plusieurs étapes comme réserver des voyages, vérifier les historiques de commande ou explorer les paramètres du compte. La marge de Lux sur cette référence suggère qu'il ne s'agit pas seulement de mémoriser des flux, mais réellement de construire un modèle opérationnel du comportement des interfaces.

Cet atout provient de ce que ses créateurs appellent l'entraînement préactif agentique. Au lieu d'apprendre uniquement à partir de journaux statiques ou d'instructions synthétiques, Lux passe du temps d'entraînement préactif à agir dans des environnements réels, à explorer des interfaces utilisateur, à échouer et à corriger. Le modèle internalise des schémas tels que « les filtres se cachent derrière des icônes de filtre » ou « les dialogues de confirmation inversent souvent les couleurs des boutons », qui se transfèrent d'une application à l'autre.

Vous pouvez le voir comme la différence entre lire un manuel et conduire réellement une voiture. Les agents LLM traditionnels “lisent le manuel” des API web et des arbres DOM ; Lux enregistre des millions d'heures derrière le volant de logiciels en direct. Cette expérience incarnée lui confère une compréhension des interfaces utilisateur plus intuitive et semblable à celle d’un humain — et fait en sorte que “votre nouveau collègue” ressemble moins à un engouement et plus à une catégorie de produit imminente.

L'attaque à deux volets de Google : rapidité et controverse.

Google ne mise pas tout sur la mémoire à long terme de Titans. En parallèle, l'entreprise ouvre un deuxième front : la distribution brute et les médias génératifs bon marché. Des données de croissance internes citées par des analyses tierces montrent que les utilisateurs actifs mensuels de Gemini augmentent plus rapidement que ceux de ChatGPT, et Google veut des capacités équivalentes en matière d'images et d'expériences d'interface utilisateur.

Entrez Nano Banana 2 Flash, un nouveau modèle d'image ajusté pour le coût et la rapidité plutôt que pour la gloire des classements. Positionné comme une version « presque professionnelle » du système d'image phare de Google, il vise à fournir une qualité presque professionnelle à une fraction du coût de calcul. Cela est important pour des milliards d'appels d'image à faible marge dans les recherches, Android, Docs et les outils publicitaires.

Considérez Nano Banana 2 Flash comme la cartouche d'encre en vrac de Google pour l'art génératif. Vous ne l'utilisez pas pour imprimer des œuvres d'art de musée ; vous inondez le web de vignettes, de cartes sociales, d'autocollants et de maquettes de produits. Si Google peut proposer des prix plus bas que Midjourney, DALL·E et Stability tout en maintenant une qualité "suffisamment bonne", il contrôle le marché de masse des images génératives.

En même temps, Google a discrètement mené une expérience très différente : des titres d'actualités réécrits par l'IA dans Google Discover. Au lieu d'afficher les titres originaux des éditeurs, un modèle interne en générait de nouveaux à la volée, parfois en reformulant les histoires avec des accroches émotionnelles plus fortes ou des emphases différentes. Les utilisateurs ont vu ces titres synthétiques sans aucun étiquetage clair ni option de désinscription.

Les éditeurs ont remarqué. Des rapports d'agences scandinaves et européennes ont décrit des titres qui déformaient le ton ou le sens, y compris des histoires criminelles qui paraissaient plus sensationnelles et des articles politiques qui minimisaient des contextes clés. Les rédacteurs ont soutenu que l’IA de Google était devenue un co-auteur non responsable se plaçant entre leur salle de rédaction et leur audience.

Le retour de flamme est survenu rapidement car il touche une ligne de fracture depuis longtemps latente. Les plateformes contrôlent déjà la distribution, les marchés publicitaires, et désormais de plus en plus le langage qui façonne le journalisme. Lorsque un titre généré par une IA peut changer la perception d'une enquête sur la corruption ou d'un rapport sur le climat, le jugement éditorial se déplace des rédactions vers des systèmes de classement et des poids de modèle.

Le test Discover montre à quelle vitesse l'« IA assistive » se transforme en IA éditoriale. Les Titans et Nano Banana 2 Flash poursuivent l'échelle et la rapidité, mais la controverse des titres expose l'échange : les plateformes technologiques souhaitent réécrire non seulement le contenu, mais aussi la manière dont le monde l'appréhende.

Les chiffres ne mentent pas : la croissance de Gemini est réelle.

Le Code Rouge a cessé d'être une métaphore lorsque les classements de téléchargements sont arrivés. Selon les données de SensorTower citées dans des rapports récents, l'application mobile de Gemini figure désormais parmi les produits d'IA à la croissance la plus rapide de tous les temps, avec des utilisateurs actifs mensuels augmentant à un rythme qui écrase les gains d'une année sur l'autre de ChatGPT.

ChatGPT domine toujours en termes d'échelle brute, avec des millions d'utilisateurs et la marque la plus reconnaissable dans l'IA grand public. Mais les courbes de SensorTower racontent une histoire différente concernant l'élan : les utilisateurs actifs mensuels de Gemini croissent plusieurs fois plus vite d'un mois à l'autre, en particulier sur les marchés où Google peut préinstaller ou mettre en avant l'application de manière agressive.

Cette vélocité est plus importante que le droit de se vanter. Une croissance rapide des MAU alimente un cycle de : - Plus d’intérêt des développeurs pour les API de Gemini - Plus de pilotes d’entreprise souhaitant la fiabilité à l'échelle de Google - Plus de confiance des consommateurs que ce n'est pas une expérience sans issue

Pour les développeurs, l'ascension de Gemini signifie une alternative crédible à OpenAI qui s'intègre directement à Android, Chrome et Google Cloud. Lorsque vos utilisateurs cibles évoluent déjà dans Gmail, Docs et Search, s'appuyer sur l'écosystème de Google commence à sembler moins risqué et plus inévitable.

Les entreprises lisent les mêmes graphiques et perçoivent un pouvoir de négociation. Un Gémeaux à croissance rapide offre aux DSI une couverture pour exiger de meilleures prix, des garanties de résidence des données et des stratégies multi-fournisseurs qui opposent OpenAI, Google, Microsoft et Anthropic les uns aux autres.

Google, pendant ce temps, exploite discrètement sa machine de distribution. Les suggestions Gemini sur Android, les fonctionnalités d'IA dans Workspace et les expériences de recherche alimentées par Gemini dirigent tous les utilisateurs ordinaires vers l'écosystème de Google sans nécessiter de décision distincte concernant une "application d'IA".

C'est là le véritable Code Rouge pour OpenAI : non pas que Gemini ait déjà gagné, mais que Google ait enfin aligné la recherche, le produit et la distribution. Les Titans, MIRAS et l'ensemble de la pile Gemini s'adressent désormais à une audience comptant des milliards d'utilisateurs, et chaque mise à jour de fonctionnalité incrémentielle emprunte cette voie. Pour ceux qui suivent les fondements techniques, le travail de Google sur le long contexte se trouve aux côtés des implémentations ouvertes dans le dépôt GitHub de Google Research, soulignant la rapidité avec laquelle ces idées peuvent se propager.

Le Nouveau Champ de Bataille de l'IA est Arrivé

Code Red ne décrit plus la panique d'une seule entreprise ; il décrit un nouveau champ de bataille de l'IA. Titans offre à Google un modèle capable de gérer des contextes de plus de 2 millions de tokens avec une véritable mémoire à long terme, mettant à jour sa mémoire en temps réel plutôt que de prétendre que chaque conversation recommence à zéro. Des indicateurs comme Needle-in-a-Haystack à plus de 95 % de précision et la domination sur bAbI-Long montrent que ces avancées ne sont pas que des diapositives marketing.

Superposez MIRAS et vous obtenez une feuille de route, pas un modèle ponctuel. MIRAS recontextualise Transformers, Mamba, RWKV et leurs semblables comme différentes réponses à quatre questions sur la forme de la mémoire, les règles de stockage, la vitesse de décomposition et les dynamiques de mise à jour. Cela transforme "fenêtre de contexte plus grande" en un espace de conception pour des systèmes d'apprentissage continu.

Pendant ce temps, Lux attaque un autre front : le contrôle. Lux examine votre écran réel, analyse les éléments de l'interface utilisateur et effectue des clics, des défilements et des frappes au clavier pour accomplir de vraies tâches dans les navigateurs, les tableurs et les clients de messagerie. Sur le benchmark Mind2Web de plus de 300 tâches réelles sur des sites web, il affiche un taux de réussite de 83,6 %, mettant à l'ombre les anciennes démonstrations "agentes" qui dépendent d'API fragiles.

La pression de distribution provient de Gemini et de Nano Banana 2 Flash. Les données de type Sensor Tower montrent que le nombre d'utilisateurs actifs mensuels de Gemini augmente plus rapidement que celui de ChatGPT, grâce à une intégration approfondie dans Android et Chrome. Nano Banana 2 Flash, un modèle d'image moins cher et plus rapide qui se rapproche presque de son cousin Pro, permet à Google d'inonder les téléphones de milieu de gamme et les applications web avec une IA multimodale « suffisamment bonne ».

Google mène désormais une guerre sur plusieurs fronts :

1Architecture fondamentale : Titans et MIRAS redéfinissent la façon dont les modèles se souviennent et apprennent.
2Agence pratique : des agents informatiques de style luxueux transforment les LLM en opérateurs de bureau complets.
3Distribution sur le marché : La croissance de Gemini, Nano Banana et des titres optimisés par l'IA propulsent cette pile dans les flux et appareils quotidiens.

Les modèles statiques, qui une fois entraînés sont figés, ressemblent de plus en plus à un manuel du passé. La phase suivante se concentre sur des agents capables de se souvenir de mois d'historique d'interaction, d'adapter leurs politiques à la volée et d'évoluer au sein des systèmes d'exploitation, des navigateurs et des suites de productivité. Tout cela repose directement sur le seuil d'OpenAI : son modèle de nouvelle génération, Garlic, doit maintenant prouver qu'il peut égaler la mémoire des Titans, l'agence au niveau Lux, et l'envergure de Gemini, sous peine de voir Google établir les règles pour le deuxième acte de l'IA.

Questions Fréquemment Posées

Qu'est-ce que Google Titans ?

Titans est une nouvelle architecture d'IA de Google Research conçue pour offrir aux modèles une véritable mémoire à long terme. Elle sépare le traitement à court terme d'un module de mémoire à long terme qui apprend et se met à jour en continu pendant son utilisation.

Comment fonctionne la mémoire des Titans ?

Titans décide ce qu'il doit stocker en fonction de la "surprise". Plus une information est inattendue ou nouvelle, plus elle a de chances d'être sauvegardée, permettant à l'IA de constituer efficacement une mémoire des faits clés.

Est-ce que Google Titans est meilleur que GPT-4 ?

Lors de bancs d'essai spécifiques à long contexte, qui évaluent la capacité d'une IA à se souvenir d'informations issues d'énormes quantités de texte, la vidéo et les rapports connexes affirment que Titans surpasse significativement des modèles comme GPT-4 et Llama 3.1.

Qu'est-ce que le MIRAS ?

MIRAS est un cadre introduit en même temps que Titans. Il fournit les règles et les méthodes permettant aux modèles d'apprendre en continu à partir de nouvelles données sans oublier les connaissances passées, rapprochant ainsi l'IA d'un état d'apprentissage perpétuel.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Questions fréquentes

Qu'est-ce que Google Titans ?

Comment fonctionne la mémoire des Titans ?

Est-ce que Google Titans est meilleur que GPT-4 ?

Qu'est-ce que le MIRAS ?

Le cerveau IA de Google vient d'évoluer.

En bref / Points clés

Pourquoi OpenAI a déclaré un 'Code Rouge'

L'amnésie qui frappe chaque IA

Rencontrez Titans : L'IA qui n'oublie jamais

Le génie réside dans la 'surprise'

Écraser la Concurrence : Titans contre le Monde

Au-delà de la mémoire : MIRAS et l'apprenant continu

Votre nouvelle collègue est une agente nommée Lux.

L'attaque à deux volets de Google : rapidité et controverse.

Les chiffres ne mentent pas : la croissance de Gemini est réelle.

Le Nouveau Champ de Bataille de l'IA est Arrivé

Questions Fréquemment Posées

Qu'est-ce que Google Titans ?

Comment fonctionne la mémoire des Titans ?

Est-ce que Google Titans est meilleur que GPT-4 ?

Qu'est-ce que le MIRAS ?

One weekly email of tools worth shipping. No drip funnel.

Questions fréquentes

À lire ensuite

Le pare-feu IA de Deno met fin au chaos des agents

Cet agent IA bâtit des entreprises pour vous

Le test de réalité de l'IA : Le benchmark qui a mis à mal les LLM

Gardez une longueur d'avance en IA