L'IA de Google vient d'obtenir une mémoire permanente.

Google vient de dévoiler Titans, une nouvelle architecture d'IA qui confère aux modèles une mémoire à long terme semblable à celle des humains, brisant ainsi les limitations précédentes. Cette avancée surpasse GPT-4 sur des critères clés et nous rapproche d'un grand pas vers l'AGI.

Hero image for: L'IA de Google vient d'obtenir une mémoire permanente.
💡

TL;DR / Key Takeaways

Google vient de dévoiler Titans, une nouvelle architecture d'IA qui confère aux modèles une mémoire à long terme semblable à celle des humains, brisant ainsi les limitations précédentes. Cette avancée surpasse GPT-4 sur des critères clés et nous rapproche d'un grand pas vers l'AGI.

Le Mur de Mémoire IA S'effondre

L'IA à cerveau de poisson rouge a été le secret inavoué du boom des grands modèles de langage. Les transformateurs peuvent jongler avec peut-être des dizaines ou des centaines de milliers de tokens, mais au-delà, les conversations se coupent, les documents sont tronçonnés, et la « mémoire » se réinitialise chaque fois que vous appuyez sur envoyer. Pour des systèmes présentés comme des moteurs de raisonnement généralistes, oublier la plupart de ce qui vient de se passer demeure un mur infranchissable.

La nouvelle architecture Titans de Google et son cadre compagnon MIRAS visent directement ce mur. Ce n'est pas une autre amélioration de spécifications du type « maintenant avec une fenêtre de contexte de 1 million de tokens ». Titans considère la mémoire à long terme comme un composant système de première classe, et non comme un cache accessoire, tandis que MIRAS redéfinit notre manière de penser la mémoire à travers les transformateurs, les RNN et d'autres architectures.

Les modèles de pointe actuels contournent l'oubli grâce à des astuces de récupération et des bases de données vectorielles. Ils recherchent des journaux passés, extraient quelques extraits et les intègrent dans l'invite. Cela fonctionne pour les scripts de support client ; cela échoue lorsque vous souhaitez qu'un modèle suive des projets en évolution, des préférences personnelles ou des fils de recherche sur plusieurs jours sans curation manuelle constante.

Titans va au-delà en conservant plus de 2 millions de jetons de contexte actif—plusieurs livres entiers—tout en mettant à jour sa propre mémoire durant l'inférence. Au lieu d'un simple magasin de clés-valeurs statique, il utilise un petit perceptron multicouche comme module de mémoire appris qui affine en continu ce qui est important. Le modèle ne se contente pas de lire ; il écrit également en temps réel.

Débloquer ce goulot d’étranglement de la mémoire est un point de pivot pour tout ce qui s’apparente à une intelligence humaine. La cognition humaine s'appuie sur des années de contexte accumulé : des récits longs sur des personnes, des objectifs et des contraintes. Sans mémoire durable et structurée, même le modèle le plus intelligent se comporte comme une calculatrice avec saisie automatique, et non comme un système qui vous connaît réellement.

Le cadre MIRAS de Google soutient que les transformateurs, les RNN et d'autres modèles de séquence partagent des principes sous-jacents qui peuvent être réarchitecturés autour de la mémoire plutôt qu'autour de l'échelle brute. Cela ouvre la porte à des conceptions où : - La mémoire à long terme vit à l'intérieur du modèle, et non dans des solutions externes - L'oubli devient adaptatif, et non une troncature arbitraire - Le contexte devient fonctionnellement illimité, et non simplement "plus grand à chaque version"

Ce qui émerge, c'est un nouveau paradigme architectural : des systèmes qui raisonnent sur une vie entière de jetons, pas seulement sur une seule fenêtre de chat. Le mur de mémoire de l'IA, longtemps considéré comme une contrainte matérielle, commence à ressembler de plus en plus à un choix de design.

Rencontrez Titans : L'IA qui n'oublie jamais.

Illustration : Rencontrez Titans : L'IA qui n'oublie jamais
Illustration : Rencontrez Titans : L'IA qui n'oublie jamais

Oubliez les mises à jour incrémentielles ; Titans arrive comme une bête totalement différente. Google ne le décrit pas comme un autre grand modèle linguistique, mais comme une nouvelle architecture d'IA construite autour d'une idée : une mémoire permanente et entraînable qui vit à l'intérieur du modèle pendant son fonctionnement. Au lieu de traiter le contexte comme un défilement jetable, Titans le considère comme une base de données vivante.

Au niveau du titre, Titans possède une fenêtre contextuelle de plus de 2 millions de tokens. En termes humains, cela suffit à contenir chaque mot de l'ensemble de la série Harry Potter, ainsi que plusieurs articles de recherche et votre boîte de réception, le tout en même temps. Alors que les modèles de pointe d'aujourd'hui ont du mal à garder un seul long PDF en ordre, Titans peut jongler avec des volumes d'informations équivalents à plusieurs livres en une seule session.

La taille brute n'est pas la partie radicale. Titans transforme cette fenêtre massive en mémoire active qui se met à jour au fur et à mesure que le modèle réfléchit, pas seulement lorsque les ingénieurs le réentraînent. Chaque nouvelle phrase, correction ou surprise peut modifier ce à quoi le système prête attention ensuite, directement dans sa boucle d'inférence.

Au lieu de caches de clé-valeur statiques ou d'embeddings figés, Titans intègre un petit perceptron multicouche comme son cœur de mémoire. Ce module neuronal apprend des motifs à la volée à travers des milliers de jetons, ajustant les poids internes à mesure que de nouvelles informations arrivent. La mémoire ne se limite plus à une table de consultation passive, mais devient une fonction constamment ajustée.

Les chercheurs de Google intègrent un signal de « surprise » inspiré de la cognition humaine. Lorsque Titans rencontre des données inattendues ou très informatives, cette mesure les signale comme mémorables ; les détails routiniers et répétitifs s'estompent plus rapidement. Le modèle décide efficacement quels événements méritent un stockage à long terme et lesquels peuvent sombrer dans l'oubli.

Parce que les mises à jour se produisent en temps réel, chaque interaction avec Titans laisse une trace dans son état interne. Une longue séance de dépannage, une semaine de revues de code ou des mois de notes de laboratoire peuvent s'accumuler en une compréhension évolutive, et non en une série de conversations isolées. Le comportement du modèle change à mesure que cette histoire devient plus dense.

Cette persistance déverrouille quelque chose que les empilements de transformateurs actuels ne peuvent pas faire de manière fluide : construire une narration sur vous, votre projet ou votre ensemble de données qui survit au-delà d'une seule invitation. Titans cesse de jouer le rôle d'un assistant utile et commence à agir comme un collaborateur qui se souvient réellement de ce que vous avez fait hier.

Au-delà de la simple force : Le 'Méthode de Surprise'

L'attention par force brute traite chaque jeton comme un invité VIP à une fête : également important, également coûteux. Les transformateurs standard appliquent une attention auto-quadratique à tous les jetons, ayant pour effet d'enflater les coûts de calcul à mesure que les fenêtres contextuelles passent de 8 000 à 2 000 000 de jetons. Titans esquive ce mur de mise à l'échelle avec une idée sournoisement simple : ne prêter attention que lorsque quelque chose est surprenant.

Les chercheurs de Google s'inspirent de la psychologie cognitive et de la théorie de l'information pour définir un « indicateur de surprise » — un score numérique qui mesure à quel point un nouveau jeton s'écarte de ce que le modèle attend. Les phrases routinières, les faits répétés et les modèles standards changent à peine la donne. Les contradictions soudaines, les événements rares ou les entités nouvelles font grimper le score et déclenchent une mise à jour de la mémoire.

Au lieu de stocker chaque interaction, Titans utilise ce signal surprise pour décider ce qui entre dans sa mémoire à long terme MLP et ce qui est discrètement écarté. L'architecture pose effectivement la question à chaque étape : « Est-ce que cela a modifié ma compréhension du monde ou de cet utilisateur ? » Si ce n'est pas le cas, elle considère le jeton comme un contexte transitoire, et non comme une mémoire durable.

Les transformateurs traditionnels doivent recalculer l'attention pour chaque jeton précédent, qu'il s'agisse d'un « merci » sans importance ou d'une instruction qui change la vie. Cela signifie un coût d'attention O(n²) et des factures de GPU considérables pour de longs contextes. Le routage basé sur les surprises de Titans réduit cette surcharge en n'invoquant des opérations mémoire lourdes que sur un sous-ensemble sparse de jetons véritablement informatifs.

Le blog de Google suggère des gains d'efficacité « d'ordres de grandeur » lorsque Titans maintient plus de 2 000 000 de tokens de contexte utilisable sans être submergé par le calcul. La théorie MIRAS soutient cela, montrant que des mises à jour basées sur la surprise permettent aux Titans de se comporter comme un RNN avec des écritures de mémoire sélectives et apprises plutôt que comme une simple analyse brute. Le résultat : des performances équivalentes à celles de GPT-4 ou meilleures sur des tâches à long contexte comme BABILong, en utilisant beaucoup moins de paramètres et beaucoup moins de calcul, car le modèle travaille plus intelligemment sur ce qu'il choisit de se souvenir.

Un moteur à l'intérieur : Un cerveau dans un cerveau

Oubliez les index poussiéreux et la recherche par mots-clés. Titans cache un petit Perceptron Multicouche (MLP) à l'intérieur du modèle plus grand et l'utilise comme un moteur de mémoire vivant et en apprentissage constant. Au lieu de simplement stocker des vecteurs dans une base de données, ce réseau interne se reconfigure au fur et à mesure que de nouvelles informations affluent.

Considérez-le comme un cerveau dans un cerveau. Le modèle externe gère le langage, le raisonnement et la planification, tandis que le MLP interne étudie silencieusement tout ce qu'il stocke, identifiant des schémas à travers des milliers, voire des millions de tokens. Au fil du temps, ce réseau interne cesse d'être un cache passif et devient un expert spécialisé dans votre histoire avec le modèle.

Les bases de données vectorielles statiques—sur lesquelles reposent la plupart des chatbots actuels—font quelque chose de beaucoup plus simple. Elles : - Intègrent votre texte dans des vecteurs - Stockent ces vecteurs dans un dépôt - Récupèrent les "voisins les plus proches" lorsque vous posez une question

Ces systèmes ne comprennent jamais vraiment ce qu'ils détiennent. Ils n'apprennent pas qu'une note de réunion, un extrait de code et un email décrivent tous le même bogue, ou que trois documents distincts sont en réalité des chapitres d'un projet de longue haleine. La mémoire neuronale de Titans le fait.

Parce que la mémoire est un MLP, elle peut compresser des faits liés en représentations internes partagées, renforçant les connexions importantes et laissant celles qui sont peu importantes se dégrader. Cela signifie que le système peut gérer un contexte étendu de plus de 2 millions de tokens sans s'effondrer sous son propre poids. Le réseau de mémoire devient en effet un modèle personnalisé affiné sur votre interaction en cours—mis à jour en temps réel, et non lors d'une opération de réentraînement hors ligne.

Pour éviter que cette mémoire ne déborde, Titans emprunte des idées directement à la théorie de l'optimisation. La dynamique lisse les mises à jour afin qu'un seul événement surprenant influence fortement la mémoire, tandis que le bruit répétitif passe presque inaperçu. Le modèle insiste sur les motifs qui continuent à apparaître et glisse sur les anomalies isolées.

D'autre part, l'oubli adaptatif élimine ce qui n'a plus d'importance. À mesure que de nouveaux schémas dominent—de nouveaux projets, de nouveaux thèmes, de nouvelles bases de code—le MLP interne réaffecte progressivement sa capacité, laissant les représentations obsolètes s'estomper. Au lieu d'une archive encombrée, Titans fonctionne avec une mémoire légère et auto-curatée qui apprend, priorise et oublie avec intention.

MIRAS : La pierre de Rosette pour les architectures d'IA

Illustration : MIRAS : La pierre de Rosette pour les architectures d'IA
Illustration : MIRAS : La pierre de Rosette pour les architectures d'IA

MIRAS se positionne derrière les Titans comme la révolution silencieuse : une théorie unificatrice pour les réseaux neuronaux modernes. Plutôt qu'une nouvelle architecture à la mode, MIRAS est un cadre mathématique qui montre que les Transformers, les RNN et d'autres modèles de séquence ne sont que différentes incarnations du même système sous-jacent. Les chercheurs de Google le décrivent comme la carte manquante qui explique pourquoi des modèles si différents en apparence se comportent souvent de manière si similaire.

Comme une pierre de Rosette pour l'IA, MIRAS traduit entre des architectures qui autrefois vivaient dans des silos de recherche séparés. Les poids d'attention dans les Transformers, les états cachés dans les RNN et la mémoire externe dans les modèles de recherche se réduisent tous à des opérations communes sur des séquences d'informations. Une fois que vous les exprimez dans le langage de MIRAS, vous pouvez échanger des parties, comparer les compromis et réfléchir aux capacités avec un seul outil.

Cette unification est importante car chaque famille apporte des forces distinctes. Les RNN excellent dans le traitement des données en continu et des mises à jour à latence faible, mais ont historiquement des difficultés avec des contextes très longs. Les Transformers dominent en précision et en raisonnement global sur des milliers de tokens, mais sont limités par la mémoire et les ressources de calcul à mesure que les séquences s'allongent. MIRAS révèle comment combiner ces caractéristiques au lieu de choisir un camp.

Titans est la première preuve de concept construite directement à partir de ce cadre. Sa mémoire basée sur MLP se comporte comme un état RNN rapide et continu tout en supportant un raisonnement global de style Transformer sur plus de 2 millions de tokens. Sous MIRAS, ce hybride n'est pas un bidouillage ; c'est une instanciation claire de principes partagés qui s'étendent également à la génomique, aux séries temporelles et à d'autres domaines non textuels.

Les chercheurs disposent désormais d'un espace de conception au lieu d'un simple menu. MIRAS leur permet d'explorer systématiquement des hybrides qui : - Utilisent la récurrence de type RNN pour la rapidité - Empruntent les schémas d'attention des Transformers pour la précision - Intègrent des unités de mémoire spécialisées, comme le MLP à surprise des Titans

Présenté de cette manière, MIRAS ressemble moins à un tour de passe-passe ponctuel et plus à un modèle pour l'IA post-Transformer. Toute future architecture nécessitant une mémoire à long terme, une inférence efficace ou une structure spécifique à un domaine peut d'abord être esquissée dans cette théorie commune, puis ingénierie. Les géants peuvent être l'attraction principale, mais MIRAS est le manuel sous-jacent qui pourrait façonner chaque système d'IA sérieux qui suivra.

Le Duel : Titans Écrase les Références de GPT-4

Oubliez les comparaisons de modèles basées sur les sensations. Google a mis les Titans face aux poids lourds d'aujourd'hui, y compris GPT-4, et a réalisé une batterie sévère de tests de long contexte. Le résultat : une architecture plus petite et moins chère a systématiquement surpassé les modèles qui s'appuient sur un nombre de paramètres brut et d'énormes fenêtres de contexte.

Au cœur de l'affrontement se trouve BABILong, une référence conçue pour casser les transformateurs conventionnels. Au lieu de courtes requêtes bien organisées, BABILong alimente les modèles avec de vastes documents pouvant dépasser 1 à 2 millions de tokens — des milliers de pages de faits variés, de facteurs de distraction et de dépendances subtiles.

BABILong ne se contente pas de vérifier si un modèle peut "se souvenir" de jetons anciens. Il oblige les systèmes à suivre les entités, les chaînes causales et les règles conditionnelles enfouies profondément dans le texte, puis à répondre à des questions qui dépendent de détails introduits des centaines de milliers de jetons plus tôt. Toute faiblesse dans le raisonnement à long terme ou la gestion de la mémoire se manifeste instantanément par une chute de précision.

Face à ce test, Titans n'a pas seulement survécu ; il a dominé. Google rapporte que Titans dépasse tous les repères sur BABILong, y compris les modèles avec beaucoup plus de paramètres et des transformateurs à long contexte fortement optimisés, spécialement réglés pour des tâches de type récupération.

Cet avantage en performance est important car les systèmes de classe GPT-4 poussent déjà les fenêtres de contexte dans les centaines de milliers de tokens. Pourtant, même avec ces limites élargies, ils se dégradent souvent de manière abrupte à mesure que les invites s'allongent, hallucinent des liens entre les documents, ou perdent de vue les entités introduites au début de la séquence. Titans, en revanche, maintient des chaînes de raisonnement cohérentes à travers des entrées à l'échelle de plusieurs livres.

La surprise survient lorsque l'on examine l'efficacité. Titans atteint ces scores avec significativement moins de paramètres—dans l'ordre d'un LLM de petite à moyenne taille plutôt que d'un géant de pointe—et fonctionne à une fraction du coût computationnel. Moins de bande passante mémoire, moins de FLOPs, et aucun besoin d'attention quadratique sur l'ensemble de la séquence se traduisent par une inférence beaucoup moins coûteuse.

Cela retourne l'histoire de l'échelle sur sa tête. Au lieu de dire "il suffit d'ajouter plus de GPU", Titans suggère que des architectures mémoire plus intelligentes peuvent surpasser les systèmes au niveau de GPT-4 en matière de raisonnement sur de longs contextes tout en utilisant moins de ressources. Pour les laboratoires, les startups et même les déploiements sur appareil, ce n'est pas une victoire marginale ; c'est un coup d'architecture.

Plus qu'un simple créateur de mots : conquérir de nouveaux horizons

La mémoire qui s'accroche réellement s'avère utile bien au-delà des jeux de mots bavards. La pile Titans de Google a déjà échappé au bac à sable linguistique, affichant des résultats à la pointe de la technologie sur des tâches de modélisation génomique où les modèles doivent suivre des dépendances sur des dizaines de milliers de paires de bases. Au lieu de traiter l'ADN comme une courte phrase, Titans peut ingérer des régions génomiques entières — longues de millions de caractères — et préserver des motifs subtils qui s'étendent sur des loci distants.

La génomique est un terrain d'essai brutal : les éléments régulateurs, les mutations et les variantes structurelles interagissent sur de vastes étendues. L'unité de mémoire basée sur MLP de Titans fonctionne comme un carnet de notes différentiable, accumulant des relations à long terme entre les séquences et les phénotypes sans s'effondrer sous les limites de contexte. Cela est crucial pour des tâches telles que la prédiction de l'expression génétique, les effets hors cible de CRISPR ou les scores de risque polygénique, où le contexte est toute la story de la biologie.

La finance propose un stress test complètement différent, et Titans y résiste également. Sur les benchmarks financiers à long terme, l'architecture suit des années de données de ticks, d'indicateurs macroéconomiques et de flux d'événements tout en mettant à jour dynamiquement son état interne. Au lieu de fenêtres de taille fixe ou d'ingénierie de caractéristiques fragiles, Titans maintient une mémoire roulante et apprise des régimes de marché, des chocs et des changements structurels lents.

Cette performance interdomaines est le véritable indicateur : le système de mémoire n'est pas un tour de magie réglé pour la prédiction du prochain jeton. MIRAS montre que le « cerveau dans un cerveau » des Titans se situe au même niveau d'abstraction que les transformateurs ou les RNN, mais avec un cœur de mémoire polyvalent et entraînable. Lorsque le même mécanisme améliore le raisonnement linguistique, la modélisation de l'ADN et les prévisions de marché bruyantes, vous êtes face à une capacité fondamentale, et non à un hack surajusté.

Les applications futures s'écrivent pratiquement d'elles-mêmes. Des copilotes médicaux persistants pourraient suivre l'intégralité du dossier longitudinal d'un patient—analyses, imageries, notes des cliniciens, dispositifs portables—sur des décennies, mettant en lumière des schémas qu'aucun humain ne pourrait mémoriser. Des outils de modélisation économique en temps réel pourraient fusionner les données de transactions en continu, les décisions politiques et les nouvelles mondiales en un modèle mondial constamment mis à jour, offrant aux gouvernements et aux entreprises quelque chose d’étrangement proche d'un cerveau macro vivant et respirant.

Le chemin vers l'AGI vient de devenir considérablement plus court.

Illustration : Le chemin vers l'AGI vient de devenir considérablement plus court.
Illustration : Le chemin vers l'AGI vient de devenir considérablement plus court.

L'AGI cesse d'être un slogan de science-fiction et commence à ressembler à une feuille de route d'ingénierie lorsque les modèles peuvent se souvenir. Les Titans et le cadre MIRAS propulsent la recherche de Google directement dans ce territoire en abordant une capacité sur laquelle les humains comptent constamment : une mémoire à long terme, adaptative et sélective qui survit à plus d'une seule conversation ou requête.

La cognition humaine repose sur des souvenirs qui s'étendent sur des secondes, des années et tout ce qui se trouve entre les deux. Vous vous souvenez des préférences d'un ami, d'un livre que vous avez lu l'été dernier et du chemin vers chez vous, et vous mettez à jour ces souvenirs en temps réel. Tout AGI plausible a besoin du même éventail : un espace de travail à court terme, un contexte de travail à moyen terme et une connaissance durable et structurée qui continue d’évoluer.

Titans fixe effectivement ce cadre sur l'intelligence artificielle moderne. Au lieu d'un contexte de 128K ou 1M de tokens qui se réinitialise à chaque session, Titans conserve plus de 2 millions de tokens de contexte utilisable et met à jour son état interne en continu, utilisant son unité de mémoire basée sur MLP comme un espace de travail permanent plutôt qu'un tampon jetable.

Les chercheurs de Google présentent cela non pas comme un autre "transformeur plus grand", mais comme un pivot architectural fondamental. MIRAS révèle un socle mathématique partagé entre les transformeurs, les RNN et d'autres modèles de séquences, puis utilise cette expertise pour concevoir la mémoire comme un système intégré, et non comme un astucieux moyen de récupération additionnel ou un stockage vectoriel post-hoc.

La mémoire à long terme ici n'est pas simplement un espace de stockage plus grand ; elle est sélective et adaptative. Le métrique de surprise classe les informations entrantes selon leur caractère inattendu et informatif, de sorte qu'une exception unique, une instruction cruciale ou un retournement de situation soudain restent en mémoire, tandis que les éléments routiniers s'estompent grâce à un oubli adaptatif et des mises à jour de style momentum.

Ce mécanisme débloque quelque chose que les chatbots actuels imitent de manière artificielle : un modèle persistant du monde et de vous-même. En théorie, les titans peuvent suivre l'évolution des objectifs d'un utilisateur sur plusieurs semaines, se souvenir des échecs antérieurs et ajuster les stratégies sans reformation hors ligne ni cycles d'affinage manuel.

L'apprentissage continu pendant l'inférence effondre également le mur entre « entraînement » et « utilisation » d'un modèle. Au lieu de figer une image instantanée de connaissances et de l'expédier, Titans fonctionne plutôt comme un logiciel qui se met à jour en temps réel lorsqu'il rencontre de nouvelles données, des cas limites ou des entrées adversariales.

Les implications s'accumulent rapidement. Un assistant qui se souvient réellement des projets de votre entreprise, un agent de recherche qui construit une carte littéraire sur plusieurs années, ou un système robotique qui affine quotidiennement son modèle environnemental se rapprochent tous de systèmes que nous reconnaîtrions comme généralement intelligents, et pas seulement comme étant impressionnants en matière de complétion automatique.

Comment les Titans façonneront votre monde

La mémoire qui ne se réinitialise pas à chaque requête transforme les démos flashy d'aujourd'hui en infrastructure. Avec Titans, un assistant d'entreprise peut maintenir une narration continue de la vie d'une société : chaque ticket, note de réunion, appel de vente et rapport d'incident. Au lieu de re-télécharger des PDF, vous demandez : « Comment nos facteurs de désabonnement ont-ils changé depuis 2021 ? » et il tire de millions de tokens d'historique en un seul passage.

Le service client cesse d'être une machine FAQ sans état. Un bot de support fonctionnant avec Titans peut se souvenir que vous préférez toujours l'email, que vous avez essayé trois solutions infructueuses la semaine dernière, et que votre prolongation de garantie avait été promise mais jamais traitée. Au fil des mois, il peut suivre des bugs spécifiques à un petit nombre d'utilisateurs à travers des milliers d'utilisateurs et mettre en évidence des schémas que les humains manqueraient.

L'éducation connaît une révolution silencieuse. Un tuteur personnalisé peut se souvenir de chaque exercice avec lequel vous avez eu des difficultés, des conseils précis qui ont enfin fonctionné, et de votre rythme sur des centaines de sessions. Au lieu de dire « révisez les fractions », il peut dire : « Vous rencontrez généralement des difficultés lorsque les dénominateurs sont premiers ; travaillons là-dessus », car ce schéma vit dans la mémoire à long terme, pas dans un cookie.

Au sein des entreprises, les outils d'analyse cessent d'échantillonner. Les géants peuvent ingérer des années de journaux, de transactions et de données de capteurs — des millions de jetons — sans hacks d'extraction. Un système de prévision peut relier une anomalie étrange dans le chiffre d'affaires du dernier trimestre à un subtil changement de politique datant de deux ans, car les deux événements coexistent dans la mémoire active, et non dans un entrepôt de données plus une invite.

Pour les développeurs, Titans signale une rupture avec le culte pur du transformateur. Vous concevez désormais autour d'un moteur de mémoire MLP interne, des mises à jour guidées par la surprise et un oubli adaptatif, au lieu de simplement augmenter le nombre de têtes d'attention et la taille des fenêtres de contexte. Cela ouvre la voie à des agents plus légers qui fonctionnent sur des GPU plus petits tout en se comportant comme s'ils disposaient d'une base de données vectorielle privée et en constante expansion intégrée.

La dynamique du marché évolue rapidement lorsque la "fenêtre de contexte" cesse d'être un argument de vente. Si les modèles de type Titan peuvent offrir un raisonnement de niveau GPT-4 avec 2 millions de jetons de mémoire en direct et actualisable à un coût de calcul inférieur, les points de vente passent de "128K de contexte" à "quelle est l'intelligence de votre mémoire ?" La tarification des API, les stratégies d'hébergement, et même les entreprises qui possèdent la relation client vont se réorganiser autour de qui contrôle cette couche cognitive persistante.

La prochaine génération de l'IA n'est plus une théorie.

Les Titans de Google travaillent à faire évoluer l'IA avec une mémoire à long terme, passant de recherches spéculatives à un code opérationnel. Au lieu de démonstrations basées sur des jouets ou de tâches étroites, Google rapporte que les Titans gèrent plus de 2 millions de tokens de contexte actif — l'équivalent de plusieurs romans d'informations — tout en mettant à jour leur mémoire en temps réel pendant l'inférence.

Au cœur de ce changement se trouve une trilogie claire. Titans combine : - D'énormes fenêtres contextuelles persistantes - Une priorisation de la mémoire semblable à celle des humains - Une efficacité computationnelle supérieure par rapport à des modèles beaucoup plus grands

Un contexte massif signifierait généralement des factures de calcul gonflées et une latence élevée. Titans évite cela en utilisant un module de mémoire basé sur MLP plutôt qu'une attention par force brute sur chaque token, ce qui lui permet de surpasser GPT-4 sur les benchmarks tout en utilisant moins de paramètres et moins de puissance de calcul, selon les tests de Google.

La priorisation semblable à celle des humains provient de la "métrique de surprise", un signal qui augmente lorsque les données d'entrée dévient des attentes du modèle. Titans utilise ce pic pour décider de ce qu'il faut conserver à long terme, de ce qu'il faut renforcer et de ce qu'il faut discrètement oublier, reflétant ainsi la manière dont les humains ignorent les événements routiniers mais se souviennent des fortes déviations.

Cette mémoire guidée par la surprise alimente l'élan et l'oubli adaptatif, de sorte que le modèle ne se noie pas dans sa propre histoire. Les anciens schémas à faible surprise se dégradent ; les événements rares mais critiques persistent. Le résultat est une IA capable de suivre des projets de longue durée, des ensembles de données en évolution ou des conversations multi-sessions sans nécessiter une ingénierie de prompt constante et manuelle.

MIRAS est l'autre moitié de l'histoire. Le cadre de Google montre que les transformateurs, les RNN et les modèles de style Titans partagent une structure sous-jacente commune, offrant aux chercheurs une feuille de route unifiée au lieu d'un zoo d'architectures incompatibles.

En regroupant ces familles dans une théorie unique, MIRAS permet à d'autres de mélanger et d'associer des composants — attention de type transformer, récurrence de type RNN, mémoire de type MLP Titans — sous un même parapluie mathématique. Cela devrait accélérer l'émergence de copies et de concurrents autant que cela profite à Google.

À l'échelle de l'industrie, MIRAS abaisse les barrières pour les laboratoires qui ne disposent pas de budgets équivalents à ceux de Google mais souhaitent des capacités semblables à celles des Titans. Attendez-vous à des implementations open-source, des architectures hybrides et des variantes spécialisées des Titans adaptées aux bases de code, aux dossiers médicaux ou aux flux financiers.

Pris ensemble, Titans et MIRAS marquent un point de tournant pour le rythme de changement de l'IA. Lorsque les modèles peuvent se souvenir d'années d'interactions, se mettre à jour en temps réel et coûter moins cher que les géants d'aujourd'hui, l'IA de "prochaine génération" cesse d'être une feuille de route future et commence à ressembler à une norme qui s'approche rapidement.

Questions Fréquemment Posées

Qu'est-ce que Google Titans ?

Titans est une nouvelle architecture d'IA de Google conçue pour la mémoire à long terme. Elle peut conserver plus de 2 millions de tokens de contexte et apprendre activement tout en mettant à jour sa mémoire en temps réel sans nécessiter de réentraînement.

Comment fonctionne le système de mémoire des Titans ?

Au lieu d'une simple base de données vectorielle, Titans utilise un petit réseau de neurones interne (un MLP) comme sa mémoire. Il utilise également une 'mesure de surprise' pour prioriser le stockage d'informations nouvelles et importantes, imitant la cognition humaine.

Les Titans sont-ils meilleurs que GPT-4 ?

Sur des benchmarks spécifiques conçus pour tester le raisonnement à long terme, tels que BABILong, Titans a montré qu'il surpassait des modèles plus grands comme GPT-4 tout en utilisant des ressources computationnelles nettement inférieures.

Quel est le cadre MIRAS ?

MIRAS est le cadre théorique développé parallèlement à Titans. Il unifie différentes architectures d'IA telles que les Transformers et les RNN, révélant leurs principes communs et fournissant une feuille de route pour concevoir de nouveaux modèles plus efficaces.

Pourquoi la mémoire à long terme est-elle si importante pour l'IA ?

La mémoire à long terme est un élément essentiel de l'intelligence humaine. Elle permet un apprentissage continu, une compréhension contextuelle et la construction d'une base de connaissances durable, tous considérés comme des étapes indispensables vers l'atteinte de l'Intelligence Artificielle Générale (IAG).

Frequently Asked Questions

Qu'est-ce que Google Titans ?
Titans est une nouvelle architecture d'IA de Google conçue pour la mémoire à long terme. Elle peut conserver plus de 2 millions de tokens de contexte et apprendre activement tout en mettant à jour sa mémoire en temps réel sans nécessiter de réentraînement.
Comment fonctionne le système de mémoire des Titans ?
Au lieu d'une simple base de données vectorielle, Titans utilise un petit réseau de neurones interne comme sa mémoire. Il utilise également une 'mesure de surprise' pour prioriser le stockage d'informations nouvelles et importantes, imitant la cognition humaine.
Les Titans sont-ils meilleurs que GPT-4 ?
Sur des benchmarks spécifiques conçus pour tester le raisonnement à long terme, tels que BABILong, Titans a montré qu'il surpassait des modèles plus grands comme GPT-4 tout en utilisant des ressources computationnelles nettement inférieures.
Quel est le cadre MIRAS ?
MIRAS est le cadre théorique développé parallèlement à Titans. Il unifie différentes architectures d'IA telles que les Transformers et les RNN, révélant leurs principes communs et fournissant une feuille de route pour concevoir de nouveaux modèles plus efficaces.
Pourquoi la mémoire à long terme est-elle si importante pour l'IA ?
La mémoire à long terme est un élément essentiel de l'intelligence humaine. Elle permet un apprentissage continu, une compréhension contextuelle et la construction d'une base de connaissances durable, tous considérés comme des étapes indispensables vers l'atteinte de l'Intelligence Artificielle Générale .
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts