Les dernières avancées en IA : Au-delà des Transformers avec CTM et GPT-5

💡

En bref / Points clés

L'ère des chatbots AI simples est révolue. Une nouvelle vague de modèles capables de 'penser' en continu est arrivée, et elle est sur le point de tout changer, de la science à la robotique.

L'architecte des Transformers dit qu'il est temps de passer à autre chose.

L'architecte du boom de l'IA moderne souhaite désormais mettre fin à sa propre création. Llion Jones, l'un des huit auteurs du célèbre article de Google de 2017 intitulé « Attention Is All You Need », soutient que l'ère des transformateurs touche à sa fin et qu'il est « temps d'aller au-delà des transformateurs ». Depuis sa nouvelle position de CTO et co-fondateur de Sakana AI Labs, Jones soutient une architecture radicalement différente appelée Machines de Pensée Continue qui considère la pensée comme un processus, et non comme un acte ponctuel.

Les transformateurs ont transformé la prédiction du mot suivant en une interface universelle, alimentant GPT-4, Gemini, Claude et presque tous les grands modèles de langage. Mais simplement les faire évoluer — plus de paramètres, plus de données, plus de GPU — a commencé à atteindre des rendements décroissants, comme le suggèrent les récentes études sur les « limites à l'échelle », qui indiquent que les gains marginaux diminuent même si les coûts d'entraînement explosent dans les dizaines ou centaines de millions de dollars par modèle de pointe. La critique principale : ces systèmes peinent encore avec le raisonnement multi-étapes, une logique fragile et des tâches qui nécessitent une planification sur de longues périodes plutôt que de régurgiter des motifs.

Cette critique a un poids différent lorsqu'elle provient de quelqu'un qui a aidé à concevoir l'attention en premier lieu. Quand un architecte original de transformateurs affirme que le domaine a besoin de nouveaux plans, cela indique que les grands laboratoires sont déjà à la recherche de paradigmes post-transformateurs au lieu de supposer que les courbes de mise à l'échelle les sauveront. Jones et Sakana parient sur l'évolution neurale et les systèmes dynamiques, cherchant des réseaux qui évoluent dans leur état interne au fil du temps, plus près de la façon dont fonctionnent les cerveaux biologiques.

Les Machines à Pensée Continues, telles que décrites dans l'œuvre de Sakana, attribuent à chaque « neurone » une petite mémoire et une règle de mise à jour locale, puis laissent des milliers de ces mini-cerveaux interagir au cours de nombreuses étapes internes. Au lieu d'un simple passage avant du prompt à la réponse, le modèle exécute des « clics » internes où il reconsidère le problème, affine les représentations intermédiaires et peut même changer d'avis avant de produire une sortie. Ce changement transforme le calcul d'un appariement de motifs statique en un processus continu.

Voici la ligne de fracture émergente : des modèles qui se contentent de prédire le prochain token par rapport à des systèmes qui traitent l'information dans le temps. Le pivot de Jones marque le début d'une nouvelle course pour construire une IA qui ne se contente pas de compléter nos phrases, mais qui pense réellement entre elles.

Le pari radical de Sakana AI : La machine à pensée continue

Sakana AI Labs parie que les Machines de Pensée Continues sont ce qui vient après les transformateurs. Co-fondée par Llion Jones, l'un des huit auteurs derrière “Attention Is All You Need,” la startup basée à Tokyo vient de lever une Série B pour poursuivre les MTs comme une rupture nette avec l'architecture qui a alimenté GPT-4, Gemini et Claude.

Au lieu de tirer une seule fois et d'oublier, CTM considère la réflexion comme un processus interne continu. Un transformateur standard effectue un seul passage en avant sur votre invite, produit un jeton de sortie, puis jette presque tout son état interne ; CTM continue de « ruminer » sur un problème, actualisant ses dynamiques internes au cours de nombreuses petites étapes avant de s'engager sur une réponse.

Chaque "neurone" CTM se comporte moins comme un simple multiplicateur et plus comme un mini-cerveau avec sa propre mémoire. Les neurones transportent un petit vecteur d'état qui persiste dans le temps, leur permettant de se souvenir de ce qui s'est passé il y a quelques instants, de se mettre à jour et d'influencer le calcul futur en fonction de cette histoire évolutive.

Le document de Sakana décrit le modèle comme un essaim synchronisé de ces unités à état. Au lieu de considérer les activations comme des chiffres isolés, le CTM suit comment les activités neuronales montent et descendent ensemble ; ces modèles de synchronisation—qui « danse » en phase avec qui—de deviennent la monnaie représentative centrale, analogues aux décharges rythmiques dans les circuits neuronaux biologiques.

Cela rend le CTM fondamentalement différent des neurones sans état dans les architectures de transformeurs actuelles. Les LLMs grand public simulent la délibération en empilant davantage de couches ou en échantillonnant plus de jetons, mais chaque couche ne fait que calculer f(x) et passe à la suite ; aucune unité individuelle ne conserve un souvenir de son propre comportement passé.

CTM intègre également un « temps de réflexion » explicite. Le système peut fonctionner pendant un nombre variable de ticks internes — court pour des tâches faciles, plus long pour les tâches difficiles — avant de révéler un résultat, reflétant la façon dont les humains prennent des cycles supplémentaires sur un labyrinthe compliqué ou un problème mathématique.

Sakana ne présente pas cela comme un ajustement de performance mais comme une réinvention complète de ce qu'est un modèle. Au lieu de briques de feed‑forward plus grandes, le CTM propose un système dynamique en constante évolution comme substrat fondamental du raisonnement machine.

À l'intérieur du CTM : Des neurones avec des souvenirs et des esprits propres.

CTM commence par redéfinir ce qu'un neurone est censé être. Au lieu d'une unité simple « J'ai vu cela, je sors cela », chaque neurone CTM possède son propre état interne—un petit bloc-notes qui persiste à travers les étapes temporelles. Des milliers de ces mini-cerveaux mettent à jour leurs mémoires à chaque instant, comme de petites créatures tenant des journaux de ce qu'elles viennent de voir et de ce qu'elles s'attendent à voir ensuite.

Ces journaux sont importants car le CTM ne pense pas en instantanés uniques. Le modèle fonctionne à travers plusieurs cycles internes, mettant à jour l'état de chaque neurone encore et encore avant de s'engager sur une réponse. Les problèmes complexes déclenchent plus de cycles, donc le système choisit effectivement combien de temps réfléchir, plutôt que d'être enfermé dans un seul passage en avant par entrée.

La représentation est également différente. Au lieu de considérer le sens comme un vecteur statique, le CTM encode ses « pensées » dans la manière dont les activités neuronales montent et descendent ensemble dans le temps—la synchronisation comme représentation. Lorsque les activations de deux neurones pulsent de manière synchronisée, le CTM considère ce rythme coordonné comme un signe qu'ils codent ensemble un concept.

Imaginez un stade de danseurs exécutant une routine chorégraphique rigoureuse. La pose d'un seul danseur a peu de signification ; c'est le sens qui émerge de qui bouge avec qui et quand. CTM s'appuie sur ces motifs temporels de synchronie, les utilisant comme substrat pour des concepts, des plans et des étapes de raisonnement intermédiaires.

Amener les neurones à se comporter de cette façon n'est pas quelque chose que l'on programme manuellement. Sakana AI s'appuie sur uneuroévolution, utilisant des algorithmes évolutifs pour explorer les règles de mise à jour des neurones, les schémas de connectivité et les comportements dynamiques. Au lieu d'une descente de gradient pure sculptant une architecture fixe, l'évolution propose des conceptions bizarres de mini-cerveaux, et seuls les plus capables survivent.

Cela représente une rupture nette par rapport aux grands modèles de langage traditionnels, où presque tout—des motifs d'attention aux formes de couches—découle de la descente de gradient sur une pile de transformateurs. Ici, la descente de gradient devient un outil dans un processus de recherche plus large qui peut muter, recombiner et écarter des comportements neuronaux dans leur ensemble. Le résultat est un zoo de types de neurones spécialisés avec une dynamique étonnamment riche.

Ce changement vers une computation dynamique et à état résonne avec des travaux plus vastes sur l'apprentissage continu et imbriqué issus de Google et d'autres. Les lecteurs qui suivent ces tendances peuvent consulter les dernières actualités sur l'IA que nous avons annoncées en novembre - mises à jour de Google AI pour découvrir comment les grands laboratoires explorent également des architectures qui réfléchissent dans le temps plutôt qu'en rafales. Ensemble, ils indiquent une direction vers des systèmes d'IA qui ressemblent moins à de simples calculatrices statiques et davantage à des processus de réflexion évolutifs et toujours actifs.

Pourquoi 'Penser Plus Longtemps' Débloque un Raisonnement Plus Profond

Les cerveaux deviennent plus intéressants lorsqu'ils cessent de répondre instantanément et commencent à faire des boucles. Les Machines à Pensée Continue intègrent cette boucle au niveau matériel de la pensée, offrant au modèle des "ticks internes" explicites où il peut mettre à jour son propre état caché, reconsidérer des plans partiels, et ce n'est qu'ensuite qu'il s'exprime. Ces ticks ressemblent beaucoup à un cycle d'horloge pour la cognition : des étapes de raisonnement discrètes et comptables qui se déroulent entièrement à l'intérieur du réseau, sans émettre de texte intermédiaire ni d'appels à des outils.

Chaque tic fait progresser la dynamique interne de milliers de minuscules neurones en état. Au lieu d'un passage unique de l'entrée à la sortie, CTM fait fonctionner le même circuit neuronal encore et encore, permettant à l'information de se propager, de se stabiliser et parfois de se renverser. Plus il y a de tics, plus le temps de réflexion augmente, et le système peut ajuster ce temps pour des problèmes plus difficiles, tout comme les humains s'attardent sur une énigme délicate.

Cette marge supplémentaire se manifeste le plus clairement sur des tâches où les transformateurs rencontrent généralement un mur. Dans des expériences de résolution de labyrinthes, les agents CTM peuvent planifier des chemins à travers des labyrinthes plus grands que ceux qu'ils ont rencontrés pendant leur entraînement, extrapolant efficacement leur stratégie au lieu de mémoriser les configurations. Chaque tick interne permet au modèle de « marcher » mentalement quelques pas de plus, de revenir sur ses pas à partir des impasses, et de propager des contraintes à travers la grille.

Les transformateurs standard éprouvent des difficultés ici car ils compressent tout le labyrinthe et la solution en un ou deux passages d'attention. La longueur du contexte et le nombre de paramètres deviennent des limites strictes. La boucle itérative de CTM découple la profondeur du raisonnement de la taille du modèle : un petit réseau peut tout de même prendre 50, 100 ou 500 ticks si le problème l'exige, échangeant du temps contre de l'insight.

Les chercheurs ont également poussé le CTM sur des tâches algorithmiques de jouets. Le modèle a appris des algorithmes simples tels que les règles « inverser la réponse » dans les énigmes mathématiques et trier des nombres par ordre croissant. De manière cruciale, il a exécuté cela de manière procédurale : les nombres se déplacent à leur place au fil des ticks successifs, reflétant les passages de tri classiques plutôt que le rapprochement de motifs en une seule fois.

Cette saveur procédurale relie directement le CTM à l'obsession de l'industrie pour un raisonnement délibéré et multi-étapes. La famille o1 d'OpenAI, les incitations "chain-of-thought" de Google et les agents utilisant des outils ajoutent tous des boucles supplémentaires autour des transformateurs. Le CTM intègre la boucle dans l'architecture elle-même, transformant le raisonnement multi-étapes d'une astuce de prompt en un primitive computationnel de première classe.

La Révolution de l'Efficacité de Deepseek pour un Long Contexte

Illustration : La Révolution de l'Efficacité de Deepseek pour de Longs Contextes

Des architectures radicalement nouvelles inspirées du cerveau comme le CTM font les gros titres, mais une révolution plus silencieuse pourrait être tout aussi importante : rendre les transformeurs d'aujourd'hui radicalement moins chers à étendre. C'est là qu'intervient le Deepseek Sparse Attention (DSA), non pas en remplaçant les transformeurs, mais en s'attaquant à leur goulet d'étranglement le plus problématique.

L'auto-attention standard souffre d'une complexité mathématique brutale. Pour un contexte de N jetons, les coûts d'attention s'échelonnent comme O(N²) car chaque jeton se compare à tous les autres jetons. Si vous faites passer le contexte de 8 000 à 1 000 000 de jetons, vous n'ajoutez pas simplement des coûts, vous les faites exploser par un facteur de 15 625.

Ce mur quadratique détruit de nombreux rêves sur les modèles de « contexte infini » qui peuvent se souvenir de l'ensemble des bases de code, des discussions de plusieurs jours ou des archives de recherche massives. Même avec des clusters GPU, traiter des centaines de milliers de tokens en pleine précision épuisent la mémoire, l'énergie et les budgets de latence. Vous ressentez ce coût chaque fois que les modèles à long contexte ralentissent considérablement.

La réponse de Deepseek : ne vous occupez pas de tout, concentrez-vous sur ce qui compte. DSA ajoute un nouveau module, le soi-disant indexeur éclair, à la pile de transformateurs afin que chaque token puisse rapidement trier le passé au lieu de le relire naïvement.

L'indexeur lightning agit comme un moteur de recherche par jeton. Pour chaque nouveau jeton, il scanne rapidement tous les jetons précédents, attribue un score de pertinence et sélectionne uniquement les meilleurs K candidats pour une attention complète. K reste petit et fixe—des dizaines ou des centaines—tandis que N peut atteindre des millions.

Considérez cela comme lire uniquement les notes surlignées dans un manuel scolaire au lieu de relire chaque ligne de chaque page avant de répondre à une question. Vous ancrez toujours votre réponse dans le livre, mais vous ignorez les chapitres non pertinents et les gribouillis dans les marges qui auraient fait perdre du temps.

Sous le capot, cela change l'attention d'une complexité quadratique à environ O(N·K), qui se comporte de manière linéaire tant que K reste limité. Ce changement permet d'exploiter des contextes extrêmement longs sur le matériel d'aujourd'hui, faisant de l'« intelligence de pointe » moins une question de déployer davantage de GPUs pour résoudre le problème, et plus une question de savoir où les modèles doivent porter leur attention.

Rendre le contexte à un million de tokens une réalité

Le contexte de million de tokens semblait autrefois être un fantasme marketing. L’Attention Éparse de Deepseek (DSA) en fait une question de budget. En faisant en sorte que le calcul et la mémoire augmentent de manière approximativement linéaire avec la longueur de la séquence au lieu de quadratiquement, le DSA réduit considérablement le coût de la consultation de vastes historiques, allant des journaux de discussion aux bases de code.

L'attention traditionnelle oblige chaque jeton à se comparer à tous les autres jetons. À 128 000 jetons, cela représente déjà plus de 16 milliards de comparaisons par paire par couche ; à 1 million de jetons, vous dépassez le trillion d'interactions et le matériel craque. L'indexeur éclair de DSA contourne cela en évaluant la pertinence et en ne s'occupant que des jetons les plus importants, les top-K.

La mise à l'échelle linéaire modifie ce que les ingénieurs osent expédier. Des fenêtres contextuelles de 256K ou 512K tokens passent de « démonstration unique sur un cluster A100 » à « utilisation quotidienne pour les clients sans risquer de prendre feu ». Les contextes d'un million de tokens cessent d'être des projets scientifiques et commencent à paraître comme une référence viable pour les copilotes d'entreprise et les outils de recherche.

Des dépôts de logiciels entiers peuvent désormais tenir dans un seul contexte : chaque microservice, chaque migration, chaque test instable. Un modèle à long contexte peut retracer un bogue à partir d'une trace de pile récente à travers des années de commits, de documents de conception et de fils de discussion, et proposer une correction qui respecte tout cela. Des refactorisations complexes à travers des centaines de fichiers deviennent un seul processus de raisonnement au lieu d'une chaîne fragile de prompts.

Les agents d'apprentissage par renforcement en bénéficient encore davantage. Avec des historiques de millions de tokens, un système d'AR peut se conditionner sur : - Des mois de trajectoires de jeu - Des journaux de trading complets à travers les différents régimes - Des courses de robotique sur le long terme avec des échecs rares

Cette profondeur permet aux agents d'apprendre des cas particuliers sans tronquer le contexte qui les a causés. La modélisation à long contexte dynamise également les assistants scientifiques comme ceux décrits dans Accélérer la science avec GPT-5 – OpenAI, qui peuvent garder des journaux d'expérimentations entiers, des revues de littérature et des données brutes en mémoire active. L'efficacité de style DSA devient un moteur essentiel pour la prochaine vague des agents d'IA conscients du contexte qui raisonne sur des mondes entiers, et non sur des extraits.

Le nouveau travail de GPT-5 : Dynamiser la découverte scientifique

GPT-5 passe discrètement des auditions pour un nouveau rôle : partenaire de laboratoire de certains des esprits les plus brillants de la planète. Le dernier programme de recherche d'OpenAI intègre le modèle dans des laboratoires réels à Oxford, Cambridge, Harvard et d'autres grandes institutions, non pas pour résumer des manuels, mais pour se confronter à des problèmes réels non résolus.

Selon le rapport d'OpenAI intitulé « Accélérer la science avec GPT-5 », les chercheurs ont utilisé le modèle sur des questions de pointe en biologie, chimie et physique. Il ne s'agissait pas de casse-têtes de référence ou de tâches synthétiques ; ce furent les mêmes problèmes complexes et à enjeux élevés qui consomment généralement des mois de temps de postdoctorat et d'argent de subventions.

La description de poste de GPT-5 ressemble moins à celle d'un « scientifique robot » qu'à celle d'un partenaire de recherche super rapide et informé. Les scientifiques lui ont demandé de proposer des hypothèses, de concevoir des expériences, de critiquer des méthodes et de passer au crible d'énormes corpus que personne ne peut réellement suivre. Le modèle a généré des mécanismes candidats, suggéré des contrôles alternatifs et reformulé des mathématiques complexes ou des preuves en étapes plus claires et vérifiables.

OpenAI souligne que les humains sont restés fermement aux commandes. Chaque suggestion de GPT-5 a été examinée par des experts du domaine qui ont filtré, corrigé et parfois rejeté ses idées. Le système a agi comme un multiplicateur de force : accélérant la revue de la littérature, faisant émerger des articles obscurs mais pertinents, et énumérant des cas limites que les chercheurs occupés pourraient manquer.

Les premières anecdotes de l'étude ressemblent à des astuces de productivité pour la méthode scientifique. Un groupe a utilisé GPT-5 pour : - Scanner des centaines de publications à la recherche de résultats contradictoires - Proposer des explications unifiées pour les divergences - Élaborer de nouveaux dispositifs expérimentaux pour tester ces explications

Une autre équipe a utilisé GPT-5 pour explorer des espaces de conception combinatoire qui dépassent la mémoire de travail humaine, en optimisant des paramètres, des matériaux ou des structures moléculaires à travers des milliers de possibilités. Le modèle a effectué la recherche fastidieuse ; les humains ont déterminé les directions qui avaient réellement du sens.

De manière cruciale, OpenAI ne présente pas GPT-5 comme un oracle qui “résout la science.” Au contraire, le document le dépeint comme une cognition augmentée pour les laboratoires : un système qui condense des jours de lecture en minutes, génère des dizaines d'étapes suivantes plausibles, et libère les chercheurs humains pour qu'ils passent plus de temps sur le jugement, l'intuition et les expériences pratiques.

Dévoiler les mystères médicaux et résoudre des problèmes mathématiques anciens

Illustration : Débloquer des mystères médicaux et résoudre des problèmes mathématiques anciens

L'accélération scientifique semble abstraite jusqu'à ce que GPT-5 commence à réécrire des carnets de laboratoire et des articles de théorie des nombres en temps réel.

Les propres études de cas d'OpenAI ressemblent à de la fiction spéculative. Dans une expérience, des immunologistes ont donné à GPT-5 un tableau inédit provenant d'une étude humaine : une série chronologique montrant un étrange pic et une chute dans une population spécifique de cellules immunitaires après traitement. Personne dans l'équipe n'avait d'explication mécaniste satisfaisante pour ce schéma.

GPT-5 n'a pas seulement résumé le graphique ; il a proposé un nouveau mécanisme biologique. Le modèle a suggéré qu'une montée transitoire d'une cytokine particulière pourrait déclencher une expansion de courte durée d'un sous-type de cellules T, suivie d'une épuisement et d'une contraction, et a même indiqué des voies de signalisation spécifiques ainsi que des articles antérieurs qui correspondaient à la forme de la courbe. Les chercheurs ont signalé l'hypothèse, ont réalisé des analyses complémentaires, et ont par la suite confirmé que la voie suggérée s'alignait avec des données expérimentales supplémentaires.

Ce flux de travail est plus important que la victoire isolée. GPT-5 a effectivement sauté de la "description des données" à la "théorie mécaniste", une étape que les scientifiques humains protègent généralement comme un travail créatif fondamental. OpenAI rapporte que, dans plusieurs projets en biologie, GPT-5 est passé de la simple nettoyage des ensembles de données à la proposition de mécanismes testables, à la hiérarchisation des explications candidates et à la suggestion des expériences à réaliser en premier.

Les mathématiques ont offert un exemple encore plus marquant. Deux mathématiciens travaillant sur un problème d'Erdos vieux de plusieurs décennies avaient poussé une preuve de combinatoire à un goulot d'étranglement tenace. Ils avaient une pile d'arguments partiels et de lemmes échoués, mais aucun moyen clair pour franchir une étape cruciale.

GPT-5 a ingéré l'intégralité du carnet de brouillon : preuves LaTeX, échecs sans issue et notes informelles. Au lieu de forcer l'algèbre de manière brute, le modèle a mis en avant une symétrie cachée dans le comportement d'une certaine configuration extrémale sous une transformation que les auteurs avaient considérée comme non pertinente. Cette intuition qui rompt les schémas a suggéré un paramètre d'induction différent et une nouvelle manière de partitionner les objets en question, que les mathématiciens ont ensuite formalisée en une étape de preuve valide.

OpenAI présente cela non pas comme « l'IA prouve Erdős », mais comme GPT-5 agissant comme un troisième collaborateur qui ne se lasse jamais de relire le même brouillon de 40 pages. Le système fait ressortir des restructurations non évidentes que les co-auteurs humains vérifient, réparent ou jettent.

La polyvalence se manifeste aussi en dehors des tableaux blancs et des laboratoires de recherche. Dans le domaine de la robotique, GPT-5 a examiné les algorithmes de planification de mouvement et de contrôle, identifié des cas limites où les garanties de sécurité échouaient silencieusement, et proposé des formulations alternatives qui ont comblé ces lacunes—transformant un modèle textuel en un détecteur de bogues itinérant pour des systèmes physiques.

La Nouvelle Méthode Scientifique : Humain + IA

Les nouveaux flux de travail commencent à ressembler moins à des génies solitaires et plus à des laboratoires mixtes humains-machines. Les chercheurs impliqués dans les expériences GPT-5 n'ont pas demandé au modèle « une réponse » ; ils l'ont traité comme un moteur de recherche d'idées, testant des centaines d'hypothèses candidates, de modifications et de cas limites tout en orientant l'agenda global.

Les humains définissent toujours l'espace problématique. Ils décident quel parcours biologique est important, quelle conjecture en théorie des nombres mérite d'être explorée, et quels paramètres expérimentaux le modèle peut ajuster. Cette intuition humaine sur ce qui est intéressant, plausible ou éthiquement acceptable ne découle pas de la descente de gradient.

Une fois l'objectif fixé, GPT‑5 devient un multiplicateur de force. Il élargit rapidement l'espace de recherche : proposant des mécanismes alternatifs pour une maladie, suggérant des régimes de paramètres peu orthodoxes pour une expérience, ou mettant en lumière des articles obscurs en immunologie, statistiques et topologie qui partagent une structure cachée. Pensez-y comme à un post-doctorant inflexible qui ne cesse jamais de lire.

Un schéma se dessine à travers les études de cas médicales et mathématiques. Les humains : - Spécifient des contraintes et des critères de réussite - Sélectionnent des données, des antécédents et des hypothèses de domaine - Interrogent le raisonnement du modèle ligne par ligne - Décident quelles sorties justifient des expériences dans le monde réel

GPT-5, en revanche, brille lorsqu'il s'agit de : - Générer des hypothèses nouvelles à grande échelle - Relier des sous-domaines éloignés grâce à des analogies et des formalismes partagés - Mettre à l'épreuve des idées avec des contre-exemples et des scénarios d'adversité - Automatiser des vérifications symboliques ou statistiques fastidieuses

Cette division du travail suppose une supervision experte car le modèle continue d'halluciner. GPT-5 peut fabriquer des citations, s'adapter excessivement aux particularités de l'invite, ou recommander avec assurance une expérience qui viole une contrainte cachée dans la biologie ou les mathématiques sous-jacentes.

La sensibilité des invites se transforme également en un risque méthodologique. De légers changements dans la formulation d'une question peuvent faire basculer le modèle d'une dérivation correcte à une erreur algébrique ou conceptuelle subtile mais fatale, en particulier dans des chaînes de pensée à plusieurs étapes. Les chercheurs impliqués dans ces projets ont donc utilisé des modèles d'invite stricts, des exécutions redondantes et des vérifications croisées avec des outils traditionnels.

Vu de manière optimiste, ceci est une nouvelle méthode scientifique : les humains fournissent jugement et valeurs, tandis que des systèmes comme GPT-5 industrialisent la génération et la falsification des idées. Pour plus d'exemples de ce flux de travail hybride à travers les laboratoires, consultez Les Dernières Nouvelles de l'IA et les Avancées en IA les Plus Importantes : 2025.

Ce que ces avancées signifient pour 2025

Soudain, les avancées de l'IA ne se limitent plus à un seul axe. Machines de pensée continues, Attention sparse de Deepseek, et les esquisses de copilote scientifique de GPT-5 pointent vers trois axes orthogonaux de changement : de nouvelles architectures semblables à des cerveaux, des astuces d'efficacité brutales pour un long contexte, et des modèles qui cessent de discuter et commencent à réaliser de la vraie science.

CTM de Sakana AI, dirigé par le co-auteur Llion Jones, déchire la règle du « un passage en avant, une réponse ». Ses neurones portent leur propre état, se synchronisent comme des oscillateurs et itèrent à travers des battements internes jusqu'à ce qu'une solution émerge, permettant ainsi la résolution de labyrinthes, le tri algorithmique et des agents d'apprentissage par renforcement qui réfléchissent plusieurs fois avant d'agir.

L'Attention Éparse de Deepseek attaque un autre goulet d'étranglement : le coût. L'attention standard croît de manière quadratique avec la longueur de la séquence ; à 1 million de jetons, cela devient presque absurde tant pour la mémoire que pour les FLOPs. L'indexeur ultrarapide de Deepseek réduit le contexte aux K jetons les plus pertinents, faisant en sorte que les fenêtres de millions de jetons se comportent davantage comme des opérations à coût linéaire plutôt que comme une explosion de calcul.

Le travail scientifique de GPT‑5 d'OpenAI déplace la question de « quelle est la taille de votre modèle ? » à « que peut-il réellement découvrir ? » Dans leurs propres évaluations, GPT‑5 a aidé à générer des hypothèses, concevoir des expériences et déboguer du code pour des tâches réelles en biologie, chimie et mathématiques, transformant les LLMs en collaborateurs capables de compléter entièrement des cycles de recherche plutôt que de simplement remplir des PDF.

Pris ensemble, ces mouvements marquent une rupture avec les cinq dernières années de la culture du "juste l'agrandir". Des paris architecturaux comme CTM, des stratégies d'efficacité comme DSA, et des déploiements ciblés par domaine comme GPT‑5‑for‑science signalent une stratégie plus pluraliste : des systèmes spécialisés, des modules de raisonnement sur mesure, et des flux de travail où les humains et les modèles occupent des rôles distincts.

Attendez-vous à ce que les 6 à 12 prochains mois soient dominés par des hybrides. Les frameworks de pointe d'OpenAI, Google et d'autres continueront probablement à utiliser des transformateurs pour le langage, mais y ajouteront : - Des modules récurrents de style CTM pour le raisonnement à long terme - Des couches à attention sparse pour un contexte de plusieurs millions de tokens - Des agents de domaine spécifiquement ajustés pour le travail en laboratoire, le code ou la recherche de théorèmes

Ces documents ne ressemblent pas à des curiosités académiques isolées ; ils se lisent comme des feuilles de route. CTM esquisse un système de contrôle post-transformateur, Deepseek montre comment étendre les fenêtres de contexte sans faire fondre les GPU, et l'agent scientifique de GPT-5 décrit comment ces systèmes se connectent à de vrais laboratoires et groupes de recherche. Ensemble, ils ressemblent moins à des démos et plus à des plans pour la prochaine génération d'infrastructures d'IA qui soutiendront discrètement les plus grandes percées de 2025.

Questions Fréquemment Posées

Qu'est-ce que les Machines à Pensée Continues (MPC) ?

CTM est une nouvelle architecture d'IA proposée par Sakana AI qui va au-delà des transformateurs à passage unique. Elle utilise des neurones avec mémoire et un 'temps de réflexion' itératif pour résoudre des problèmes étape par étape, imitant de manière plus étroite le raisonnement humain.

Comment le CTM est-il différent de l'IA comme ChatGPT ?

Alors que des modèles comme ChatGPT génèrent des réponses en une seule passe directe par token, les CTM affinent en interne leurs réflexions en plusieurs étapes avant de produire une réponse. Cela leur permet d'aborder des tâches de raisonnement plus complexes et en plusieurs étapes.

GPT-5 est-il déjà utilisé pour la recherche scientifique ?

Oui, selon un article d'OpenAI, une version préliminaire de GPT-5 est utilisée en collaboration avec des universités de renom pour accélérer la recherche appliquée dans les domaines de la biologie, des mathématiques et de l'informatique, agissant en tant que partenaire de recherche expert.

Qu'est-ce qui rend le nouveau mécanisme d'attention de Deepseek si efficace ?

L'Attention Sparse de Deepseek (DSA) utilise un « indexeur éclair » pour identifier et se concentrer uniquement sur les parties les plus pertinentes d'un long contexte. Cela évite le coût computationnel élevé de l'attention standard, permettant aux modèles de gérer des contextes d'un million de tokens de manière beaucoup plus efficace.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Questions fréquentes

Qu'est-ce que les Machines à Pensée Continues (MPC) ?

Comment le CTM est-il différent de l'IA comme ChatGPT ?

GPT-5 est-il déjà utilisé pour la recherche scientifique ?

Qu'est-ce qui rend le nouveau mécanisme d'attention de Deepseek si efficace ?

L'Attention Sparse de Deepseek utilise un « indexeur éclair » pour identifier et se concentrer uniquement sur les parties les plus pertinentes d'un long contexte. Cela évite le coût computationnel élevé de l'attention standard, permettant aux modèles de gérer des contextes d'un million de tokens de manière beaucoup plus efficace.

Le cerveau de l'IA vient de recevoir une mise à jour massive.

En bref / Points clés

L'architecte des Transformers dit qu'il est temps de passer à autre chose.

Le pari radical de Sakana AI : La machine à pensée continue

À l'intérieur du CTM : Des neurones avec des souvenirs et des esprits propres.

Pourquoi 'Penser Plus Longtemps' Débloque un Raisonnement Plus Profond

La Révolution de l'Efficacité de Deepseek pour un Long Contexte

Rendre le contexte à un million de tokens une réalité

Le nouveau travail de GPT-5 : Dynamiser la découverte scientifique

Dévoiler les mystères médicaux et résoudre des problèmes mathématiques anciens

La Nouvelle Méthode Scientifique : Humain + IA

Ce que ces avancées signifient pour 2025

Questions Fréquemment Posées

Qu'est-ce que les Machines à Pensée Continues (MPC) ?

Comment le CTM est-il différent de l'IA comme ChatGPT ?

GPT-5 est-il déjà utilisé pour la recherche scientifique ?

Qu'est-ce qui rend le nouveau mécanisme d'attention de Deepseek si efficace ?

One weekly email of tools worth shipping. No drip funnel.

Questions fréquentes

À lire ensuite

Le pare-feu IA de Deno met fin au chaos des agents

Cet agent IA bâtit des entreprises pour vous

Le test de réalité de l'IA : Le benchmark qui a mis à mal les LLM

Gardez une longueur d'avance en IA