TL;DR / Key Takeaways
Le test conçu pour briser l'IA
Les rumeurs d'une percée secrète de GPT-5 ont commencé avec un graphique : un score prétendu de 75 à 76 % sur le nouveau benchmark ARC-AGI-2, confortablement au-dessus de l'environ 60 % obtenu par un testeur humain moyen. L'histoire, amplifiée sur X et YouTube, présentait cela comme le moment où une IA a enfin surpassé les humains sur un test explicitement conçu pour filtrer l'AGI.
ARC-AGI vient de François Chollet, un chercheur de Google DeepMind qui a passé des années à soutenir que l'augmentation de la taille des modèles linguistiques n’est pas la même chose que la construction de l'intelligence générale. Son ARC (Abstraction and Reasoning Corpus) benchmark, ainsi que sa variante plus récente ARC-AGI-2, visent le type de raisonnement fluide que les humains utilisent pour résoudre des énigmes qu'ils n'ont jamais rencontrées auparavant.
Au lieu de questions de trivia ou de problèmes de manuel, ARC-AGI présente de petits grilles colorées et demande au modèle d'inférer la règle cachée. Chaque tâche comprend juste trois exemples d'entrée-sortie, puis une quatrième entrée où le modèle doit générer la grille de sortie correcte à partir de zéro. Pas d'instructions, pas d'étiquettes, pas de choix multiples.
Le benchmark mesure l'intelligence fluide : la découverte de motifs, le raisonnement compositionnel et la généralisation à partir de presque aucune donnée. Il utilise un critère strict de Pass@2 : les modèles ont au maximum deux tentatives par tâche, sans crédit partiel et en tenant compte du coût de calcul par solution.
Ce design rend l'ARC-AGI brutalement difficile pour les grands modèles de langage. Les GML excellent lorsqu'ils peuvent s'appuyer sur des schémas mémorisés issus de textes à l'échelle du web, mais les énigmes de l'ARC-AGI sont générées de manière procédurale et visuelles, pas linguistiques, et délibérément différentes de tout ce qui se trouve dans les corpus d'entraînement communs.
Les classements standards comme MMLU, GSM8K ou HumanEval brouillent souvent la ligne entre le raisonnement et la mémoire. Les repères s'infiltrent dans les données d'entraînement ; les fournisseurs de modèles ajustent directement sur des formats de questions similaires ; les scores augmentent d'une manière qui peut en dire plus sur la contamination des données que sur une compréhension véritable.
ARC-AGI va dans la direction opposée. Les tâches sont « faciles pour les humains/difficiles pour l'IA », avec des solveurs humains atteignant efficacement près de 100 % lorsqu'on leur donne du temps, tandis que les premiers modèles de pointe n'ont obtenu que des scores à un chiffre sur ARC-AGI-2. Cet écart est la raison pour laquelle un score de 75 % pour GPT-5, même s'il n'est pas vérifié, a déclenché des alarmes : si c'est vrai, cela signifierait une IA ne se contentant pas de répéter des connaissances, mais établissant de toutes nouvelles règles comme le font les humains.
Penser en Grilles : Qu'est-ce qui rend l'ARC si difficile
Des carrés colorés sur une grille n'ont pas l'air d'un test de Turing, mais ARC-AGI transforme cette esthétique de jouet pour enfants en un outil d'évaluation pour l'IA. Chaque énigme présente quelques petites grilles d'entrée et grilles de sortie correspondantes, puis demande au modèle de transformer une nouvelle grille en utilisant la même règle cachée : peut-être mirroring les blocs bleus, agrandir une forme rouge d'un pixel, ou supprimer tout sauf le plus grand composant connecté.
Les humains jettent un coup d'œil à ces exemples et commencent presque immédiatement à décrire la structure : « Oh, la ligne jaune marque le centre », ou « le motif se répète tous les trois cellules ». Pour les modèles actuels, ces mêmes grilles de 10x10 ou 20x20 sont un champ de mines combinatoire. Chaque pixel coloré multiplie le nombre de transformations possibles qui pourraient correspondre aux données, et rien dans le corpus de préentraînement d'un modèle linguistique ne ressemble à cela.
Le créateur d'ARC, François Chollet, l'a conçu comme un pur test de l'intelligence fluide : la capacité à raisonner dans des situations nouvelles, à découvrir des motifs et à recombiner des concepts à la volée. Cela contraste avec l'intelligence cristallisée, qui repose sur des faits mémorisés et des modèles familiers, où les grands modèles de langage brillent en régurgitant et en remixant des textes à grande échelle.
Sur ARC-AGI-2, il n'y a pas de séparation d'entraînement à mémoriser et aucun chevauchement de jeu de données à exploiter. Les modèles voient juste 3 à 5 paires d'entrée-sortie par tâche et doivent généraliser à un nouvel exemple. Aucune mise à jour des gradients, aucun ajustement fin ne se produit ; tout se déroule au moment du test, à l'intérieur des poids existants du modèle et de toute structure qui les entoure.
Pour maintenir l'honnêteté des systèmes, ARC-AGI-2 utilise un métrique Pass@2 : un modèle a droit à au maximum deux essais par tâche. Il n'y a pas de crédit partiel pour "presque juste", et aucune possibilité de tenter des milliers d'échantillons jusqu'à ce qu'un fonctionne. Les benchmarks suivent également l'efficacité, comptant combien de ressources de calcul chaque tentative consomme, ce qui punit l'énumération par la force brute des programmes candidats.
Les humains, en revanche, résolvent souvent ces énigmes en quelques minutes, souvent avec une seule intuition claire. Cet écart - entre l'« évident » pour l'humain et l'« opaque » pour la machine - révèle à quel point les meilleurs modèles d'aujourd'hui sont encore à la traîne en matière d'abstraction véritable, même s'ils dominent les examens basés sur des connaissances cristallisées.
La révolution de l'« Unhobbling » que personne n'a vu venir
Unhobbling semble un terme d'alignement de niche, mais Leopold Aschenbrenner l'utilise pour désigner quelque chose de brutalement simple : les modèles actuels sont intelligents, mais artificiellement entravés. Son article de 2024 intitulé "Conscience Située" soutient qu'une grande partie des gains à court terme proviendra non pas de modèles plus grands, mais de l'élimination de ces entraves.
Son analogie frappe fort. Demander à un LLM de résoudre un problème mathématique difficile en une seule fois, c'est comme exiger qu'un humain donne la réponse instantanément, sans papier brouillon, sans révisions. L'invitation au pensée en chaîne a agi comme ce brouillon, transformant des « chatbots qui devinent » en systèmes capables de suivre un raisonnement en plusieurs étapes et de réussir soudainement des problèmes bien plus difficiles.
Les modèles de pointe d'aujourd'hui restent fortement limités. Aschenbrenner souligne qu'ils : - N'ont pas de mémoire à long terme robuste - Ne peuvent pas utiliser un ordinateur ou un système de fichiers de manière fluide - Rarement "pensent avant de parler" avec une délibération interne prolongée - Fonctionnent principalement dans des discussions courtes et unidimensionnelles au lieu de projets continus
Débloquer signifie corriger ces contraintes grâce à des échafaudages : utilisation d'outils, boucles de planification, mémoire externe, orchestration multi-agents, et plus de calculs en temps de test. Il est essentiel de noter que cela change ce que vous pouvez faire avec les mêmes poids de base, c'est pourquoi Aschenbrenner le considère comme un progrès algorithmique plutôt que comme un simple raffinement de l'expérience utilisateur.
Vous pouvez déjà le voir dans les chiffres. Le méta-système de Poetic améliorerait une variante de GPT-5 d'une performance d'ARC-AGI-2 proche du niveau humain (~60%) à environ 75–76%, et élèverait les modèles de style Grok-4 d'environ ~56–57% à ~72% sur des tests de raisonnement similaires, le tout sans un modèle de base plus grand. La ligne Gemini 3 de Google montre le même schéma : d'un score inférieur à 30% à des scores dans les mi-40, puis au-delà des niveaux humains sur des tâches de type ARC grâce à des passes d'amélioration successives.
Cette dynamique redéfinit les délais. Si le simple fait de débloquer peut entraîner des sauts de 10 à 20 points sur des benchmarks qui devaient nécessiter la prochaine génération de modèles, vous n'avez plus à attendre des exécutions d'entraînement à l'échelle de GPT-6 pour observer des changements significatifs. Le message de l’OpenAI lui-même Introducing GPT-5 - OpenAI s'appuie sur des thèmes similaires : plus d'outils, plus de contexte, plus d'autonomie ajoutés à une échelle brute.
La prévision d'Aschenbrenner est directe : d'ici 2027, des améliorations continues transformeront le chatbot actuel en quelque chose qui se comportera beaucoup plus comme un agent et un collègue que comme une simple zone de recherche parlante.
À l'intérieur de Poetic : La stratégie 'Manager AI'
Poetic se trouve au cœur de l'histoire de GPT-5 ARC. La vidéo de TheAIGRID crédite l'entreprise d'avoir construit une structure « déliant » autour d'un modèle OpenAI de pointe, sans entraîner un nouveau cerveau depuis le début. Leur affirmation : un méta-système qui propulse GPT-5 d'une performance ARC-AGI-2 d'environ niveau humain à un rapporté de 75–76 % sans augmenter les poids sous-jacents.
Au cœur de l'approche de Poetic se trouve un « Manager AI. » Au lieu de lancer un seul appel à un modèle géant pour chaque énigme, le manager examine la grille, propose un plan de haut niveau, puis le décompose en sous-problèmes. Chaque sous-problème est dirigé vers un modèle de travailleur spécialisé : certains optimisés pour la reconnaissance de motifs, d'autres pour la génération de code, la recherche ou la vérification.
De manière cruciale, ce gestionnaire ne se contente pas de donner des instructions et d'espérer. Il peut : - Écrire et exécuter du code contre la grille du puzzle - Inspecter les sorties intermédiaires et les comparer à l'objectif - Se diriger vers des stratégies alternatives lorsqu'un chemin semble incorrect - Décider quand s'arrêter une fois qu'une solution correcte apparaît
Cette boucle – planifier, agir, vérifier, réviser – transforme ARC d'un jeu de devinettes ponctuel en une recherche itérative. Le système peut effectuer des dizaines d'appels à des travailleurs peu coûteux au lieu de s'appuyer sur un seul modèle de frontière coûteux. Poetic soutient que cela permet d'économiser énormément de ressources sur les tâches de raisonnement difficiles, car le responsable interrompt tôt chaque fois qu'une sortie candidate correspond exactement à la grille requise.
Contrairement à la configuration standard d'un LLM monolithique. Dans un monde de référence, vous envoyez une seule demande à un grand modèle, obtenez une seule réponse et payez le prix fort même si la sortie échoue. Il n'y a pas de décomposition explicite, pas de bloc-notes persistant, pas de correction automatique au-delà d'un utilisateur qui clique sur « réessayer ».
L'architecture multi-agent et auto-correctrice de Poetic externalise efficacement ce que la chaîne de pensée ne fait qu'évoquer. Au lieu de convaincre un seul modèle de réfléchir étape par étape, le gestionnaire orchestre une équipe, alloue des ressources de calcul pendant le test là où c'est nécessaire, et élimine les impasses. Sur un benchmark tel qu'ARC-AGI-2, ce type de méta-raisonnement peut avoir plus d'importance que dix milliards de paramètres supplémentaires.
Vérification de la réalité : Le véritable classement ARC-AGI
La réalité frappe dès que vous ouvrez le leaderboard réel du prix ARC. Le score viral de 75% pour GPT-5 n'existe tout simplement pas là-bas, ni ailleurs qui soit vérifié de manière indépendante. Au lieu de cela, les chiffres publics brossent un tableau beaucoup plus réaliste—et toujours étonnant—de la position actuelle des modèles.
Sur la carte principale ARC-AGI-2, le modèle de base GPT-5 affiche un score Pass@2 de seulement 9,9 %. Cela le place dans la même cohorte en difficulté que d'autres modèles de pointe : Claude Opus 4 à 8,6 %, diverses variantes de Gemini 3 dans les faibles chiffres à deux chiffres, et de nombreux systèmes traînant entre 2 % et 6 %. Grok-4 "Thinking" domine ce tableau précoce avec 16,0 %, à peine de quoi célébrer une victoire en AGI.
Faites défiler davantage et le modèle miraculeux supposé apparaît sous un autre jour : GPT-5.2, un nouveau système d'OpenAI qui change soudainement la donne. Sur le tableau de classement officiel des "systèmes" ARC-AGI-2, GPT-5.2 atteint environ 53–54% Pass@2. Ce score plus de triple les 9,9% de GPT-5 et triple à peu près les 17,6% rapportés de GPT-5.1, tout en battant confortablement les précédentes étoiles comme Gemini 3 Pro, qui se situe autour de 45%.
Cependant, les humains possèdent toujours cette référence. La moyenne humaine de l'ARC-AGI-2 se situe autour de 60 % pour les testeurs moyens, avec des ensembles validés atteignant près de 98 à 100 % lorsque l'on ne compte que les tâches résolues par au moins deux des neuf ou dix personnes. L'objectif même de l'ARC est que ces énigmes en grille semblent « évidentes » pour les humains tout en restant brutalement opaques pour les machines.
Ce contexte rend l'affirmation de 75–76 % plus proche du marketing que de la mesure. Aucune entrée sur le tableau de classement public, aucun article ou mise à jour du prix ARC ne montre une variante de GPT-5, un système Poetic ou une configuration Grok dépassant la moyenne humaine de 60 %, sans parler de la pulvérisation de cette moyenne de 15 points. Si une telle performance existe, elle reste non documentée, non vérifiable, et en dehors des normes des références concurrentielles.
Aucun de cela ne diminue à quel point le résultat vérifié de 53-54 % de GPT-5.2 est réellement choquant. Un seul modèle passant de moins de 20 % à plus de 50 % sur ARC-AGI-2 en une génération représente un changement radical dans la performance en raisonnement abstrait. Le niveau humain reste hors de portée, mais l'écart s'est resserré bien plus rapidement que presque tout le monde ne l'avait prédit.
Pourquoi 54 % est plus impressionnant que 100 %
Les progrès de l'ARC-AGI n'ont jamais ressemblé à une courbe lisse. Pendant des années, les modèles à la pointe de la technologie oscillaient entre 0 % et 6 % sur les énigmes de style ARC, montrant effectivement aucune intelligence fluide malgré des sessions d'entraînement monstrueuses. Ils pouvaient réussir des examens du barreau et des entretiens de codage, puis s'effondrer sur une grille de 5×5 carrés colorés.
C'est pourquoi 54 % compte plus qu'un hypothétique 100 %. Atteindre le milieu des années 50 sur ARC-AGI-2, comme le rapporte GPT-5.2, signifie que les modèles sont passés de « pratiquement cassés » à « résolvant la plupart des problèmes qu'un humain brillant peut ». C'est un changement qualitatif, pas une simple augmentation marginale d'un référentiel.
ARC-AGI-2 utilise Pass@2 : deux essais, pas de crédit partiel, évaluation sensible aux coûts. Les modèles de pointe précédents comme GPT-5, Claude Opus 4, et Grok-4 Thinking se regroupaient dans les chiffres uniques à faibles dizaines. Un saut à ~53–54% triple ces scores, tandis que les humains moyens se situent autour de 60% et que les références humaines sélectionnées atteignent 98–100%.
Essentiellement, ce bond n'est pas seulement le résultat de l'augmentation de la taille du modèle. Il provient de l’débloquage : une meilleure recherche, un raisonnement sur un carnet d'exercices, l'utilisation d'outils et une orchestration de style manager autour du modèle de base. L'approche « manager AI » de Poetic — orienter les tâches, décomposer les problèmes, itérer les solutions — incarne le progrès algorithmique qu'a signalé Leopold Aschenbrenner comme le prochain grand moteur de capacité.
La thèse d'Aschenbrenner était simple : les modèles sont bien plus capables que ne le suggèrent leurs résultats naïfs en une seule tentative. Ajoutez une réflexion structurée, de la mémoire et des outils, et vous libérez une intelligence dormante. Le bond de l'ARC de 0-6% à plus de 50% est la version graphique de cet argument.
Sam Altman a souvent désigné l'ARC comme une référence "réelle" de l'AGI, précisément parce qu'elle résiste à la mémorisation et aux astuces d'ingénierie des invites. Des personnes proches d'OpenAI suivraient les courbes de l'ARC de plus près que les tests standardisés tapes à l'œil. Lorsque cette courbe s'infléchit brusquement vers le haut, ceux qui construisent l'AGI portent attention.
Tout le monde peut consulter les tableaux de classement publics et la méthodologie sur **ARC Prize - Abstract Reasoning Corpus**. Le titre n'est pas la perfection ; c'est que la courbe a enfin bougé.
Au-delà de l'optimisation : Le nouveau chemin vers l'AGI
Les lois de mise à l'échelle ont bien fonctionné. Au cours de la plupart des cinq dernières années, les progrès dans les modèles de langage de grande taille ont suivi une recette simple : plus de paramètres, plus de données, plus de calcul. GPT-3 à GPT-4 puis à GPT-5 ressemblaient à une ligne droite sur un graphique en log-log, avec des courbes de performance qui s'ajustaient parfaitement à des équations de puissance.
ARC-AGI-2 révèle discrètement cette histoire. Des modèles comme GPT-5.2 passent de faibles chiffres à deux chiffres sur des tâches de style ARC à environ 53–54 % sur ARC-AGI-2, non pas parce que quelqu'un a entraîné un monstre de trillions de paramètres, mais parce que les chercheurs ont modifié la manière dont les modèles réfléchissent au moment du test. La conception du système et les algorithmes, et non l'échelle brute, ont permis ce changement radical.
François Chollet, qui a créé la norme ARC originale, soutient cela depuis des années. À ses yeux, la véritable intelligence générale ne peut pas exister dans une masse statique de poids pré-entraînés qui ne fait que régurgiter des corrélations. Elle nécessite des systèmes capables de formuler et de réviser des hypothèses en temps réel, d'explorer des espaces de solutions et d'adapter leur stratégie à mesure qu'ils rencontrent de nouvelles tâches.
Cette philosophie se manifeste directement dans la conception d'ARC. Chaque énigme propose seulement 3 à 5 exemples d'entrée-sortie, suivis d'une grille de test complètement nouvelle ; aucun ensemble d'entraînement à l'échelle d'internet ne peut vous sauver. Pour les résoudre, un modèle doit effectuer l'apprentissage en temps de test : inférer des règles, rechercher des transformations candidates et s'auto-corriger dans des limites de calcul strictes.
« Unhobbling » est ce qui se produit lorsque vous prenez cela au sérieux et que vous enveloppez un puissant modèle de base dans une structure qui lui permet de se comporter davantage comme un scientifique que comme un moteur d'autocomplétion. Le papier de Leopold Aschenbrenner sur la « Conscience Située » met en avant des éléments tels que l'incitation à la chaîne de réflexion, l'utilisation d'outils et la planification à long terme comme des ajustements simples qui libèrent des capacités latentes. L'architecture manager-LLM de Poetic est cette idée transformée en produit.
Au lieu d'une seule passe en avant géante, Poetic orchestre plusieurs modèles, outils et essais sous une IA manager qui décide comment utiliser les ressources de calcul. C'est une innovation architecturale, et non une innovation d'échelle. La progression de Grok-4 en « Pensée », passant d'environ 56-57 % à environ 72 % lors des tests de raisonnement internes, ou les variantes de Gemini 3 grimpant de moins de 30 % à un niveau humain sur des tâches de type ARC, provient de ce type de désentravement à l'échelle du système.
Si ce schéma se maintient, l'AGI pourrait arriver moins sous la forme d'un modèle colossal unique et davantage comme un ensemble intégré de composants adaptatifs. La force brute a construit les moteurs ; une architecture astucieuse pourrait achever la voiture.
Les objectifs évoluent : ARC-AGI-3 et au-delà
ARC-AGI-2 est déjà brutal, mais ses créateurs ne restent pas les bras croisés. L'équipe du Prix ARC travaille discrètement sur ARC-AGI-3, une référence de nouvelle génération prévue pour environ 2026, conçue explicitement pour briser les modèles qui n'ont l'air intelligents que lors de tests statiques.
Au lieu de grilles colorées en tant qu'énigmes fixes, ARC-AGI-3 placera des modèles dans un environnement inconnu et leur demandera de déterminer ce qui est important. Pensez moins à “résoudre ce motif” et plus à “vous êtes dans un étrange micromonde avec des objets et des règles ; découvrez comment cela fonctionne puis atteignez un objectif.”
Ce changement transforme le rapprochement passif des motifs en raisonnement interactif. Les modèles devront explorer l'environnement, réaliser des expériences et mettre à jour leurs hypothèses lorsque quelque chose ne fonctionne pas, de manière beaucoup plus proche de la façon dont les humains apprennent à utiliser un nouvel outil, un jeu ou une interface.
Le nouvel objectif de référence vise des compétences que les modèles de pointe d'aujourd'hui simulent principalement grâce à des incitations astucieuses. Pour réussir, une IA devra :
- 1Explorez efficacement au lieu de naviguer au hasard.
- 2Fixer ses propres sous-objectifs sans être guidé.
- 3Construire et réviser un modèle du monde à partir de retours d'information rares.
- 4Planifiez des séquences d'actions en plusieurs étapes et exécutez-les de manière fiable.
ARC-AGI-3 s'attaque également à l'un des plus grands freins des évaluations actuelles : les instructions denses. Au lieu d'une spécification en langage naturel indiquant exactement ce que le modèle doit faire, le système devra souvent inférer la tâche à partir de quelques exemples, de récompenses partielles, ou même simplement de "faire en sorte qu'il se passe quelque chose de bien."
Cela en fait un test d'agence, et non seulement de raisonnement. Un système capable de décider de manière autonome : « Je dois cartographier cet espace, cataloguer les comportements des objets, puis chercher un chemin vers l'objectif », ressemble beaucoup plus au « collègue AI » que Leopold Aschenbrenner a prédit qu'à une boîte de dialogue qui attend des incitations.
Si ARC-AGI-2 mesure si un modèle peut résoudre un puzzle difficile lorsque vous lui donnez les règles, ARC-AGI-3 se demande s'il peut entrer dans un nouveau monde et apprendre les règles par lui-même. Franchir cet écart — de résolveur de problèmes à agent adaptable — est le prochain réel obstacle sur la route vers l'AGI.
Comment l'IA 'non entravée' changera votre flux de travail
Le déblocage cesse d'être abstrait au moment où une IA cesse d'agir comme une fenêtre de chat et commence à se comporter comme un collègue qui possède une part de votre travail. Le pari de Leopold Aschenbrenner est précis : d'ici 2027, la plupart des travailleurs du savoir interagiront quotidiennement avec des agents qui planifient, se souviennent et exécutent, et ne se contentent pas de répondre à des questions. Ce changement transforme l'« ingénierie des demandes » en quelque chose de plus proche de la gestion et de la collaboration.
Imaginez un agent de gestion de projet intégré dans Slack et Jira de votre entreprise. Vous lui donnez un objectif—“livrer le nouveau flux d'intégration d'ici le 15 mars”—et il décompose le travail, crée des tickets, négocie des dépendances avec d'autres agents, et sollicite les humains uniquement pour des approbations ou des décisions nécessitant un jugement. Il suit les graphiques d'achèvement, prédit les retards en utilisant la vélocité historique, et rédige automatiquement des mises à jour pour les parties prenantes.
Un ingénieur logiciel pourrait remettre à un système non entravé un monolithe désordonné et dire : « Trouvez les goulets d'étranglement de performance et proposez un plan de migration vers des services. » L'agent explore le dépôt, construit des graphes d'appels, exécute des profils dans un environnement de préproduction, ouvre des demandes de tirage avec des refactorisations et écrit des tests de régression. Les ingénieurs humains passent en revue et orientent, mais le travail fastidieux d'exploration à travers du code hérité et de câblage de boilerplate disparaît principalement.
Les analystes de marché pourraient décharger des projets de recherche entiers au lieu de simplement répondre à des requêtes ponctuelles. Un agent disposant d'outils web en temps réel et d'accès API pourrait : - Extraire les transcriptions de conférences téléphoniques sur les résultats financiers et les rapports 10-K dans un secteur - Suivre en temps réel les données de prix, de sentiment et de volume - Réaliser des analyses de scénarios et des simulations de Monte Carlo sur des modèles de flux de trésorerie - Synthétiser un rapport de 20 pages avec graphiques, mises en garde et recommandations de transactions
Des références comme ARC-AGI-2 et des ensembles de données dans le Répertoire des Benchmarks GPT-5 alimentent discrètement ce changement, mais l'expérience de surface semble banale : moins d'onglets, moins de réunions, moins de documents de statut écrits à la main. La magie réside dans la levée des contraintes que souligne Aschenbrenner : fenêtres contextuelles courtes, absence d'outils, pas de mémoire à long terme, pas de boucle de planification — et dans l'encadrement des modèles qui les fixent.
Votre travail, en attendant, cesse d'être « tapez une invite intelligente, obtenez une réponse intelligente ». Vous devrez définir des objectifs de manière claire, négocier des compromis et examiner des plans comme vous le feriez avec un collègue junior. La collaboration consiste à définir des lignes directrices, à vérifier le raisonnement et à intégrer des agents dans les flux de travail existants au lieu de s'occuper d'un chatbot.
La vraie course à l'IA concerne les systèmes, pas la taille.
L'engouement viral autour d'un GPT-5 secret ayant discrètement "réussi" l'ARC-AGI-2 à 75 % s'est avéré faux. Pourtant, cette histoire a accidentellement mis en lumière une vérité plus profonde : la frontière ne réside plus dans un seul modèle géant, mais dans les systèmes qui l'entourent.
Le tableau de classement de l'ARC Prize montre que GPT-5 est à 9,9% et GPT-5.2 autour de 53-54%, loin des 75-76% revendiqués. Cet écart entre rumeurs et réalité met en évidence combien des progrès d'aujourd'hui proviennent d'une meilleure orchestration, de la recherche et des outils plutôt que d'un nouveau cerveau magique à un trillion de paramètres.
Les modèles fondamentaux restent importants ; GPT-5.2 a à peu près triplé le score de 17,6 % de GPT-5.1 sur l'ARC-AGI-2. Mais les plus grands progrès proviennent désormais de l’« débridage » de ces modèles avec des structures de soutien : IA de gestion, utilisation d'outils, mémoire à long terme et planification par étapes qui extraient un raisonnement beaucoup plus efficace des mêmes poids sous-jacents.
Ce changement réécrit discrètement le paysage concurrentiel. Vous n'avez plus besoin de posséder un data center hyperscale pour rivaliser ; vous devez concevoir la pile agentique la plus intelligente sur la base de l'accès à l'API que vous pouvez acheter.
Un petit laboratoire peut prendre un modèle prêt à l'emploi et ajouter : - Un planificateur qui décompose les problèmes en sous-objectifs - Un routeur d'outils qui appelle du code, des recherches et des solveurs spécialisés - Un vérificateur qui croise et itère sur les réponses
Sur des tâches similaires à ARC, ces ajouts peuvent faire la différence entre des performances à un chiffre et des performances proches de celles des humains.
Le « manager AI » dont on parle chez Poetic s'inscrit dans cette lignée : un contrôleur qui détermine quel modèle appeler, combien d'échantillons générer et quand réessayer ou escalader. Quelles que soient les performances de ses chiffres GPT-5, l'architecture va dans la bonne direction : des systèmes qui considèrent les LLM comme des composants, et non comme des oracles.
C'est la véritable course : qui peut construire les systèmes de raisonnement les plus performants et rentables par dollar de calcul, et non pas qui peut annoncer le plus grand nombre de paramètres bruts. La taille du modèle vous offre encore de la marge, mais lever les limitations détermine combien de cette marge se transforme en capacité utile.
Regardez l'évolution des chatbots vers des collaborateurs. Le chemin le plus rapide entre les LLM d'aujourd'hui et les agents de demain passe par l'ingénierie des systèmes, pas seulement par des GPU plus puissants.
Questions Fréquemment Posées
Quel est le benchmark ARC-AGI-2 ?
C'est un test conçu par François Chollet pour mesurer l'« intelligence fluide » d'une IA, sa capacité à résoudre des énigmes abstraites et nouvelles avec très peu d'exemples, quelque chose que les humains trouvent facile mais avec lequel l'IA actuelle a du mal.
Que signifie « débridage » d'une IA ?
Coiné par Leopold Aschenbrenner, le terme 'unhobbling' désigne l'amélioration des performances d'une IA en supprimant ses limitations, et non en augmentant la taille du modèle de base. Cela se fait en construisant des systèmes plus intelligents autour de celle-ci, comme en ajoutant de la mémoire, des outils ou des cadres de raisonnement étape par étape.
GPT-5 a-t-il réellement franchi le seuil de compétence humaine ?
Non. Malgré des affirmations virales, les classements officiels montrent que GPT-5.2 obtient environ 54 % sur l'ARC-AGI-2, un progrès significatif mais toujours en dessous de la moyenne humaine de ~60-100 %. Ce progrès vient des techniques d'« débrider », pas seulement de la puissance du modèle de base.
Qui est Leopold Aschenbrenner ?
Il est un ancien chercheur d'OpenAI connu pour son article détaillé de 2024, intitulé 'Connaissance Situationnelle : La Décennie à Venir', qui aborde la progression stratégique rapide vers l'AGI et popularise des concepts tels que 'débloquer'.