TL;DR / Key Takeaways
L'Assertion Choc : L'AGI Est Déjà Là ?
Le premier modèle capable d'AGI-AGI au monde. C'est ainsi qu'Integral AI a présenté son nouveau système ce matin, affirmant qu'il ne s'agit pas simplement d'un autre grand modèle de langage, mais d'une architecture capable de "planifier, apprendre et agir de manière autonome à travers les modalités" sans ajustement spécifique aux tâches. L'entreprise déclare que le modèle gère texte, code, images et outils en direct dans une seule boucle, et le commercialise explicitement comme capable d'AGI-AGI, et non simplement comme "avancé".
Au cœur de l'annonce se trouve le fondateur d'Integral AI, Daniel Kwan, un ancien chercheur senior dans les équipes Brain et DeepMind de Google, où il aurait travaillé sur l'apprentissage par renforcement à grande échelle et les transformateurs multimodaux. Le parcours de Kwan — publications sur les méthodes de gradient de politique, travaux préliminaires sur les agents basés sur des transformateurs et passages sur des prototypes internes de Gemini — confère à Integral un niveau de crédibilité technique que la plupart des startups en IA ne peuvent pas feindre.
Integral affirme que son système utilise une architecture à 400 milliards de paramètres avec une configuration Mixture-of-Experts, similaire en esprit au Neotron 3 de Nvidia et à d'autres modèles spars, mais intégré à un « contrôleur agentique » capable d'appeler des outils, de naviguer sur le web et d'interagir avec des interfaces logicielles. L'entreprise est déjà en train de démontrer le modèle résolvant des audits de feuilles de calcul en plusieurs étapes, refactorisant de grandes bases de code et parcourant des interfaces utilisateur inconnues en utilisant uniquement des pixels d'écran et des instructions textuelles.
Les marchés ont réagi instantanément mais de manière inégale. Sur X, plusieurs chercheurs éminents ont comparé le langage AGI à des lancements précédemment surestimés, soulignant la prudence d'OpenAI et de Google concernant les modèles de classe GPT-5 et Gemini. Les premiers extraits de référence partagés par Integral—MMLU, GSM8K et des suites de "travail de connaissance" sur mesure—montre des scores forts mais pas clairement surhumains, alimentant un doute croissant chez les universitaires et les évaluateurs indépendants.
Cependant, les investisseurs et les acheteurs d'entreprise ne l'ont pas rejeté d'emblée. Les agents d'appel d'outils capables d'opérer de manière fiable un véritable logiciel sont exactement ce que les équipes d'automatisation des entreprises du Fortune 500 recherchent, et Integral affirme que des clients pilotes utilisent déjà le modèle pour des workflows dans les domaines financier, juridique et opérationnel. Si les démonstrations survivent à la réplication par des tiers, "capable d'AGI-AGI" cesse d'être un simple adjectif de diapositive et commence à ressembler à une nouvelle catégorie de produit.
Cela laisse une question directe planer sur l'ensemble de l'industrie : Integral AI récupère-t-il le terme AGI pour attirer l'attention, ou un ancien employé de Google a-t-il simplement discrètement lancé le tout premier système qui se comporte moins comme un chatbot et plus comme un collègue junior ?
Déchiffrer 'Capable d'AGI' : Hype contre Horizons
Integral AI fonde sa revendication d'« AGI-capable » sur une idée technique étroite : un modèle capable d'apprendre de manière autonome de son environnement, plutôt que de s'appuyer sur d'énormes ensembles de données préalablement curés. Selon leur cadre, le système observe des flux bruts d'images, d'interfaces, de documents et de données de capteurs, puis met à jour en temps réel ses propres politiques internes, ressemblant davantage à un agent d'apprentissage par renforcement qu'à un modèle de langage volumineux et statique. L'entreprise soutient qu'une fois que l'on peut s'adapter de manière continue comme cela, on dispose du substrat à partir duquel l'intelligence générale artificielle pourrait émerger.
Cette définition évite discrètement ce que la plupart des chercheurs entendent par AGI. Dans la recherche sur l'IA conventionnelle, l'AGI implique une intelligence générale au niveau humain : la capacité de comprendre, planifier et agir de manière flexible dans presque tous les domaines, avec une robustesse, un transfert et un bon sens comparables à ceux d'une personne. Selon cette norme, "capable d'AGI-AGI" sonne plus comme "architecturalement intéressant" que "les machines sont maintenant nos pairs cognitifs."
Là où Integral AI est en adéquation directionnelle avec le secteur, c'est dans son effort vers des modèles qui peuvent percevoir, raisonner et agir en tant qu'agents unifiés. L'entreprise décrit un système unique qui ingère : - Texte, images et vidéos - États d'interface utilisateur et réponses d'API - Éventuellement des données de capteurs ou de robots du monde réel
et choisit ensuite des actions : naviguer à travers des interfaces, utiliser des outils, émettre du code ou mettre à jour un plan. C'est la même pile agentique et multimodale que des entreprises comme OpenAI, Google et Zhipu (avec GLM‑4.6V à 106 milliards de paramètres plus une variante Flash de 9 milliards) s'efforcent de construire.
L'écart se manifeste lorsque vous examinez les preuves. Les démonstrations publiques d'Integral AI jusqu'à présent ressemblent à des prototypes de recherche en phase précoce : de courtes séquences de navigation dans l'interface utilisateur, de la robotique simplifiée et des résolutions de puzzles limitées, sans chiffres concrets. Il n'existe pas de normes standardisées, pas de résultats directs sur des ensembles comme MMLU, MMBench ou AgentBench, et pas d'études d'ablation montrant que l'apprentissage autonome surpasse le réglage fin conventionnel.
Ce décalage entre la rhétorique et les résultats compte. Affirmer être le "premier AGI-capable au monde" fixe des attentes d'un modèle de classe GPT-4 capable de gérer des tâches variées de manière robuste, de s'adapter en ligne et d'expliquer son raisonnement. Livrer quelques démonstrations décevantes laisse plutôt entrevoir une histoire familière : la recherche sous-jacente pourrait être réelle, mais le marketing a déjà pris plusieurs longueurs d'avance sur la science.
Le saut visionnaire de la Chine avec le GLM-4.6V
L'écosystème de l'IA en Chine a récemment produit un contrepoint concret aux vagues revendications de « AGI-capable » : GLM-4.6V de Zhipu AI, un modèle multimodal qui intègre déjà des capacités visuelles et de raisonnement impressionnantes. Alors que l'Annonce d'AGI d'Integral AI repose sur une promesse audacieuse d'apprentissage autonome, GLM-4.6V se concentre sur quelque chose de plus facile à vérifier : des benchmarks, des paramètres et du code fonctionnel.
GLM-4.6V arrive en tant que modèle multimodal de vision-langage open-source qui ingère du texte, des images, des captures d'écran et des pages de documents complètes en une seule opération. Il ne se contente pas de légender des images ; il analyse des PDF denses, des interfaces utilisateur encombrées, des diagrammes et des graphiques mathématiques tout en préservant le contexte à long terme.
Zhipu propose deux variantes adaptées à différentes réalités de déploiement. Le GLM-4.6V complet atteint environ 106 milliards de paramètres pour des charges de travail à l'échelle du cloud, tandis que le GLM-4.6V-Flash réduit à environ 9 milliards de paramètres pour des scénarios à faible latence, sur appareil ou en périphérie.
Les deux modèles prennent en charge des fenêtres contextuelles dans la plage de 128K tokens, ce qui est important pour les documents réels qui s'étendent sur des dizaines ou des centaines de pages. Cette capacité permet des tâches telles que la révision de contrats de bout en bout, l'analyse de documents techniques ou les démonstrations d'applications multi-écrans sans découper le contenu en fragments dégradés.
Sur les benchmarks, Zhipu présente le GLM-4.6V comme état de l'art parmi les modèles de langage visuel ouverts à des échelles de paramètres similaires. Des tests internes et de tiers mettent en avant de solides performances dans les domaines suivants : - Compréhension de documents - Analyse de captures d'écran et d'interfaces graphiques - Interprétation de diagrammes et de graphiques - Réponse à des questions visuelles et raisonnement mathématique
Ce qui distingue le GLM-4.6V de nombreux concurrents occidentaux, c'est son raisonnement joint natif à travers les modalités. Vous pouvez fournir une capture d'écran, un formulaire scanné et une requête textuelle ensemble, et le modèle analyse la disposition, le texte et les indices visuels comme un seul problème de raisonnement au lieu de superposer la reconnaissance optique de caractères sur un modèle de langage.
Ce design fait de GLM-4.6V un concurrent ouvert crédible face à la pile de vision Gemini de Google et au niveau GPT-4.1/4.2V d'OpenAI. Les développeurs obtiennent un modèle qu'ils peuvent auto-héberger, ajuster et intégrer dans des agents pour l'automatisation des interfaces utilisateur, la recherche en entreprise ou les flux de travail de conformité sans tout céder à des API fermées.
Pourquoi vos invites sont sur le point de devenir obsolètes
Les invites se transforment discrètement en interface utilisateur héritée. Des modèles comme GLM‑4.6V ne se contentent pas de lire vos mots ; ils voient votre écran, analysent vos PDFs et suivent la structure sur plus de 100 000 jetons de texte et d'images mélangés. Cela modifie ce que vous "dites" à une IA, passant de la prose verbeuse à quelque chose de plus proche d'une spécification produit.
Au lieu de rédiger une demande de plusieurs paragraphes, vous soumettez une capture d'écran de votre tableau de bord analytique et tapez : « Automatisez cela en fonction des tendances mensuelles et envoyez-moi les anomalies sur Slack. » GLM‑4.6V peut examiner les axes du graphique, la légende, les filtres et même l'interface utilisateur pour inférer le modèle de données sous-jacent. Votre texte devient un objectif, et la capture d'écran devient le contexte sur lequel le modèle raisonne réellement.
Le principal moteur est la fonction d'appel multimodal natif. Au lieu de vous obliger à effectuer une OCR sur une image ou à décrire manuellement une mise en page, GLM‑4.6V transmet les images brutes, les diagrammes ou les pages de documents directement dans des outils et des agents. Un seul appel peut regrouper : - Un contrat scanné de 20 pages - Une capture d'écran de produit - Une brève instruction textuelle
Ce paquet passe par une chaîne d'outils capable de rechercher, réécrire, exécuter du code ou déclencher des API externes, le tout basé sur ce que le modèle a "vu".
L'ingénierie des invites, en tant qu'art d'incantations élaborées, commence à paraître dépassée. Vous n'avez plus besoin de préciser : « Dans la carte en haut à droite étiquetée ‘MRR,’ identifiez les variations mois après mois... » lorsque le modèle peut localiser visuellement le widget MRR et lire ses chiffres. La difficulté se déplace de la formulation à la définition du périmètre : établir les contraintes, les sources de données, les autorisations et les modes de défaillance acceptables.
L'interaction passe d'un échange léger à la définition d'objectifs pour des agents autonomes. Vous pointez vers un tableau Figma et dites : « Transformez ce flux en une expérience d'intégration fonctionnelle et reliez-le à notre sandbox Stripe. » L'agent utilise la pile de vision de GLM‑4.6V pour comprendre la mise en page, la hiérarchie et le contenu, puis appelle des outils de code, des systèmes de design et des pipelines de déploiement sans que vous ayez à narrer chaque étape.
À mesure que les modèles s'améliorent dans le raisonnement visuel-texte conjoint, les instructions ressemblent de plus en plus à des briefs de mission. Vous fournissez des artefacts — captures d'écran, photos de tableaux blancs, tableaux de bord — et un objectif concis. Le système s'occupe de la traduction entre ce que vous lui montrez et ce qui doit être exécuté.
L'économie de l'IA vient de basculer.
L'IA multimodale haut de gamme pénalise actuellement quiconque touche à la vidéo. Les API de pointe d'OpenAI, d'Anthropic et de Google facturent par token, et les pipelines vidéo font exploser le nombre de tokens : chaque image ou image clé échantillonnée devient du texte, chaque sous-titre et extrait de transcription s'accumule. Faites passer quelques heures de séquences en 1080p à travers GPT‑4o ou Claude 3.5 Sonnet et vous verrez votre facture grimper à plusieurs centaines de dollars.
Le GLM‑4.6V aborde ce problème sous deux angles : poids ouverts et tarification agressive. Zhipu AI propose le modèle cloud de 106 milliards de paramètres à des tarifs qui défient largement ceux de ses rivaux occidentaux, certains fournisseurs chinois annonçant des prix inférieurs à 0,30 $ par million de tokens d'entrée et 0,90 $ par million de tokens de sortie. Lorsque vous traitez des dizaines de millions de tokens par jour sur des flux de surveillance, des enregistrements d'interface utilisateur ou des captures d'écran du support client, cette différence devient une ligne budgétaire.
Ensuite, il y a GLM‑4.6V‑Flash, le frère à 9 milliards de paramètres ajusté pour le déploiement local et en périphérie. Les équipes peuvent l'exécuter sur quelques GPU haut de gamme ou sur un poste de travail bien équipé, payer une seule fois pour le matériel et traiter essentiellement un nombre illimité de captures d'écran, de PDF et de diagrammes. Pour des charges de travail continues—caméras de sécurité, surveillance industrielle, analyses de gameplay—l'inférence locale transforme l'économie d'une location par appel en une infrastructure à coût fixe.
Cette pression sur les prix se situe dans un marché où OpenAI et Anthropic se comportent toujours comme des fournisseurs de SaaS premium. Leurs niveaux multimodaux regroupent : - Des prix plus élevés par token pour les entrées d'image et de vidéo - Des limites de taux strictes - Des politiques de dépassement opaques
GLM‑4.6V et des modèles similaires de Qwen, LLaVA, et NVIDIA NeMo incitent à une autre stratégie : posséder la pile, louer uniquement lorsque c'est nécessaire. Cela nuit aux acteurs établis sur des charges de travail importantes et prévisibles, reléguant les API propriétaires à des rôles de niche, "uniquement si nous avons besoin de performances de pointe".
Des modèles de vision-langage puissants et moins chers changent également qui peut construire des systèmes d'IA complexes. Une startup à Jakarta peut affiner GLM-4.6V-Flash sur des factures locales et des formulaires d'expédition sans avoir besoin d'un budget API à sept chiffres. Un studio indie de deux personnes peut lancer un coach en jeu qui lit votre HUD et votre minimap en temps réel, fonctionnant entièrement sur le PC du joueur.
À mesure que les modèles multimodaux deviennent à la fois accessibles et suffisamment performants, la contrainte passe de l'argent à l'imagination. La prochaine vague de produits d'IA—testeurs d'interface autonomes, inspecteurs d'usine permanents, copilotes natifs de documents—n'appartient plus exclusivement aux entreprises capables de se permettre des tokens de pointe à grande échelle.
La Révolution Silencieuse d'Nvidia : Alimentez votre PC
La dernière initiative d'Nvidia en faveur de la puissance de l'IA locale est Neotron 3, un modèle de langage à 30 milliards de paramètres basé sur un mélange d'experts, avec des poids ouverts. Conçu pour la rapidité et l'efficacité, il vise à combler le fossé entre les petits modèles sur appareil et les systèmes avancés en cloud. Nvidia affirme que Neotron 3 surpasse d'autres modèles d'environ 30 milliards de paramètres comme GPT-4.1-OSS et Qwen 3 30B sur des benchmarks standard, tout en restant suffisamment léger pour un déploiement pratique.
Le Mixture-of-Experts, ou MoE, renverse l'économie habituelle des modèles denses. Au lieu d'activer chaque paramètre pour chaque token, Neotron 3 utilise 128 experts avec seulement 6 actifs par token, ce qui signifie que la plupart des 31,6 milliards de paramètres restent inactifs à chaque étape. Vous obtenez la capacité d'un modèle beaucoup plus grand avec l'empreinte de calcul d'un modèle de taille intermédiaire.
Cette architecture est importante si vous souhaitez exécuter une IA performante directement sur votre propre matériel. Le MoE permet à Neotron 3 d'atteindre un haut débit sur des GPU modernes tout en maintenant une latence suffisamment basse pour des utilisations interactives : assistants de codage, copilotes locaux ou discussions privées sur des documents qui ne quittent jamais votre machine. Vous troquez un peu de performance de pointe absolue pour une vitesse prévisible et contrôlable.
La confidentialité et la souveraineté sont au cœur de ce changement. Un modèle comme Neotron 3 peut fonctionner sur une station de travail, un serveur périphérique ou un NAS pour petites entreprises, gérant : - Des contrats et des e-mails sensibles - Du code source et des journaux de construction - Des analyses internes et des tableaux de bord
Aucun prompt ou embedding n'a besoin de transiter par le cloud d'un fournisseur. Cela contraste fortement avec les affirmations des acteurs tels qu'Integral AI, qui revendiquent des systèmes massifs centralisés avec leur modèle "AGI-AGI-capable", au lieu d'une infrastructure personnelle ; voir Integral AI Dévoile le Premier Modèle AGI-AGI-capable au Monde - Business Wire pour cette vision.
Neotron 3 signale où Nvidia pense que le marché se dirige : non seulement vers des centres de données hyperscale, mais aussi vers des outils de classe PC pour l’ère de l'AGI, où des individus et de petites équipes exécutent des modèles sérieux localement, selon leurs propres conditions.
Le tournant surprenant de GPT-5.2 vers la « valeur économique »
GPT‑5.2 est arrivé avec fracas pour de nombreux utilisateurs ordinaires. Les fils d'actualité étaient remplis de comparaisons côte à côte le qualifiant de « moyen », « régressé » ou « pas meilleur que 5.1 » pour l'écriture créative, les astuces de codage ou les discussions informelles. Pourtant, au sein des entreprises, les premiers adopteurs ont discrètement signalé quelque chose de différent : un modèle qui semblait soudainement étrangement compétent dans le travail de connaissance.
Les propres graphiques d'OpenAI expliquent le décalage. Au lieu de poursuivre des gains marginaux sur des références académiques, GPT‑5.2 se démarque sur le PIB-V—abréviation de “Produit Intérieur Brut-Valuable”, un référentiel synthétique qui mesure l'efficacité d'un modèle dans l'accomplissement de tâches économiquement utiles. Sur cet axe, OpenAI affirme que GPT‑5.2 double à peu près le score de 5.1, l'un des plus grands sauts entre deux générations qu'ils aient démontrés.
GDP‑V teste les éléments qui apparaissent réellement dans un bilan : la rédaction de demandes de propositions, la structuration de rapports, la gestion de feuilles de calcul complexes et la transformation de points vagues en présentations prêtes pour les dirigeants. GPT‑5.2 reflète ce biais. Il est ajusté pour créer des présentations PowerPoint à partir de briefs bruts, nettoyer et concilier des données dans Excel, et réfléchir à travers des flux de travail commerciaux complexes avec moins d'hallucinations et moins de besoin d'accompagnement.
L'écriture créative, le brainstorming original et les discussions ouvertes semblent moins intéressants car ils n'étaient pas l'objectif. Les utilisateurs qui considèrent GPT‑5.2 comme une version plus puissante de GPT‑4 pour la fiction, les prompts d'art de fans ou les échanges philosophiques se heurtent directement à sa nouvelle personnalité : plus conservatrice, plus littérale, plus "consultante" que "co-auteur". Pour un directeur financier, c'est une caractéristique. Pour un romancier, cela donne l'impression d'une régression.
Ce pivot révèle où le marché s'est déplacé. Les modèles de pointe coûtent désormais des dizaines de millions de dollars à former et à exécuter ; ils ne peuvent pas justifier ce rythme de consommation sur des chatbots gratuits et des contes pour s'endormir. OpenAI optimise explicitement pour des secteurs qui influencent le PIB : finance, conseil, juridique, opérations, logiciels d'entreprise et automatisation interne.
Vous pouvez voir le verrouillage stratégique se former. Un modèle qui est de classe mondiale dans :
- 1Présentations PowerPoint et packs pour le conseil d'administration
- 2Modélisation Excel et analyse de scénarios
- 3Flux de travail des politiques, des contrats et de la conformité
s'intègre directement dans Microsoft 365, les CRM clients et les outils internes. GPT-5.2 est moins une mise à jour de chatbot à usage général qu'un signal que la course pour devenir "le premier AGI capable d'AGI" se joue désormais à travers les résultats trimestriels.
L'Ascension des Super-Agents IA
Le pouvoir se déplace des modèles bruts vers les super-agents qui les entourent. Manis 1.6 et Poetic montrent comment de fines couches d'orchestration, de mémoire et d'auto-critique peuvent transformer des LLMs génériques en systèmes qui ressemblent de manière troublante à des collègues autonomes plutôt qu'à des chatbots attendant des instructions.
Manis 1.6 s'appuie sur cela en enchaînant plusieurs outils et sous-agents autour d'un modèle de base. Il décompose une demande en tâches atomiques, dirige chacune vers des routines spécialisées, puis fusionne les résultats, de sorte que « rechercher ce marché et rédiger un plan de lancement » se transforme en heures de navigation automatisée, de regroupement et de rédaction avec un minimum d'intervention humaine.
Poetic va encore plus loin en matière de raisonnement. S'appuyant sur des LLM existants, il a pulvérisé le benchmark ARC-AGI, non pas en entraînant un nouveau modèle de pointe, mais en ajoutant une structure de raisonnement astucieuse et une boucle de auto-audit qui oblige le système à tester et affiner ses propres hypothèses avant de s'engager sur une réponse.
ARC-AGI est notoirement hostile à la reconnaissance de motifs ; il exige un raisonnement abstrait sur de petits casse-têtes visuels. Poetic enveloppe le modèle de base dans un processus qui : - Énumère les règles candidates - Simule chaque règle sur des exemples - Élimine les hypothèses inconsistantes - Itère jusqu'à ce qu'un ensemble de règles satisfaisant émerge
Cette architecture a propulsé les performances de l'ARC-AGI de Poetic bien au-delà des bases habituelles des LLM, suggérant que le comportement capable d'AGI-AGI pourrait provenir de meilleures « cerveaux autour du cerveau », et pas seulement d'un plus grand nombre de paramètres. Les choix de conception de produits — comment vous décomposez les tâches, vérifiez les résultats et laissez les agents utiliser des outils — commencent à avoir autant d'importance que les poids sous-jacents.
C'est pourquoi l'idée que « l'AGI est susceptible de surgir de la conception produit » semble moins un slogan qu'un véritable plan d'action. L'échafaudage agentique transforme les modèles statiques en systèmes capables de planifier, de se souvenir et de s'auto-corriger, allant des agents de recherche augmentés par la récupération aux refacteurs de code qui exécutent des tests, analysent les échecs et corrigent les régressions par eux-mêmes.
Les utilisateurs vivent déjà cela comme un travail autonome, et non comme une conversation. Des agents au style poétique traversent des suites de benchmarks et des outils d'évaluation ; des plateformes similaires à Manis gèrent des flux de travail de plusieurs heures qui s'étendent sur des navigateurs, des CLIs et des API cloud, puis vous remettent un rapport final, un tableau de bord ou un diff de code.
Liés à des modèles comme GLM-4.6V et Neotron 3, ces super-agents peuvent voir, lire et agir sur des captures d'écran, des PDF et des fichiers locaux sans nécessiter des invites constantes. L'interface de chat devient un bon de travail : vous décrivez le résultat, l'agent décompose, exécute, audite et ne vous dérange que lorsque une vraie décision nécessite un humain.
Distinguer le signal du bruit dans la ruée vers l'or de l'IA
Les départements marketing crient à propos des modèles capables d'AGI-AGI ; les ingénieurs expédient discrètement des systèmes qui changent réellement les flux de travail. GLM-4.6V, Neotron 3 et des plateformes agentiques comme Poetic indiquent tous la même direction : une IA pratique, automatisée et multimodale qui se comporte moins comme un chatbot et plus comme une infrastructure.
La capacité multimodale signifie maintenant plus que simplement “pouvoir voir des images.” GLM-4.6V ingère des captures d'écran, des PDF et des diagrammes aux côtés du texte, effectue un raisonnement à long terme sur plus de 100 000 tokens, et active des agents qui interagissent avec des interfaces utilisateur ou analysent des contrats entiers. Les instructions se réduisent de plusieurs paragraphes à un unique objectif de haut niveau que le système décompose de lui-même.
En même temps, des modèles locaux efficaces brisent le monopole de l'IA dans le cloud. Le Neotron 3 de NVIDIA intègre un modèle Mixture-of-Experts de 30 milliards de paramètres dans des budgets matériels qui étaient auparavant limités à 7 milliards, avec 128 experts et seulement 6 actifs par token. GLM-4.6V-Flash fait évoluer le raisonnement vision-langage dans un package de 9 milliards de paramètres qui peut s'exécuter sur une station de travail ou une boîte edge au lieu d'une ferme GPU hyperscale.
Les piles agentiques s'appuient sur ce substrat. Des systèmes comme Manis 1.6 ou Poetic orchestrent plusieurs modèles, outils et pipelines de récupération en de persistants « super-agents IA » qui se souviennent du contexte, planifient des tâches et opèrent à travers différentes applications. Le saut de valeur provient moins d’un bond de QI d’un modèle de base et plus du câblage de ces modèles en outils, mémoire et autonomie.
Contrastez cela avec les titres accrocheurs affirmant "le premier AGI au monde". La revendication d’Integral AI d’un AGI capable d'AGI - le premier au monde et des arguments similaires, comme la startup présentée ici : La startup d'un ancien de Google affirme avoir construit le premier modèle AGI au monde, restent en grande partie des récits non vérifiés. Les réussites en benchmarks de GLM-4.6V, les chiffres d'efficacité de Neotron 3 et l'orientation vers la valeur PIB de GPT-5.2 sont mesurables.
L'industrie est loin de l'intelligence générale capable d'apprendre n'importe quelle tâche comme un humain. Elle se rapproche plutôt de quelque chose de plus commercialement explosif : des systèmes empilés, automatisés et multimodaux qui transforment discrètement "utiliser une IA" en "l'IA vient de le faire".
Votre prochaine démarche dans le nouveau paysage de l'IA
Commencez par vous plonger dans la nouvelle pile multimodale open-source. Lancez GLM‑4.6V‑Flash (9B) localement via Ollama ou vLLM, et associez-le à un encodeur visuel open source comme SigLIP ou CLIP pour prototyper des agents de capture d'écran, des lecteurs de PDF et des bots GUI sans épuiser vos jetons GPT‑5.2 à 10 $ ou plus par tâche vidéo ou document longue.
Les développeurs devraient repenser les entrées autour des fichiers, et non des zones de chat. Créez des flux où les utilisateurs peuvent faire glisser : - des PDF de 200 pages - des exports Figma - des captures d'écran Excel - de courtes vidéos
Laissez donc le modèle gérer directement la mise en page, les tableaux et les diagrammes au lieu de forcer les utilisateurs à copier-coller du texte.
Les leaders technologiques doivent cesser de penser « un modèle, un prompt » et commencer à envisager l'orchestration de modèles. Pour un flux de production, reliez un petit modèle local (Neotron 3 à 30 milliards de paramètres) pour un routage et une classification économiques, un modèle cloud plus puissant pour un raisonnement complexe, et des outils spécialisés pour la recherche, le RAG et l'exécution de code.
Si vous dirigez une startup, votre avantage n'est plus « nous utilisons GPT‑5.2 ». Votre avantage réside dans la conception de systèmes agents : comment votre infrastructure décompose les problèmes en étapes, choisit les outils, appelle les modèles et se remet d'un échec. Équipez chaque agent de journalisation, de traces et de coûts par étape afin de pouvoir comprendre pourquoi un flux de travail coûte 0,03 $ ou 3 $.
Les passionnés devraient s'exercer délibérément au-delà de l'ingénierie des incitations. Clonez un dépôt comme AutoGen, CrewAI ou un agent de style Poetic open-source, puis remplacez-le par GLM‑4.6V pour la vision et une instance locale de Neotron 3 pour le texte afin d'observer comment la coordination multi-agents se comporte réellement sous charge.
Repensez chaque flux de travail qui suppose encore une saisie uniquement textuelle. La révision de contrats signifie des PDF annotés, et non des clauses copiées. Le support client signifie des journaux, des captures d'écran et des transcriptions d'appels. L'analyse signifie des fichiers CSV, des tableaux de bord et des images de graphiques, le tout intégré dans une seule fenêtre contextuelle multimodale.
Rester en avance signifie maintenant que vous comprenez comment : - Choisir le bon modèle ouvert en fonction des coûts et de la latence - Concevoir des agents capables d'utiliser des outils, de naviguer et de planifier de manière autonome - Ajuster les limites, la mémoire et les boucles de rétroaction
L'ingénierie des invites devient une petite partie d'un travail plus large : concevoir des systèmes capables d'observer, de lire, de décider et d'agir.
Questions Fréquemment Posées
Qu'est-ce qu'un modèle « capable d'AGI » ?
Un modèle « capable d'AGI » est un terme utilisé pour décrire les systèmes d'IA qui peuvent apprendre de nouvelles tâches de manière autonome sans ensembles de données préexistants, en particulier dans des contextes de robotique ou d'agents. Il est distinct de la véritable AGI, qui implique une intelligence équivalente à celle des humains dans tous les domaines cognitifs.
Comment le GLM-4.6V change-t-il le prompting en IA ?
GLM-4.6V modifie la façon de donner des instructions en allant au-delà du texte. Son outil natif de multimodalité permet aux utilisateurs de fournir des images, des documents et des captures d'écran directement comme contexte, permettant à l'IA de « voir » et d'agir sur des informations visuelles sans descriptions textuelles manuelles.
Pourquoi les LLM locaux comme le Neotron 3 de NVIDIA sont-ils importants ?
Les LLM locaux sont importants pour la confidentialité, la rapidité et le contrôle des coûts. En s'exécutant sur l'appareil, ils empêchent l'envoi de données sensibles vers le cloud, réduisent la latence et éliminent les coûts de tokens basés sur API pour une utilisation fréquente.
Quelle est la signification du fait que Poetic dépasse la référence ARC-AGI ?
Le succès de Poetic montre que les avancées ne reposent pas uniquement sur des modèles plus grands, mais sur une architecture plus intelligente. En construisant une couche de raisonnement et d'auto-audit au-dessus des LLM existants, elle a obtenu des performances supérieures à moins de la moitié du coût, prouvant ainsi la puissance d'un échafaudage agentique.