TL;DR / Key Takeaways
L'arène de l'IA vient d'exploser.
Le Gemini 3 Pro de Google a à peine eu le temps de savourer son couronnement qu'un nouveau challenger faisait son apparition sur la scène. Après seulement quelques jours de domination du Gemini 3 Pro dans les fils Twitter sur l'IA et les graphiques de benchmarking, Anthropic a lancé Opus 4.5, forçant instantanément une réécriture du récit "qui est au sommet ?".
Le Gemini 3 Pro a établi une barre sévère. Il a impressionné les développeurs par ses performances de codage exceptionnelles, a produit des graphismes époustouflants grâce à Nanaban Pro, et a atteint un score de 76,2% sur SWE-Verified, l'un des benchmarks de codage les plus respectés. Pendant un bref moment, il semblait que Google avait verrouillé la couronne dans les domaines du raisonnement, de la compréhension multimodale et de la génération de code.
Opus 4.5 arrive présenté comme une mise à jour « modeste », mais à ce niveau, modeste semble monumental. Sur SWE-Verified, Opus 4.5 passe à 80,9 %, un écart considérable par rapport aux 76,2 % de Gemini 3 Pro sur une référence où chaque point de pourcentage est difficile à obtenir. Sur le benchmark d'utilisation des ordinateurs d'OS World, Opus 4.5 atteint 66,3 % contre les 62,9 % de Claude Sonnet 4.5, établissant un nouveau record pour les modèles récemment lancés en matière de gestion d'un environnement de bureau.
Les benchmarks ressemblent désormais plus à une feuille de score de boxe qu'à un simple tableau de classement. Opus 4.5 bat Gemini 3 Pro en codage terminal agentic et utilisation d'outils, tout en étant légèrement à la traîne sur certains examens "classiques" comme GPQA et MMU où Gemini et les dernières lignes de GPT d'OpenAI échangent encore des coups. Même sur des simulations à long terme comme "diriger une entreprise pendant 350 jours", telles que Vending Bench 2, Gemini 3 Pro maintient une légère avance—juste en dessous de 5 500 $ de bénéfice simulé contre un peu moins de 5 000 $ pour Opus 4.5.
Cet article traite d'Opus 4.5 et de Gemini 3 Pro en les comparant directement sur la programmation, le raisonnement, l'utilisation de l'ordinateur, le travail multimodal et l'efficacité des coûts afin de déterminer quel modèle représente réellement l'État de l'art fin 2025. Anthropic, Google et OpenAI itèrent si rapidement que le titre de « roi de la colline » ne dure pas plus longtemps qu'une keynote produit. Pour les utilisateurs, cette course à l'armement se traduit directement par des tokens moins chers, des agents plus intelligents, et des modèles capables non seulement d'écrire votre application, mais aussi de l'installer, de la tester et de faire fonctionner vos feuilles de calcul en silence pendant que vous dormez.
Un Nouveau Shérif dans le Monde du Code
Un nouveau tableau de classement a discrètement fait surface cette semaine sur SWE-verified, l'un des rares critères d'évaluation de programmation qui essaie réellement de mesurer l'ingénierie logicielle au lieu de simples énigmes. Opus 4.5 affiche un score de 80,9, dépassant le 76,2 de Gemini 3 Pro par un écart suffisamment important pour qu'il soit peu probable qu'il s'agisse d'un bruit statistique. SWE-verified vérifie non seulement si le code se compile, mais aussi s'il passe des suites de tests complètes sur de grands projets multi-fichiers, donc un écart de plus de quatre points indique une mise en œuvre de bout en bout plus fiable.
Les chiffres deviennent plus concrets avec le clone de Minecraft en une seule prise que montre maintenant Anthropic. Opus 4.5 a généré environ 3 500 lignes de code en un seul passage, intégrant la génération de mondes avec plusieurs biomes, l'artisanat de base et la boucle de jeu sans qu'un humain n'assemble des sorties partielles. La génération de code longue à cette échelle met à l'épreuve tout ce que les modèles font mal : garder les API en ordre, éviter les importations circulaires et maintenir des structures de données cohérentes à travers des centaines d'appels.
Anthropic a également testé Opus 4.5 sur un examen pratique interne notoirement rigoureux, ce genre de devoir de plusieurs heures que les entreprises utilisent pour filtrer les candidats seniors. Selon l'entreprise, Opus 4.5 a surpassé tous les humains ayant déjà passé ce test, non seulement en termes de justesse, mais aussi en matière de rapidité et de qualité architecturale. Ce résultat nécessitera une réplique externe, mais il est en accord avec ce que suggèrent les benchmarks de codage publics.
Là où les développeurs ressentiront le changement le plus fortement, c'est dans le Codage Terminal Agentique. Sur Terminal-Bench, qui mesure le travail autonome en ligne de commande, Opus 4.5 obtient un score de 59,3 contre 54,2 pour Gemini 3 Pro, un avantage considérable lorsque vous laissez une IA exécuter des commandes shell sur des systèmes réels. Le Codage Terminal Agentique signifie que le modèle planifie une séquence de commandes, les exécute, inspecte les erreurs et se remet en marche sans surveillance.
Pour les développeurs, cela se traduit par une automatisation plus sûre des tâches qui étaient auparavant manuelles : mettre en place et configurer des environnements de développement, exécuter et corriger des migrations, surveiller des journaux pour identifier des régressions, ou créer des tâches cron et des scripts CI. Associée à sa position de leader dans l'utilisation générale des ordinateurs, Opus 4.5 commence à ressembler moins à un auto-compléteur de code et plus à un ingénieur junior qui vit à l'intérieur de votre terminal.
La Bataille pour l'Intelligence Brute
Les benchmarks d'intelligence brute montrent une compétition plus serrée que les scores de codage ne le suggèrent. Sur ARC-AGI-2, Anthropic affirme qu'Opus 4.5 atteint environ 37-38% de précision, doublant largement certaines références antérieures et devançant Gemini 3 Pro d'environ 6 points de pourcentage avec des "budgets de réflexion" similaires. Ce résultat, mis en avant dans la propre Annonce Officielle de Claude Opus 4.5 d'Anthropic, se positionne désormais comme étant à la pointe de la technologie pour les modèles de pointe publiés lorsque l'on se concentre sur la découverte de motifs abstraits plutôt que sur le rappel de trivialités.
ARC-AGI-2 met l'accent sur le raisonnement compositionnel sur des énigmes étranges et synthétiques qui résistent à la mémorisation. Lorsque Anthropic augmente le contexte utilisé pour la réflexion interne de 0 à 64K token, la courbe d'intelligence d'Opus 4.5 grimpe plus rapidement que celle de ses concurrents, offrant des performances de premier plan sur les graphiques coût-contre-score. La variante Deep Think de Gemini, qui n'est pas encore publiée, affiche encore des scores bruts plus élevés, mais Opus 4.5 parvient à maximiser ses gains avec beaucoup moins de gaspillage de tokens et à un coût par tâche inférieur.
Les indicateurs de connaissances générales et de style d'examen racontent une histoire plus nuancée. Sur les suites GPQA et de style MMU « le dernier examen de l'humanité », Opus 4.5 ne se classe qu'un peu derrière Gemini 3 Pro et, sur certains sous-tests, GPT 5.1. Gemini continue de se montrer performant en matière de questions académiques en long format, de compréhension de lecture dense et de questions multimodales qui mêlent diagrammes, graphiques et textes.
L'utilisation de l'ordinateur est là où Opus 4.5 plante un drapeau clair. Sur le benchmark OS World, qui mesure le succès de bout en bout dans des tâches GUI réelles—installation d'applications, ajustement des paramètres, navigation dans les systèmes de fichiers—Opus 4.5 atteint un taux de réussite de 66,3 %. Ce résultat surpasse l'ancien champion, Claude Sonnet 4.5 à 62,9 %, et établit une nouvelle référence pour les modèles de pointe publiés qui pilotent réellement un bureau, et ne se contentent pas d'en parler.
Aucun laboratoire ne possède tous les classements. Opus 4.5 est en tête sur ARC-AGI-2, OS World, SWE-Verified, et plusieurs tests de terminal agentique et d’utilisation d’outils, tandis que Gemini 3 Pro ou les modèles GPT continuent de devancer sur certains examens, tâches multimodales, et benchmarks d'agents commerciaux. Pourtant, le constat est clair : le bond d'Opus 4.5 en raisonnement et en compétence d'utilisation informatique est plus important que n'importe quelle victoire isolée, car cela se traduit directement par des agents capables de penser plus longtemps, d'agir de manière plus fiable, et de rester concentrés sur des flux de travail réels chaotiques.
Gérer une entreprise pendant 350 jours
Vending Bench est discrètement devenu l'un des tests de stress les plus révélateurs pour l'IA moderne : un simulateur de commerce de distribution qui se déroule sur 300 à 350 jours de jeu et exige une planification à long terme, une stratégie d'inventaire et un sens financier de base. Au lieu de résoudre des énigmes statiques, les modèles doivent rechercher des produits, inférer la demande des clients, gérer les flux de trésorerie et maintenir la machine approvisionnée sans dériver vers des absurdités.
Sur Vending Bench 2, le Gemini 3 Pro conserve sa couronne. Il termine juste en dessous de 5 500 $ de profit, partant de 500 $ de capital de départ, après près d'un an d'opérations simulées. Cette marge est importante car chaque dollar sur ce benchmark provient de dizaines de petites décisions : quels en-cas acheter, combien restocker avec agressivité, quand se détourner des produits peu performants.
L'Opus 4.5 ne prend pas la première place ici, mais son saut est difficile à ignorer. Le modèle se termine autour de 4 967 $ de profit, soit presque 10 fois la croissance des 500 $ initiaux et un bond substantiel par rapport au résultat d'environ 3 800 $ de Claude Sonnet 4.5 sur le même test. En termes pratiques, le produit phare d'Anthropic se comporte désormais davantage comme un opérateur junior prudent que comme un stagiaire confus qui oublie ce qu'il faisait au jour 120.
Ces bancs d'essai à long terme exposent un axe de capacité différent des scores de QI principaux ou des classements de codage. Ils mesurent si un modèle peut rester concentré sur une tâche pendant des centaines d'étapes, maintenir une stratégie commerciale cohérente et éviter des erreurs catastrophiques, comme dépenser tout le capital sur une seule mauvaise commande. À mesure que les modèles évoluent, les chiffres du Vending Bench augmentent, suggérant que le nombre brut de paramètres et un meilleur entraînement se traduisent directement par une prise de décision plus stable et moins dérangée au fil du temps.
Alpha Arena pousse la même idée dans un domaine plus brutal : le trading crypto en direct. La saison 2 met en vedette Gemini 3 Pro et Claude Sonnet 4.5 parmi les concurrents, mais Opus 4.5 est conspicuément absent de la liste officielle. Un « modèle mystère » performant, actuellement en deuxième position juste derrière GPT 5.1, a déjà suscité des spéculations selon lesquelles Anthropic testerait discrètement l'appétit pour le risque d'Opus 4.5 avant de le faire figurer sur le classement.
L'essor de l'orchestrateur d'IA
L'essor de l'orchestrateur d'IA pourrait être la chose la plus importante qu'Anthropic a discrètement livrée avec Opus 4.5. Au lieu de traiter un seul modèle géant comme le cerveau ultime, Opus 4.5 se comporte de plus en plus comme un gestionnaire qui planifie, délègue et évalue le travail réalisé par des modèles plus petits et moins chers, tels que Haiku 4.5. Ce schéma se manifeste dans des tâches à long terme comme Vending Bench, où la cohérence soutenue sur 300 à 350 jours simulés est plus importante que n'importe quelle réponse individuelle.
Les configurations multi-agents surpassent désormais de manière constante les références à agent unique sur des charges de travail complexes de type recherche. Donnez à un instance Opus 4.5 un large mandat – explorer un domaine scientifique, cartographier les concurrents, rédiger une spécification de produit – et il peut faire appel à des sous-agents Haiku 4.5 pour extraire des documents, résumer des articles et tester des idées en parallèle. Les benchmarks qui stressent des flux de travail longs et lourds en outils, allant de Vending Bench 2 à des usages informatiques de type OS World, récompensent cette division du travail par des taux de réussite plus élevés et moins de déraillements.
La logique économique guide cette architecture autant que la capacité brute. Faire fonctionner Opus 4.5 pour chaque jeton de chaque sous-tâche gaspille une capacité coûteuse sur une summarisation standard et des transformations répétitives que Haiku 4.5 peut gérer pour une fraction du coût. Un modèle d'orchestrateur qui ne « réfléchit profondément » que lors de la planification, de la décomposition des problèmes ou de la résolution des conflits, et qui externalise par ailleurs l'exécution, s'adapte davantage à un gestionnaire humain coordonnant une équipe qu'à un seul contractant surqualifié faisant tout.
Ce modèle manager–équipe se généralise au-delà de la recherche. Dans le codage, un orchestrateur Opus 4.5 peut concevoir le système, définir des interfaces, puis générer des agents Haiku 4.5 pour mettre en œuvre des modules, rédiger des tests et exécuter des commandes d'outils de style Terminal-Bench, avant de procéder à l'intégration et à la révision finales. Pour le travail créatif, un modèle de haut niveau peut esquisser une campagne, tandis que des sous-agents élaborent des variantes de textes, storyboardent des visuels et adaptent le contenu aux plateformes.
L'analyse commerciale pourrait être celle qui évolue le plus. Un orchestrateur peut diriger un agent pour extraire des données web désordonnées dans des tableurs via Claude pour Chrome, un autre pour les nettoyer et les structurer dans Claude pour Excel, et un troisième pour exécuter des scénarios et vérifier la validité des conclusions. À mesure que ces schémas d'orchestration se solidifient, « utiliser l'IA » commence à ressembler moins à une conversation avec un seul modèle et davantage à l'embauche d'une entreprise virtuelle dirigée par un seul directeur très compétent.
Où le Gemini 3 Pro règne toujours en maître
Multimodal reste le terrain de jeu de Gemini 3 Pro. Alors qu'Opus 4.5 le dépasse en matière de code et de raisonnement abstrait, Gemini 3 Pro offre toujours des résultats plus clairs et plus fiables lorsque le texte, les images et la mise en page comptent tous en même temps, en particulier dans les flux de travail de production qui mélangent captures d'écran, graphiques et médias intégrés.
La génération graphique montre le fossé le plus marqué. Le Nanaband Pro de Google, intégré dans Gemini 3 Pro, produit des illustrations et maquettes d'interface « absolument incroyables » qui semblent plus proches d'un modèle d'image dédié que d'un ajout surdimensionné. En revanche, Opus 4.5 continue de se comporter comme un système orienté texte qui peut examiner des images plutôt que comme un véritable natif visuel.
La compréhension vidéo est un autre domaine où Gemini 3 Pro se démarque. Il peut suivre des objets et des personnes à travers des clips, suivre les changements de scène et répondre à des questions détaillées sur ce qui se passe à des moments spécifiques avec une meilleure constance qu'Opus. Pour les équipes qui résument des réunions, annotent des séquences de formation ou analysent des vidéos de recherche utilisateur, Gemini 3 Pro reste le choix le plus sûr.
Les flux de travail chargés en documents penchent dans le même sens. Donnez à Gemini 3 Pro un rapport annuel de 200 pages rempli de tableaux, graphiques et diagrammes denses, et il préserve généralement la structure, fait des renvois entre les chiffres et maintient le contexte visuel intact. Opus 4.5 peut analyser des PDF, mais Gemini 3 Pro fait généralement moins d’erreurs lorsque les chiffres se trouvent à l'intérieur de mises en page visuelles complexes.
La génération dynamique d'UI web pourrait être l'avantage le plus sous-estimé de Gemini 3 Pro. Il peut lire une spécification de design, générer du HTML/CSS/JS responsive et itérer sur la mise en page avec un designer en cours de route, en utilisant des captures d'écran comme langue commune. Associé à Nanaband Pro, il peut prototyper des flux entiers — pages d'atterrissage, tableaux de bord, sites marketing — sans quitter un seul fil de discussion.
Cette combinaison de forces fait de Gemini 3 Pro le choix par défaut pour : - Les professionnels créatifs créant des visuels, des storyboards et des maquettes interactives - Les analystes de données travaillant sur des présentations, des tableaux de bord BI et des PDF visuellement riches - Les développeurs livrant des applications web interactives et des outils internes qui reposent sur un design soigné
Quiconque évalue ces compromis devrait commencer par la matrice de capacités officielle dans la **Documentation Officielle de Google DeepMind Gemini**, puis ajouter les aspects coûts, latence, et déterminer quelle part de leur charge de travail est réellement axée sur l'aspect visuel par rapport à celle qui est principalement textuelle ou axée sur le code.
La question à un milliard de dollars : Coût contre QI
Appelez cela une courbe d'intelligence ou une courbe de prix, mais les modèles de pointe se situent désormais sur un graphique à deux axes : capacité brute et ce qu'Anthropic appelle un "budget de réflexion". Injectez plus de tokens dans le modèle - 8K, 16K, 32K, 64K de raisonnement délibéré - et la performance augmente, mais le coût s'élève de manière non linéaire. L'industrie ne s'optimise désormais plus seulement pour les scores maximaux, mais pour combien de QI vous obtenez par dollar à chacune de ces étapes.
Les propres graphiques d'Anthropic tracent cela sur un axe logarithmique de coût. Chaque déplacement vers la droite représente un grand bond dans les dépenses informatiques, pourtant la courbe "saumon" d'Opus 4.5 reste près du coin supérieur gauche de l'ARC-AGI2 : de hauts scores à un coût relativement faible par tâche. Le Gemini 3 Deep Think non publié de Google monte encore plus haut, mais à un point de coût beaucoup plus raide, tandis que le Gemini 3 Pro publié est derrière l'Opus 4.5 avec des budgets de réflexion comparables.
Cette position alimente une affirmation plus audacieuse du PDG d'Anthropic, Dario Amodei : des résultats comparables à ceux des laboratoires concurrents en utilisant environ un dixième des dépenses en capital. Si cela est exact, cet avantage se renforce : expériences moins coûteuses, davantage de cycles d'entraînement et itérations plus rapides sur des éléments tels que l'utilisation d'outils et le comportement agentique. Les scores de pointe d'Opus 4.5 dans ARC-AGI2 et OS World suggèrent que l'efficacité se manifeste non seulement dans les résultats financiers, mais aussi dans les benchmarks.
Pour les acheteurs, l'histoire coût-bénéfice se divise selon les tâches. Sur la base d'un raisonnement pur—la codification certifiée SWE (80,9 contre 76,2 pour Gemini 3 Pro), Terminal-Bench, ARC-AGI2, et les tâches d'agents à long terme comme Vending Bench—Opus 4.5 atteint souvent une qualité cible avec moins de tokens gaspillés que les modes de Deep Think de Gemini. Si vous vous souciez de l'économie d'unité sur des systèmes back-end complexes, des agents ou des opérations automatisées, Opus 4.5 génère probablement un coût effectif par tâche résolue inférieur.
Passez au multimodal et le calcul change. La gestion des images, des vidéos et des documents de Gemini 3 Pro, ainsi que la génération via des outils comme Nanaban Pro, peuvent compresser l'ensemble des flux de travail en un seul appel légèrement plus coûteux qui remplace plusieurs étapes uniquement textuelles. Pour tout ce qui est dominé par des entrées/sorties visuelles—maquettes d'interface, ressources marketing, présentations, compréhension vidéo—Gemini 3 Pro l'emporte souvent sur le coût par livrable, même si Opus 4.5 reste moins cher par unité de "pensée".
Votre bureau, maintenant suralimenté
Les benchmarks n'ont d'importance que s'ils se traduisent par des produits, et Anthropic ne perd pas de temps. En plus d'Opus 4.5, l'entreprise lance Claude pour Chrome et Claude pour Excel, deux fonctionnalités qui transforment efficacement les victoires en benchmarks en utilisation informatique et en planification à long terme en quelque chose que vous pouvez utiliser sur un ordinateur portable au travail.
Claude pour Chrome s'appuie directement sur le taux de réussite de 66,3 % d'Opus 4.5 sur le benchmark d'utilisation des ordinateurs OS World, désormais le meilleur parmi les modèles de pointe publiés. Au lieu de simplement résumer une page, Claude peut prendre le contrôle du navigateur : cliquer à travers des flux multi-étapes, remplir des formulaires, naviguer sur des tableaux de bord et extraire des données de sites mal structurés qui mélangent texte, images et mises en page inhabituelles.
Cela compte pour les types de tâches que des références comme Vending Bench tentent de simuler. Rechercher des produits, comparer des prix, suivre des stocks ou surveiller des concurrents à travers des dizaines d'onglets devient un travail délégué à un orchestrateur IA capable de rester cohérent sur des centaines d'étapes, et pas simplement à une fenêtre de discussion qui répond à des questions.
Claude pour Excel s'attaque à l'autre moitié de la corvée bureautique : les chiffres et la structure. Opus 4.5 peut ingérer de grandes feuilles de calcul désordonnées, expliquer ce que chaque feuille et formule fait, tracer les dépendances entre les classeurs et mettre en évidence des anomalies qui nécessiteraient normalement qu'un analyste humain se penche sur des tableaux croisés dynamiques pendant des heures.
Au-delà de l'explication, Anthropic cible clairement l'analyse et la planification. Claude pour Excel peut prendre des exports bruts, normaliser les colonnes, générer des champs calculés, créer des graphiques, puis synthétiser des tendances et des recommandations — exactement le type de flux de travail en plusieurs étapes et riche en outils où Opus 4.5 surpasse déjà Gemini 3 Pro dans l'utilisation d'outils agentiques et les tâches de style terminal.
Anthropic aligne également l'accès en fonction des enjeux les plus importants. Claude pour Chrome est déployé pour tous les utilisateurs de Max, tandis que Claude pour Excel s'étend en version bêta aux clients Max, team et entreprise, les groupes les plus susceptibles d'évoluer au sein des SaaS basés sur le navigateur et des modèles financiers complexes.
Pris ensemble, ces lancements montrent qu'Anthropic met en produit des forces spécifiques : utilisation de l'informatique de pointe, gestion des tableurs performante et gestion de tâches cohérente et de longue durée. Opus 4.5 ne se contente pas d'obtenir de meilleurs résultats lors de tests synthétiques ; il intègre discrètement ces compétences dans la pile logicielle quotidienne qui gère le travail moderne.
Le Seuil de l'Autonomie
L'autonomie a maintenant une définition opérationnelle dans les laboratoires : R&D4. Dans la taxonomie d'Anthropic, cela marque le point où une IA peut « automatiser entièrement le travail d'un chercheur débutant travaillant uniquement à distance » dans la revue de littérature, la conception d'expériences, l'analyse de base et les rédactions, avec seulement une supervision humaine légère. Ce n'est pas une « AGI » générique ; c'est le moment où une IA peut être intégrée dans un espace de travail Notion et un tableau Jira et simplement effectuer le travail.
Anthropic affirme explicitement qu'Opus 4.5 ne répond pas à cette exigence. Le modèle manque toujours d'un jugement situationnel large, en particulier lorsque les exigences évoluent en cours de projet ou lorsque les parties prenantes ne s'accordent pas. Il éprouve également des difficultés avec les aspects complexes du travail de recherche réel : résoudre des instructions ambiguës, contester de mauvaises idées et coordonner plusieurs personnes ayant des priorités conflictuelles.
La mise en garde enfouie dans le communiqué d'Anthropic est plus intéressante que le disclaimer. Avec « un échafaudage hautement efficace »—couches de planification, systèmes de mémoire, APIs d'outils et vérifications avec intervention humaine—Anthropic déclare que des modèles comme Opus 4.5 ne sont « pas très éloignés » de R&D4. En pratique, cela signifie des cadres d'orchestration qui décomposent le travail en sous-tâches, les dirigent vers des modèles moins coûteux comme Haiku 4.5, et maintiennent un agenda à long terme intact sur des centaines d'étapes.
Les développeurs sont déjà en train de le mettre en place. Des ensembles agentiques qui associent Opus 4.5 à la recherche vectorielle, à l'exécution de code et au contrôle du navigateur via des outils comme le Dépôt SDK Python d'Anthropic peuvent effectuer des boucles de recherche sur plusieurs jours : extraire des articles, résumer des méthodes, générer des expériences et mettre à jour un carnet de laboratoire de manière autonome. La contrainte n'est plus seulement le QI brut, mais la manière dont l'infrastructure encadre et audite cette intelligence.
Le projet Alpha Evolve de Google offre un aperçu de la direction que cela prend. Dans des rapports préliminaires, Google a encapsulé un ancien modèle, moins performant, dans une boucle évolutionnaire très serrée : génération automatique d'hypothèses, simulation, évaluation et sélection, et a néanmoins réussi à faire émerger de véritables résultats scientifiques novateurs. La percée ne provenait pas d'un seul cerveau géant, mais d'un système qui considérait le modèle comme un composant d'un pipeline autonome plus vaste.
Opus 4.5, avec un échafaudage plus robuste, semble suivre le même schéma orienté vers le travail de connaissance général. Une fois que l'on a franchi R&D4, le terme “chercheur débutant” cesse d'être une description de poste et devient une configuration de système.
Votre prochaine étape dans la course aux armements en IA
Les équipes d'IA sont désormais confrontées à une bifurcation claire : associer chaque modèle au travail qui génère ou économise réellement de l'argent. Des références telles que SWE-Verified (Opus 4.5 à 80,9 contre Gemini 3 Pro à 76,2) et Vending Bench 2 (Gemini 3 Pro légèrement en dessous de 5 500 $ contre Opus 4.5 juste en dessous de 5 000 $) se traduisent désormais directement par des choix de produits, des plans de personnel et des factures de cloud.
Choisissez Opus 4.5 pour : - Codage avancé : refontes à long terme, migrations de cadres et débogage multi-dépôts où les scores SWE-Verified et Terminal-Bench sont importants. - Orchestration agentique : un « orchestrateur » Opus déléguant à Claude Sonnet et Haiku 4.5 pour des sous-tâches moins coûteuses, en particulier dans des flux de travail informatiques de style OS World. - Raisonnement complexe : problèmes abstraits de niveau ARC-AGI-2, recherche sur plusieurs jours et automatisation de style « chercheur débutant » R&D4 où les jetons de réflexion dominent sur le volume brut de production.
Choisissez le Gemini 3 Pro pour : - Travail multimodal : PDFs denses, maquettes d'interface utilisateur et tableaux de bord visuellement complexes où sa compréhension d'images et de documents reste à la pointe. - Génération créative : campagnes marketing, story-boards et graphiques haute fidélité via des systèmes comme Nanaban Pro. - Média vidéo et dynamique : raisonnement temporel, analyse de scènes et projets mixtes texte-image-vidéo que l'Opus 4.5 ne peut pas encore égaler de bout en bout.
Stratégie pour les praticiens : se standardiser sur une architecture dual-stack. Utilisez Opus 4.5 comme base de raisonnement et de codage, en particulier pour les agents qui fonctionnent pendant des heures ou des jours, et dirigez tout ce qui est visuel, cinématographique ou axé sur la marque vers Gemini 3 Pro. Regroupez les deux derrière un routeur d'utilisation qui examine le type de tâche, la taille du contexte et le budget de latence, puis choisissez le modèle le moins coûteux qui respecte vos critères de qualité.
Des publications rapides et progressives d'Anthropic, de Google et d'autres ont effacé toute notion de monopole durable sur l'IA de pointe. Les courbes d'intelligence se mettent désormais à jour tous les 60 à 90 jours, et non plus sur une période de plusieurs années, et chaque nouveau modèle redéfinit les tâches pouvant être automatisées de manière rentable.
Dans six mois, attendez-vous à au moins un niveau d'autonomie supplémentaire : des agents qui non seulement gèrent vos flux de travail de « chercheur débutant », mais conçoivent, lancent et effectuent des tests A/B de produits sur le web, mobile et ensembles de données - pendant que vous remplacez discrètement le modèle du laboratoire qui se trouve au sommet de la courbe.